A qualidade das análises PCA dependem da quantidade de votações analisadas?

Em nossa lista de discussão sobre o Radar Parlamentar, recentemente surgiu o questionamento seguinte: "Sabemos que quanto mais votações analisadas em um período, maior será a qualidade da análise para aquele período. No entanto, existe algum mínimo de votações para determinar uma qualidade mínima? isso depende do número de partidos ou de parlamentares no nosso caso?", e também "De fato, acho que temos que estabelecer um parâmetro mínimo de qualidade dessa informação. E faz sentido que seja relacionado ao número de parlamentares e também ao número de partidos. Mas... como fazer?". Este artigo busca esclarecer alguns pontos relacionados à "qualidade" das análises.

O Número de Votações tem Influência?

Na verdade, quanto MENOS votações mais exata será a representação bidimensional oriunda da PCA para um dado período. Por exemplo, se houver apenas 1 votação, a análise não vai fazer nada com os dados, havendo apenas um eixo "principal" (só havia um eixo desde o começo). Os partidos irão se distribuir ao longo desta linha conforme votaram, aqueles cujos representantes todos votaram sim estarão (por exemplo) do lado direito, os que tiveram todos votando não estarão no lado esquerdo, e os que tiveram mais abstenções e/ou que tiveram alguns votos sim e outros não, estarão distribuídos em posições intermediárias. Essa representação gráfica reflete exatamente a situação real do período estudado.

Se houver duas votações os partidos se distribuirão no espaço bidimensional e a representação também será exata. A única coisa que a PCA vai fazer é um isomorfismo R2-->R2 de forma a ter um eixo que concentra o máximo de dispersão (variância) entre os partidos, e o resto fica no segundo eixo. 
 
Nestes casos uni e bidimensional, a PCA não tem tanto interesse, seria mais simples e informativo plotar uma votação em um eixo e outra no outro.

A PCA tem interesse justamente conforme a representação em 2 dimensões se torna menos exata, ou seja, se houver 50 votações a PCA dá o poder de representá-las visualmente com o mínimo de perda de informação possível. Mas haverá perda de informação. Quanto? Para saber, basta olhar a porcentagem explicada pelas duas primeiras componentes principais (autovalores). Trata-se de informação que também vamos querer apresentar para o usuário final nas próximas melhorias, passando-a pelo json e tudo. O algoritmo em si já calcula os autovalores.

Quanto Mais Parlamentares, Melhor?

Quanto ao número de parlamentares, se um partido tiver apenas um parlamentar, e se considerarmos que o voto daquele parlamentar representa o voto de seu partido, então mesmo tendo só um parlamentar a análise será tão exata quanto poderíamos desejar... Agora, se o partido tem 10 parlamentares e 9 faltaram, então a análise está implicitamente supondo, se não me engano, que o voto dos demais parlamentares teria sido branco (valor 0), então se o voto do que votou foi sim o partido terá coordenada +1/10 = 0,1 nesta votação. Isso pode não refletir a real ideologia do partido. Mas sem dados em casos como estes é difícil decidir o que fazer.

Quanto Mais Partidos, Melhor?

Agora quanto ao número de partidos, se houver até 3 a representação em 2 dimensões sempre será exata (as duas primeiras componentes principais explicarão juntas 100% da variância), e há teoricamente uma tendência de essa porcentagem ser menor conforme o número de partidos aumenta. Mas essa hipótese teórica precisaria ser confirmada com os dados, pois isso vai depender muito da distribuição dos dados, especialmente da correlação entre as dimensões.

A Melhor Medida da Qualidade da Análise

Resumindo, a melhor medida é verificar a porcentagem da variância explicada pelo conjunto das duas primeiras componentes principais. Este dado deveria ser apresentado juntamente com cada gráfico. Para se ter uma idéia, nas votações da câmara dos deputados de 2011 a primeira componente explicou ~73% da variância e a segunda ~10%, com um total de ~83%. Eu considero bem razoável. Se quisermos podemos estabelecer um critério mínimo para esta porcentagem, mas será um critério arbitrário.

Português, Brasil

Não há comentários.

Comentar