Em nossa lista de discussão sobre o Radar Parlamentar, recentemente surgiu o questionamento seguinte: "Sabemos que quanto mais votações analisadas em um período, maior será a qualidade da análise para aquele período. No entanto, existe algum mínimo de votações para determinar uma qualidade mínima? isso depende do número de partidos ou de parlamentares no nosso caso?", e também "De fato, acho que temos que estabelecer um parâmetro mínimo de qualidade dessa informação. E faz sentido que seja relacionado ao número de parlamentares e também ao número de partidos. Mas... como fazer?". Este artigo busca esclarecer alguns pontos relacionados à "qualidade" das análises.
Na verdade, quanto MENOS votações mais exata será a representação bidimensional oriunda da PCA para um dado período. Por exemplo, se houver apenas 1 votação, a análise não vai fazer nada com os dados, havendo apenas um eixo "principal" (só havia um eixo desde o começo). Os partidos irão se distribuir ao longo desta linha conforme votaram, aqueles cujos representantes todos votaram sim estarão (por exemplo) do lado direito, os que tiveram todos votando não estarão no lado esquerdo, e os que tiveram mais abstenções e/ou que tiveram alguns votos sim e outros não, estarão distribuídos em posições intermediárias. Essa representação gráfica reflete exatamente a situação real do período estudado.
A PCA tem interesse justamente conforme a representação em 2 dimensões se torna menos exata, ou seja, se houver 50 votações a PCA dá o poder de representá-las visualmente com o mínimo de perda de informação possível. Mas haverá perda de informação. Quanto? Para saber, basta olhar a porcentagem explicada pelas duas primeiras componentes principais (autovalores). Trata-se de informação que também vamos querer apresentar para o usuário final nas próximas melhorias, passando-a pelo json e tudo. O algoritmo em si já calcula os autovalores.
Resumindo, a melhor medida é verificar a porcentagem da variância explicada pelo conjunto das duas primeiras componentes principais. Este dado deveria ser apresentado juntamente com cada gráfico. Para se ter uma idéia, nas votações da câmara dos deputados de 2011 a primeira componente explicou ~73% da variância e a segunda ~10%, com um total de ~83%. Eu considero bem razoável. Se quisermos podemos estabelecer um critério mínimo para esta porcentagem, mas será um critério arbitrário.
Não há comentários.
Comentar