quarta-feira, 2 de abril de 2008

Coeficiente de Correlação de Pearson - r

Quando tomamos as variáveis duas a duas podemos verificar o que sucede a uma variável, x, quando outra variável, y, varia. São então possíveis três situações particularmente interessantes:
a) Quando a variável x toma valores maiores (menores) a variável y também toma valores maiores (menores);


b) Quando a variável x toma valores maiores (menores) a variável y toma valores menores(maiores); ou


c) A variável x toma valores maiores (menores) independentemente dos que a variável y apresenta.



No primeiro caso diremos que as variáveis estão positivamente (ou directamente) correlacionadas. No limite, isto é, se a correlação for "perfeita" - como é o caso se considerarmos a correlação da variável x consigo própria - o coeficiente de correlação será igual a 1.
No segundo caso diremos que as variáveis estão negativamente (ou inversamente) correlacionadas. No limite, isto é, se a correlação for "perfeita" o coeficiente de correlação será igual a -1.
No terceiro caso diremos que as variáveis não estão correlacionadas. No limite, isto é, em caso de "absoluta independência" o coeficiente de correlação será igual a 0.
Na prática os valores acima indicados nunca se encontram, mas são estes que deverão tomar-se como referência na interpretação dos parâmetros obtidos.

Carla Santos propõe a seguinte classificação da correlação linear:


No Excel o coeficiente de correlação calcula-se facilmente com recurso à função CORREL. Apresentam-se abaixo os gráficos de dispersão para os coeficientes de correlação entre as classificações internas de frequência (CIF) e as classificações de exame (CE) em Biologia (r=0,82) e em Psicologia (r=0,35).





Observação 1: Não se verificar correlação linear, não significa que não se verifique outro tipo de correlação, por exemplo, exponencial.

Observação 2: Qualquer que seja a correlação verificada, correlação não significa causalidade.



NOTA IMPORTANTE: Antes de iniciar o exercício abaixo proposto, construa uma nova base de dados composta apenas pelas primeiros 100 ID's de cada disciplina.

0. Indique uma justificação para a redução da base de dados acima solicitada.

1. Calcule o coeficiente de correlação para cada uma das disciplinas:
435 – Matemática
102 – Biologia
142 – Química

139 – Português B
140 – Psicologia
128 - IDES

2. Construa o gráfico de dispersão para cada uma das disciplinas.

3. Verifique que a disciplina de Biologia é aquela que evidencia maior correlação. Simultâneamente estes professores seriam os primeiros a ser "crucificados" pela diferença CIF-CE! Tente explicar esta aparente contradição.

No post deverá colocar todos os gráficos, e um Quadro Síntese semelhante ao que se apresenta abaixo.