sábado, 10 de maio de 2008

Regressão linear simples: Método dos Mínimos Quadrados

Considere-se a tabela seguinte, que apresenta o bónus recebido pelos funcionários de uma dada empresa, expresso em euros (variável y), e o respectivo tempo de serviço, em meses (variável x).



O gráfico de dispersão, bem como o cálculo do coeficiente de correlação de Pearson, r, evidenciam forte correlação positiva.



O Excel permite adicionar rectas de tendência em modo gráfico, mas esse procedimento não é recomendado, visto que corresponde a desenhar as rectas “a olho”.

A forma mais comum de calcular as rectas de regressão é através do Método dos Mínimos Quadrados.





Representando a recta de regressão pela fórmula:

y = a + bx

em que y é a variável dependente,
x é a variável independente,
a é uma constante que indica a distância da intercepção do eixo dos yy,
b é uma constante que indica o declive da recta.

Evidentemente que os valores de a e b podem calcular-se no Excel, usando-o como um caderno quadriculado apenas um pouco mais sofisticado. Como é suposto o acompanhamento do blogue pelos manuais, apenas se indicam abaixo as fórmulas de cálculo de a e de b:



Para calcular a e b por este processo é preferível utilizar as fórmulas computacionais, que são equivalentes às anteriores, mas mais simples:



Seguindo este processo será necessário realizar os seguintes cálculos adicionais:




E então será fácil chegar aos valores da recta de regressão:



Outra alternativa é utilizar as funções da biblioteca do Excel.

O a calcula-se com a função INTERCEPTAR.

O b calcula-se através da função DECLIVE.

A previsão pode fazer-se por substituição directa de valores na função y = 80.77773 + 1.138005 x ou utilizando a função PREVISÃO. Para um funcionário com 45 meses de serviço, ambos os processos estimam um bónus de 131.988 €.

A qualidade da regressão é indicada pelo Coeficiente de Determinação:

O Coeficiente de Determinação varia entre 0 (zero) e 1 (um). Quanto mais próximo da unidade estiver o Coeficiente de Determinação, tanto maior será a validade da regressão (no seu conjunto).

Também se pode apreciar a validade da cada um coeficientes a e b isoladamente. Em princípio, os coeficientes serão tanto mais fiáveis quanto menores forem os seus desvios padrão.

O output do SPSS oferece-nos as estatísticas referidas depois de introduzir os dados (NOTA: Funciona o copy/paste a partir do Excel) e dos seguintes comandos:

Analyze / Regression / Linear

Os valores referidos ao longo do post estão sublinhados a vermelho.


O SPSS também constrói o gráfico de dispersão, da distribuição. Para obter a imagem abaixo foram seguidos os seguintes passos: Graphs / Interactive / Scatterplot...





1. Retome os valores do exercício apresentado, admitindo que todos os trabalhadores têm menos um ano de serviço, mas que o bónus mensal se mantém.
1.1. Recalcule o valor de a e de b utilizando:
a) o Excel como um caderno sofisticado;
b) as funções da biblioteca do Excel.
1.2. Estime o bónus mensal para um trabalhador com 60 meses de serviço:
a) por substituição na função y = a + bx;
b) recorrendo às funções da biblioteca do Excel.
1.3. Construa um gráfico de dispersão com os novos dados. Compare o gráfico obtido com o apresentado no post.
1.4. Recalcule o coeficiente de correlação. Compare o valor obtido com o anterior.
1.5. Compare os valores de a e de b obtidos no exercício com os apresentados no post.

2. Recorrendo ao SPSS, indique:
a) a;
b) o desvio-padrão associado a a;
c) b;
d) o desvio-padrão associado a b;
e) o coeficiente de determinação.

Nota: Analyze / Regression / Linear

3. Construa o gráfico de dispersão da distribuição no SPSS.

Nota: Graphs / Interactive / Scatterplot...