×

Regressão linear simples e múltipla: Quando usar, como fazer no Excel e como analisar

Autor:

Sobre: Economista pela Universidade Federal de Viçosa e mestrando em economia com ênfase em desenvolvimento.

Postagens: 17

A estimação e análise de uma regressão linear tem sido o ponto de partida de diversas investigações empíricas no universo das pesquisas, sejam elas conduzidas no meio acadêmico ou no mundo corporativo. A popularidade de tal método se dá em virtude de sua capacidade de quantificar a relação entre uma variável, nomeada como dependente, e um grupo de variáveis preditoras.

O que é uma regressão linear?

Uma regressão linear possui dois tipos de variáveis. Onde uma variável dependente é expressa como função linear de uma ou mais variáveis, denominadas variáveis explanatórias e um termo de erro aleatório. Dito isto, precisamos diferenciar entre regressão linear populacional e amostral.

Uma regressão linear populacional é estimada usando como base, toda a população. Por exemplo, supondo um estudo que relacione o nível de renda e a escolaridade do brasileiro, tratando-se de uma regressão populacional, o estudo levaria em conta todos os 200 milhões de habitantes do país.

No entanto, adquirir tais informações é muitas vezes impraticável, principalmente do ponto de vista financeiro. Por isso trabalhamos com amostras representativas. Se você ainda não leu a respeito de pesquisas amostrais, vale a pena conferir aqui.

Levando em consideração a quantidade de variáveis explanatórias, a nossa regressão pode ser nomeada de duas formas.

Regressão linear simples

Não se deixe levar pelo nome e não subestime uma regressão linear simples. A unica razão para classificarmos uma regressão como simples é a quantidade de variáveis explanatórias que compõem o modelo. Assim, quando temos e apenas uma variável explanatória a regressão estimada é uma regressão simples

Lembre-se que a regressão linear ‘simples’ não significa ‘fácil’; significa apenas que existe uma única variável explicativa.

S. Christian Albright e Wayne L. Winston
Regressão linear simples

Regressão linear múltipla

No mundo real, longe das funções matemáticas e relações estatísticas, tudo está relacionado. Portanto, é de se esperar que exista relacionamento de uma variável dependente com mais de uma variável explanatória. E, de fato, regressões com mais de uma variável explanatória são muito mais comuns. Nesse caso, quando a regressão estimada é composta por um conjuntos de duas ou mais variáveis explanatórias, temos em mãos um modelo de regressão linear múltipla

Regressão é o mesmo que correlação?

Não, regressão e correlação não são a mesma coisa. São métodos estatísticos bastante relacionados. Mas, a interpretação deles é distinta. Na análise de correlação linear, lembrando que existem métodos de correlação não linear, o objetivo é medir a força ou o grau de associação linear entre duas variáveis. Em vez disso, com a regressão linear, buscamos estimar ou prever o valor médio de uma variável com base nos valores fixos de outras variáveis.

Por exemplo, ao utilizar a análise de correlação podemos estar interessados em avaliar a relação entre o gasto per capta nos serviços de saúde e a percepção que os eleitores possuem da qualidade de tal serviço. Por meio da regressão linear, por outro lado, talvez nosso desejo seja projetar o nível de satisdo serviço conhecendo o montante investido.

Porque usar uma regressão linear

Nós podemos não ter muitas informações sobre você, leitor do nosso blog, mas se nos disser a sua idade, podemos dizer se você é mais propenso, ou não, a desejar uma renovação na política do nosso país. Empresas utilizam a regressão linear para tomar decisões e definirem melhor suas estratégias.

Tome como base uma grande empresa do setor de alimentos que vem se deparando com o desafio de aumentar suas vendas. Uma das medidas possíveis é o investimento em marketing. Por meio da regressão é possível avaliar o quanto cada real investido em marketing é convertido em faturamento.

Assim, caso seja um valor satisfatório, o investimento segue para outas análises. Mas caso não seja interessante, essa possibilidade é descartada no início das avaliações reduzindo riscos e permitindo a equipe se concentrar nas melhores medidas.  

Portanto, usar uma regressão linear concede ao usuário um grande poder para realizar projeções confiáveis e robustas. Empresas conseguem otimizar seus processos, e, assim, reduzir custos e serem mais eficientes. Ou seja, o processo de tomada de decisões em qualquer esfera, pública ou privada, quando abarcado por este método, se torna mais seguro.

Regressão vs. causação

A análise de regressão lida com a dependência de uma variável em relação a outras. Isso, se você chegou até aqui já, está bem internalizado. No entanto, é de igual importância que esteja claro que por mais forte e sugestiva que seja uma relação estatística, esta nunca pode ser usada para estabelecer uma conexão causal.

As relações causais devem ser atribuídas antes da estimação do modelo, assim como precisam de embasamento técnico e teórico. Um exemplo prático: Sabe-se que o nível de chuvas está relacionado com o rendimento das lavouras, e em conjunto com diversos fatores, um nível ótimo de chuva leva a melhores resultados. No entanto, embora apresente uma relação estatística, não existe argumento logico científico que seja capaz de levar a crer que o rendimento das lavouras cause algum impacto sobre o nível pluviométrico.

Fonte: Freepik.com

Natureza dos dados e limitações de uso

Uma regressão linear deve ser usada basicamente quando se deseja realizar projeções e estudar a relação entre duas variáveis. No entanto, muitas vezes dada a natureza dos dados, não podemos estimar um modelo de regressão linear.

Antes de tudo precisamos ter em mente como se caracterizam nossos dados, as variáveis podem ser classificadas da seguinte forma:

Variáveis Quantitativas: Podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numéricos que fazem sentido. Podem ser classificadas como contínuas ou discretas.

  • Variáveis discretas: características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros. Geralmente são o resultado de contagens. Exemplos: número de filhos, número de bactérias por litro de leite, número de cigarros fumados por dia.
  • Variáveis contínuas: características mensuráveis que assumem valores em uma escala contínua (na reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas através de algum instrumento. Exemplos: peso (balança), altura (régua), tempo (relógio), pressão arterial, idade.

Variáveis Qualitativas (ou categóricas):  São definidas por várias categorias, e, portanto, representam uma classificação dos indivíduos. Podem ser nominais ou apresentar ordenamento.

  • Variáveis nominais: não existe ordenação dentre as categorias. Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio.
  • Variáveis ordinais: existe uma ordenação entre as categorias. Exemplos: escolaridade (1º, 2º, 3º graus), avaliação de um candidato (ótimo, bom, regular, ruim ou péssimo), mês de observação (janeiro, fevereiro…, dezembro).

Portanto, para que seja possível estimar uma regressão com menos chance de realizar inferências equivocadas, a variável dependente deve ser contínua. Para varáveis categóricas nominais e ordinais, a regressão logística e o modelo Probit se ajustam de forma melhor. Mas esses são assuntos para uma outra conversa que teremos em breve.

Fonte: Freepik.com

Como estimar e interpretar uma regressão linear

Nesta etapa o computador é o nosso melhor amigo. Existem softwares pagos como o Stata, SPSS, SAS que são específicos para análises estatísticas. Bem como linguagens de programação que contam com o apoio de uma ampla comunidade e pacotes para análise de dados, como R e Python. No entanto, embora não conte com algumas ferramentas que esses softwares possuem, é possível estimar uma regressão pelo Excel.

Elementos da regressão

Uma regressão linear simples apresenta a seguinte forma funcional:

Y = a +bX + u

Quando estimamos uma regressão linear estamos interessados em estimar o valor dos parâmetros a e b. Adicionalmente, a toda regressão existe um termo de erro a ela relacionado, representado, aqui, pela letra u. Daremos atenção ao termo de erro em breve.

Associados a regressão temos algumas medidas estatísticas que merecem destaque. Todo modelo possui uma capacidade de explicação do fenômeno ao qual se propõe a explicar, o nome desta medida é coeficiente de determinação. Também conhecido como R² (R-quadrado ou simplesmente R-dois), esse indicador varia entre 0 e 1 e é expresso em valores percentuais.

Outra medida importante é p-valor associado aos parâmetros. Essa medida nos diz se as variáveis independetes que compõem o modelo realmente apresentam uma relação estatística como a variável dependente. Geralmente, considera-se que uma variável não é estatísticamente significatva quando o p-valor associado a seu parâmetro estimado é maior que 0,1, ou 10%. No entanto existem pesquisadores que são mais rigoros.

A natureza do termo de erro

O termo de erro pode representar todas as variáveis omitidas no modelo, mas que coletivamente, de certa forma, afetam “Y”. Então, neste exato momento, você leitor, talvez esteja se perguntando por que não inserir o máximo de variáveis possíveis. Já adianto, ainda que todas as variáveis do universo sejam incluídas na análise, um termo aleatório de erro ainda estaria presente. Caso contrário economistas seriam excelentes videntes!

Isso acontece porque o comportamento humano é inevitavelmente aleatório! Portanto, por mais que nos esforcemos e consigamos incluir todas as variáveis que a teoria versa a respeito de determinado assunto e não exista indisponibilidade de dados, sempre haverá uma aleatória intrínseca ao comportamento humano que é captada pelo termo erro.

Portanto, tenha em mente que uma regressão representa uma tendencia. Tendência esta que nem sempre se confirma. Na prática, quando esta tendencia não se confirma, os desvios em torno da média são captados pelo termo de erro aleatório.

Validação da regressão

Até aqui, você viu o poder de aplicação da regressão linear e como a sua aplicação pode facilitar a vida do usuário. No entanto, “com grandes poderes vem grandes responsabilidades. A responsabilidade do usuário neste caso, é garantir a validade do modelo.

Portanto, para que a regressão linear possa ser interpretada corretamente, é preciso que o usuário do modelo verifique se o termo de erro tem média zero; distribuição normal; independência e variância constante. Somente garantindo tais propriedades podemos passar para a próxima etapa, finalmente chegamos na parte de interpretação.

Interpretação da regressão

Considere a seguinte regressão linear, onde Y é o consumo das famílias e X a sua renda disponível. Ressaltamos que os valores aqui apresentados são apenas para fins didáticos, estamos considerandos que ambos parâmetros foram estatisticamente significativos e o termo de erro possui todas propriedades expostas anteriomente.

Y =  212,50 + 0,83X + u

R² = 0,92

No nosso exemplo prático, o primeiro parâmetro é 212,25, também conhecido como o intercepto, representa uma estimativa média de Y, quando a viável X (que no nosso caso se refere a renda) assume valor zero. O segundo parâmetro é 0,83 e representa o valor adicionado a Y para cada unidade adicionada de X, mantendo tudo mais constante.

Ou seja, de acordo com nossa regressão sabemos que o consumo médio do brasileiro para determinado ano é R$ 212,50 e para cada real aumentado em sua renda, seu consumo se eleva em R$ 0,83 centavos. Além disto, como podemos observar nosso modelo tem um r² de 0,92. Em outras palavras quer dizer que o modelo estimado possui um poder de explicação de 92%.

Como fazer regressão linear no Excel

O Excel é uma ferramenta poderosíssima a qual a maioria de nossos leitores possuem acesso. Desta forma, aparentamos aqui um exemplo prático de estimação de uma regressão.

Primeiro passo: Selecione a aba dados no Excel e clique em “Análise de Dados”. No menu que aparecer selecione regressão.

Segundo Passo: Selecione a coluna referente a variável dependente e em seguida selecione as colunas que armazenam os dados das variáveis explanatórias. É possível padronizar a saída dos resultados. Como devemos fazer alguns testes com os termos de erro (resíduos) é interessante selecionar a opção para sua plotagem.

Terceiro Passo: Finalmente a análise dos resultados. O Excel, exibe na saída de resultados o p-valor, resultados do teste F como pode ser notado na figura abaixo, o coeficiente de determinação e outras informações importantes.

Conclusão

Lembre-se que uma regressão linear não exprime a causalidade entre as variáveis. É necessário sempre observar a relação dos números com o mundo real.

Já mencionamos anteriormente que que uma regressão linear está sujeita a um risco de erro, tanto que temos um termo de erro que reflete os desvios em torno da média condicional estimada.

O mundo real é muito mais complexo e nem todas as variáveis podem ser colocadas umas em função das outras. Portanto, a regressão linear é uma ferramenta de suporte e direcionamento, não um gênio da lâmpada que garante três desejos.

Gostou do nosso conteúdo?

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *