# Das Estrelas à Indústria: Uma Jornada pela Econometria

# 01 - Preparação para a Jornada

## Co-Pilto

![Daniel1](https://i.imgur.com/cU6XpGR.jpg)

**Daniel de Abreu Pereira Uhr**

**Formação:** graduação em economia (UFRGS), mestrado e doutorado em Economia (UnB). Realizou pós-doutorado em Economia (FEA/USP). Foi professor visitante na Alberta School of Business at the University of Alberta (Canadá).

**Atuação:** Professor Associado II (UFPel), Professor permanente PPGOM/UFPel, Coordenador do PPGOM (2022-), e Diretor do CeMAD.
Linhas de pesquisa: Energy Economics, Economia do Meio Ambiente, Análise Econômica do Direito, e Economia do Trabalho.


**E as características de nossos futuros pilotos? Quais as habilidades eles já possuem?** 


## Breve Mapa do Universo da Econometria

Para um entendimento geral do avanço temporal do universo econométrico, podemos dividi-la em três fases:

**Primeira Fase**: Origens e Desenvolvimento Inicial 
* Gregos, Egípcios, Árabes, e Galileu Galilei (1564-1642)
* Carl Friedrich Gauss (1777-1855)
* Francis Galton (1822-1911)
* Karl Pearson (1857-1936)
* Ronald Fisher (1890-1962)

**Segunda Fase**: Formalização e Estabelecimento Teórico
* Mínimos Quadrados Ordinários
* Teorema de Gauss-Markov
* Busca por estimadores eficientes
* Busca por estimadores para diferentes estruturas de dados
* Estratégias para tratar as fontes de viés

**Terceira Fase**: Avanços Computacionais e Econometria Avançada
* Inferência Causal
* Machine Learning para Inferência Causal


## Definição do Plano de Voo

* Apresentação do curso
* Revisão de Econometria Básica (Fase II)
* Modelagem Econométrica (Fase II) - Resposta Qualitativa
* Modelagem Econométrica (Fase II) - Variáveis Instrumentais
* Modelagem Econométrica (Fase II) - Dados em Painel
* Modelagem Econométrica (Fase II) - Dados em Painel - Extensões
* Identificação Causal (Fase III) - Contrafactuais e Inferência Causal
* Identificação Causal (Fase III) - Randomização e Experimentos
* Identificação Causal (Fase III) - Matching e Propensity Score
* Identificação Causal (Fase III) - Late - IV
* Identificação Causal (Fase III) - Diferenças em Diferenças
* Identificação Causal (Fase III) - Controle Sintético
* Identificação Causal (Fase III) - Diferenças em Diferenças Sintético

## Tecnologia Necessária Para Realizar a Jornada

**Livros de Referência**
* Hayashi, F. (2000). Econometrics. Princeton University Press.
* Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data. MIT press.
* Angrist, J. D., & Pischke, J. S. (2009). Mostly harmless econometrics: An empiricist’s companion. Princeton university press.
* Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics: methods and applications. Cambridge university press.
* Avaliação Econômica de Projetos e Programas Sociais. (2017). Itaú Social.
* Impact Evaluation in Practice. (2016). The World Bank.

**Livros Complementares**
* Cameron, A. C., & Trivedi, P. K. (2019). Microeconometrics Using Stata (Revised Edition). Stata Press.
* Imbens, G. W., & Rubin, D. B. (2015). Causal inference for statistics, social, and biomedical sciences: an introduction. Cambridge University Press.
* Angrist, J. D., & Pischke, J. S. (2014). Mastering ‘metrics: The path from cause to effect. Princeton University Press.
* Cunningham, S. W. (2021). Causal Inference: The Mixtape. Yale University Press.
* Morgan, S. L., & Winship, C. (2015). Counterfactuals and causal inference: Methods and principles for social research. Cambridge University Press.
* Pearl, J. (2009). Causality. Cambridge university press.
* Pearl, J., Glymour, M., & Jewell, N. P. (2016). Causal inference in statistics: A primer. John Wiley & Sons.


**Linguagem de Programação:** 

Vejamos como instalar e utilizar o Python

https://www.python.org/downloads/

https://code.visualstudio.com/download

https://github.com/features/copilot


## Primeira Fase: Origens e Desenvolvimento Inicial

As primeiras ideias do estimador de Mínimos Quadrados remontam aos gregos e egípcios (na Antiguidade) e aos árabes (na Idade Média). Mas foi Galileu Galilei (1564-1642) que trouxe a primeira ideia de um estimador de Mínimos Quadrados ao estimar a distância de uma nova estrela com relação à terra com base em dados de dois observatórios. Os dados dos observatórios mediam um ângulo diferente dependendo da época do ano. Ele obteve 74 observações sobre esse ângulo e minimizou os erros de observação para obter uma estimativa mais precisa da distância.

Entretanto, Andres Marie Legendre, matemático francês, foi quem primeiro publicou um artigo descrevendo o método de Mínimos Quadrados em 1805. Legendre utilizou o método para estimar a órbita de cometas. Andres foi contestado por Carl Friedrich Gauss, Matemático alemão, que disse já ter descoberto o método de mínimos quadrados em 1795, à semelhança de Galilei, para estimar a órbita de um asteroide. Gauss publicou o método em 1809, mas não foi reconhecido por Legendre.

O método de Mínimos Quadrados, inicialmente, era adequado para estimação momentos em torno do zero de uma distribuição. Supondo que possuímos uma amostra aleatória $X_{1}, X_{2}, ..., X_{n}$ podemos calcular o "erro" de cada observação com base no desvio com relação ao parâmetro verdadeiro. 

$$
erro_{i} = X_{i} - \mu
$$

A ideia inicial do estimador seria encontrar o valor de $\mu$ que minimiza a soma dos erros ($\sum_{i}^{n} erro_{i}$). Como podemos ter erros positivos e negativos, elevamos ao quadrado (penalizando maiores desvios da média). O estimador para $\mu$ é o valor do parâmetro que torna a soma dos erros quadrados mínima.

$$
\mu^{MQ} = argmin \sum_{i}^{n} (X_{i} - \mu)^{2}
$$

Francis Galton (1822-1911) foi o primeiro a utilizar o método para estimar a relação entre duas variáveis. 

![Captura de tela 2023-08-14 145030](https://i.imgur.com/BTRdrOB.png)

Galton utilizou o método para estimar a relação entre a altura dos pais e dos filhos (Regressão para a Mediocridade em Estatura Hereditária). Ele utilizou o método de Mínimos Quadrados para estimar a reta que melhor se ajustava aos dados. 

![Captura de tela 2023-08-14 162251](https://i.imgur.com/6xapNZk.png)

A Figura é uma “ilustração gráfica de regressão do Galton"; os círculos dão as alturas médias dos grupos de crianças cujas alturas das médias parentais podem ser lidas da linha AB. A diferença entre a linha CD (desenhada a olho para aproximar os círculos) e AB representa a regressão em direção à mediocridade”.

Galton observou que características extremas (por exemplo, altura) nos pais não são transmitidas completamente à sua prole. Em vez disso, as características da prole progridem para um ponto medíocre (um ponto que desde então foi identificado como a média). O termo "regressão" descreve que a prole dos pais que se encontram nas caudas da distribuição tenderá a se aproximar do centro, a média, da distribuição.


In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Alturas fictícias dos pais e dos filhos (em polegadas)
alturas_pais = np.array([72.3, 71.2, 70.2, 69.3, 68.3, 67.3, 66.2, 65.5, 64.5])
alturas_filhos = np.array([72, 69.7, 69.5, 69, 68.1, 67.2, 67.1, 66.5, 65.8])

# Realizar regressão linear usando o NumPy
coeficientes = np.polyfit(alturas_pais, alturas_filhos, 1)
funcao_regressao = np.poly1d(coeficientes)

# Plotar os dados e a linha de regressão
plt.scatter(alturas_pais, alturas_filhos, label='Dados')
plt.plot(alturas_pais, funcao_regressao(alturas_pais), color='red', label='Regressão Linear')
plt.xlabel('Altura dos Pais (polegadas)')
plt.ylabel('Altura dos Filhos (polegadas)')
plt.title('Regressão Linear de Altura dos Filhos vs. Altura dos Pais (Exemplo de Galton)')
plt.legend()
plt.grid(True)
plt.show()

# Coeficientes da regressão linear
print("Coeficiente angular (inclinação):", coeficientes[0])
print("Coeficiente linear (intercepto):", coeficientes[1])




**Karl Pearson** foi aluno, colaborador e sucessor de Galton em muitos aspectos. Em 1901, junto com Weldon e Francis Galton fundou a **revista Biometrika** cujo objeto era o desenvolvimento da teoria estatística. Suas contribuições são o desenvolvimento da regressão linear e da correlação. Classificou distribuições de probabilidade e desenvolveu o **teste do qui-quadrado**. Foi o primeiro a **usar o termo "correlação" e também o primeiro a usar o termo "regressão"**. Ele também foi o primeiro a usar o termo "distribuição normal".

**Ronald A. Fisher** (1890-1962) foi um estatístico e geneticista britânico, muitas vezes considerado um dos fundadores da estatística moderna e da genética estatística. Fisher estudou matemática na Universidade de Cambridge e teve a oportunidade de interagir com muitos acadêmicos renomados. Alguns dos principais influenciadores e colaboradores de Fisher incluem:Karl Pearson, Egon Pearson (filho de Karl Pearson), William Gosset (conhecido como "Student"), Jerzy Neyman (rivais), Frank Yates (aplicações agrícolas), Leonard Darwin (filho de Charles Darwin), e muitos outros. Fisher é conhecido por suas contribuições à estatística, a análise de variância (ANOVA), distribuição de Fisher (teste F), entre outros.

Nesse momento a **"Regressão linear"** estava amplamente conhecida e com seus fundamentos estatísticos definidos. Em termos gerais, a **regressão linear** é uma técnica estatística que envolve encontrar a melhor linha reta que se ajusta aos dados em um gráfico. Essa linha reta é usada para modelar a relação entre uma variável independente (ou preditora) e uma variável dependente (ou resposta). A regressão linear pode ser simples, quando envolve apenas uma variável independente, ou múltipla, quando envolve várias variáveis independentes. O objetivo da regressão linear é encontrar os coeficientes da equação da linha (ou hiperplano, no caso da regressão múltipla) de modo que a soma dos quadrados dos resíduos (diferenças entre os valores observados e os valores previstos pela linha) seja minimizada. A regressão linear é amplamente usada para modelar relações entre variáveis e fazer previsões com base nos dados.

Já o método algébrico mais conhecido para resolução da regressão linear é o de Mínimos Quadrados Ordinários, aquele proposto por Legendre em 1805. Entretanto, convém lembrar que havia a afirmação de que Gauss já possuia a formulação dos Mínimos Quadrados Ordinários desde 1795, e ainda conseguiu conectar o MQO aos princípios da probabilidade e a distribuição normal. Gauss, conseguiu completar os estudos de Laplace e especificar uma forma matemática da densidade de probabilidade para as observações, dependendo de um número finito de parâmetros desconhecidos.

Assim, para não confundirmos, a principal diferença entre MQO e regressão linear é que MQO é um método usado para encontrar os coeficientes da regressão linear. Em outras palavras, MQO é a abordagem matemática utilizada para calcular os coeficientes que definem a linha de regressão. A regressão linear, por outro lado, é o conceito mais amplo que se refere à modelagem da relação entre variáveis usando uma linha (ou hiperplano) de melhor ajuste.

### Leitura para a Próxima Aula:

Capítulo 1 do livro **Econometrics** de Fumio Hayashi (2000).
