# **Introdução ao R**

#### Por que usar o R como linguagem de programação?

* R é free e uma linguagem de programação estatística;
* R é uma linguagem muito utilizada em econometria, Data Science, Machine Learning e estística (combinando elementos de outras linguagens como Stata/Julia);
* Amplamente utilizado na academia e na indústria.
* Extensa comunidade.

#### Principais bibliotecas do R

* Dplyr: utilizada para manipulação de dados.
* Ggplot2: principal biblioteca de visualização de dados.
* Shiny:  construção de dashboards/aplicações web sem uso de JavaScript.
* XGBoost: implementação em R do gradient boosting framework.
* Caret: pacote para aplicações de Machine Learning (como pré-processamento, data splitting, Feature selection, training model, Variable importance estimation).
* knitr: pacote muito útil para pesquisa científica, pois engloba estruturas como LaTeX e Markdown, para criação de relatórios.
* plotly: biblioteca utilizada para criar gráficos de forma dinâmica.

#### Onde aprender?

* https://data-flair.training/blogs/data-analytics-tutorial/
* https://livro.curso-r.com/
* https://www.tutorialspoint.com/r/index.htm

O que veremos em sequência:
* Declaração de variáveis e tipo de dados
* Operadores
* Estrutura condicional
* Estatística Descritiva
* Introdução à Econometria

# **Econometria**

#### **O que é Econometria ?**

De maneira simples, o objetivo é estimar/mensurar relações econômicas.


Aplicações

* Relação entre o desempenho escolar e variáveis sócioeconômicas;
    * Podemos usar microdados do INEP, por exemplo, para testar a relação entre variáveis sócioeconômicas dos municípios e o desempenho das notas.
* Relação entre taxa de homicídios e desemprego, pobreza, renda;
    * Variáveis de natureza econômicas são relevantes na compreensão da criminalidade?
* Relação entre gasto em campanha e resultados eleitorais;
* Relação entre o salário e o nível de instrução;
    * Será que anos de escolaridade implicam em maiores níveis salariais?
* Previsão da inflação, PIB, exportações;
    * Podemos estimar os determinantes das exportações de um determinado produto, ou mesmo o forecasting.


Regressão Linear

* $\mathbf{y}$: representa o fenômeno/variável target que queremos analisar em função de uma variável explicativa $\mathbf{x}$ (ou mesmo conjunto de variáveis explicativas) e um termo de perturbação $\mathbf{u}$ (ou termo de erro):
$$ y = f(x)+u $$
* Vamos focar inicialmente no problema que busca analisar a relação entre duas variáveis descrita por um modelo de regressão linear simples:
$$ y  = \beta_0+\beta_1 x +u$$<br>
Note que: $\mathbf{y}$ é a variável dependente e $\mathbf{x}$ é a variável explicativa (que prova as variações em $y$).<br>
Exemplos<br>
* $\text{salário(w)} = \beta_0+\beta_1\text{educação}+u$: o parâmetro $\beta_1$ refere-se ao efeito do grau de escolaridade do indivíduo no salário.<br>
* $\text{taxa_crime(e)} = \beta_0+\beta_1\text{quantidade_polícia}+u$: o parâmetro $\beta_1$ refere-se a redução da taxa de criminalidade em função de um aumento na quantidade de força polícial.<br>
* $\text{vendas(s)} = \beta_0+\beta_1\text{temperatura}+u$: para algum tipo de negócio o aumento da temperatura pode ter um efeito positivo na quantidade de vendas.<br>

Terminologia do modelo de regressão linear simples:

y|x
-|-
Variável Dependente|Variável Independente
Variável Explicada|Variável Explicativa
Variável de Resposta|Variáve de Controle
Variável Prevista|Variável Previsora
Regressando|Regressor

Ou ainda:

$\underbrace{y}_{\text{target}} = \underbrace{\beta_0+\beta_1}_{\text{coeficientes}} \underbrace{  x}_{\text{      input}} +\underbrace{u}_{\text{termo de erro}}$

O termo de erro $\mathbf{u}$ diz respeito a outros fatores que afetam $\mathbf{y}$ mas não estão explícitos na equação da regressão. 

Relação linear entre $\mathbf{y}$ e $\mathbf{x}$: $\mathbf{x}$ altera a variável $\mathbf{y}$ linearmente. Uma implicação desta premissa seria que independentemente do valor inicial de $\mathbf{x}$ teremos sempre o mesmo impacto de desta variável sobre $\mathbf{y}$. <br>
Lembre que a relação é linear nos parâmetros do modelo.

Considere um modelo populacional $y = \beta_0+\beta_1 x+u$ e uma amostra desta população $(x_i,y_i), i = 1, \dots , n$. Podemos obter que os estimadores de MQO para uma regressão linear simples:

$\min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^{n}\hat{u}_i^2 = \sum_{i=1}^{n}\left(y_i-\hat{\beta}_0-\hat{\beta}_1x_i\right)^2$

$\dfrac{\partial \sum_{i=1}^{n}\hat{u}_i^2}{\partial \hat{\beta}_0} = 0$

$\dfrac{\partial \sum_{i=1}^{n}\hat{u}_i^2}{\partial \hat{\beta}_0} = 0$

$$ \hat{\beta}_0 = \overline{y}-\hat{\beta}_1\overline{x}$$

$$\hat{\beta}_1 = \dfrac{\mathrm{cov(x,y)}}{\mathrm{var(x)}} = \dfrac{\sum_{i=1}^{n}\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)}{\sum_{i=1}^{n}\left(x_i-\overline{x}\right)^2}$$

Modelo estimado:

$$\hat{y} = \hat{\beta}_0+\hat{\beta}_1 x$$

Resíduo do modelo:

$$\hat{u}_i = y_i-\hat{y}_i$$

Assim o resíduo da regressão é definido como a diferença entre o valor $y_i$ (valor real) e o valor previsto/ajustado $\hat{y}_i$. Se $\hat{u}_i>0 \Rightarrow$ então a reta subestima $y_i$; por outro lado, se $\hat{u}_i<0$ então a reta superestima $y_i$. O mundo ideal seria $\hat{u}_i = 0$, mas na prática teremos para a maior parte dos casos $\hat{u}_i\neq 0$.

Na prática teremos mais de uma variável explicativa e podemos então generalizar para um modelo com $K$ variáveis explicativas e incorporar mais mais fatores que podem explicar 
$y$.

$$y = f(\text{variável 1}, \text{variável 2}, \text{variável 3}, \dots, \text{variável n})$$

#### Referências

* https://bookdown.org/kieranmarray/intro_to_r_for_econometrics/
* https://cran.r-project.org/doc/contrib/Farnsworth-EconometricsInR.pdf
* https://www.econometrics-with-r.org/
* https://www.geeksforgeeks.org/r-programming-language-introduction/
* https://www.datacamp.com/tutorial/top-ten-most-important-packages-in-r-for-data-science
* http://www.estruturas.ufpr.br/disciplinas/pos-graduacao/introducao-a-computacao-cientifica-com-python/