<img style="float: right;" src="fig/unifor.jpg" width="250px">

# Introdução ao Aprendizado de Máquina
Prof. Erneson A. Oliveira<br>
MBA em Ciência de Dados<br>
Universidade de Fortaleza

# 1. Dinheiro torna as pessoas felizes?

<img src="fig/dicaprio.jpg" width="800px">

## 1.1 Será que existem dados para responder essa pergunta?

Podemos combinar os dados de Renda (FMI) e Satisfação (OCDE).

<img src="fig/tab1_01.jpg" width="400px">

## 1.2 Será que existe alguma tendência?

Podemos olhar o gráfico de dispersão.

<img src="fig/fig1_17.jpg" width="800px">

Sim! A satisfação parece crescer linearmente com a renda.

## 1.3 Como descrever esse comportamento?

Podemos descrever através de uma <b>Regressão Linear Simples</b> para satisfação ($S$) em relação à renda ($R$):

\begin{equation}
S=\theta_0+\theta_1 R,
\end{equation}

onde $\theta_0$ e $\theta_1$ são parâmetros da regressão.

<img src="fig/fig1_18.jpg" width="800px">

## 1.4 Função Custo

Função associada ao objetivo de um problema de otimização.

<img src="fig/regression.jpg" width="600px">

Para problemas de regressão linear, podemos minimizar a função custo:

\begin{equation}
SSR=\sum_{i=1}^n e_i^2=\sum_{i=1}^n (S_i-\hat{S}_i)^2=\sum_{i=1}^n (S_i-\hat{\theta}_0-\hat{\theta}_1 R_i)^2,
\end{equation}
onde $SSR$ é a soma dos quadrados dos resíduos (Método dos Mínimos Quadrados). Os parâmetros estimados ficam:

\begin{equation}
    \hat{\theta}_1=\frac{\sum_{i=1}^n (R_i-\langle R\rangle)(S_i-\langle S\rangle)}{\sum_{i=1}^n (R_i-\langle R\rangle)^2}
    \quad
    \text{e}
    \quad
    \hat{\theta}_0=\langle S\rangle-\hat{\theta}_1\langle R\rangle,
\end{equation}
onde

\begin{equation}
    \langle R\rangle=\frac{1}{n}\sum_{i=1}^n R_i
    \quad
    \text{e}
    \quad
    \langle S\rangle=\frac{1}{n}\sum_{i=1}^n S_i.
\end{equation}

## 1.5 Ajuste da Regressão Linear

O resultado é estimado através das expressões anteriores.

<img src="fig/fig1_19.jpg" width="600px">

In [1]:
import pandas as pd
import numpy as np
from scipy import stats

df=pd.read_csv('datasets/imf_oecd.csv',sep=';',encoding='utf-8')

x=np.array(df['GDP per capita'])
y=np.array(df['Life satisfaction'])

theta_1, theta_0, r_value, p_value, std_err = stats.linregress(x,y)

print(theta_1,theta_0,r_value**2)

4.911544589158482e-05 4.853052800266436 0.7344414355437027


## 1.6 Podemos fazer previsões (inferências)?

Sim! Por exemplo, a satisfação $S$ para um país qualquer que tenha renda $R=22587$ é:

\begin{equation}
S=\theta_0+\theta_1 R=4.85+(4.91\times 10^{-5})\times 22587 = 5.962
\end{equation}

In [2]:
R=22587
S=theta_0+theta_1*R
print(S)

5.962423376619663
