<a id="header-notebook"></a>
![](https://raw.githubusercontent.com/AdrianoPereira/adrianopereira.github.io/master/assets/banner_notebook.png)

# Exemplo de aplica√ß√£o do algoritmo de regress√£o linear

**Instrutores**: Adriano Almeida, Felipe Carvalho e Felipe Menino

**Realiza√ß√£o**: Dia 15/09


**Descri√ß√£o**:  Este notebook tem como pr√≥posito apresentar a aplica√ß√£o do algoritmo de regress√£o linear no conjunto de dados [*World Happiness Report 2020*](https://worldhappiness.report/ed/2020) utilizando a biblioteca [*scikit-learn*](https://scikit-learn.org) na linguagem de programa√ß√£o [Python](http://python.org).


**Sum√°rio**:
* [Descri√ß√£o do conjunto de dados](#description-dataset)
* [Descri√ß√£o da atividade](#description-task)
* [Importa√ß√£o das bibliotecas](#import)
* [Carregando base de dados](#load-dataset)
* [An√°lise explorat√≥ria dos dados](#eda)
* [Separando conjunto de dados](#split)
* [Aplicando a m√°quina de vetores de suporte](#model)
* [Avalia√ß√£o do modelo](#evaluation)
* [Agora √© com voc√™](#homework)
* [Refer√™ncias](#references)


**Links √öteis**:
* [Livro **Introdu√ß√£o ao Machine Learning**](https://dataat.github.io/introducao-ao-machine-learning/)
* [Exemplo de **Classifica√ß√£o** em Python](https://www.kaggle.com/phelpsmemo/intro-ml-python-knn-worcap2020)
* [Exemplo de **Regress√£o com m√°quinas de vetores de suporte** em Python](https://www.kaggle.com/lordadriano/intro-ml-python-svr-worcap2020)
* [Exemplo de **Agrupamento Hierquico** em R](https://www.kaggle.com/oldlipe/intro-ml-r-hiererquico-worcap2020)

> **Aten√ß√£o**: Este documento foi redigido apenas para fins did√°ticos, sendo assim, as t√©cnicas e conjunto de dados utilizados aqui podem e devem ser evolu√≠dos em caso de sua continuidade com cunho cient√≠fico.

## Descri√ß√£o do conjunto de dados <a id="description-dataset"></a> [^](#header-notebook)
<hr />

![](https://raw.githubusercontent.com/AdrianoPereira/introducao-ao-machine-learning/master/src/assets/happiness-reg.png)

O conjunto de dados utilizado neste notebook √© o World Happiness Report 2020 publicado por Helliwell et al. (2020). O primeiro World Happiness foi apresentado em 2012 na Assembl√©ia Geral das Na√ß√µes Unidas. Este √© o oitavo relat√≥rio, e assim como os anteriores, busca fornecer informa√ß√µes sobre o estado de felicidade e bem-estar da popula√ß√£o em diversos pa√≠ses ao redor do mundo. Este conjunto de dados cont√©m informa√ß√µes de 153 pa√≠ses, provenientes principalmente dos atributos descritos a seguir:

- **Country name**: Nome do pa√≠s onde foram obtidas as informa√ß√µes.
- **Logged GDP per capita**: Indicador econ√¥mico relacionado √† renda per capita.
- **Social support**: Sensa√ß√£o de acolhimento de amigos e familiares em momentos de dificuldade e/ou lazer.
- **Healthy life expectancy**: Expectativa de vida da popula√ß√£o do pa√≠s.
- **Freedom to make life choices**: Sensa√ß√£o de que todo cidad√£o possa ter liberdade para fazer qualquer coisa.
- **Generosity**: Sensa√ß√£o de compaix√£o e autru√≠smo das pessoas.
- **Perceptions of corruption**: Sensa√ß√£o de confian√ßa no governo, entidades e empresas.
- **Ladder score**: √çndice de felicidade baseado nos atributos anteriores.
![](http://)- **Dystopia + residual**: M√©trica de compara√ß√£o com valores mais baixos de todos os atributos.

## Descri√ß√£o da atividade <a id="description-task"></a> [^](#header-notebook)
<hr />

Neste exemplo ser√° aplicado uma regress√£o linear simples, utilizando apenas duas vari√°veis. A vari√°vel independente ($x$) ser√° o √≠ndice de felicidade, j√° a vari√°vel dependente ($y$) ser√° escolhida baseado em uma superficial an√°lise explorat√≥ria dos dados para identificar o atributo que mais se associa a ele. Ap√≥s ser escolhida a vari√°vel dependente, o conjunto de dados ser√° separado em grupos de treinamento e teste, que em seguida ser√£o submetidos ao modelo de regress√£o linear utilizando a biblioteca *scikit-learn*. Ao final ser√£o aplicadas algumas m√©tricas de avalia√ß√£o do modelo e visualiza√ß√£o dos resultados.

> **Aviso**: Para a maioria das atividades que envolvem algoritmos de aprendizagem de m√°quina, √© recomendado que haja uma certa dedica√ß√£o na realiza√ß√£o de uma an√°lise explorat√≥ria aprofundada, principalmente se os dados n√£o forem muito bem conhecidos. A an√°lise explorat√≥ria dos dados pode ajudar a ter uma vis√£o geral r√°pida a respeito do *dataset* que est√° sendo trabalhado. Para fins did√°ticos, a an√°lise explorat√≥ria dos dados n√£o ser√° muito aprofundada aqui.

## Importa√ß√£o das bibliotecas <a id="import"></a> [^](#header-notebook)
<hr />

Antes de mais nada, devemos importar as bibliotacas que iremos utilizar durante a atividade. Ser√° utilizado o `Pandas` para o carregamento da base de dados, m√≥dulos do `Sklearn` para a divis√£o dos dados e para o o modelo de regress√£o linear e por fim, as bibliotecas `Matplotlib` e `Seaborn` para a exibi√ß√£o dos gr√°ficos.


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
import math
from sklearn import metrics
from sklearn import linear_model
import matplotlib.pyplot as plt
import seaborn as sns

## Carregando base de dados <a id="load-dataset"></a> [^](#header-notebook)
<hr />

O bloco a seguir mostra o trecho que faz a importa√ß√£o da base de dados e exibe seu cabe√ßalho.

> **Dica**: O Kaggle permite o envio de base de dados pr√≥prias para o projeto e tamb√©m a importa√ß√£o dos *datasets* p√∫blicos dispon√≠veis na plataforma.

In [None]:
df = pd.read_csv('/kaggle/input/world-happiness-report/2020.csv')
df.head()


O conjunto de dados possui algumas colunas extras, que s√£o extens√µes dos atributos principais, que n√£o ser√£o necess√°rias para este exemplo. Sendo assim, ser√£o selecionados os registros somente das colunas que ser√° utilizada. Existem v√°rias formas de filtrar as colunas em um `Pandas DataFrame`, aqui ser√° utilizado uma lista com seus nomes, conforme mostrado no bloco a seguir:

In [None]:
columns = ['Country name', 'Ladder score', 'Logged GDP per capita', 'Social support', 
           'Healthy life expectancy', 'Freedom to make life choices', 'Generosity',
           'Perceptions of corruption', 'Dystopia + residual']
new_df = df[columns]
new_df.head()

## An√°lise explorat√≥ria dos dados <a id="eda"></a> [^](#header-notebook)
<hr />

O `Pandas DataFrame` possui alguns m√©todos que podem auxiliar no in√≠cio da explora√ß√£o dos dados. O m√©todo `describe` mostra algumas informa√ß√µes estat√≠sticas a repeito dos dados n√∫mericos, conforme mostrado a seguir:

In [None]:
new_df.describe()

Outro recurso interessante para ser utilizado na explora√ß√£o dos dados s√£o as correla√ß√µes entre os atributos, j√° que as t√©cnicas de regress√£o est√£o diretamente associadas a elas. Com poucas linhas de c√≥digo √© poss√≠vel obser um gr√°fico com a matriz de correla√ß√£o das vari√°veis, como mostrado a seguir:

In [None]:
plt.figure(figsize=(10, 10))
sns.heatmap(new_df.corr(), annot=new_df.corr(), cmap='Reds')
plt.show()

Como pode ser observado no gr√°fico da figura acima, √© poss√≠vel identificar de forma l√∫cida as vari√°veis mais correlacionadas. Essas rela√ß√µes s√£o observadas atrav√©s da diagonal superior ou inferior da matriz de corre√ß√£o.
Outra ferramenta que pode auxiliar na visualiza√ß√£o da correla√ß√µes das vari√°veis √© o gr√°fico de dispers√£o (*scatter plot*). No trecho a seguir √© executado o comando para visualizar o gr√°fico de disper√ß√µes, entre todas as vari√°veis.

In [None]:
sns.pairplot(new_df)
plt.show()

No gr√°fico acima as rela√ß√µes entre as vari√°veis ficam bem mais destacas, por exemplo, os atributos que representam a renda per capita, suporte social e a expectativa de vida possuem s√£o os que possuem maior correla√ß√£o positiva com o √≠ndice de felicidade, sendo assim, eles s√£o fortes candidatos a serem vari√°veis dependentes. Diante disso, o atributo que indica o PIB percapta ser√° utilizado neste exemplo para ser a vari√°vel dependente.

> **Importante**: Nem sempre a alta correla√ß√£o entre as vari√°veis pode indicar necessariamente que elas estejam associadas, isso pode ser uma causalidade. 

## Separando conjunto de dados <a id="split"></a> [^](#header-notebook)
<hr />

Durante as tarefas que envolvem treinamento e testes de modelos de aprendizado de m√°quina, √© altamente recomendado que o conjunto de dados dispon√≠vel seja separado em grupos de treinamento e teste ou treinamento, teste e valida√ß√£o. A divis√£o do conjunto de dados evita que o modelo fique enviezado, ou seja, que ele fique especialista somente nos dados aos quais ele foi treinado e perca a sua capacidade de generaliza√ß√£o, conhecido como *overfitting*. Neste exemplo, n√£o h√° necessidade de ser utilizado o conjunto de valida√ß√£o, pois para preparar o modelo ser√° utilizado apenas conjunto de treinamento e a avalia√ß√£o com o conjunto de testes. A cria√ß√£o do terceiro grupo de dados (valida√ß√£o) pode ser utilizados quando o modelo ser√° testado durante o treinamento.

Antes de realizar a divis√£o do conjunto de dados, ser√£o criadas listas separadas para armazenas as informa√ß√µes de cada atributo que ser√° utilizado neste exemplo, conforme mostrado no trecho de c√≥digo a seguir:

In [None]:
x = new_df['Ladder score'].values
y = new_df['Logged GDP per capita'].values

Os valores do √≠ndice de felicidade foram adicionados na vari√°vel `x` e os valores referentes ao atributo de PIB per capta foram adicionados na vari√°vel `y`. Embora neste exemplo ser√° utilizado somente uma vari√°vel independente, o modelo de regress√£o linear pode ter mais. Sendo assim, √© necess√°rio realizar mais um preprocessamento nos dados, transformando a vari√°vel independente em uma matriz, j√° que o modelo espera os dados de entrada nesse formato, e n√£o como uma lista, como eles est√£o. O trecho a seguir faz a transfora√ß√£o da lista em uma matriz:

In [None]:
x = x.reshape((-1, 1))

Para a separa√ß√£o dos conjuntos de dados em grupos de treinamento e teste, ser√° utilizada a fun√ß√£o `train_test_split`, dispon√≠vel no `sklearn`, conforme mostrado no trecho a seguir:

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=.15, random_state=0)

O par√¢metro `test_size` da fun√ß√£o `train_test_split` indica a porcentagem de dados que ser√° reservada para o grupo de teste e o atributo `random_state` √© para garantir que a fun√ß√£o sempre ir√° pegar a mesma amostra aleat√≥ria de dados para cada grupo.

## Aplicando a regress√£o linear <a id="model"></a> [^](#header-notebook)
<hr />

Um vez realizados as an√°lises e preprocessamentos dos dados, a regress√£o poder√° ser aplicada. O trecho a seguir, cria e treina o modelo de regress√£o linear:

In [None]:
model = linear_model.LinearRegression().fit(x_train, y_train)

A seguir s√£o exibidos os coeficientes $\alpha$ e $\beta$ da reta da equa√ß√£o da regress√£o linear:

In [None]:
alpha, beta = model.coef_[0], model.intercept_
print('Alpha = ', alpha)
print('Beta = ', beta)

Uma vez que o modelo foi treinado, podemos exibir a reta da equa√ß√£o da regress√£o linear, como mostrado no exemplo a seguir: 

In [None]:
y_pred_train = model.predict(x_train)

plt.figure(figsize=(10, 7))
plt.scatter(x_train, y_train, color='blue', edgecolor='k', alpha=.75, label="Dados de treinamento")
plt.plot(x_train, y_pred_train, color='red', linewidth=1, label=r"$y_{i}$ = $\alpha+\beta x_{i}$")
plt.xlabel('√çndice de felicidade')
plt.ylabel('PIB per capta')
plt.legend()
plt.show()

Agora podemos adicionar os dados de teste tamb√©m para comparar com os dados de treinamento.

In [None]:
y_pred_test = model.predict(x_test)

plt.figure(figsize=(10, 7))
plt.scatter(x_train, y_train, color='blue', edgecolor='k', alpha=.75, label="Dados de treinamento")
plt.scatter(x_test, y_test, color='green', edgecolor='k', alpha=.75, label="Dados de teste")
plt.plot(x_train, y_pred_train, color='red', linewidth=1, label=r"$y_{i}$ = $\alpha+\beta x_{i}$")
plt.xlabel('√çndice de felicidade')
plt.ylabel('PIB per capta')
plt.legend()
plt.show()

## Avalia√ß√£o do modelo <a id="evaluation"></a> [^](#header-notebook)
<hr />
Al√©m de auxiliarem na an√°lise explorat√≥ria dos dados, os gr√°ficos tamb√©m podem ser uma √≥tima ferramenta para an√°lise dos resultados. A seguir √© mostrado um gr√°fico de dispers√£o dos dados reais em fun√ß√£o dos dados previstos pela regress√£o linear.

In [None]:
plt.figure(figsize=(10, 7))
plt.scatter(y_test, y_pred_test, color='k', edgecolor='k', alpha=.75)
plt.xlabel(r'$y_{i}$ real')
plt.ylabel(r'$y_{i}$ previsto')
plt.plot([min(y_test), max(y_test)], [min(y_pred_test), max(y_pred_test)], label='Diagonal secund√°ria', linestyle='--', alpha=.75)

plt.legend()
plt.show()

Os modelos de aprendizado de m√°quina devem ter uma capacidade de generaliza√ß√£o razo√°vel, sendo assim, dificilmente acertar√£o os valores exatos, principalmente em tarefas de regress√£o. O gr√°fico de dispers√£o acima tem como intuito mostrar visualmente a correla√ß√£o entre os dados observados e os previstos pela regress√£o. Como se trata de uma regress√£o linear, e os dados n√£o possuem uma correla√ß√£o perfeita, √© esperado que haja esse pequeno desvio em rela√ß√£o √† diagonal secund√°ria.

As m√©tricas de erro mais utilizadas para se avaliar os m√©todos de regress√£o s√£o o erro m√©dio absoluto (MAE - sigla do ingl√™s, *mean absolute error*), erro quadr√°tico m√©dio (MSE - sigla do ingl√™s, *mean square error*) e a raiz do erro quadr√°tico m√©dio (RMSE - sigla do ingl√™s, *root mean square error*), Essas e outras m√©tricas est√£o implementadas no `sklearn`. O MAE, como o pr√≥prio nome sugere, est√° relacionado √† m√©dia dos erros absolutos entre os valores reais e os previstos, obtido pela soma das diferen√ßas entre eles. O MSE √© a m√©dia da diferen√ßa entre os valores reais e previstos elevado ao quadrado. J√° o RMSE √© a raiz do erro m√©dio quadr√°tico m√©dio entre os valores previstos e os valores reais. No trecho a seguir s√£o apresentadas as tr√™s m√©tricas mencionadas:

In [None]:
print("MAE: %.3f"%metrics.mean_absolute_error(y_test, y_pred_test))
print("MSE: %.3f"%metrics.mean_squared_error(y_test, y_pred_test))
print("RMSE: %.3f"%math.sqrt(metrics.mean_squared_error(y_test, y_pred_test)))


## Agora √© com voc√™ <a id="homework"></a> [^](#header-notebook)
<hr />

> Um das principais motiva√ß√µes da gera√ß√£o do World Happiness Report √© avaliar o bem estar e qualidade de vida das pessoas nos pa√≠ses onde moram, ser√° que a felicidade pode est√° associada √† expectativa de vida dos pa√≠ses?

üìö Como sugest√£o de atividade, aplique a t√©cnica apresentada para descobrir as rela√ß√µes lineares mencionada na quest√£o acima.

## Refer√™ncias <a id="references"></a> [^](#header-notebook)

Helliwell, John F., Haifang Huang, Shun Wang, and Max Norton. "Social environments for world happiness." World Happiness Report 2020 (2020).