# Regressão Linear para alturas

## Dados e tarefa:

Vamos usar o famoso [Galton Dataset](https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/T0HSJ1) para **prever a altura de pessoas** com base em características da família.

## Importação dos dados e análise exploratória

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

%matplotlib inline 

In [2]:
df = pd.read_csv('../data/galton.csv')

In [3]:
df.shape

(890, 6)

In [4]:
df.head()

Unnamed: 0,Family,Father,Mother,Gender,Height,Kids
0,1,1.9939,1.7018,M,1.85928,4
1,1,1.9939,1.7018,F,1.75768,4
2,1,1.9939,1.7018,F,1.7526,4
3,1,1.9939,1.7018,F,1.7526,4
4,2,1.9177,1.6891,M,1.8669,4


**Dicionário de dados**:

* **Family**: Família de origem
* **Father**: Altura do Pai
* **Mother**: Altura da Mãe
* **Gender**: Sexo do Filho
* **Height**: Altura do Filho
* **Kids**: Quantidade de Filhos


In [5]:
# Precisamos transformar a variável Gender em número
df['Gender_'] = LabelEncoder().fit_transform(df.Gender)
df.head()

Unnamed: 0,Family,Father,Mother,Gender,Height,Kids,Gender_
0,1,1.9939,1.7018,M,1.85928,4,1
1,1,1.9939,1.7018,F,1.75768,4,0
2,1,1.9939,1.7018,F,1.7526,4,0
3,1,1.9939,1.7018,F,1.7526,4,0
4,2,1.9177,1.6891,M,1.8669,4,1


In [6]:
df = df.drop(columns = ['Gender', 'Family'])[['Father', 'Mother', 'Gender_', 'Kids', 'Height']]
df.head()

Unnamed: 0,Father,Mother,Gender_,Kids,Height
0,1.9939,1.7018,1,4,1.85928
1,1.9939,1.7018,0,4,1.75768
2,1.9939,1.7018,0,4,1.7526
3,1.9939,1.7018,0,4,1.7526
4,1.9177,1.6891,1,4,1.8669


## Regressão Linear

Complete a célula abaixo para criar, treinar e avaliar um modelo de Regressão Linear usando todas as características disponíveis no dataframe. Lembre-se de não utilizar a variável resposta ("fare_amount"), a variável identificadora da corrida ("key") e não precisamos da "pickup_datetime", pois vamos usar as características derivadas dela que criamos (hour, day_of_week, day, month, year).

O valor do $R^2$ alcançado pelo modelo deve ser de $0.6602$.

In [7]:
# Dividindo x e y
x = df.drop(columns = 'Height')
y = df.Height

# Dividindo dados para treino e dados para teste
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, 
                                                    random_state = 42)

# Treinando o modelo
model = LinearRegression().fit(x_train, y_train)

# Fazendo as predições
y_pred = model.predict(x_test)

# Calculando o erro r2- medida de qualidade do modelo
round(r2_score(y_test, y_pred),4)

0.6602