<a href="https://colab.research.google.com/github/LuaraMarino/Trabalhinhos/blob/main/MachineLearning_RegressaoLinear.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#Nome: Luara Maria Marino
#RM: 89375

FIAP - Machine Learning & Modelling

# Aula 06 - Regressão Linear

Vamos passar pelo pipeline de ciência de dados, implementando os passos em python e realizando uma Regressão Linear como modelo preditivo.

## Pipeline de ciência de dados

Relembrando as etapas do processo de ciência de dados:

![image.png](attachment:image.png)

### Entendimento do problema

É possível prever a altura dos filhos baseado nas alturas dos pais? 


### Obtenção dos dados 

Este conjunto de dados lista as observações individuais de 934 crianças em 205 famílias nas quais Galton (1886) baseou sua tabulação cruzada, mostrando a relação entre as alturas dos pais e de seus filhos. 

Dados baixados [deste link](https://raw.githubusercontent.com/data-8/materials-fa17/master/lec/galton.csv)

Dicionário de dados retirado [daqui](https://vincentarelbundock.github.io/Rdatasets/doc/HistData/GaltonFamilies.html)

Os dados são: 
							
- `family`: ID de família, um fator com níveis 001-204
- `father`: altura do pai
- `mother`: altura da mãe
- `midparentHeight`: altura parental média, calculada como (pai + 1,08 * mãe) / 2
- `children`: número de filhos nesta família
- `childNum`: número desta criança dentro da família. As crianças são listadas em ordem decrescente de altura para meninos, seguidos por meninas
- `gender`: gênero infantil, fator com níveis feminino e masculino
- `childHeight`: altura da criança

**OBSERVAÇÃO**: os dados das alturas estão em `inches`. Para transformar em `cm`, podemos usar a fórmula: "1 inch =
2.54 centimeters"

In [None]:
# Imports necessários 
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [None]:
df = pd.read_csv(f"galton.csv")
df.head(5)

Unnamed: 0,family,father,mother,midparentHeight,children,childNum,gender,childHeight
0,1,78.5,67.0,75.43,4,1,male,73.2
1,1,78.5,67.0,75.43,4,2,female,69.2
2,1,78.5,67.0,75.43,4,3,female,69.0
3,1,78.5,67.0,75.43,4,4,female,69.0
4,2,75.5,66.5,73.66,4,1,male,73.5


In [None]:
# Quantos dados? 
df.shape

(934, 8)

In [None]:
# Quais os tipos? Dados faltantes? 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 934 entries, 0 to 933
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   family           934 non-null    object 
 1   father           934 non-null    float64
 2   mother           934 non-null    float64
 3   midparentHeight  934 non-null    float64
 4   children         934 non-null    int64  
 5   childNum         934 non-null    int64  
 6   gender           934 non-null    object 
 7   childHeight      934 non-null    float64
dtypes: float64(4), int64(2), object(2)
memory usage: 58.5+ KB


In [None]:
df['children'].unique()

array([ 4,  2,  5,  6,  1,  3,  8,  9,  7, 11, 10, 15])

In [None]:
df.nunique()

family             205
father              35
mother              29
midparentHeight    140
children            12
childNum            15
gender               2
childHeight         67
dtype: int64

In [None]:
df[df["gender"] == "male" and df["childHeight"] > 78 ]

ValueError: ignored

In [None]:
# Alguma info estatística útil? 
df.describe()

Unnamed: 0,father,mother,midparentHeight,children,childNum,childHeight
count,934.0,934.0,934.0,934.0,934.0,934.0
mean,69.197109,64.089293,69.206773,6.171306,3.585653,66.745931
std,2.476479,2.290886,1.80237,2.729025,2.36141,3.579251
min,62.0,58.0,64.4,1.0,1.0,56.0
25%,68.0,63.0,68.14,4.0,2.0,64.0
50%,69.0,64.0,69.248,6.0,3.0,66.5
75%,71.0,65.875,70.14,8.0,5.0,69.7
max,78.5,70.5,75.43,15.0,15.0,79.0


### Limpeza dos dados

In [None]:
# Removendo duplicatas
df.drop_duplicates(inplace=True)

In [None]:
# Removendo dados faltantes
df.dropna(inplace=True)

Vamos trabalhar com dados em **cm**? Não somos obrigados. 

In [None]:
# Funcao

In [None]:
def inch2m(inch):
    return inch * 2.54 / 100

In [None]:
inch2m(78.5)

1.9939000000000002

In [None]:
df["father"] = df["father"].apply(inch2m)

In [None]:
df.head(5)

Unnamed: 0,family,father,mother,midparentHeight,children,childNum,gender,childHeight
0,1,1.9939,67.0,75.43,4,1,male,73.2
1,1,1.9939,67.0,75.43,4,2,female,69.2
2,1,1.9939,67.0,75.43,4,3,female,69.0
3,1,1.9939,67.0,75.43,4,4,female,69.0
4,2,1.9177,66.5,73.66,4,1,male,73.5


Agora faça o mesmo para as demais colunas de alturas!

In [None]:
colunas = ["mother", "midparentHeight", "childHeight"]

In [None]:
df[colunas] = df[colunas].apply(inch2m)

Sabemos que os modelos só trabalham com números, então não podemos deixar a coluna `gender` como está! Precisamos transformá-la!

In [None]:
df["gender"] = df["gender"].apply(lambda x: 0 if x == "male" else 1)

In [None]:
df.head(5)

Unnamed: 0,family,father,mother,midparentHeight,children,childNum,gender,childHeight
0,1,1.9939,1.7018,1.915922,4,1,0,1.85928
1,1,1.9939,1.7018,1.915922,4,2,1,1.75768
2,1,1.9939,1.7018,1.915922,4,3,1,1.7526
3,1,1.9939,1.7018,1.915922,4,4,1,1.7526
4,2,1.9177,1.6891,1.870964,4,1,0,1.8669


In [None]:
# Removendo colunas que não serão úteis
df2 = df.drop(columns = ["family", "children", "childNum"])
df2.head(5)

Unnamed: 0,father,mother,midparentHeight,gender,childHeight
0,1.9939,1.7018,1.915922,0,1.85928
1,1.9939,1.7018,1.915922,1,1.75768
2,1.9939,1.7018,1.915922,1,1.7526
3,1.9939,1.7018,1.915922,1,1.7526
4,1.9177,1.6891,1.870964,0,1.8669


### Modelagem

In [None]:
# Separação de DADOS e LABEL
X = df2.drop(columns = ["childHeight"])
Y = df2["childHeight"]

In [None]:
# Dividindo dados para TREINO e TESTE
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.6, random_state=42)

In [None]:
# Treinando o modelo
modelo = LinearRegression()
modelo.fit(X_train, Y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [None]:
# Fazendo as predições
Y_pred = modelo.predict(X_test)

### Avaliação

In [None]:
# Erro quadrático médio
mean_squared_error(Y_test, Y_pred)

0.0031376204881859763

In [None]:
# Erro absoluto médio
mean_absolute_error(Y_test, Y_pred)

0.044239311623267594

In [None]:
# R²
r2_score(Y_test, Y_pred)

0.6364702607871328

### Interpretando os coeficientes encontrados!

Vamos dar uma olhada nos coeficientes encontrados para cada característica:

In [None]:
modelo.intercept_

0.5549619417047795

In [None]:
modelo.coef_

array([-6.39888541e+12, -6.91079624e+12,  1.27977708e+13, -1.32720947e-01])

In [None]:
df2.columns

Index(['father', 'mother', 'midparentHeight', 'gender', 'childHeight'], dtype='object')

In [None]:
pd.DataFrame({"feature": df2.columns[:-1], "coeficientes": modelo.coef_}).sort_values(by="coeficientes", ascending=False)

Unnamed: 0,feature,coeficientes
2,midparentHeight,12797770000000.0
3,gender,-0.1327209
0,father,-6398885000000.0
1,mother,-6910796000000.0


In [None]:
modelo.intercept_

0.5549619417047795

In [None]:
# Dividindo dados para TREINO e TESTE
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.4, random_state=42)

In [None]:
# Treinando o modelo
modelo = LinearRegression()
modelo.fit(X_train, Y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [None]:
# Fazendo as predições
Y_pred = modelo.predict(X_test)

In [None]:
# Erro quadrático médio
mean_squared_error(Y_test, Y_pred)

0.003151716179372416

In [None]:
# Erro absoluto médio
mean_absolute_error(Y_test, Y_pred)

0.04354312703914847

In [None]:
# R²
r2_score(Y_test, Y_pred)

0.6288190815324056

In [None]:
modelo.intercept_

0.5580062387963236

In [None]:
modelo.coef_

array([-2.50725114e+13, -2.70783123e+13,  5.01450228e+13, -1.42578125e-01])

In [None]:
df2.columns

Index(['father', 'mother', 'midparentHeight', 'gender', 'childHeight'], dtype='object')

In [None]:
pd.DataFrame({"feature": df2.columns[:-1], "coeficientes": modelo.coef_}).sort_values(by="coeficientes", ascending=False)

Unnamed: 0,feature,coeficientes
2,midparentHeight,50145020000000.0
3,gender,-0.1425781
0,father,-25072510000000.0
1,mother,-27078310000000.0


In [None]:

modelo.intercept_

0.5580062387963236

In [None]:
# Dividindo dados para TREINO e TESTE
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.1, random_state=42)

In [None]:
# Treinando o modelo
modelo = LinearRegression()
modelo.fit(X_train, Y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [None]:
# Fazendo as predições
Y_pred = modelo.predict(X_test)

In [None]:
# Erro quadrático médio
mean_squared_error(Y_test, Y_pred)

0.0027017304306377068

In [None]:
# Erro absoluto médio
mean_absolute_error(Y_test, Y_pred)

0.04223601664992338

In [None]:
# R²
r2_score(Y_test, Y_pred)

0.6325596511413618

In [None]:
modelo.intercept_

0.554812428497583

In [None]:
modelo.coef_

array([-5.22928577e+12, -5.64762863e+12,  1.04585715e+13, -1.32446289e-01])

In [None]:
df2.columns

Index(['father', 'mother', 'midparentHeight', 'gender', 'childHeight'], dtype='object')

In [None]:
pd.DataFrame({"feature": df2.columns[:-1], "coeficientes": modelo.coef_}).sort_values(by="coeficientes", ascending=False)

Unnamed: 0,feature,coeficientes
2,midparentHeight,10458570000000.0
3,gender,-0.1324463
0,father,-5229286000000.0
1,mother,-5647629000000.0


In [None]:
modelo.intercept_

0.554812428497583

In [None]:
#Resultados dos modelos
#Train size 0.6 -> 0.5549619417047795
#Train size 0.4 -> 0.5580062387963236
#Train size 0.1 -> 0.554812428497583