<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Aprendizado de Máquina, Regressão
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Regressão;</li>
  <li>Dados;</li>
  <li>Treino;</li>
  <li>Avaliação;</li>
  <li>Predição.</li>
</ol>

---

# **Exercícios**

## 1\. Pinguins

Neste exercício, vamos utilizar uma base de dados com informações sobre penguins. A idéia é prever o peso do penguin (**body_mass_g**) baseado em suas características físicas e geográficas (variáveis preditivas).

In [27]:
import sklearn
import numpy as np
import pandas as pd
import seaborn as sns


from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error



In [28]:
model = LinearRegression()

In [2]:
penguim = sns.load_dataset('penguins')

In [3]:
penguim.head(n=1)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male


### **1.1. Analise exploratoria**

Utilize os gráficos abaixo para entender melhor a relação entre os atributos e variável resposta da base de dados. Comente o que observou em cada gráfico.

 - Atributos por sexo:

In [None]:
with sns.axes_style('whitegrid'):

  grafico = sns.pairplot(data=penguim, hue="sex", palette="pastel")

**Comentário:** ?

Sobre o peso as femas levpesadas que os machos e que por sua vez ha mais femas do que machos.
Os machos posuem nadadeiras maior apesar de serem mais leves, chegam a profundades maiores.
Alem de serem mais compridos ou altos na maiorias dos casos.

 - Atributos por espécie:

In [None]:
with sns.axes_style('whitegrid'):

  grafico = sns.pairplot(data=penguim, hue="species", palette="pastel")

**Comentário:** ?
Observando do pontos de vista das especies,
os Gentoo sao os maiores e mais pesados.

 - Atributos por ilha:

In [None]:
with sns.axes_style('whitegrid'):

  grafico = sns.pairplot(data=penguim, hue="island", palette="pastel")

**Comentário:** ?
Do ponto de vista das ilhas, a ilha Biscoe se destaca
com os pinguins mais pesados, a media dos peso deles e de 5kg
os que chegam mais fundo, e com as maiores nadadeiras.




anotações :
length = Comprimento
Depth  = profundidade
flipper length = comprimento da nadadeira.

## 2\. Dados

### **2.1. Valores nulos**

A base de dados possui valores faltantes, utilize os conceitos da aula para trata-los.

In [None]:
# resposta da questão 2.1
# verificar se á dados faltantes
dados_faltantes_total = penguim.isnull().any()
print( dados_faltantes_total)


In [5]:
# Para lidar com dados faltantes uma das opções e descarta as linha onde
# há dados faltantes.
penguim_df_limp = penguim.dropna()

In [None]:
#penguim_df_limp.head(n=10)

dt_teste = penguim_df_limp.isnull().any()
print(dt_teste)

### **2.2. Variáveis numéricas**

Identifique as variáveis numéricas e crie uma nova coluna **padronizando** seus valores. A nova coluna deve ter o mesmo nome da coluna original acrescidade de "*_std*".

> **Nota**: Você não deve tratar a variável resposta.

In [None]:
# resposta da questão 2.2

# coletando o desvio padrão das variaveis numericas
#penguim_df_limp.head(n=1)

md_length = penguim_df_limp['bill_length_mm'].mean()
md_depth = penguim_df_limp['bill_depth_mm'].mean()
md_flipper = penguim_df_limp['flipper_length_mm'].mean()


dp_length = penguim_df_limp['bill_length_mm'].std()
dp_depth = penguim_df_limp['bill_depth_mm'].std()
dp_flipper = penguim_df_limp['flipper_length_mm'].std()



# Retornando as novas colunas padronizadas

# aplicando a  media e desvio padrõa

penguim_df_limp['bill_length_mm_std'] = penguim_df_limp['bill_length_mm'].apply(lambda mm : (mm - md_length) / dp_length)
penguim_df_limp['bill_depth_mm_std'] = penguim_df_limp['bill_depth_mm'].apply(lambda mm : (mm - md_depth) / dp_depth)
penguim_df_limp['flipper_length_mm_std'] = penguim_df_limp['flipper_length_mm'].apply(lambda mm : (mm - md_flipper) / dp_flipper)


### **2.3. Variáveis categóricas**

Identifique as variáveis categóricas nominais e ordinais, crie uma nova coluna aplicando a técnica correta de conversão a seus valores. A nova coluna deve ter o mesmo nome da coluna original acrescidade de "*_nom*" ou "*_ord*".

> **Nota**: Você não deve tratar a variável resposta.

In [None]:
penguim_df_limp.head(n=1)

In [None]:
# resposta da questão 2.3

# respota mais aceitavel para a coluna "island"
# nesse atividade não apresenta categoria ordinal

islanda_teste = pd.get_dummies(penguim_df_limp['island'])
islanda_teste.columns = [ str(col) + '_nrm'  for col in islanda_teste.columns]
#print(islanda_teste)



penguim_df_limp = pd.concat([penguim_df_limp,islanda_teste], axis=1)

# Repetir o processo com a coluna "sex"

sex_m = pd.get_dummies(penguim_df_limp['sex'])
sex_m.columns = [ str(col) + '_nrm'  for col in sex_m.columns]
#print(sex_m)



penguim_df_limp = pd.concat([penguim_df_limp,sex_m], axis=1)



# Repetindo o mesmo processo para a especie

especie_tst = pd.get_dummies(penguim_df_limp['species'])
especie_tst.columns = [str(col) + '_nrm' for col in especie_tst.columns]

penguim_df_limp = pd.concat([penguim_df_limp,especie_tst], axis=1)



In [None]:
penguim_df_limp.tail(n=1)

### **2.4. Limpeza**

Descarte as colunas originais e mantenha apenas a variável resposta e as variáveis preditivas com o sufixo *_std*", *_nom*" e "*_ord*".

In [12]:
# resposta da questão 2.4

penguim_df_limp = penguim_df_limp.drop(columns=['island','species','bill_length_mm','bill_depth_mm','flipper_length_mm','sex'],axis=1)

### **2.5. Treino/Teste**

Separe a base de dados em treino e teste utilizando uma proporção de 2/3 para treino e 1/3 para testes.

In [13]:
# resposta da questão 2.5

# criando um novo df para treinamento !
pg_df = penguim_df_limp  #.drop(columns='species')

In [62]:
pg_df.head(n=1)

Unnamed: 0,body_mass_g,bill_length_mm_std,bill_depth_mm_std,flipper_length_mm_std,Biscoe_nrm,Dream_nrm,Torgersen_nrm,Female_nrm,Male_nrm,Adelie_nrm,Chinstrap_nrm,Gentoo_nrm
0,3750.0,-0.894695,0.779559,-1.424608,0,0,1,0,1,1,0,0


In [63]:
# parte com problemas coluna especie

predictors_train, predictors_test, target_train, target_test = train_test_split(
    pg_df.drop(['body_mass_g'], axis=1),
    pg_df['body_mass_g'],
    test_size=0.20,
    random_state=123
)

## 3\. Modelagem

### **3.1. Treino**

Treine um modelo de **regressão linear** com os **dados de treino** (2/3).

In [29]:
# resposta da questão 3.1
model = model.fit(predictors_train,target_train)
#target_train.tail(n=1)

In [64]:
model_V2 = model.fit(predictors_train,target_train)

In [76]:
a  = model.coef_
print(a)

[ 122.71428534  151.67875009  232.32903934   17.54668263   41.01081444
  -58.55749707 -174.52228837  174.52228837 -218.67060933 -541.07086802
  759.74147735]


In [77]:
b = model.intercept_
print(b)

4118.35758157121


### **3.2. Avaliação**

Calcule o **RMSE** para o modelo de **regressão linear** treinado com os **dados de teste** (1/3).

> **Nota:** Como referência, eu consegui um RMSE de approx. 296g, 7% da média do peso, uma performance razoável (seu RMSE pode não ser igual).

In [71]:
# resposta da questão 3.2

target_predicted = model.predict(predictors_test)

In [68]:
target_test[0:5]

111    4600.0
158    3250.0
288    4700.0
308    4875.0
185    4100.0
Name: body_mass_g, dtype: float64

In [73]:
target_predicted[0:5]

array([4204.08703208, 3190.08386152, 4797.19572907, 4738.93884754,
       4109.70321325])

In [74]:
# resposta da questão 3.2
rmse = np.sqrt(mean_squared_error(target_test,target_predicted))

print(rmse)

306.25740713291646


## 4\. Predição  

### **4.1. Novo penguim**

Qual o peso de um penguim com as seguintes características:


| species	| island | bill_length_mm | bill_depth_mm | flipper_length_mm | sex |
| --- | --- | --- | --- | --- | --- |
| Adelie | Biscoe | 38.2 | 18.1 | 185.0 | Male |

> **Atenção:** Lembre-se de pre-processar os atributos assim como nos exercício 2.2 e 2.3

> **Nota:** Como referência eu obtive um peso predito de 3786.16g (a sua predição pode não ser igual).

In [58]:
# Criando array com o exemplo. padronizando os  valores numericos
# exemplo acima estruturado [38.2,18.1,185.0,1,0,0,0,1,1,0,0]

# EX =  ['body_mass','bill_length_mm_std','bill_depth_mm_std','flipper_length_mm_std','Biscoe_nrm','Dream_nrm','Torgersen_nrm','Female_nrm','Male_nrm','Adelie_nrm','Chinstrap_nrm','Gentoo_nrm']
vbill_length_std = (38.2 - md_length) / dp_length
vbill_deoth_std = (18.1 - md_depth) / dp_depth
vflippe_len_std = (185.0 - md_flipper)/ dp_flipper


ex = [vbill_length_std,vbill_deoth_std,vflippe_len_std,
      1, #biscoe
      0, #Dream
      0, #Torgesen
      0, #Femea
      1, #Macho
      1, #Adelia
      0, #Chinstrap
      0  #Gentoo
      ]

ex_array = np.array(ex)

In [59]:
#target_predicted[0:5]

print(ex_array)

[-1.05926936  0.47487218 -1.13921478  1.          0.          0.
  0.          1.          1.          0.          0.        ]


In [75]:
# resposta da questão 4.1

peso_pg = model.predict(ex_array.reshape(1,-1))


print(peso_pg)

[3769.12380439]




---