<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Aprendizado de Máquina, Regressão
**Exercícios**<br> 

---

# **Tópicos**

<ol type="1">
  <li>Regressão;</li>
  <li>Dados;</li>
  <li>Treino;</li>
  <li>Avaliação;</li>
  <li>Predição.</li>
</ol>

---

# **Exercícios**

## 1\. Pinguins 

Neste exercício, vamos utilizar uma base de dados com informações sobre penguins. A idéia é prever o peso do penguin (**body_mass_g**) baseado em suas características físicas e geográficas (variáveis preditivas).

In [1]:
#importação das bibliotecas necessárias
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [2]:
#Aqui, estamos criando (ou instanciando) um objeto da classe LinearRegression.
model = LinearRegression()

In [3]:
#carregando o dataset penguins através do seaborn
penguim = sns.load_dataset('penguins')

In [None]:
penguim.info()

### **1.1. Análise exploratória** 

Utilize os gráficos abaixo para entender melhor a relação entre os atributos e variável resposta da base de dados. Comente o que observou em cada gráfico.

 - Atributos por sexo:

In [None]:
with sns.axes_style('whitegrid'):

  grafico = sns.pairplot(data=penguim, hue="sex", palette="pastel")

**Comentário:** 

Conforme enunciado, o peso do pinguim é a variável resposta. Então, em relação ao sexo, verificamos pelo gráfico acima que existe uma correlação entre o tamanho do bico em milímetros (bill_length_mm) e o peso do pinguim em gramas (body_mass_g). Pinguins fêmeas com bico mais curto têm um peso menor, enquanto que os pinguins machos possuem um comprimento maior do bico e, consequentemente, um maior peso. Assim como os pinguins machos possuem um maior comprimento das nadadeiras em milímetros(flipper_length_mm).

 - Atributos por espécie:

In [None]:
with sns.axes_style('whitegrid'):

  grafico = sns.pairplot(data=penguim, hue="species", palette="pastel")

**Comentário:** 

Em relação à espécie, pinguins da espécie Adelie têm um comprimento do bico menor em milímetros (até aproximadamente 45 mm) e um menor peso. Os da espécie Gentoo possuem um comprimento de bico entre 43 a 60 mm e são os mais pesados das espécies em estudo, seguidos pelos da espécie Chinstrap. Em relação à altura do bico, os Adelie possuem uma curvatura maior e os Gentoo possuem uma curvatura menor. Já quanto às nadadeiras, os Gentoo também possuem as maiores no grupo.

 - Atributos por ilha:

In [None]:
with sns.axes_style('whitegrid'):

  grafico = sns.pairplot(data=penguim, hue="island", palette="pastel")

**Comentário:** 

Quanto à localidade, os pinguins da ilha Biscoe são os mais pesados, possuindo um maior comprimento e uma menor curvatura do bico e nadadeiras maiores. Os mais leves são os localizados nas ilhas Torgersen, na Antártida.

## 2\. Dados 

### **2.1. Valores nulos** 

A base de dados possui valores faltantes, utilize os conceitos da aula para trata-los.

In [8]:
#conforme verificamos acima ao digitarmos penguim.info(),
#as únicas colunas que não possuem valores nulos são as de
#species(espécies) e island(ilhas), que são valores categóricos.
#vamos excluir as linhas com valores NaN, utilizando o mesmo DataFrame

penguim = penguim.dropna()

In [None]:
#notamos que antes tinham 344 linhas e agora só 333 não-nulas.
penguim.info()

### **2.2. Variáveis numéricas** 

Identifique as variáveis numéricas e crie uma nova coluna **padronizando** seus valores. A nova coluna deve ter o mesmo nome da coluna original acrescida de "*_std*".

> **Nota**: Você não deve tratar a variável resposta.

In [None]:
#variáveis numéricas identificadas, excluindo a variável resposta
colunas_padronizadas = ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm']

#criando colunas padronizadas com o mesmo nome + '_std'
for coluna in colunas_padronizadas:
    penguim[f"{coluna}_std"] = (penguim[coluna] - penguim[coluna].mean()) / penguim[coluna].std()

print(penguim.info())

### **2.3. Variáveis categóricas** 

Identifique as variáveis categóricas nominais e ordinais, crie uma nova coluna aplicando a técnica correta de conversão a seus valores. A nova coluna deve ter o mesmo nome da coluna original acrescidade de "*_nom*" ou "*_ord*".

> **Nota**: Você não deve tratar a variável resposta.

Para lidar com variáveis categóricas (nominais), uma abordagem comum é codificar essas variáveis em representações numéricas que podem ser usadas em modelos de machine learning. Isso pode ser feito usando one-hot encoding ou label encoding, dependendo da necessidade.

In [None]:
# usando a tecnica de codificacao chamada 'one hot encoding'.
penguim['sex_m_nom'] = penguim['sex'].apply(lambda sex: 1 if sex == 'Male' else 0)
penguim['sex_f_nom'] = penguim['sex'].apply(lambda sex: 1 if sex == 'Female' else 0)

In [None]:
# tratando os dados da coluna "Island"
penguim["island"].drop_duplicates()

In [None]:
# tratando os dados da coluna "Species"
penguim["species"].drop_duplicates()

In [None]:
penguim["species_adelie"] = penguim["species"].apply(lambda especie: 1 if especie == "Adelie" else 0)
penguim["species_chinstrap"] = penguim["species"].apply(lambda especie: 1 if especie == "Chinstrap" else 0)
penguim["species_gentoo"] = penguim["species"].apply(lambda especie: 1 if especie == "Gentoo" else 0)

In [None]:
penguim["island_torgesen"] = penguim["island"].apply(lambda ilha: 1 if ilha == "Torgersen" else 0)
penguim["island_biscoe"] = penguim["island"].apply(lambda ilha: 1 if ilha == "Biscoe" else 0)
penguim["island_dream"] = penguim["island"].apply(lambda ilha: 1 if ilha == "Dream" else 0)

### **2.4. Limpeza** 

Descarte as colunas originais e mantenha apenas a variável resposta e as variáveis preditivas com o sufixo *_std*", *_nom*" e "*_ord*". 

In [43]:
data = penguim.drop(["island","bill_length_mm", "bill_depth_mm", "flipper_length_mm", "species", "sex"], axis=1)

In [None]:
data.head()

### **2.5. Treino/Teste** 

Separe a base de dados em treino e teste utilizando uma proporção de 2/3 para treino e 1/3 para testes. 

In [None]:
from sklearn.model_selection import train_test_split
predictors_train, predictors_test, target_train, target_test = train_test_split(
    data.drop(['body_mass_g'], axis=1),
    data['body_mass_g'],
    test_size=0.25,
    random_state=123
)

## Variáveis preditoras (predictors)

In [None]:
predictors_train.head()

In [None]:
predictors_train.shape

In [None]:
predictors_test.head()

In [None]:
predictors_test.shape

## Variável resposta (target)

In [None]:
target_train.head()

In [None]:
target_train.shape

In [None]:
target_test.head()

In [None]:
target_test.shape

## 3\. Modelagem 

### **3.1. Treino** 

Treine um modelo de **regressão linear** com os **dados de treino** (2/3).

### Peso predito

In [27]:
model = model.fit(predictors_train, target_train)

In [28]:
target_predicted = model.predict(predictors_test)

In [None]:
target_predicted[0:5]

In [None]:
target_predicted.shape

### Peso teste

In [None]:
target_test[0:5]

In [None]:
target_test.shape

### **3.2. Avaliação** 

Calcule o **RMSE** para o modelo de **regressão linear** treinado com os **dados de teste** (1/3).

In [None]:
rmse = np.sqrt(mean_squared_error(target_test, target_predicted))
print(rmse)

## 4\. Predição  

### **4.1. Novo penguim** 

Qual o peso de um penguim com as seguintes características:


| species	| island | bill_length_mm | bill_depth_mm | flipper_length_mm | sex |
| --- | --- | --- | --- | --- | --- |
| Adelie | Biscoe | 38.2 | 18.1 | 185.0 | Male |

> **Atenção:** Lembre-se de pre-processar os atributos assim como nos exercício 2.2 e 2.3

> **Nota:** Como referência eu obtive um peso predito de 3786.16g (a sua predição pode não ser igual).

In [34]:
#carregando os dados originais novamente para tratá-los
penguim = sns.load_dataset('penguins')
#excluindo valores nulos
penguim.dropna(inplace=True)
#excluindo a variável resposta
penguim.drop(columns=['body_mass_g'], inplace=True)

In [35]:
#carregando um novo DataFrame com os dados fornecidos
penguim_predicao = {
    'species': ['Adelie'],
    'island': ['Biscoe'],
    'bill_length_mm': [38.2],
    'bill_depth_mm': [18.1],
    'flipper_length_mm': [185],
    'sex': ['Male']
}
#fazendo uma concatenação entre o DataFrame original e o novo DataFrame
penguim_predict = pd.DataFrame(penguim_predicao)
penguim = pd.concat([penguim_predict, penguim], ignore_index=True)

#### Após executar até o código acima, repetir os códigos executados nos itens 2.2, 2.3 e 2.4 e depois executar o código abaixo

In [None]:
#predição
penguim_mass = model.predict(data)
print(penguim_mass)

---