<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Fundamentos de Aprendizado de Máquina
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)<br>
Aluno [Rafael Barbosa](https://www.linkedin.com/in/barbosa89/)

---

# **Tópicos**

<ol type="1">
  <li>Teoria;</li>
  <li>Atributos categóricos;</li>
  <li>Atributos numéricos;</li>
  <li>Dados faltantes.</li>
</ol>

---

# **Exercícios**

## 1\. Pinguins

Neste exercício, vamos utilizar uma base de dados com informações sobre penguins. A idéia é preparar a base de dados para prever a espécie do penguin (variável resposta) baseado em suas características físicas e geográficas (variáveis preditivas).

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

In [2]:
data = sns.load_dataset('penguins')

In [3]:
data.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


### **1.1. Valores nulos**

A base de dados possui valores faltantes, utilize os conceitos da aula para trata-los.

In [4]:
# resposta da questão 1.1

# Importando as bibliotecas necessárias
import seaborn as sns
import pandas as pd
import numpy as np

# Carregando a base de dados
df = sns.load_dataset('penguins')

# Tratando os valores faltantes
# Para a variável resposta, vamos descartar as linhas com valores faltantes
df = df.dropna(subset=['species'])

# Para atributos categóricos, vamos descartar as linhas com valores faltantes
df = df.dropna(subset=['sex', 'island'])

# Para atributos numéricos, vamos preencher os valores faltantes com a média
for col in ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']:
    df[col] = df[col].fillna(df[col].mean())

# Verificando e removendo dados redundantes
df = df.drop_duplicates()

# Tratando outliers
# Aqui, vamos considerar como outliers valores que estão 3 desvios padrão distante da média
for col in ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']:
    df = df[np.abs(df[col]-df[col].mean()) <= (3*df[col].std())]

df.head()
# Para o desbalanceamento dos dados, você pode usar a técnica de pesos na hora de treinar o modelo. Isso vai depender do algoritmo que você vai utilizar.


Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male


### **1.2. Variáveis numéricas**

Identifique as variáveis numéricas e crie uma nova coluna **padronizando** seus valores. A nova coluna deve ter o mesmo nome da coluna original acrescidade de "*_std*".

> **Nota**: Você não deve tratar a variável resposta.

In [6]:
# resposta da questão 1.2

# Identificando as colunas numéricas
num_cols = ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']

# Padronizando as colunas numéricas e criando novas colunas com os valores padronizados
for col in num_cols:
    media = df[col].mean()
    desvio_padrao = df[col].std()
    df[col + '_std'] = df[col].apply(lambda x: (x - media) / desvio_padrao)

df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,bill_length_mm_std,bill_depth_mm_std,flipper_length_mm_std,body_mass_g_std
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,-0.894695,0.779559,-1.424608,-0.567621
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,-0.821552,0.119404,-1.067867,-0.505525
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,-0.675264,0.424091,-0.425733,-1.188572
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,-1.333559,1.084246,-0.568429,-0.940192
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male,-0.858123,1.7444,-0.782474,-0.691811


### **1.3. Variáveis categóricas**

Identifique as variáveis categóricas nominais e ordinais, crie uma nova coluna aplicando a técnica correta de conversão a seus valores. A nova coluna deve ter o mesmo nome da coluna original acrescidade de "*_nom*" ou "*_ord*".

> **Nota**: Você não deve tratar a variável resposta.

In [7]:
# resposta da questão 1.3

# Identificando as colunas categóricas nominais
nom_cols = ['island', 'sex']

# Aplicando a técnica de conversão para as colunas nominais
for col in nom_cols:
    df[col + '_nom'] = df[col].astype('category').cat.codes

# Identificando as colunas categóricas ordinais
# Neste caso, vamos assumir que não temos nenhuma variável ordinal.
# Mas se tivéssemos, poderíamos fazer algo assim:
# ord_cols = ['ord_col_example']
# for col in ord_cols:
#     df[col + '_ord'] = df[col].map({'Low': 1, 'Medium': 2, 'High': 3})

df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,bill_length_mm_std,bill_depth_mm_std,flipper_length_mm_std,body_mass_g_std,island_nom,sex_nom
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,-0.894695,0.779559,-1.424608,-0.567621,2,1
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,-0.821552,0.119404,-1.067867,-0.505525,2,0
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,-0.675264,0.424091,-0.425733,-1.188572,2,0
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,-1.333559,1.084246,-0.568429,-0.940192,2,0
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male,-0.858123,1.7444,-0.782474,-0.691811,2,1


### **1.4. Limpeza**

Descarte as colunas originais e mantenha apenas a variável resposta e as variáveis preditivas com o sufixo *_std*", *_nom*" e "*_ord*".

In [8]:
# resposta da questão 1.4

# Criando uma lista com os nomes das colunas originais
original_cols = ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g', 'island', 'sex']

# Descartando as colunas originais
df = df.drop(columns=original_cols)
df.head()

Unnamed: 0,species,bill_length_mm_std,bill_depth_mm_std,flipper_length_mm_std,body_mass_g_std,island_nom,sex_nom
0,Adelie,-0.894695,0.779559,-1.424608,-0.567621,2,1
1,Adelie,-0.821552,0.119404,-1.067867,-0.505525,2,0
2,Adelie,-0.675264,0.424091,-0.425733,-1.188572,2,0
4,Adelie,-1.333559,1.084246,-0.568429,-0.940192,2,0
5,Adelie,-0.858123,1.7444,-0.782474,-0.691811,2,1


---