<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Fundamentos de Aprendizado de Máquina
Caderno de **Exercícios**<br> 
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Teoria;</li>
  <li>Atributos categóricos;</li>
  <li>Atributos numéricos;</li>
  <li>Dados faltantes.</li>
</ol>

---

# **Exercícios**

## 1\. Pinguins 

Neste exercício, vamos utilizar uma base de dados com informações sobre penguins. A idéia é preparar a base de dados para prever a espécie do penguin (variável resposta) baseado em suas características físicas e geográficas (variáveis preditivas).

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

In [2]:
data = sns.load_dataset('penguins')

In [3]:
data.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [4]:
data.shape

(344, 7)

In [5]:
traducao = ({
    "species": "especies",
    "island": "ilha",
    "bill_length_mm": "comprimento_bico_mm",
    "bill_depth_mm": "profundidade_bico_mm",
    "flipper_length_mm": "comprimento_nadadeira_mm",
    "body_mass_g": "massa_corporal_g",
    "sex": "sexo"
})

In [6]:
data.rename(columns=traducao, inplace=True)

In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   especies                  344 non-null    object 
 1   ilha                      344 non-null    object 
 2   comprimento_bico_mm       342 non-null    float64
 3   profundidade_bico_mm      342 non-null    float64
 4   comprimento_nadadeira_mm  342 non-null    float64
 5   massa_corporal_g          342 non-null    float64
 6   sexo                      333 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB


In [8]:
print(data.isnull().sum())

especies                     0
ilha                         0
comprimento_bico_mm          2
profundidade_bico_mm         2
comprimento_nadadeira_mm     2
massa_corporal_g             2
sexo                        11
dtype: int64


### **1.1. Valores nulos** 

A base de dados possui valores faltantes, utilize os conceitos da aula para trata-los.

In [9]:
# Preenchendo os valores ausentes dos atributos categóricos e Numéricos
'''
Optei por não remover os valores, mesmo sendo poucos.
Preenchi os atributos numéricos baseado em acordo com a média de cada coluna.
E o atributo categórico da coluna "sexo", preenchi com a moda, os valores mais frequentes.
'''

data["comprimento_bico_mm"].fillna(data["comprimento_bico_mm"].mean(), inplace=True)
data["profundidade_bico_mm"].fillna(data["profundidade_bico_mm"].mean(), inplace=True)
data["comprimento_nadadeira_mm"].fillna(data["comprimento_nadadeira_mm"].mean(), inplace=True)
data["massa_corporal_g"].fillna(data["massa_corporal_g"].mean(), inplace=True)
data["sexo"].fillna(data["sexo"].mode()[0], inplace=True) # Preenchendo a coluna "sexo" com a Moda, os valores mais frequentes


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data["comprimento_bico_mm"].fillna(data["comprimento_bico_mm"].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data["profundidade_bico_mm"].fillna(data["profundidade_bico_mm"].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method 

In [10]:
# Checando a quantidade de valores na coluna 'sexo'
contagem_sexos = data["sexo"].value_counts()
contagem_sexos.head()

sexo
Male      179
Female    165
Name: count, dtype: int64

In [11]:
data.head(10)

Unnamed: 0,especies,ilha,comprimento_bico_mm,profundidade_bico_mm,comprimento_nadadeira_mm,massa_corporal_g,sexo
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,43.92193,17.15117,200.915205,4201.754386,Male
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male
6,Adelie,Torgersen,38.9,17.8,181.0,3625.0,Female
7,Adelie,Torgersen,39.2,19.6,195.0,4675.0,Male
8,Adelie,Torgersen,34.1,18.1,193.0,3475.0,Male
9,Adelie,Torgersen,42.0,20.2,190.0,4250.0,Male


### **1.2. Variáveis numéricas** 

Identifique as variáveis numéricas e crie uma nova coluna **padronizando** seus valores. A nova coluna deve ter o mesmo nome da coluna original acrescidade de "*_std*".

> **Nota**: Você não deve tratar a variável resposta.

In [12]:
# Verificando as variáveis numéricas
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   especies                  344 non-null    object 
 1   ilha                      344 non-null    object 
 2   comprimento_bico_mm       344 non-null    float64
 3   profundidade_bico_mm      344 non-null    float64
 4   comprimento_nadadeira_mm  344 non-null    float64
 5   massa_corporal_g          344 non-null    float64
 6   sexo                      344 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB


In [13]:
# Padronizando os valores
'''
Criando uma lista com as variáveis numéricas e fazendo o loop de cada coluna
O loop calcula a média e o desvio padrão, e depois utiliza a padronização, 
calculando todas as linhas da coluna menos a média e dividindo pelo desvio padrão.
Além de ter criado uma variável para acrescentar o "_std", conforme solicitado.
'''
colunas = ["comprimento_bico_mm", "profundidade_bico_mm", "comprimento_nadadeira_mm", "massa_corporal_g"]
for coluna in colunas:
    media = data[coluna].mean()
    desvio_padrao = data[coluna].std()
    nome_coluna_padronizada = coluna + "_std"
    data[nome_coluna_padronizada] = data[coluna].apply(lambda nota: (nota - media) / desvio_padrao)

    '''print(f"Média de {coluna}: {media}")
    print(f"Desvio Padrão de {coluna}: {desvio_padrao}")
    print()'''

In [14]:
# Checando a padronização
# Dúvidas: Na primeira vez que atualizei após padronizar, apenas as 5 primeiras linhas retornaram, o resto os valores estavam todos ausentes.
# Gostaria de uma orientação por que acontece isso e só consegui após limpar os outputs e executar todos novamente.
data.head()

Unnamed: 0,especies,ilha,comprimento_bico_mm,profundidade_bico_mm,comprimento_nadadeira_mm,massa_corporal_g,sexo,comprimento_bico_mm_std,profundidade_bico_mm_std,comprimento_nadadeira_mm_std,massa_corporal_g_std
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,-0.8857909,0.7865967,-1.420419,-0.564966
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,-0.8123107,0.1263722,-1.063802,-0.502436
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,-0.6653503,0.4310912,-0.421892,-1.190269
3,Adelie,Torgersen,43.92193,17.15117,200.915205,4201.754386,Male,-1.305271e-15,1.804299e-15,0.0,0.0
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,-1.326672,1.091316,-0.564539,-0.940148


### **1.3. Variáveis categóricas** 

Identifique as variáveis categóricas nominais e ordinais, crie uma nova coluna aplicando a técnica correta de conversão a seus valores. A nova coluna deve ter o mesmo nome da coluna original acrescidade de "*_nom*" ou "*_ord*".

> **Nota**: Você não deve tratar a variável resposta.

In [15]:
# Verificando as variáveis categóricas
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 11 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   especies                      344 non-null    object 
 1   ilha                          344 non-null    object 
 2   comprimento_bico_mm           344 non-null    float64
 3   profundidade_bico_mm          344 non-null    float64
 4   comprimento_nadadeira_mm      344 non-null    float64
 5   massa_corporal_g              344 non-null    float64
 6   sexo                          344 non-null    object 
 7   comprimento_bico_mm_std       344 non-null    float64
 8   profundidade_bico_mm_std      344 non-null    float64
 9   comprimento_nadadeira_mm_std  344 non-null    float64
 10  massa_corporal_g_std          344 non-null    float64
dtypes: float64(8), object(3)
memory usage: 29.7+ KB


In [16]:
# As 3 variáveis categóricas acredito que sejam nominais
esp = data["especies"].value_counts()
print(esp)
il = data["ilha"].value_counts()
print(il)
sex = data["sexo"].value_counts()
print(sex)

especies
Adelie       152
Gentoo       124
Chinstrap     68
Name: count, dtype: int64
ilha
Biscoe       168
Dream        124
Torgersen     52
Name: count, dtype: int64
sexo
Male      179
Female    165
Name: count, dtype: int64


In [17]:
# Criando um dicionário para mapear os nomes das espécies para os rótulos numéricos desejados
mapeamento_especies = {"Adelie": 1, "Gentoo": 2, "Chinstrap": 3}
# Aplicando a função de mapeamento utilizando o método map do Pandas
data["especies_nom"] = data["especies"].map(mapeamento_especies)


# Criando um dicionário para mapear os nomes das ilhas para os rótulos numéricos desejados
mapeamento_ilhas = {"Biscoe": 1, "Dream": 2, "Torgersen": 3}
# Aplicando a função de mapeamento utilizando o método map do Pandas
data["ilha_nom"] = data["ilha"].map(mapeamento_ilhas)

# Criando um dicionário para mapear os nomes dos sexos para os rótulos numéricos desejados
mapeamento_sexos = {"Male": 1, "Female": 0}
# Aplicando a função de mapeamento utilizando o método map do Pandas
data["sexo_nom"] = data["sexo"].map(mapeamento_sexos)

In [18]:
# Verificando aleatoriamente os resultados de cada coluna transformada
data.sample(5)

Unnamed: 0,especies,ilha,comprimento_bico_mm,profundidade_bico_mm,comprimento_nadadeira_mm,massa_corporal_g,sexo,comprimento_bico_mm_std,profundidade_bico_mm_std,comprimento_nadadeira_mm_std,massa_corporal_g_std,especies_nom,ilha_nom,sexo_nom
328,Gentoo,Biscoe,43.3,14.0,208.0,4575.0,Female,-0.114249,-1.600369,0.505311,0.466783,2,1,0
285,Gentoo,Biscoe,49.8,16.8,230.0,5700.0,Male,1.079804,-0.178347,2.074424,1.873713,2,1,1
287,Gentoo,Biscoe,49.5,16.2,229.0,5800.0,Male,1.024694,-0.483066,2.003101,1.998774,2,1,1
211,Chinstrap,Dream,45.6,19.4,194.0,3525.0,Female,0.308262,1.142102,-0.493215,-0.846352,3,2,0
231,Gentoo,Biscoe,49.0,16.1,216.0,5550.0,Male,0.932844,-0.533852,1.075898,1.686123,2,1,1


### **1.4. Limpeza** 

Descarte as colunas originais e mantenha apenas a variável resposta e as variáveis preditivas com o sufixo *_std*", *_nom*" e "*_ord*". 

In [19]:
# Removendo as colunas categóricas originais
remocao_colunas = ["especies", "ilha", "sexo"]
data.drop(remocao_colunas, axis=1, inplace=True)

In [20]:
data.head()

Unnamed: 0,comprimento_bico_mm,profundidade_bico_mm,comprimento_nadadeira_mm,massa_corporal_g,comprimento_bico_mm_std,profundidade_bico_mm_std,comprimento_nadadeira_mm_std,massa_corporal_g_std,especies_nom,ilha_nom,sexo_nom
0,39.1,18.7,181.0,3750.0,-0.8857909,0.7865967,-1.420419,-0.564966,1,3,1
1,39.5,17.4,186.0,3800.0,-0.8123107,0.1263722,-1.063802,-0.502436,1,3,0
2,40.3,18.0,195.0,3250.0,-0.6653503,0.4310912,-0.421892,-1.190269,1,3,0
3,43.92193,17.15117,200.915205,4201.754386,-1.305271e-15,1.804299e-15,0.0,0.0,1,3,1
4,36.7,19.3,193.0,3450.0,-1.326672,1.091316,-0.564539,-0.940148,1,3,0


---