# Palmer Archipelago (Antarctica) penguin data

![](https://allisonhorst.github.io/palmerpenguins/reference/figures/lter_penguins.png)

In [171]:
import numpy as np 
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt

## Leitura do Dataset

In [172]:
#Leitura do dataset
penguins = pd.read_csv("../input/penguins/penguins_size.csv")
#Observar algumas linhas do dataset
penguins.head()

## Exploração dos dados

In [173]:
penguins.columns

* **species**: espécies de pinguins
* **culmen_length_mm**: comprimento do *culmen* em milímetros
* **culmen_depth_mm**: comprimento do *culmen* em milímetros
* **flipper_length_mm**: comprimento da barbatana em milímetros
* **body_mass_g**: massa corporal em gramas
* **island**: nome da ilha no Arquipélago Palmer (Antártica)
* **sex**: sexo do pinguim

![](https://pbs.twimg.com/media/EaAXQn8U4AAoKUj?format=jpg&name=4096x4096)



In [174]:
penguins.info()

É possível perceber que existem valores em falta no *dataset*.

In [175]:
penguins.describe()

A tabela acima apresenta valores como o nº de entradas, média, desvio padrão, etc., das colunas com valores numéricos.

Analisando os valores da coluna *culmen_length_mm*, conclui-se que existem 342 entradas, que a média do comprimento dos bicos dos pinguins da amostra é ~43.92mm, tem um desvio médio de ~5.46mm, que o valor mínimo e máximo medidos são, respetivamente, 32.1mm e 59.6mm. Assim como os valores dos percentis 25, 50 e 70. 


### Verificação da existência de valores em falta

In [176]:
#Verificar quais colunas têm valores em falta
penguins.isna().any()

In [177]:
sns.heatmap(penguins.isnull(), yticklabels=False, cbar=False, cmap='viridis')

O gráfico acima permite visualisar em que *features* existem dados em falta no *dataset*.

In [178]:
#Verificar quantos valores em falta existem
penguins.isna().sum()

Podemos verificar que nas colunas *culmen_length_mm*, *culmen_depth_mm*, *flipper_length_mm*, *body_mass_g* têm 2 valores em falta, enquanto a coluna *sex* tem 10.

In [179]:
penguins.isna().sum()

In [180]:
penguins.head()

### Valores únicos

Verificação dos valores únicos para as *features* categóricas.

In [181]:
print(penguins['species'].unique())
print(penguins['island'].unique())
print(penguins['sex'].unique())

* Existem 3 espécies de pinguins: **Adelie**, **Chinstrap** e **Gentoo**
* Existem 2 ilhas no Arquipélago: **Torgersen**, **Biscoe** e **Dream**

### Groupby

In [182]:
penguins.groupby(by="species").mean()

Na tabela acima podemos ver os valores médios das 4 colunas com valores númericos, para cada espécie de pinguim.

In [183]:
penguins.groupby(by=['island','species']).mean()

Verificamos que:
* a espécie Gentoo apenas existe na ilha Biscoe;
* a espécie Chinstrap apenas existe na ilha Dream;
* a espécie Adelie está presente em todas as ilhas.

In [184]:
sns.set_style('whitegrid')
label = 'species'
ax = sns.countplot(x=label, data = penguins)
for p in ax.patches: ax.annotate('{:.1f}'.format(p.get_height()), (p.get_x()+0.25, p.get_height()+0.01))
plt.show()

Verificamos que existem muitos menos pinguins Chinstrap do que pinguins das outras espécies

In [185]:
sns.set_style('whitegrid')
label = 'sex'
ax = sns.countplot(x=label, data = penguins)
for p in ax.patches: ax.annotate('{:.1f}'.format(p.get_height()), (p.get_x()+0.25, p.get_height()+0.01))
plt.show()

Verificamos que a quantidade de pinguins do sexo masculino e feminimo está equilibrada.

## Distribuição estatística

* ### culmen_length_mm

In [186]:
sns.histplot(penguins['culmen_length_mm'], kde=True)

In [187]:
print("Skewness: %f" % penguins['culmen_length_mm'].skew())
print("Kurtosis: %f" % penguins['culmen_length_mm'].kurt())

* ### culmen_depth_mm

In [188]:
sns.histplot(penguins['culmen_depth_mm'], kde=True)

In [189]:
print("Skewness: %f" % penguins['culmen_depth_mm'].skew())
print("Kurtosis: %f" % penguins['culmen_depth_mm'].kurt())

* ### flipper_length_mm

In [190]:
sns.histplot(penguins['flipper_length_mm'], kde=True)

In [191]:
print("Skewness: %f" % penguins['flipper_length_mm'].skew())
print("Kurtosis: %f" % penguins['flipper_length_mm'].kurt())

* ### body_mass_g

In [192]:
sns.histplot(penguins['body_mass_g'], kde=True)

In [193]:
print("Skewness: %f" % penguins['body_mass_g'].skew())
print("Kurtosis: %f" % penguins['body_mass_g'].kurt())

## Outliers

* ### culmen_length_mm

In [194]:
sns.boxplot(x=penguins['culmen_length_mm'])

In [195]:
sns.boxplot(x=penguins['culmen_length_mm'], y=penguins["species"])

Apesar de na *boxplot* da *culmen_length_mm* global não existirem outliers, verificamos que, fazendo um *boxplot* desta *feature* para cada espécie, **existe um outlier nos pinguins da espécie Gentoo**.

* ### culmen_depth_mm

In [196]:
sns.boxplot(x=penguins['culmen_depth_mm'])

In [197]:
sns.boxplot(x=penguins['culmen_depth_mm'], y=penguins['species'])

Apesar de na *boxplot* da *culmen_depth_mm* global não existirem outliers, verificamos que, fazendo um *boxplot* desta *feature* para cada espécie, **existe um outlier nos pinguins da espécie Adelie**.

* ### flipper_length_mm

In [198]:
sns.boxplot(x=penguins['flipper_length_mm'])

In [199]:
sns.boxplot(x=penguins['flipper_length_mm'], y=penguins['species'])

Apesar de na *boxplot* da *flipper_length_mm* global não existirem outliers, verificamos que, fazendo um *boxplot* desta *feature* para cada espécie, **existem dois outliers nos pinguins da espécie Adelie**.

* ### body_mass_g

In [200]:
sns.boxplot(x=penguins['body_mass_g'])

In [201]:
sns.boxplot(x=penguins['body_mass_g'], y=penguins['species'])

Apesar de na *boxplot* da *body_mass_g* global não existirem outliers, verificamos que, fazendo um *boxplot* desta *feature* para cada espécie, **existem dois outliers nos pinguins da espécie Chinstrap**.

### Scatter plots

In [202]:
sns.pairplot(penguins, hue='species')

Nalguns dos gráficos, como por exemplo no que **x='culmen_depth_mm' e y='body_mass_g'**, vemos que **os valores das espécies Adelie e Chinstrap são muito semelhantes**.

No entanto existem gráficos, como o em que **x='culmen_length_mm' e y='body_mass_g'**, em que verificamos que **existe alguma distinção dos valores para as várias espécies de pinguins**.

### Matriz de correlação

In [203]:
corr_matrix = penguins.corr()
f, ax = plt.subplots(figsize=(8,6))
sns.heatmap(corr_matrix,vmin=-1,vmax=1,square=True,annot=True)

Como podemos ver analisando a matriz de correlação, **existem 2 atributos, 'flipper_length_mm' e 'body_mass_g', que apresentam correlação elevada.** Ou seja, com o aumento da massa corporal do pinguim, observa-se que o comprimento das suas *flippers*

## Preparação dos dados

### Tratamento dos valores em falta

In [205]:
#Preencher os missing values com a média da espécie a que pertence

penguins['culmen_length_mm'] = penguins['culmen_length_mm'].fillna(penguins.groupby('species')['culmen_length_mm'].transform('mean'))

penguins['culmen_depth_mm'] = penguins['culmen_depth_mm'].fillna(penguins.groupby('species')['culmen_depth_mm'].transform('mean'))

penguins['flipper_length_mm'] = penguins['flipper_length_mm'].fillna(penguins.groupby('species')['flipper_length_mm'].transform('mean'))

penguins['body_mass_g'] = penguins['body_mass_g'].fillna(penguins.groupby('species')['body_mass_g'].transform('mean'))

penguins["sex"]=penguins["sex"].fillna(method='bfill')


Decidimos preencher os valores em falta das colunas numéricas com a média da espécie a que o pinguim pertence.

Para a coluna 'sex' utilizamos o método bfill para preencher os valores em falta.



Reparamos também que existia uma linha cujo valor na coluna 'sex' era ".", por isso alteramos esse valor para "MALE".

In [206]:
penguins.loc[penguins['sex'] == "."]

In [207]:
#apagar a entrada que no atributo 'sex' tem "."
penguins.loc[penguins["sex"] == ".", ["sex"]] = "MALE"

In [208]:
penguins.loc[penguins["sex"] == "."]

### *One-hot encoding*

In [209]:
one_hot_sex = pd.get_dummies(penguins['sex'])
one_hot_species = pd.get_dummies(penguins['species'])
one_hot_island = pd.get_dummies(penguins['island'])

penguins = pd.concat([penguins,one_hot_sex,one_hot_species,one_hot_island], axis=1)
penguins.head()

In [210]:
penguins = penguins.drop(columns=['sex','species','island','MALE'])


In [211]:
penguins.head()