# **Transformação nos dados**

**Conjunto de dados**:

Dra. Isabela Mendes é biológa especialista em observar pinguins nas regiões polares e percebeu que existem 3 tipos de pinguins, sendo possível identificar com algumas características.

Essa identificação é importante para compreender suas populações, comportamentos e os impactos. Porém, essa tarefa torna-se desafiadora quando é realizada individualmente consumindo muito tempo, muitas vezes requerendo a análise minuciosa.

Determinada a superar esses obstáculos ela acredita que a ciência de dados pode ajudar na identificação automática dos pinguins.

**Fonte dos dados:** [Pinguins Palmer](https://github.com/mwaskom/seaborn-data/blob/master/penguins.csv)

**Roteiro**

🔷 Remover dados

🔷 Realizar filtragens

🔷 Aplicar tipos de filtragem (condições,min e máx)

🔷 Ordenar dados

*   Ascendente
*   Descendente

🔷 Agregar dados


*   Somar
*   Média
*   Contagem

# **Importações**

In [None]:
import pandas as pd
# from numpy import mean

# **Carregando dados**

In [None]:
df = pd.read_csv('pinguins_processado.csv',sep=';')

# **Removendo dados**

In [None]:
# Removendo linhas
df2 = df.drop([0,1,3],axis=0)

In [None]:
# Removendo colunas
df2 = df.drop(['island','sex'],axis=1)

# **Filtragens**

*Filtragem de dados refere-se ao processo de selecionar e exibir apenas os dados que atendem a certos critérios ou condições específicas.*

In [None]:
df.sample(5)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
70,ADELIE,TORGERSEN,40.9,16.8,191.0,3700.0,FEMALE
52,ADELIE,BISCOE,36.5,16.6,181.0,2850.0,FEMALE
201,CHINSTRAP,DREAM,52.2,18.8,197.0,3450.0,MALE
43,ADELIE,DREAM,42.3,21.2,191.0,4150.0,MALE
133,ADELIE,DREAM,39.7,17.9,193.0,4250.0,MALE


In [None]:
# Selecionando as 50 primeiras linhas
fifty_rows = df[0:15]

In [None]:
# Selecionado as 3 primeiras colunas
three_columns = df.iloc[0:5,0:3]

In [None]:
# Filtrando por condições usando consultas
## Selecionando apenas pinguins apenas do sexo masculino
male = df.query('sex == "MALE"')

## Selecinando pinguins do sexo masculino e da espécie ADELIE
adelie_male = df.query('sex == "MALE" and species == "ADELIE"')

## Selecionando pinguins do sexo masculino, espécie ADELIE e com o comprimento do bico acima de 40 mm
adelie_male_bill = df.query('sex == "MALE" and species == "ADELIE" and bill_length_mm > 40')

In [None]:
# Filtando por condições usando o dataframe
## Selecionando apenas pinguins apenas do sexo masculino
male = df[df.sex == "MALE"]

## Selecinando pinguins do sexo masculino e da espécie ADELIE
adelie_male = df[(df.sex == "MALE") & (df.species == "ADELIE")]

## Selecionando pinguins do sexo masculino, espécie ADELIE e com o comprimento do bico acima de 40 mm
adelie_male_bill = df[(df.sex == "MALE") & (df.species == "ADELIE") & (df.bill_length_mm > 40)]

# **Ordernação**

*Ordenação de dados refere-se ao processo de organizar um conjunto de informações em uma sequência específica com base em critérios específicos.*

In [None]:
# Ordenando de forma ascendente os textos
df.species.sort_values(ascending=True)

In [None]:
# Ordenando de forma descendente os textos
df.species.sort_values(ascending=False)

In [None]:
# Ordenando de forma ascendente os números
df.bill_length_mm.sort_values(ascending=True)

In [None]:
# Ordenando de forma descendente os números
df.bill_length_mm.sort_values(ascending=False)

In [None]:
# Ordenando por mais colunas
sorted_data = df.sort_values(by=['sex','species','island'], ascending=True)

# **Agregação de dados**

*A agregação de dados é um processo no qual múltiplos valores individuais são combinados para formar um único valor representativo.*

In [None]:
# Contando os valores por coluna textual
df.species.value_counts()

In [None]:
# Contando os valores por coluna numérica
df.bill_length_mm.value_counts()

In [None]:
# Agrupando utilizando groupby e fazendo a contagem
df.groupby('species').species.count()

In [None]:
# Agrupando utilizando groupby, separando por sexo e fazendo a contagem
df.groupby(['species','sex']).sex.count()

In [None]:
# Agrupando e calculando a média do comprimento do bico
df.groupby(['species','sex']).bill_length_mm.agg('median')

In [None]:
# Agrupando utilizando groupby e calculando min, max e média
df.drop(['island', 'sex'],axis=1).groupby('species').agg(column=['bill_length_mm','bill_depth_mm','flipper_length_mm','body_mass_g'], func=['min','max','mean'])