# **Transforma√ß√£o nos dados**

**Conjunto de dados**:

Dra. Isabela Mendes √© biol√≥ga especialista em observar pinguins nas regi√µes polares e percebeu que existem 3 tipos de pinguins, sendo poss√≠vel identificar com algumas caracter√≠sticas.

Essa identifica√ß√£o √© importante para compreender suas popula√ß√µes, comportamentos e os impactos. Por√©m, essa tarefa torna-se desafiadora quando √© realizada individualmente consumindo muito tempo, muitas vezes requerendo a an√°lise minuciosa.

Determinada a superar esses obst√°culos ela acredita que a ci√™ncia de dados pode ajudar na identifica√ß√£o autom√°tica dos pinguins.

**Fonte dos dados:** [Pinguins Palmer](https://github.com/mwaskom/seaborn-data/blob/master/penguins.csv)

**Roteiro**

üî∑ Remover dados

üî∑ Realizar filtragens

üî∑ Aplicar tipos de filtragem (condi√ß√µes,min e m√°x)

üî∑ Ordenar dados

*   Ascendente
*   Descendente

üî∑ Agregar dados


*   Somar
*   M√©dia
*   Contagem

# **Importa√ß√µes**

In [None]:
import pandas as pd
# from numpy import mean

# **Carregando dados**

In [None]:
df = pd.read_csv('pinguins_processado.csv',sep=';')

# **Removendo dados**

In [None]:
# Removendo linhas
df2 = df.drop([0,1,3],axis=0)

In [None]:
# Removendo colunas
df2 = df.drop(['island','sex'],axis=1)

# **Filtragens**

*Filtragem de dados refere-se ao processo de selecionar e exibir apenas os dados que atendem a certos crit√©rios ou condi√ß√µes espec√≠ficas.*

In [None]:
df.sample(5)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
70,ADELIE,TORGERSEN,40.9,16.8,191.0,3700.0,FEMALE
52,ADELIE,BISCOE,36.5,16.6,181.0,2850.0,FEMALE
201,CHINSTRAP,DREAM,52.2,18.8,197.0,3450.0,MALE
43,ADELIE,DREAM,42.3,21.2,191.0,4150.0,MALE
133,ADELIE,DREAM,39.7,17.9,193.0,4250.0,MALE


In [None]:
# Selecionando as 50 primeiras linhas
fifty_rows = df[0:15]

In [None]:
# Selecionado as 3 primeiras colunas
three_columns = df.iloc[0:5,0:3]

In [None]:
# Filtrando por condi√ß√µes usando consultas
## Selecionando apenas pinguins apenas do sexo masculino
male = df.query('sex == "MALE"')

## Selecinando pinguins do sexo masculino e da esp√©cie ADELIE
adelie_male = df.query('sex == "MALE" and species == "ADELIE"')

## Selecionando pinguins do sexo masculino, esp√©cie ADELIE e com o comprimento do bico acima de 40 mm
adelie_male_bill = df.query('sex == "MALE" and species == "ADELIE" and bill_length_mm > 40')

In [None]:
# Filtando por condi√ß√µes usando o dataframe
## Selecionando apenas pinguins apenas do sexo masculino
male = df[df.sex == "MALE"]

## Selecinando pinguins do sexo masculino e da esp√©cie ADELIE
adelie_male = df[(df.sex == "MALE") & (df.species == "ADELIE")]

## Selecionando pinguins do sexo masculino, esp√©cie ADELIE e com o comprimento do bico acima de 40 mm
adelie_male_bill = df[(df.sex == "MALE") & (df.species == "ADELIE") & (df.bill_length_mm > 40)]

# **Orderna√ß√£o**

*Ordena√ß√£o de dados refere-se ao processo de organizar um conjunto de informa√ß√µes em uma sequ√™ncia espec√≠fica com base em crit√©rios espec√≠ficos.*

In [None]:
# Ordenando de forma ascendente os textos
df.species.sort_values(ascending=True)

In [None]:
# Ordenando de forma descendente os textos
df.species.sort_values(ascending=False)

In [None]:
# Ordenando de forma ascendente os n√∫meros
df.bill_length_mm.sort_values(ascending=True)

In [None]:
# Ordenando de forma descendente os n√∫meros
df.bill_length_mm.sort_values(ascending=False)

In [None]:
# Ordenando por mais colunas
sorted_data = df.sort_values(by=['sex','species','island'], ascending=True)

# **Agrega√ß√£o de dados**

*A agrega√ß√£o de dados √© um processo no qual m√∫ltiplos valores individuais s√£o combinados para formar um √∫nico valor representativo.*

In [None]:
# Contando os valores por coluna textual
df.species.value_counts()

In [None]:
# Contando os valores por coluna num√©rica
df.bill_length_mm.value_counts()

In [None]:
# Agrupando utilizando groupby e fazendo a contagem
df.groupby('species').species.count()

In [None]:
# Agrupando utilizando groupby, separando por sexo e fazendo a contagem
df.groupby(['species','sex']).sex.count()

In [None]:
# Agrupando e calculando a m√©dia do comprimento do bico
df.groupby(['species','sex']).bill_length_mm.agg('median')

In [None]:
# Agrupando utilizando groupby e calculando min, max e m√©dia
df.drop(['island', 'sex'],axis=1).groupby('species').agg(column=['bill_length_mm','bill_depth_mm','flipper_length_mm','body_mass_g'], func=['min','max','mean'])