# **Limpeza e pré-processamento**

**Conjunto de dados**:

Dra. Isabela Mendes é biológa especialista em observar pinguins nas regiões polares e percebeu que existem 3 tipos de pinguins, sendo possível identificar com algumas características.

Essa identificação é importante para compreender suas populações, comportamentos e os impactos. Porém, essa tarefa torna-se desafiadora quando é realizada individualmente consumindo muito tempo, muitas vezes requerendo a análise minuciosa.

Determinada a superar esses obstáculos ela acredita que a ciência de dados pode ajudar na identificação automática dos pinguins.

**Fonte dos dados:** [Pinguins Palmer](https://github.com/mwaskom/seaborn-data/blob/master/penguins.csv)

**Roteiro**

🔷 Realizar importações

🔷 Carregar dados

🔷 Verificar qualidade dos dados

🔷 Limpar dados

🔷 Salvar conjunto processado  


# **Importações**

In [None]:
import pandas as pd

# **Carregando dados**

In [None]:
df = pd.read_csv('/content/penguins.csv',sep=',')

In [None]:
# Exibindo as primeiras linhas
df.head(3)

In [None]:
# Exibindo as últimas linhas
df.tail(3)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,MALE
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,FEMALE
343,Gentoo,Biscoe,49.9,16.1,213.0,5400.0,MALE


In [None]:
# Exibindo linhas aleatórias
df.sample(3)

In [None]:
# Exibindo informações básicas dos dados
df.info()

# **Qualidade dos dados**

## **Valores constantes**

*São valores que permanecem inalterados ao longo de um conjunto de dados ou de um programa.*

In [None]:
df.species.value_counts()

Adelie       152
Gentoo       124
Chinstrap     68
Name: species, dtype: int64

In [None]:
df.island.value_counts()

Biscoe       168
Dream        124
Torgersen     52
Name: island, dtype: int64

In [None]:
df.bill_length_mm.value_counts()

41.1    7
45.2    6
39.6    5
50.5    5
50.0    5
       ..
35.6    1
36.8    1
43.1    1
38.5    1
49.9    1
Name: bill_length_mm, Length: 164, dtype: int64

In [None]:
df.sex.value_counts()

MALE      168
FEMALE    165
Name: sex, dtype: int64

## **Alta cardinalidade**

A alta cardinalidade de um conjunto de dados significa que essa coluna possui muitos valores únicos em relação ao número total de entradas.


**Base de cálculo**
$$c = \frac{x}{y}$$

sendo:


*   *c*: alta cardinalidade
*   *x*: total de valores únicos
*   *y*: total de valores

In [None]:
# Calculando o total de valores únicos
x = len(df.species.unique())

# Calculando o total de valores
y = len(df.species)

# Calculando alta cardinalidade
c = x / y

# Limiar da alta cardinalidade
threshold = 0.8

# Conferindo se a coluna possui alta cardinalidade
if c > threshold:
  print('APRESENTA ALTA CARDINALIDADE')
else:
  print('NÃO APRESENTA ALTA CARDINALIDADE')

## **Colunas desbalanceadas**

*Referem-se a colunas que possuem uma distribuição desigual de valores entre suas categorias ou classes.*

**Base de cálculo**
$$d = \frac{min}{max}$$

sendo:


*   *d*: desbalaceada
*   *min*: frequência mínima
*   *max*: frequência máxima


In [None]:
df.species.value_counts().max()

152

In [None]:
# Calculando a frequência mínima
min = df.species.value_counts().min()

# Calculando a frequência mínima
max = df.species.value_counts().max()

# Calculando o desbalanceamento
d = min / max

# Limiar do desbalanceamento
threshold_d = 0.5

# Conferindo o balaceamento da coluna
if d < threshold_d:
  print('DESBALANCEADA')
else:
  print('BALANCEADA')

DESBALANCEADA


## **Valores ausentes**

*Também conhecidos como valores faltantes ou dados em falta, referem-se a entradas vazias ou ausentes em um conjunto de dados. Essas entradas são representadas por espaços em branco, marcadores especiais (como "NaN" - Not a Number), ou outros indicadores, dependendo do formato do conjunto de dados e da linguagem de programação ou ferramentas de análise utilizadas.*

In [None]:
# Identificando valores ausentes
df.isna().sum()

## **Valores zeros**

*São as características que apresentam valores zeros*

In [None]:
# Calculando o total de valores
total_values = len(df.bill_depth_mm)

# Calculando os valores zeros
zero_count = (df.bill_depth_mm == 0).sum()

# Calculando proporção dos valores zeros
zero_ratio = zero_count / total_values

# Identificando se apresenta muitos valores zeros
threshold_zero = 0.5

if  zero_ratio > threshold_zero:
  print('APRESENTA MUITOS VALORES 0')
else:
  print('NÃO APRESENTA MUITOS VALORES 0')

NÃO APRESENTA MUITOS VALORES 0


# **Limpeza nos dados**

In [None]:
# Removendo todos os valores ausentes
df = df.dropna()

In [None]:
# Padronizando nomes das colunas
df.species = [x.upper() for x in df.species]
df.island = [x.upper() for x in df.island]
df.sex = [x.upper() for x in df.sex]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.species = [x.upper() for x in df.species]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.island = [x.upper() for x in df.island]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.sex = [x.upper() for x in df.sex]


# **Salvando conjunto de dados processado**

In [None]:
df.to_csv('pinguins_processado.csv',sep=';',index=False)