# titanic_limpeza.ipynb

Limpeza básica dos dados em um dataframe

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

df = sns.load_dataset("titanic")
df.to_csv("titanic.csv")
pd.set_option("display.max_rows", None)

In [None]:
# df.info()
# isna pode ser entendido como "is not available?". Esse comando gera um novo dataframe onde as colunas são preenchidas apenas com True ou False. Se o registro no dataframe for nulo, o valor será True, senão, será False.
# O método sum() soma a quantidade de ocorrências de valores nulos em cada coluna.
df.isna().sum()

In [None]:
# Também podemos remover colunas no nosso dataset, caso elas não sejam utilizadas para alguma análise

# O método drop retorna um novo dataframe sem as colunas que foram indicadas no parâmetro 'columns'
df = df.drop(columns=['adult_male', 'who', 'alive', 'embark_town'])
df.head()

In [None]:
# Em muitos datasets, temos que tratar a questão dos valores ausentes. Os métodos variam de acordo com o contexto dos dados.

# Para a coluna 'age' que não possuir valores, vamor preencher com a mediana
# O método fillna (fill not available) preenche os valores nulos da coluna com o que for informado.
df['age'] = df['age'].fillna(df['age'].median())

# Na linha abaixo, os valores ausentes da coluna 'embarked' serão preenchidos com a moda da coluna.
# O método mode() sempre retorna um array, por isso estamos pegando o primeiro item (índice 0)
df['embarked'] = df['embarked'].fillna(df['embarked'].mode()[0])

df = df.drop(columns=['deck'])

df.isna().sum()
df.info()

In [None]:
# As vezes, se faz necessário ajustar o tipo de dado de uma coluna no dataframe. Podemos fazer isso com o método astype

df['pclass'] = df['pclass'].astype('category')

In [None]:
# Caso seja necessário, podemos remover linhas duplicadas do nosso dataframe, com o comando drop_duplicates()

df.drop_duplicates()
df.info()

In [None]:
# Podemos segmentar os dados do dataframe em colunas

# Segmentamos os dados por idade
bins = [0, 12, 18, 60, 100]
labels = ["Criança", "Adolescente", "Adulto", "Idoso"]
df['age_group'] = pd.cut(df['age'], bins=bins, labels=labels)
df