# titanic_limpeza.ipynb

Limpeza básica dos dados em um dataframe

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

df_titanic = sns.load_dataset("titanic")
df_titanic.to_csv("titanic.csv")
pd.set_option("display.max_rows", None)

In [None]:
df_titanic.info()

# isna pode ser entendido com "is not available?". Esse comando gera um novo dataframe onde as colunas são preenchidas apenas com True ou False. Se o registro no dataframe for nulo, o valor será True, senão, será False.
# O método sum() soma a quantidade de ocorrências de valores nulos em cada coluna.
df_titanic.isna()
df_titanic.isna().sum()

In [None]:
# Também podemos remover colunas no nosso dataset, caso elas não sejam utilizadas para alguma análise.

# O método drop retorna um novo dataframe sem as colunas que foram indicadas no parâmetro 'columns'.
df_titanic = df_titanic.drop(columns=['adult_male', 'who', 'alive', 'embark_town'])
df_titanic.head()

In [None]:
# Em muits datasets, temos que tratar a questão dos valores ausentes. Os métodos variam de acordo com o contexto dos dados.

# Para a coluna 'age' que não possuir valores, vamos preencher com a mediana.
# O método fillna (fill not available) preenche os valores nulos da coluna com o que for informado.
df_titanic['age'] = df_titanic['age'].fillna(df_titanic['age'].median())

# Para a coluna 'embarked' que não possuir valores, vamos preencher com a moda (a moda retorna uma série, usaremos a primeira posição dessa série).
df_titanic['embarked'] = df_titanic['embarked'].fillna(df_titanic['embarked'].mode()[0])

# Removendo a coluna 'deck'.
df_titanic = df_titanic.drop(columns=['deck'])

df_titanic.isna().sum()
df_titanic.info()

In [None]:
# As vezes, se faz necessário ajustar o tipo de dado de uma coluna no dataframe. Podemos fazer isso com o método astype.

df_titanic['pclass'] = df_titanic['pclass'].astype('category')
df_titanic.info()

In [None]:
# Caso seja necessário, podemos remover linhas duplicadas do nosso dataframe, com o comando drop_duplicates().

df_titanic.drop_duplicates()
df_titanic.info()

In [28]:
# Podemos segmentar os dados do dataframe em colunas

# Segmentamos os dados por idade:
bins = [0,12,18,60,100]
labels = ["Criança", "Adolescente", "Adulto", "Idoso"]
df_titanic['age_group'] = pd.cut(df_titanic['age'], bins=bins, labels=labels)
df_titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,alone,age_group
0,0,3,male,22.0,1,0,7.25,S,Third,False,Adulto
1,1,1,female,38.0,1,0,71.2833,C,First,False,Adulto
2,1,3,female,26.0,0,0,7.925,S,Third,True,Adulto
3,1,1,female,35.0,1,0,53.1,S,First,False,Adulto
4,0,3,male,35.0,0,0,8.05,S,Third,True,Adulto
5,0,3,male,28.0,0,0,8.4583,Q,Third,True,Adulto
6,0,1,male,54.0,0,0,51.8625,S,First,True,Adulto
7,0,3,male,2.0,3,1,21.075,S,Third,False,Criança
8,1,3,female,27.0,0,2,11.1333,S,Third,False,Adulto
9,1,2,female,14.0,1,0,30.0708,C,Second,False,Adolescente
