In [1]:

# 1. IMPORTAR BIBLIOTECAS

import pandas as pd


# 2. CARREGAR O DATASET

df = pd.read_csv("titanic.csv")
print("Dataset carregado com sucesso!")
df.head()


Dataset carregado com sucesso!


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [2]:
# 3. ANÁLISE INICIAL DO DATASET

print("\nInformações gerais:")
print(df.info())

print("\nValores ausentes por coluna:")
print(df.isna().sum())

print("\nDuplicatas:", df.duplicated().sum())



Informações gerais:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    object 
 4   Age          332 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         417 non-null    float64
 9   Cabin        91 non-null     object 
 10  Embarked     418 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 36.1+ KB
None

Valores ausentes por coluna:
PassengerId      0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64

Duplica

In [3]:
# 4. TRATAMENTO DE VALORES AUSENTES

# ---- Coluna AGE: preencher com a mediana (porque tem outliers)
df['Age'] = df['Age'].fillna(df['Age'].median())

# ---- Coluna EMBARKED: preencher com o valor mais frequente (moda)
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0])

# ---- Coluna CABIN: muitos dados faltando (≈77% vazio)
# Estratégia comum: manter só se o passageiro possui cabine ou não
df['Cabin'] = df['Cabin'].notna().astype(int)
# 1 = tinha cabine, 0 = não tinha cabine

print("Valores ausentes tratados!")
df.isna().sum()


Valores ausentes tratados!


PassengerId    0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           1
Cabin          0
Embarked       0
dtype: int64

In [10]:
# 5. PADRONIZAÇÃO DE DADOS (CORRIGIDO)

# ---- Garantir que SEX é string
df['Sex'] = df['Sex'].astype(str).str.lower().str.strip()

# Mapear valores para 0 e 1
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})

# Se aparecer algo fora do padrão, preencher com -1
df['Sex'] = df['Sex'].fillna(-1)

# ---- Padronizar EMBARKED
df['Embarked'] = df['Embarked'].astype(str).str.upper().str.strip()
df['Embarked'] = df['Embarked'].map({'S': 0, 'C': 1, 'Q': 2})

# Caso tenha algum valor inesperado
df['Embarked'] = df['Embarked'].fillna(-1)

print("Padronização concluída!")
df.head()



Padronização concluída!


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",-1.0,34.5,0,0,330911,7.8292,0,-1.0
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",-1.0,47.0,1,0,363272,7.0,0,-1.0
2,894,2,"Myles, Mr. Thomas Francis",-1.0,62.0,0,0,240276,9.6875,0,-1.0
3,895,3,"Wirz, Mr. Albert",-1.0,27.0,0,0,315154,8.6625,0,-1.0
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",-1.0,22.0,1,1,3101298,12.2875,0,-1.0


In [8]:
# 6. REMOVER DUPLICATAS (SE EXISTIREM)

df = df.drop_duplicates()
print("Duplicatas removidas com sucesso!")


Duplicatas removidas com sucesso!


In [9]:
# 7. RESUMO FINAL

print("\nDataset final após limpeza:")
print(df.info())

print("\nPrimeiras linhas:")
df.head()



Dataset final após limpeza:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    float64
 4   Age          418 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         417 non-null    float64
 9   Cabin        418 non-null    int64  
 10  Embarked     418 non-null    float64
dtypes: float64(4), int64(5), object(2)
memory usage: 36.1+ KB
None

Primeiras linhas:


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",-1.0,34.5,0,0,330911,7.8292,0,-1.0
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",-1.0,47.0,1,0,363272,7.0,0,-1.0
2,894,2,"Myles, Mr. Thomas Francis",-1.0,62.0,0,0,240276,9.6875,0,-1.0
3,895,3,"Wirz, Mr. Albert",-1.0,27.0,0,0,315154,8.6625,0,-1.0
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",-1.0,22.0,1,1,3101298,12.2875,0,-1.0


JUSTIFICATIVAS
1. Carregamento e análise inicial:
Utilizei df.info(), df.isna().sum() e df.duplicated().sum() para entender a qualidade dos dados.
Isso revelou valores ausentes principalmente em Age, Cabin e Embarked.
2. Tratamento de valores ausentes
✔ Age — preenchida com a mediana
A coluna possui muitos valores extremos (outliers).
A mediana é mais robusta do que a média.
✔ Embarked — preenchida com a moda
A maior parte dos passageiros embarcou pela categoria “S”,
então usar a moda evita distorções.
✔ Cabin — convertida para “possui cabine (1) / não possui (0)”
77% dos valores em Cabin estão vazios → impossível imputar corretamente.
Transformei em uma variável binária indicando se o passageiro tinha cabine.
3. Padronização
✔ Sex → convertido para 0 (masculino) e 1 (feminino)
Facilita análises e criação de modelos.
✔ Embarked → convertido para números (S=0, C=1, Q=2)
Padronização de categorias para uso em machine learning.
4. Remoção de duplicatas
Garante que a análise não fique enviesada por repetições.
