In [70]:
import pandas as pd


train_file = '../../Data/Raw/titanic/train.csv'
test_file = '../../Data/Raw/titanic/test.csv'
save_file = '../../Data/Processed/titanic.parquet'

# Leitura dos Dados 

In [71]:
train = pd.read_csv(train_file)
test = pd.read_csv(test_file)

print('shape:', train.shape, test.shape)
print('columns:', train.columns, test.columns)

shape: (891, 12) (418, 11)
columns: Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object') Index(['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch',
       'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')


## Transformando o IdPassageiro em Index

In [72]:
train.set_index('PassengerId', inplace=True)
test.set_index('PassengerId', inplace=True)

## Concatenando as bases para preparação dos dados

In [73]:
data = pd.concat([train, test])

print('shape:', data.shape)
print('columns:', data.columns)

shape: (1309, 11)
columns: Index(['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket',
       'Fare', 'Cabin', 'Embarked'],
      dtype='object')


# Renomear colunas

In [74]:
data.columns

Index(['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket',
       'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [75]:
data.columns = ['Sobreviveu', 'Classe', 'Nome', 'Sexo', 'Idade', 
                'IrmaosCasal','PaisFilhos', 'Bilhete', 'Tarifa', 'Cabine', 'PortoEmbarque']

In [76]:
data.columns

Index(['Sobreviveu', 'Classe', 'Nome', 'Sexo', 'Idade', 'IrmaosCasal',
       'PaisFilhos', 'Bilhete', 'Tarifa', 'Cabine', 'PortoEmbarque'],
      dtype='object')

# Renomeando os dados da coluna Sexo

In [77]:
data['Sexo'] = data['Sexo'].replace({'male': 'Homem', 'female': 'Mulher'})

In [78]:
data.head()

Unnamed: 0_level_0,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosCasal,PaisFilhos,Bilhete,Tarifa,Cabine,PortoEmbarque
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0.0,3,"Braund, Mr. Owen Harris",Homem,22.0,1,0,A/5 21171,7.25,,S
2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Mulher,38.0,1,0,PC 17599,71.2833,C85,C
3,1.0,3,"Heikkinen, Miss. Laina",Mulher,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Mulher,35.0,1,0,113803,53.1,C123,S
5,0.0,3,"Allen, Mr. William Henry",Homem,35.0,0,0,373450,8.05,,S


# Verificar informações do DataFrame

In [79]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1309 entries, 1 to 1309
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Sobreviveu     891 non-null    float64
 1   Classe         1309 non-null   int64  
 2   Nome           1309 non-null   object 
 3   Sexo           1309 non-null   object 
 4   Idade          1046 non-null   float64
 5   IrmaosCasal    1309 non-null   int64  
 6   PaisFilhos     1309 non-null   int64  
 7   Bilhete        1309 non-null   object 
 8   Tarifa         1308 non-null   float64
 9   Cabine         295 non-null    object 
 10  PortoEmbarque  1307 non-null   object 
dtypes: float64(3), int64(3), object(5)
memory usage: 122.7+ KB


## Parâmetros Categóricos 
* ### Nominais
    - Sexo
    - PortoEmbarque
    - Sobreviveu

* ### Ordinais
    - Classe

## Parâmetros Numéricos
* ### Contínuas
    - Idade
    - Tarifa

* ### Discretas
    - PaisFilhos
    - IrmaosCasal

## Parâmetros Alfanuméricos
* Bilhete

# Resumo Estatístico de Campos Numéricos 

In [80]:
data.describe()

Unnamed: 0,Sobreviveu,Classe,Idade,IrmaosCasal,PaisFilhos,Tarifa
count,891.0,1309.0,1046.0,1309.0,1309.0,1308.0
mean,0.383838,2.294882,29.881138,0.498854,0.385027,33.295479
std,0.486592,0.837836,14.413493,1.041658,0.86556,51.758668
min,0.0,1.0,0.17,0.0,0.0,0.0
25%,0.0,2.0,21.0,0.0,0.0,7.8958
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,39.0,1.0,0.0,31.275
max,1.0,3.0,80.0,8.0,9.0,512.3292


Observando essa descrição das variáveis númericas podemos concluir que:

* Pelo menos 75% dos passageiros não viajaram com os ***PaisFilhos***
* Pelo menos 50% dos passageiros não viajaram com os ***IrmaosCasal***
* A ***Idade*** da pessoa mais velha no barco é muito distante dos 75% restantes.
* O valor da ***Tarifa*** mais alta difere muito dos 75% restantes.
* ***Sobreviveu*** é uma variável categórica com valores de 0 e 1.

# Resumo estatístico de campos Categóricos

In [81]:
data.describe(include='O')

Unnamed: 0,Nome,Sexo,Bilhete,Cabine,PortoEmbarque
count,1309,1309,1309,295,1307
unique,1307,2,929,186,3
top,"Kelly, Mr. James",Homem,CA. 2343,C23 C25 C27,S
freq,2,843,11,6,914


Observando essa descrição das variáveis categóricas podemos concluir que:

* A coluna ***Nome*** possui somente termos únicos.
* A coluna ***Sexo*** possui dois valores possíveis sendo *Homem* o que mais frequente.
* A coluna ***Bilhete*** tem uma taxa alta de ocorrências duplicadas.
* A coluna ***Cabine*** possui muitos valores faltantes.
* ***PortoEmbarque*** possui dois valores possíveis sendo *S* o que mais frequente.

# Verificar Valores Nulos

In [82]:
data.isnull().sum()

Sobreviveu        418
Classe              0
Nome                0
Sexo                0
Idade             263
IrmaosCasal         0
PaisFilhos          0
Bilhete             0
Tarifa              1
Cabine           1014
PortoEmbarque       2
dtype: int64

# Removendo Cabine

In [83]:
data.drop('Cabine', axis = 1, inplace = True)
data.isnull().sum()

Sobreviveu       418
Classe             0
Nome               0
Sexo               0
Idade            263
IrmaosCasal        0
PaisFilhos         0
Bilhete            0
Tarifa             1
PortoEmbarque      2
dtype: int64

## Preencher PortoEmbarque com a moda

In [84]:
data['PortoEmbarque'].fillna(data['PortoEmbarque'].mode()[0], inplace=True)
data.isnull().sum()

Sobreviveu       418
Classe             0
Nome               0
Sexo               0
Idade            263
IrmaosCasal        0
PaisFilhos         0
Bilhete            0
Tarifa             1
PortoEmbarque      0
dtype: int64

## Preencher Tarifa com a média

In [85]:
data['Tarifa'].fillna(data['Tarifa'].mean(), inplace=True)
data.isnull().sum()

Sobreviveu       418
Classe             0
Nome               0
Sexo               0
Idade            263
IrmaosCasal        0
PaisFilhos         0
Bilhete            0
Tarifa             0
PortoEmbarque      0
dtype: int64

## Preencher Idade com a média

In [86]:
data['Idade'].fillna(data['Idade'].mean(), inplace=True)
data.isnull().sum()

Sobreviveu       418
Classe             0
Nome               0
Sexo               0
Idade              0
IrmaosCasal        0
PaisFilhos         0
Bilhete            0
Tarifa             0
PortoEmbarque      0
dtype: int64

# Variável Alvo 

In [87]:
data.groupby('Sobreviveu').count()

Unnamed: 0_level_0,Classe,Nome,Sexo,Idade,IrmaosCasal,PaisFilhos,Bilhete,Tarifa,PortoEmbarque
Sobreviveu,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0.0,549,549,549,549,549,549,549,549,549
1.0,342,342,342,342,342,342,342,342,342


# Exportar Base de Dados 

In [88]:
data.to_parquet(save_file)