In [1]:
import numpy as np #a. Numpy as np
import pandas as pd #b. Pandas as pd
import matplotlib.pyplot as plt #c. Matplotlib.pyplot
import seaborn as sns #d. seaborne as sns
%matplotlib inline
np.random.seed(0) #f. Configurar o random seed para 0 (np.random.seed(0))

#Importar os arquivos “kaggle/input/titanic/test.csv” e “kaggle/input/titanic/train.csv”
titanic_data = pd.read_csv('/kaggle/input/titanic/train.csv')
test_data = pd.read_csv('/kaggle/input/titanic/test.csv')

# Data Cleaning

**1. Análise inicial:**

In [2]:
#a. Quais as colunas do banco de dados de teste e de treino
print(titanic_data.columns)
print(test_data.columns)

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
Index(['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch',
       'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')


In [3]:
#b. Qual o tipo de dado de cada coluna nos dataframes de teste e de treino
print(titanic_data.dtypes)
print(test_data.dtypes)

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object
PassengerId      int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object


In [4]:
#c. Qual a quantidade de valores nulos (NaN) em cada feature
print(pd.isnull(titanic_data).sum())
print(pd.isnull(test_data).sum())

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64
PassengerId      0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64


In [5]:
#d. Realizar um cópia do banco de dados de teste e de treino para que se possa fazer a manipulação sem perder informações
titanic_data_clean = titanic_data.copy()
test_data_clean = test_data.copy()

**2. Para lidar com valores nulos, podemos preencher estes valores de alguma forma ou descartar a informação. Neste item utilizaremos algumas estratégias para tal.**

In [6]:
#a. A feature “Cabin” contém muitos valores nulos e, assim como “Ticket”, não fornece informações relevantes ao modelo à primeira vista. Então pode-se retirá-las.
titanic_data_clean = titanic_data_clean.drop(['Cabin','Ticket'], axis=1)
test_data_clean = test_data_clean.drop(['Cabin','Ticket'], axis=1)
#b. A coluna “Age” também contém muitos valores nulos, mas dessa vez iremos preenchê-los. Utilizar a mediana dos valores de idade para isso, é uma boa estratégia inicial.
titanic_data_clean['Age'].fillna(titanic_data_clean['Age'].median(), inplace = True)
test_data_clean['Age'].fillna(test_data_clean['Age'].median(), inplace = True)
#c. A feature “Fare” contém poucos valores nulos, e pode ser útil para análises futuras. Pode-se preenchê-la com a mesma estratégia que “Age”, já que ambas são contínuas.
titanic_data_clean['Fare'].fillna(titanic_data_clean['Fare'].median(), inplace = True)
test_data_clean['Fare'].fillna(test_data_clean['Fare'].median(), inplace = True)
#d. Em “Embarked” também tem-se pouca ocorrência de valores nulos, e como é uma feature categórica, preencher com a moda parece menos impactante na construção do modelo.
titanic_data_clean['Embarked'].fillna(titanic_data_clean['Embarked'].mode()[0], inplace = True)
test_data_clean['Embarked'].fillna(test_data_clean['Embarked'].mode()[0], inplace = True)

print(pd.isnull(titanic_data_clean).sum())
print(pd.isnull(test_data_clean).sum())

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Fare           0
Embarked       0
dtype: int64
PassengerId    0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Fare           0
Embarked       0
dtype: int64


**3. Para as Features contínuas será útil a criação de grupos para facilitar a análise. Dois métodos do pandas são úteis para esta tarefa, pd.cut e pd.qcut, também é útil visitar esta referência para uma melhor entendimento destes métodos.**

In [7]:
#a. Criar Feature que separe a Feature “Age” em 5 intervalos de mesma extensão.
titanic_data_clean['AgeBin'] = pd.cut(titanic_data_clean['Age'].astype(int), 5)
test_data_clean['AgeBin'] = pd.cut(test_data_clean['Age'].astype(int), 5)
#b. Criar Feature que separe “Fare” em 6 intervalos que contenham o mesmo número de dados (Não precisam ter a mesma extensão).
titanic_data_clean['FareBin'] = pd.qcut(titanic_data_clean['Fare'], 6)
test_data_clean['FareBin'] = pd.qcut(test_data_clean['Fare'], 6)

# Aperfeiçoamento da modelagem

**1. Será necessário realizar o encoding das variáveis categóricas, no momento, 3 estratégias que serão utilizadas são o one-hot, label encoding e ordinal encoding. Para fazer isso será necessário relembrar quais são as features categóricas, definir a estratégia que será utilizada, criar as features codificadas e retirar as categóricas:**

In [8]:
# acho que nao precisa dos nomes tbm
titanic_data_clean = titanic_data_clean.drop(['Name','Fare','Age'], axis=1)
test_data_clean = test_data_clean.drop(['Name','Fare','Age'], axis=1)

#a. Utilizar o método “.info( )” para relembrar quais são as features categóricas.
titanic_data_clean.info()

#b. Utilizar o método “.select_dtypes” para identificar o nome das colunas numéricas e categóricas, 
#   para numéricas identifique formatos “int64” e “float64”, para categóricas identifique “Object”.
titanic_data_clean.select_dtypes(["category", "object"])

#c. Temos algumas features categóricas que contém uma ordem clara, ou seja, existe o primeiro valor, 
#   segundo valor, terceiro valor, assim por diante, já em outras, isso não acontece.
#    i. Para as features que possuem ordem, o label encoder é mais indicado como primeira abordagem.
#    ii. Para features sem ordem definida, one-hot encoding pode ser a melho opção.


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  891 non-null    int64   
 1   Survived     891 non-null    int64   
 2   Pclass       891 non-null    int64   
 3   Sex          891 non-null    object  
 4   SibSp        891 non-null    int64   
 5   Parch        891 non-null    int64   
 6   Embarked     891 non-null    object  
 7   AgeBin       891 non-null    category
 8   FareBin      891 non-null    category
dtypes: category(2), int64(5), object(2)
memory usage: 51.1+ KB


Unnamed: 0,Sex,Embarked,AgeBin,FareBin
0,male,S,"(16.0, 32.0]","(-0.001, 7.775]"
1,female,C,"(32.0, 48.0]","(52.369, 512.329]"
2,female,S,"(16.0, 32.0]","(7.775, 8.662]"
3,female,S,"(32.0, 48.0]","(52.369, 512.329]"
4,male,S,"(32.0, 48.0]","(7.775, 8.662]"
...,...,...,...,...
886,male,S,"(16.0, 32.0]","(8.662, 14.454]"
887,female,S,"(16.0, 32.0]","(26.0, 52.369]"
888,female,S,"(16.0, 32.0]","(14.454, 26.0]"
889,male,C,"(16.0, 32.0]","(26.0, 52.369]"


In [9]:
#d. Criar uma função que realize o one-hot encode e, como saída, retorna um novo dataframe com as 
#   colunas que resultam da codificação, devidamente nomeadas, ao invés das features categóricas:
#    i. Os argumentos deverão ser: o dataframe que será manipulado e as colunas que serão codificadas.
#   ii. Realizar uma cópia do banco de dados que foi dado como argumento.
#  iii. Criar um loop que realize o encoding das colunas presentes no argumento da função, as features 
#       resultantes devem conter o nome do valor que representam (OBS: utilizar o método 
#       “.get_feature_names”).
#   iv. Ainda dentro do loop, retirar do dataframe copiado as features categóricas e mesclar as 
#       features criadas pelo one-hot encoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder

def one_hot_encode(df, columns=[]):
    df_encoded = df.copy()
    OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)
    OH_cols = pd.DataFrame(OH_encoder.fit_transform(df_encoded[columns]))
    OH_cols.columns = OH_encoder.get_feature_names()
    
    # One-hot encoding removed index; put it back
    OH_cols.index = df_encoded.index
    
    # Remove categorical columns (will replace with one-hot encoding)
    df_encoded = df_encoded.drop(columns, axis=1)
    
    # Add one-hot encoded columns to numerical features
    df_encoded = pd.concat([df_encoded, OH_cols], axis=1)
    return df_encoded

#e. Criar novas features para realizar o label encoding das features que contém um ordenamento claro, 
#   e depois retirar as features categóricas que foram codificadas.
titanic_data_encoded = one_hot_encode(titanic_data_clean, ["Sex","Embarked"])
test_data_encoded = one_hot_encode(test_data_clean, ["Sex","Embarked"])


labelencoder = LabelEncoder()
titanic_data_encoded["AgeBin"] = labelencoder.fit_transform(titanic_data_clean["AgeBin"])
titanic_data_encoded["FareBin"] = labelencoder.fit_transform(titanic_data_clean["FareBin"])

test_data_encoded["AgeBin"] = labelencoder.fit_transform(test_data_clean["AgeBin"])
test_data_encoded["FareBin"] = labelencoder.fit_transform(test_data_clean["FareBin"])

titanic_data_encoded.head()

Unnamed: 0,PassengerId,Survived,Pclass,SibSp,Parch,AgeBin,FareBin,x0_female,x0_male,x1_C,x1_Q,x1_S
0,1,0,3,1,0,1,0,0.0,1.0,0.0,0.0,1.0
1,2,1,1,1,0,2,5,1.0,0.0,1.0,0.0,0.0
2,3,1,3,0,0,1,1,1.0,0.0,0.0,0.0,1.0
3,4,1,1,1,0,2,5,1.0,0.0,0.0,0.0,1.0
4,5,0,3,0,0,2,1,0.0,1.0,0.0,0.0,1.0


**3. Gerar predição, salvar a versão e submeter à competição**

In [10]:
from sklearn.ensemble import RandomForestClassifier
#a. Treinar novamente o modelo, utilizando o banco de dados completo
X = titanic_data_encoded.copy()
y = X.pop("Survived")

randomforest = RandomForestClassifier()
randomforest.fit(X, y)

#b. Salvar o índice do banco de dados de teste
ids = test_data_encoded['PassengerId']

#c. Gerar uma predição a partir do modelo, sendo a entrar o banco de dados de teste, sem seu índice
predictions = randomforest.predict(test_data_encoded)

#d. Criar um dataframe com o pandas que contenha: os mesmos índices do banco de dados de teste, as predições realizadas (OBS: Olhar arquivo modelo "gender_submission.csv")
output = pd.DataFrame({ 'PassengerId' : ids, 'Survived': predictions })

#e. Transformar este dataframe em um arquivo csv utilizando pandas
output.to_csv('submission.csv', index=False)

#f. Salvar a versão clicando em “Save Version”, selecionar a versão que foi salva e submeter à competição