<a href="https://colab.research.google.com/github/hermannvargens/hermannvargens.github.io/blob/main/titanic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ÍNDICE

* **1 Resumo**
* **2 Coleta de dados**
* **3 Análise Exploratória dos Dados**
* **4 Pré-processamento dos dados**
* **5 Modelagem**
* **6 Predição no conjunto de testes**
* **7 Conclusão**
* **Apêndice A**

# 1 Resumo

Neste projeto, o utilizei o conhecido dataset do Titanic, obtido do [Kaggle](https://www.kaggle.com/competitions/titanic).    
Para construir os gráficos, empreguei o Altair.  
A modelagem foi realizada com o Random Forest Classifier.  
O modelo foi ainda melhorado com o GridSearchCV.  
Ao final, apresento um gráfico construído utilizando a interatividade do Altair, onde é possível visualizar todos os dados simultaneamente, aplicando filtros, para entender melhor o problema.

# 2 Coleta de dados

In [None]:
#Para cálculos e dataframe
import pandas as pd
import numpy as np

#Para criação de gráficos
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

#Para criação de gráficos
import altair as alt

#Para amostragem dos dados de treino e teste
from sklearn.model_selection import train_test_split

#Para substituir os valores ausentes
from sklearn.impute import SimpleImputer

#para transformar variáveis categóricas em numéricas
from sklearn.preprocessing import OneHotEncoder

#Para normalizar os dados

from sklearn.preprocessing import StandardScaler

#PAra criar pipelines
from sklearn.pipeline import Pipeline

#Para criar pipelines de pré-processamento

from sklearn.compose import ColumnTransformer

In [None]:
data = pd.read_csv(r'C:\Users\Hermann\Desktop\DS\Projetos\titanic\train.csv')
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


# 3 Análise Exploratória dos Dados

## 3.1 Descrição dos dados

* **PassengerId**: Número de identificação do passageiro
* **Survived**: Informa se o passageiro sobreviveu ao desastre
    * 0 = Não
    * 1 = Sim
* **Pclass**: Classe do bilhete
    * 1 = 1ª Classe
    * 2 = 2ª Classe
    * 3 = 3ª Classe
* **Name**: Nome do passageiro
* **Sex**: Sexo do passageiro
* **Age**: Idade do passageiro
* **SibSp**: Quantidade de cônjuges e irmãos a bordo
* **Parch**: Quantidade de pais e filhos a bordo
* **Ticket**: Número da passagem
* **Fare**: Preço da Passagem
* **Cabin**: Número da cabine do passageiro
* **Embarked**: Porto no qual o passageiro embarcou
C = Cherbourg
Q = Queenstown
S = Southampton

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:
data.describe(include='all')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
count,891.0,891.0,891.0,891,891,714.0,891.0,891.0,891.0,891.0,204,889
unique,,,,891,2,,,,681.0,,147,3
top,,,,"Braund, Mr. Owen Harris",male,,,,347082.0,,B96 B98,S
freq,,,,1,577,,,,7.0,,4,644
mean,446.0,0.383838,2.308642,,,29.699118,0.523008,0.381594,,32.204208,,
std,257.353842,0.486592,0.836071,,,14.526497,1.102743,0.806057,,49.693429,,
min,1.0,0.0,1.0,,,0.42,0.0,0.0,,0.0,,
25%,223.5,0.0,2.0,,,20.125,0.0,0.0,,7.9104,,
50%,446.0,0.0,3.0,,,28.0,0.0,0.0,,14.4542,,
75%,668.5,1.0,3.0,,,38.0,1.0,0.0,,31.0,,


## 3.2 Relação entre as features e a variável target

De início, tomarei como suposição que as features 'Cabin' e 'Ticket' não são relevantes, pois 'Cabin' irá mudar de acordo com a classe em que se encontra o passageiro, e será difícil imaginar de que forma o número do 'Ticket' influenciará na probabilidade de ser salvo.

### 3.2.1 Variável Target (Survived)

In [None]:
pie = alt.Chart(data['Survived'].value_counts().reset_index()).mark_arc(outerRadius=120,innerRadius=50).encode(
    theta=alt.Theta(field="Survived", type="quantitative"),
    color=alt.Color(field="index", type="nominal"))

text = pie.mark_text(radius=-180, size=20).encode(alt.Text("Survived"))

pie + text

**A proporção de sobreviventes é de 342 para 549, o que não indica desbalanceamento dos dados.**

### 3.2.2 Variáveis categóricas

#### Pclass

In [None]:
graf = alt.Chart(data)

In [None]:
graf.mark_bar(size=30).encode(
    x='Pclass:O',
    y='count(Pclass)',
    color='Survived:N'
    ).properties(width=200)


**A maioria das pessoas que morreu no desastre estavam na 3ª classe.  
A maioria das pessoas que sobreviveu ao desastre estavam na 1ª classe.**

#### Embarked

In [None]:
graf.mark_bar(size=30).encode(
    x='Embarked:N',
    y='count(Embarked)',
    color='Survived:N'
    ).properties(width=200)


**A maioria das pessoas a bordo do navio, embarcaram em Southampton.**  
Vemos também uma pequena quantidade de dados nulos na coluna.

#### Sex

In [None]:
graf.mark_bar(size=30).encode(
    x='Sex:N',
    y='count(Sex)',
    color='Survived:N'
    ).properties(width=200)

**Entre os homens, a maioria morreu, enquanto que entre as mulheres, a maioria viveu.**

**Além disso, vemos que, proporcionalmente, as mulheres se salvaram mais que os homens. Será as mulheres da 3ª classe tiveram a mesma chance?**

In [None]:
alt.Chart(data[data['Sex']=='female']).mark_bar(size=30).encode(
    x='Pclass:O',
    y='count(Pclass)',
    color='Survived:N'
    ).properties(width=200)

**Entre as mulheres, as que tiveram maior chance de se salvar estavam na 1ª e 2ª classes.**

### 3.2.3 Variáveis numéricas

#### Age

In [None]:
graf.mark_bar(size=30).encode(
    alt.X('Age:Q', 
          scale=alt.Scale(domain=(0,80)), 
          bin=alt.Bin(maxbins=10)),
    alt.Y('count(Age)'),
    #column='Survived:N',
    color='Survived:N'
    ).properties(width=600)

**Apenas os menores de 10 anos tiveram mais chance de ser salvos.  
Entre 25 e 35 anos, as chances de ser salvos foram muito próximas.**

#### SibSp

In [None]:
sibsp1 = alt.Chart(data[data.SibSp<2]).mark_bar(size=30).encode(
    alt.X('SibSp:O'
         ),
    alt.Y('count(SibSp)'
         ),
    color='Survived:N'
    ).properties(width=300)

sibsp2 = alt.Chart(data[data.SibSp>=2]).mark_bar(size=30).encode(
    alt.X('SibSp:O'
         ),
    alt.Y('count(SibSp)'
         ),
    color='Survived:N'
    ).properties(width=300)

sibsp1 | sibsp2

**Percebemos, visualmente, que quem tinha 1 ou 2 irmãos/cônjuge teve um pouco mais de chance de se salvar, ao passo que, quem tinham 3 ou mais, teve pouca chance.**

#### Parch

In [None]:
Parch1 = alt.Chart(data[data.Parch<3]).mark_bar(size=30).encode(
    alt.X('Parch:O'
         ),
    alt.Y('count(Parch)'
         ),
    color='Survived:N'
    ).properties(width=300)

Parch2 = alt.Chart(data[data.Parch>=3]).mark_bar(size=30).encode(
    alt.X('Parch:O'
         ),
    alt.Y('count(Parch)'
         ),
    color='Survived:N'
    ).properties(width=300)

Parch1 | Parch2

**É possível perceber que, proporcionalmente. quem tinha apenas 1 ou 3 (filhos e/ou pais) teve mais chance de se salvar do que quem estava sozinho ou os demais.**

#### Fare

In [None]:
graf.mark_bar(size=20).encode(
    alt.X('Fare:Q',
          scale=alt.Scale(domain=(0,500)), 
         ),
    alt.Y('count(Fare)'
         ),
    column='Survived:N',
    color='Survived:N'
    ).properties(width=400,
                height=300)

**De maneira geral, vemos que quanto maior a taxa, maior a probabilidade de ser salvo.**

# 4 Pré-processamento dos dados

## 4.1 Test/Train Split

In [None]:
df = data.copy()
df.drop(columns=['PassengerId','Ticket','Cabin', 'Name'], inplace=True)
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S


In [None]:
#Definindo as variáveis X e y

X = df.drop(columns=['Survived'])
y = df['Survived']

#Realizando o split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

## 4.1 Valores ausentes

## 4.3 Pipeline de pré-processamento

In [None]:
#Definindo o tipo de cada variável
ord_var = ['Pclass']
cat_var = ['Sex','Embarked']
num_var = ['Age','SibSp','Parch','Fare']

#Definindo o Pipeline de cada tipo de variável
ord_transf = Pipeline([
    ('imputer_ord', SimpleImputer(strategy='most_frequent'))
])

num_transf = Pipeline([
    ('imputer_num', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

cat_transf = Pipeline([
    ('imputer_cat', SimpleImputer(strategy='most_frequent')),
    ('encoder', OneHotEncoder())
])

#instanciando o preprocessador
preprocessor = ColumnTransformer([
    ('ord',ord_transf, ord_var),
    ('num', num_transf, num_var),
    ('cat', cat_transf, cat_var),
])

In [None]:
#ajustando o preprocessador
preprocessor.fit(X_train)

#transformando os dados de X
X_train = preprocessor.transform(X_train)

# 5 Modelagem

In [None]:
from sklearn.metrics import accuracy_score

## 5.4 Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

In [None]:
rfc = RandomForestClassifier()

In [None]:
parameters = {'random_state':[1,2,3,4,5,6,7,8,9,10],
             'max_features':['sqrt',2,4],
             'max_leaf_nodes':[2,4,6],
             'n_estimators':[50,100,150]
             }

In [None]:
#instanciando o modelo
model = GridSearchCV(rfc, parameters)

#treinando o modelo
model.fit(X_train, y_train)

#obtendo os melhores parâmetros para o modelo
model.best_params_

{'max_features': 4,
 'max_leaf_nodes': 6,
 'n_estimators': 150,
 'random_state': 1}

In [None]:
model.best_score_

0.8259037206841826

## 5.5 Predição nos dados de teste

In [None]:
#preparando o preprocessador para o dataset de testes
X_test=preprocessor.transform(X_test)

#calculando as previsões
y_pred = model.predict(X_test)

#calculando a acurácia
accuracy_score(y_pred,y_test)

0.803921568627451

# 6 Predição no conjunto de testes

In [None]:
data_test = pd.read_csv(r'C:\Users\Hermann\Desktop\DS\Projetos\titanic\test.csv')
data_test.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [None]:
X_test_ = data_test.copy()
X_test_.drop(columns=['PassengerId','Name','Ticket','Cabin'], inplace=True)

In [None]:
X_test_ = preprocessor.transform(X_test_)
X_test_[0:3]

array([[ 3.        ,  0.4025953 , -0.46406261, -0.46842687, -0.4623494 ,
         0.        ,  1.        ,  0.        ,  1.        ,  0.        ],
       [ 3.        ,  1.36746968,  0.32513941, -0.46842687, -0.4777564 ,
         1.        ,  0.        ,  0.        ,  0.        ,  1.        ],
       [ 2.        ,  2.52531894, -0.46406261, -0.46842687, -0.42782113,
         0.        ,  1.        ,  0.        ,  1.        ,  0.        ]])

In [None]:
y_pred_ = model.predict(X_test_)
y_pred_[0:5]

array([0, 1, 0, 0, 1], dtype=int64)

In [None]:
gender_submission = pd.concat([data_test[['PassengerId']],pd.DataFrame(y_pred_,columns=['Survived'])],axis=1)
gender_submission

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,1
2,894,0
3,895,0
4,896,1
...,...,...
413,1305,0
414,1306,1
415,1307,0
416,1308,0


In [None]:
gender_submission.to_csv('gender_submission_rf_GSCV.csv', index=False) 

### Score no Kaggle: 0.78468

# Apêndice A

Apresento abaixo um gráfico interativo construído no Altair, que nos possibilita visualizar todas variáveis.  

Temos no Eixo X a variável 'Age' e no Eixo Y a variável 'Fare'.  
Neste gráfico podemos utilizar diversos recursos como:

* **zoom** na imagem,
* exibir o **rótulo** de cada ponto.

Além disso, é possível filtrar pelos seguintes atributos;

* Pclass, utilizando um **slider**,
* Embarked, utilizando um **dario**,
* sex, utilizando um **dropdown**.

Finalmente, é possível ainda filtrar a variável 'Survived', clicando nos ícones da própria legenda.

O Altair permite criar esse tipo de gráfico de forma simples e intuitiva.

Você pode conferir um tutorial básico para o Altair nesse [link](https://hermannvargens.wixsite.com/dados/post/explorando-a-visualização-de-dados-com-a-biblioteca-altair), incluindo a interatividade.

In [None]:
#Primeiro definimos quais seletores estarão presentes nos gráficos.

#Dropdown
input_dropdown_sex = alt.binding_select(options=['female','male'], name='Sex')
#Radio
radio_embarked = alt.binding_radio(options=['C','Q','S'], name='Embarked')
#Slider
slider_pclass = alt.binding_range(min=1, max=3, step=1)


#Agora definimos de que forma os seletores irão interagir no gráfico

#Dropdown
selection_sex = alt.selection_single(fields=['Sex'], bind=input_dropdown_sex)
#Radio
selection_embarked = alt.selection_single(fields=['Embarked'], bind=radio_embarked)
#Slider
selection_pclass = alt.selection_single(bind=slider_pclass, fields=['Pclass'], name="Classe")


#Aqui dizemos ao Altair que utilizará a legenda de cores também como filtro

selection = alt.selection_multi(fields=['Survived'])
color = alt.condition(selection,
                      alt.Color('Survived:N', legend=None),
                      alt.value('lightgray'))

#Definimos o Zoom
scales = alt.selection_interval(bind='scales')

#Agora podemos construir os gráficos

#Este é o gráfico principal, a esquerda
scatter = graf.mark_point().encode(
    y='Fare',
    x='Age',
    color = color,
    tooltip=['Sex','Survived','Age','SibSp','Parch'] # Tooltip serve para informar os rótulos dos pontos,quando posicionamos o mouse
        #usamos add_selection para chamar os seletores
        #usamos transform_filter para executar o filtro
        ).add_selection(selection_sex).transform_filter(selection_sex
        ).add_selection(selection_embarked).transform_filter(selection_embarked
        ).add_selection(selection_pclass).transform_filter(selection_pclass
        ).add_selection(scales
        ).properties(title='Titanic')

#Este é o gráfico da direita, que serve para filtrar a coluna Survived
legend = graf.mark_point().encode(
    y=alt.Y('Survived', axis=alt.Axis(orient='right')),
    color=color).add_selection(selection)

scatter | legend #Chamamos os dois gráficos separados por uma barra vertical