# Titanic - Machine Learning from Disaster
Prever quais passageiros sobreviveram ao desastre com base em informações como idade, sexo, classe social, entre outros. Este desafio serve como um exercício de aprendizado de máquina para iniciantes, onde os participantes desenvolvem e aplicam habilidades de pré-processamento de dados, seleção de modelos e avaliação de desempenho para construir um modelo capaz de fazer previsões precisas sobre a sobrevivência dos passageiros.

In [1]:
#pip install pandas


In [2]:
import pandas as pd

# Pandas

A biblioteca pandas é uma das mais poderosas e populares para manipulação e análise de dados em Python. Ela oferece várias estruturas de dados e funções para facilitar a importação, manipulação e análise de conjuntos de dados. Alguns dos conceitos e funcionalidades mais importantes do pandas incluem:

    1.DataFrame: É a estrutura de dados fundamental do pandas. É uma tabela bidimensional com linhas e colunas rotuladas. Cada coluna em um DataFrame é uma Series, que é uma estrutura de dados unidimensional semelhante a um array.

    2.Importação de dados: O pandas permite importar dados de uma variedade de formatos, incluindo CSV, Excel, SQL, JSON, HTML, entre outros.

    3.Manipulação de dados: Pandas oferece uma ampla gama de funções para manipulação de dados, incluindo seleção, filtragem, agregação, limpeza de dados ausentes, combinação de conjuntos de dados e transformações de dados.

    4.Indexação: O pandas oferece recursos poderosos para indexação de dados, permitindo acessar e manipular dados com facilidade usando rótulos de linhas e colunas.

    5.Visualização de dados: Embora não seja sua função principal, o pandas pode trabalhar em conjunto com bibliotecas de visualização como o matplotlib e o seaborn para criar gráficos e visualizações dos dados.

In [3]:
import numpy as np

# Numpy

A biblioteca NumPy é uma biblioteca fundamental para computação numérica em Python. Ela fornece suporte para arrays multidimensionais, além de uma variedade de funções matemáticas para trabalhar com esses arrays. Aqui estão algumas das funcionalidades mais importantes do NumPy:

    1.Arrays NumPy: O NumPy introduz o tipo de dados array, que é uma estrutura de dados multidimensional que pode conter elementos de tipos de dados homogêneos. Esses arrays oferecem uma maneira eficiente de armazenar e manipular dados numéricos.

    2.Operações vetorizadas: O NumPy suporta operações vetorizadas, o que significa que operações matemáticas e lógicas podem ser aplicadas diretamente aos arrays sem a necessidade de loops explícitos. Isso torna o código mais conciso e eficiente.

    3.Funções matemáticas: O NumPy oferece uma ampla gama de funções matemáticas para operar em arrays, incluindo funções trigonométricas, exponenciais, logarítmicas, de álgebra linear, entre outras.

    4.Indexação avançada: O NumPy permite indexação avançada e fatiamento de arrays, permitindo acessar e manipular partes específicas dos dados com facilidade.

    5.Broadcasting: Broadcasting é uma poderosa técnica no NumPy que permite operações entre arrays de diferentes formas e tamanhos, de maneira eficiente e sem a necessidade de criar cópias dos dados.

In [4]:
#pip install matplotlib

In [5]:
#import matplotlib as plt

# Matplotlib

A biblioteca Matplotlib é uma das ferramentas mais populares para visualização de dados em Python. Ela oferece uma ampla gama de funções para criar gráficos de alta qualidade em diferentes estilos e formatos. Algumas das funcionalidades principais do Matplotlib incluem:

    1.Gráficos de Linha, Barra e Dispersão: Matplotlib permite criar facilmente gráficos de linha para visualizar tendências ao longo do tempo, gráficos de barras para comparar diferentes categorias e gráficos de dispersão para explorar relações entre variáveis.

    2.Gráficos 3D: Além dos gráficos 2D padrão, o Matplotlib oferece suporte para criar gráficos tridimensionais para visualizar dados em três dimensões.

    3.Personalização Avançada: Matplotlib permite personalizar todos os aspectos de um gráfico, incluindo cores, estilos de linha, marcadores, títulos, rótulos e muito mais. Isso permite criar visualizações altamente personalizadas que atendam às suas necessidades específicas.

    4.Suporte para LaTeX: Matplotlib oferece suporte para renderizar fórmulas matemáticas usando a sintaxe LaTeX, o que é útil para adicionar expressões matemáticas aos seus gráficos.

    5.Exportação para Diferentes Formatos: Matplotlib permite salvar seus gráficos em uma variedade de formatos de arquivo, incluindo PNG, PDF, SVG e outros, para facilitar a incorporação em documentos, apresentações e sites.

In [6]:
#pip install scikit-learn

In [7]:
import sklearn

# Scikit-Learn

A biblioteca scikit-learn é uma das bibliotecas mais amplamente utilizadas para aprendizado de máquina em Python. Ela oferece uma variedade de algoritmos de aprendizado de máquina supervisionado e não supervisionado, bem como ferramentas para pré-processamento de dados, avaliação de modelos e seleção de modelos. Aqui estão algumas das funcionalidades principais do scikit-learn:

    Implementação de Algoritmos de Aprendizado de Máquina: O scikit-learn fornece implementações eficientes de uma ampla gama de algoritmos de aprendizado de máquina, incluindo regressão linear, regressão logística, árvores de decisão, florestas aleatórias, SVM (Support Vector Machines), k-Nearest Neighbors, entre outros.

    Pré-processamento de Dados: scikit-learn oferece várias funções para pré-processamento de dados, incluindo normalização, padronização, codificação de variáveis categóricas, tratamento de valores ausentes e extração de características.

    Avaliação de Modelos: O scikit-learn fornece ferramentas para avaliar a performance dos modelos de aprendizado de máquina, incluindo métricas de avaliação como precisão, recall, F1-score, curvas ROC, entre outras.

    Seleção de Modelos: scikit-learn oferece métodos para seleção de modelos, incluindo validação cruzada, busca em grade (grid search) e seleção de características.

    Integração com NumPy e Pandas: O scikit-learn é integrado com outras bibliotecas populares de Python, como NumPy e Pandas, facilitando a manipulação e análise de dados.

# Importando os Dados de Treino 

In [8]:
dados_treino = pd.read_csv('/home/bruno/Área de Trabalho/TITANIC/train.csv')

# Explorando os dados

In [9]:
dados_treino.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


# Análise Descritiva

In [10]:
dados_treino.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


# Verificando os tipo de dados e dados nulos

In [11]:
dados_treino.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


 # Data Dictionary
Variable	    Definition	Key

survival 	    Survival 	0 = No, 1 = Yes

pclass 	        Ticket class 	1 = 1st, 2 = 2nd, 3 = 3rd

sex         	Sex 	

Age 	        Age in years 

sibsp 	        # of siblings / spouses aboard the Titanic 	

parch        	# of parents / children aboard the Titanic 	

ticket      	Ticket number 	

fare 	        Passenger fare 	

cabin       	Cabin number 	

embarked     	Port of Embarkation 	C = Cherbourg, Q = Queenstown, S = Southampton

In [12]:
dados_treino_filtrado = dados_treino.copy()

In [13]:
#calculando a média das idades pois existem valores nulos, e como possuimos poucos dados precisamos desses dados ao invés de excluir
media_idade = dados_treino_filtrado['Age'].mean()

In [14]:
#vamos preencher os valores nulos com a média que acabamos de calcular
dados_treino_filtrado['Age'].fillna(media_idade, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  dados_treino_filtrado['Age'].fillna(media_idade, inplace=True)


In [15]:
#verificando se os valores foram substituidos
dados_treino_filtrado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [16]:
#como podemos ver temos 891 valores mão nulos no campo age!
#podemos tambem calcular somando os dados nulos na coluna Age
print("Valores nulos na coluna 'Age' após preenchimento:", dados_treino_filtrado['Age'].isnull().sum())


Valores nulos na coluna 'Age' após preenchimento: 0


In [17]:
#colocando valores númericos para a coluna sex
dados_treino_filtrado['Sex'] = dados_treino_filtrado['Sex'].map({'male': 0,'female': 1})


In [18]:
#vamos verificar nossa altração
dados_treino_filtrado.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,373450,8.05,,S


In [19]:
#verificando quantos valores diferentes temos na coluna Pclass
valores_unicos_Pclass = dados_treino_filtrado['Pclass'].unique()
print(valores_unicos_Pclass)

[3 1 2]


In [20]:
#realizando a mesma consulta para a coluna Embarked
valores_unicos_Embarked = dados_treino_filtrado['Embarked'].unique()
print(valores_unicos_Embarked)

['S' 'C' 'Q' nan]


In [21]:
#excluindo linha que contem valores nulos na coluna Embarked
dados_treino_filtrado = dados_treino_filtrado.dropna(subset=['Embarked'])


In [22]:
# Verificar se há valores nulos na coluna 'Embarked'
print("Valores nulos na coluna 'Embarked' após a limpeza:", dados_treino_filtrado['Embarked'].isnull().sum())


Valores nulos na coluna 'Embarked' após a limpeza: 0


In [23]:
#substituindo as cidades da coluna 'Embarked' por números
dados_treino_filtrado['Embarked'] = dados_treino_filtrado['Embarked'].map({'S': 0, 'C': 1, 'Q':2})


In [24]:
dados_treino_filtrado.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,A/5 21171,7.25,,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,PC 17599,71.2833,C85,1
2,3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,STON/O2. 3101282,7.925,,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,113803,53.1,C123,0
4,5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,373450,8.05,,0


In [25]:
#realizando a mesma consulta para a coluna Embarked
valores_unicos_Embarked = dados_treino_filtrado['Embarked'].unique()
print(valores_unicos_Embarked)

[0 1 2]


In [26]:
dados_treino_filtrado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 889 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  889 non-null    int64  
 1   Survived     889 non-null    int64  
 2   Pclass       889 non-null    int64  
 3   Name         889 non-null    object 
 4   Sex          889 non-null    int64  
 5   Age          889 non-null    float64
 6   SibSp        889 non-null    int64  
 7   Parch        889 non-null    int64  
 8   Ticket       889 non-null    object 
 9   Fare         889 non-null    float64
 10  Cabin        202 non-null    object 
 11  Embarked     889 non-null    int64  
dtypes: float64(2), int64(7), object(3)
memory usage: 90.3+ KB


Modelos com os quais iremos trabalhar: regressão logística, árvores de decisão, florestas aleatórias, SVM (Support Vector Machines).

# Vamos utilizar primeiro o modelo de Regressão Logístiva

In [27]:
#vamos dividir os dados em treino e teste
from sklearn.model_selection import train_test_split

#definindo as features 'X' e o alvo 'y'
X = dados_treino_filtrado[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']]
y = dados_treino_filtrado[['Survived']]

In [28]:
#dividindo os dados em treino e validação
X_treino, X_val, y_treino, y_val = train_test_split(X, y, test_size = 0.2, random_state = 42)



In [29]:
# Verificando as formas dos conjuntos de treinamento e validação
print("Tamanho do X_treino:", X_treino.shape)
print("Tamanho do y_treino:", y_treino.shape)
print("Tamanho do X_val:", X_val.shape)
print("Tamanho do y_val:", y_val.shape)

Tamanho do X_treino: (711, 7)
Tamanho do y_treino: (711, 1)
Tamanho do X_val: (178, 7)
Tamanho do y_val: (178, 1)


In [30]:
#vamos treinar o modelo de reressão logistica com os dados de treinamento
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score


In [31]:
#inicializando o modelo de regrassão logistica
regressao = LogisticRegression(random_state=42)


In [32]:
#treinando o modelo com os dados de treinamento
regressao.fit(X_treino, y_treino)

  y = column_or_1d(y, warn=True)


In [33]:
#fazendo as previsões nos dados de validação
y_prev_regressao = regressao.predict(X_val)

In [34]:
#calculando a precisão do modelo
acuracia_regressao = accuracy_score(y_val, y_prev_regressao)
print("A precisão  do modelo de regressão logística: ", acuracia_regressao)

A precisão  do modelo de regressão logística:  0.7865168539325843


# Vamos utilizar agora o modelo de Árvores de Decisão 

In [35]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

In [36]:
#inicializando o modelo de árvore de decisãoar
arvore_decisao = DecisionTreeClassifier(random_state=42)


In [37]:
#treinando o modelo com os dados de treinamento
arvore_decisao.fit(X_treino, y_treino)

In [38]:
#fazendo previsões nos dados de treinamento
y_prev_arvore = arvore_decisao.predict(X_val)

In [39]:
acuracia_arvore = accuracy_score(y_val, y_prev_arvore)
print('A precisão do modelo de árvore de decisão é de: ',acuracia_arvore)

A precisão do modelo de árvore de decisão é de:  0.7584269662921348


# Vamos utilizar o modelo de Floresta Aleatória

In [40]:
from sklearn.ensemble import RandomForestClassifier


In [41]:
#inicializando o modelo de floresta aleatória
floresta_aleatoria = RandomForestClassifier(random_state=42)


In [42]:
#treinando o modelo com os dados de treinamento
floresta_aleatoria.fit(X_treino, y_treino)


  return fit_method(estimator, *args, **kwargs)


In [43]:
#fazendo previsões nos dados de validação
y_prev_floresta = floresta_aleatoria.predict(X_val)

In [44]:
#calculando a precisão do modelo
acuracia_floresta = accuracy_score(y_val, y_prev_floresta)
print('A precisão do modelo de floresta aleatória é de: ', acuracia_floresta)

A precisão do modelo de floresta aleatória é de:  0.7584269662921348


# Vamos utiliar agora o modelo de SVM (Support Vector Machines)

In [45]:
from sklearn.svm import SVC


In [46]:
#inicializando o modelo de SVM
SVM = SVC(random_state=42)


In [47]:
#treinando o modelo com os dados de treinamento
SVM.fit(X_treino, y_treino)


  y = column_or_1d(y, warn=True)


In [48]:
#fazendo previsões nos dados de validação
y_prev_SVM = SVM.predict(X_val)


In [49]:
#calculando a precisão do modelo
acuracia_SVM = accuracy_score(y_val, y_prev_SVM)
print('A precisão do modelo SVM é de: ', acuracia_SVM)

A precisão do modelo SVM é de:  0.6853932584269663


In [50]:
#importando o arquivo test 
dados_teste = pd.read_csv('/home/bruno/Área de Trabalho/TITANIC/test.csv')
print(dados_teste)

     PassengerId  Pclass                                          Name  \
0            892       3                              Kelly, Mr. James   
1            893       3              Wilkes, Mrs. James (Ellen Needs)   
2            894       2                     Myles, Mr. Thomas Francis   
3            895       3                              Wirz, Mr. Albert   
4            896       3  Hirvonen, Mrs. Alexander (Helga E Lindqvist)   
..           ...     ...                                           ...   
413         1305       3                            Spector, Mr. Woolf   
414         1306       1                  Oliva y Ocana, Dona. Fermina   
415         1307       3                  Saether, Mr. Simon Sivertsen   
416         1308       3                           Ware, Mr. Frederick   
417         1309       3                      Peter, Master. Michael J   

        Sex   Age  SibSp  Parch              Ticket      Fare Cabin Embarked  
0      male  34.5      0      0 

In [51]:
dados_teste.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    object 
 4   Age          332 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         417 non-null    float64
 9   Cabin        91 non-null     object 
 10  Embarked     418 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


In [52]:
dados_teste.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [53]:
dados_teste_filtrado = dados_teste.copy()

In [54]:
#calculando a média das idades pois existem valores nulos, e como possuimos poucos dados precisamos desses dados ao invés de excluir
#estamos excluindo os valores nulos
media_idade = dados_teste_filtrado['Age'].mean()

In [55]:
#vamos preencher os valores nulos com a média que acabamos de calcular
dados_teste_filtrado['Age'].fillna(media_idade, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  dados_teste_filtrado['Age'].fillna(media_idade, inplace=True)


In [56]:
#verificando se os valores foram substituidos
dados_teste_filtrado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    object 
 4   Age          418 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         417 non-null    float64
 9   Cabin        91 non-null     object 
 10  Embarked     418 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


In [57]:
#colocando valores númericos para a coluna sex
dados_teste_filtrado['Sex'] = dados_teste_filtrado['Sex'].map({'male': 0,'female': 1})

In [58]:
#verificando quantos valores diferentes temos na coluna Pclass
valores_unicos_Fare = dados_treino_filtrado['Fare'].unique()
print(valores_unicos_Fare)

[  7.25    71.2833   7.925   53.1      8.05     8.4583  51.8625  21.075
  11.1333  30.0708  16.7     26.55    31.275    7.8542  16.      29.125
  13.      18.       7.225   26.       8.0292  35.5     31.3875 263.
   7.8792   7.8958  27.7208 146.5208   7.75    10.5     82.1708  52.
   7.2292  11.2417   9.475   21.      41.5792  15.5     21.6792  17.8
  39.6875   7.8     76.7292  61.9792  27.75    46.9     83.475   27.9
  15.2458   8.1583   8.6625  73.5     14.4542  56.4958   7.65    29.
  12.475    9.       9.5      7.7875  47.1     15.85    34.375   61.175
  20.575   34.6542  63.3583  23.      77.2875   8.6542   7.775   24.15
   9.825   14.4583 247.5208   7.1417  22.3583   6.975    7.05    14.5
  15.0458  26.2833   9.2167  79.2      6.75    11.5     36.75     7.7958
  12.525   66.6      7.3125  61.3792   7.7333  69.55    16.1     15.75
  20.525   55.      25.925   33.5     30.6958  25.4667  28.7125   0.
  15.05    39.      22.025   50.       8.4042   6.4958  10.4625  18.7875
  31.     

In [59]:
#substituindo as cidades da coluna 'Embarked' por números
dados_teste_filtrado['Embarked'] = dados_teste_filtrado['Embarked'].map({'S': 0, 'C': 1, 'Q':2})

In [60]:
#calculando a média Fare pois existem valores nulos, e como possuimos poucos dados precisamos desses dados ao invés de excluir
#estamos excluindo os valores nulos
media_Fare = dados_teste_filtrado['Fare'].mean()

In [61]:
print(media_Fare)

35.627188489208635


In [62]:
#vamos preencher os valores nulos com a média que acabamos de calcular
dados_teste_filtrado['Fare'].fillna(media_Fare, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  dados_teste_filtrado['Fare'].fillna(media_Fare, inplace=True)


In [63]:
#verificando se os valores foram substituidos
dados_teste_filtrado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    int64  
 4   Age          418 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         418 non-null    float64
 9   Cabin        91 non-null     object 
 10  Embarked     418 non-null    int64  
dtypes: float64(2), int64(6), object(3)
memory usage: 36.0+ KB


In [64]:
#fazendo previsões nos dados de teste
X_teste = dados_teste_filtrado[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']]
previsoes_teste = regressao.predict(X_teste)

In [65]:
#formatando as previsões em um DataFrame
submission = pd.DataFrame({'PassengerId': dados_teste_filtrado['PassengerId'], 'Survived': previsoes_teste})
print(submission)

     PassengerId  Survived
0            892         0
1            893         0
2            894         0
3            895         0
4            896         1
..           ...       ...
413         1305         0
414         1306         1
415         1307         0
416         1308         0
417         1309         0

[418 rows x 2 columns]


In [66]:
#salvando as previsões em um arquivo csv
submission.to_csv('submission_logistic_regression.csv', index=False)