# Problema do Titanic do Kaggle
## ELT 574 - Aprendizado de Máquina
### Especialização em Inteligência Artificial e Computacional

#### Prof. Rodolpho Neves - NIAS/DEL/UFV

#### Problema:
Predizer de pessoas com determinadas características sobreviveriam ao acidente marítimo do Titanic baseado nos dados de sobreviventes do naufrágio.

### Análise do Conjunto de Dados do Titanic

O problema do desastre do **Titanic** é um clássico para quem está começando em **Machine Learning**. O objetivo é prever se um passageiro sobreviveu ou não ao naufrágio com base em algumas características. Dados baixados do Kaggle: [Titanic - Machine Learning from Disaster](https://www.kaggle.com/competitions/titanic).

#### 1. Descrição do Banco de Dados

O conjunto de dados do **Titanic** foi disponibilizado no Kaggle e contém informações sobre os passageiros. Ele possui duas versões principais:
- **Train.csv** (dados de treinamento): usado para treinar o modelo. Possui a informação se o passageiro sobreviveu (`Survived`).
- **Test.csv** (dados de teste): usado para avaliar o modelo. Não possui a coluna `Survived`, e o objetivo é prever esse valor.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#### 2. Principais Colunas do Dataset

| Coluna          | Descrição |
|----------------|-------------|
| **PassengerId** | ID único de cada passageiro |
| **Survived**   | Se sobreviveu (1) ou não (0) → [somente no treino] |
| **Pclass**     | Classe do bilhete: 1ª (luxo), 2ª (intermediária), 3ª (econômica) |
| **Name**       | Nome completo do passageiro |
| **Sex**        | Gênero (`male` ou `female`) |
| **Age**        | Idade do passageiro |
| **SibSp**      | Número de irmãos/cônjuge a bordo |
| **Parch**      | Número de pais/filhos a bordo |
| **Ticket**     | Número do bilhete |
| **Fare**       | Valor pago pelo bilhete |
| **Cabin**      | Número da cabine (muitos valores ausentes) |
| **Embarked**   | Porto de embarque (`C` = Cherbourg, `Q` = Queenstown, `S` = Southampton) |

In [2]:
dataset = pd.read_csv('kaggle-data/train.csv')
dataset.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


Aqui, já é possível identificar que algumas variáveis não serão úteis para a resolução do problema, como `PassengerId`, `Name`, `Ticket` e `Cabin`. Estas variáveis podem ser descartadas do banco de dados.

In [3]:
colunas_principais = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
X = dataset.loc[:, colunas_principais]
y = dataset.loc[:, 'Survived']
X.head(3)

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,3,male,22.0,1,0,7.25,S
1,1,female,38.0,1,0,71.2833,C
2,3,female,26.0,0,0,7.925,S


#### 3. Possíveis Problemas no Dataset
Antes de modelar, precisamos analisar os dados e, se necessário, limpa-los.

In [4]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Pclass    891 non-null    int64  
 1   Sex       891 non-null    object 
 2   Age       714 non-null    float64
 3   SibSp     891 non-null    int64  
 4   Parch     891 non-null    int64  
 5   Fare      891 non-null    float64
 6   Embarked  889 non-null    object 
dtypes: float64(2), int64(3), object(2)
memory usage: 48.9+ KB


As informações do X.info() mostram os tipos das características do banco de dados: float64(2, Age e Fare), int64(4, PassengerId, Pclass, SisSp e Parch), object(5, Name, Sex, Ticket, Cabin e Embarked). Além disso, podemos identificar os seguintes problemas:
- **Valores faltantes:** Muitas idades (`Age`) estão ausentes.
- **Dados categóricos:** `Sex`, `Embarked` e `Pclass` precisam ser convertidos para números. Pode ser feito uma codificação (encoding) com estas variáveis também.
- **Distribuição de classes:** A taxa de sobrevivência não é equilibrada (menos da metade sobreviveu).

Informações numéricas sobre as variáveis inteiras e reais podem ser extraídas com o comando X.describe().

In [5]:
X.describe()

Unnamed: 0,Pclass,Age,SibSp,Parch,Fare
count,891.0,714.0,891.0,891.0,891.0
mean,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.42,0.0,0.0,0.0
25%,2.0,20.125,0.0,0.0,7.9104
50%,3.0,28.0,0.0,0.0,14.4542
75%,3.0,38.0,1.0,0.0,31.0
max,3.0,80.0,8.0,6.0,512.3292


Podemos analisar os valores médios, máximos, mínimos e os quartis destas variáveis. Entretanto, não conseguimos inferir muita coisa com relação aos passageiros sobreviventes ou não. Se os dados forem agregadas de forma extratificada por variáveis, talvez é possível ter mais ideias sobre interpretações do problema.

In [6]:
# estatisticas dos dados separados por sobreviventes
X.groupby(y).describe().T # transposta

Unnamed: 0,Survived,0,1
Pclass,count,549.0,342.0
Pclass,mean,2.531876,1.950292
Pclass,std,0.735805,0.863321
Pclass,min,1.0,1.0
Pclass,25%,2.0,1.0
Pclass,50%,3.0,2.0
Pclass,75%,3.0,3.0
Pclass,max,3.0,3.0
Age,count,424.0,290.0
Age,mean,30.626179,28.34369


In [7]:
# estatisticas dos dados separados por sexo
X.groupby('Sex').describe().T # transposta

Unnamed: 0,Sex,female,male
Pclass,count,314.0,577.0
Pclass,mean,2.159236,2.389948
Pclass,std,0.85729,0.81358
Pclass,min,1.0,1.0
Pclass,25%,1.0,2.0
Pclass,50%,2.0,3.0
Pclass,75%,3.0,3.0
Pclass,max,3.0,3.0
Age,count,261.0,453.0
Age,mean,27.915709,30.726645


In [8]:
# estatisticas dos dados separados por classe dos passageiros
X.groupby('Pclass').describe().T # transposta

Unnamed: 0,Pclass,1,2,3
Age,count,186.0,173.0,355.0
Age,mean,38.233441,29.87763,25.14062
Age,std,14.802856,14.001077,12.495398
Age,min,0.92,0.67,0.42
Age,25%,27.0,23.0,18.0
Age,50%,37.0,29.0,24.0
Age,75%,49.0,36.0,32.0
Age,max,80.0,70.0,74.0
SibSp,count,216.0,184.0,491.0
SibSp,mean,0.416667,0.402174,0.615071


In [9]:
# estatisticas dos dados separados por classe dos passageiros
X.groupby('Embarked').describe().T # transposta

Unnamed: 0,Embarked,C,Q,S
Pclass,count,168.0,77.0,644.0
Pclass,mean,1.886905,2.909091,2.350932
Pclass,std,0.9441,0.369274,0.789402
Pclass,min,1.0,1.0,1.0
Pclass,25%,1.0,3.0,2.0
Pclass,50%,1.0,3.0,3.0
Pclass,75%,3.0,3.0,3.0
Pclass,max,3.0,3.0,3.0
Age,count,130.0,28.0,554.0
Age,mean,30.814769,28.089286,29.445397


De todas estas métricas, as únicas que tem uma diferença considerável entre as médias é quando extratificamos em relação às classes dos passageiros. Estas informações podem ser úteis caso tenhamos que inputar dados posteriormente.