# 0.0 Bibliotecas

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


# 1.0 Importando Dados

In [62]:
gender_submission = pd.read_csv('data/gender_submission.csv')
training = pd.read_csv('data/train.csv')
test = pd.read_csv('data/test.csv')

# rotulando dados de treino e teste
training['train_test'] = 1
test['train_test'] = 0

# adicionando uma coluna Survived ao Dataframe test e preenchendo com NaN
test['Survived'] = np.nan

# combinar os dados de training e test em um único dataframe chamado all_data
# Isso é feito para que os dados passem pelas transformações de forma identidica nos dois dataframes
all_data = pd.concat([training, test])

# comando para exibir gráficos diretamente no notebook e especificar todas as colunas do dataframe.
%matplotlib inline
all_data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked', 'train_test'],
      dtype='object')

In [58]:
all_data.sample()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,train_test
143,1035,,2,"Beauchamp, Mr. Henry James",male,28.0,0,0,244358,26.0,,S,0


# 2.0 Explorando Dados

## 📊 Entendendo a Natureza dos Dados
- **Métodos básicos**:
  - `.info()` - Metadados e tipos de variáveis
  - `.describe()` - Estatísticas descritivas

## 🔍 Técnicas de Exploração
1. **Visualizações**:
   - Histogramas
   - Boxplots
2. **Análise de distribuição**:
   - Value counts
3. **Qualidade dos dados**:
   - Identificação de dados faltantes
4. **Relações entre variáveis**:
   - Correlação entre métricas

## 🧩 Explorando Informações Interessantes
5. **Hipóteses e investigações**:
   - 5.1 🏦 Ricos sobreviveram?
   - 5.2 🚢 Sobrevivência por localização no navio
   - 5.3 📈 Scatterplot: idade vs. preço do ticket
   - 5.4 🧑💼 Variável combinada: jovem e rico?
   - 5.5 💰 Total gasto por passageiro?

## ⚙️ Pré-processamento e Engenharia de Features
6. **Feature engineering**:
   - Criação de novas variáveis
7. **Tratamento de datas**:
   - Pré-processar a data junto ou utilizar transformer?
   - Utilizar label para treino e teste
8. **Normalização**:
   - Scaling dos dados

## 🤖 Modelagem Preditiva
9. **Linha de base**:
   - Model baseline
10. **Comparação de modelos**:
    - Model comparison with CV (Cross-Validation)

---

### Destaques:
- 🔥 Foco em descoberta de padrões interessantes
- ⚡ Processo iterativo de análise e modelagem
- 🎯 Combinação de técnicas estatísticas e de machine learning

In [8]:
# Dando uma olhada rápida nos dados para saber os tipos de dados e os nulos
training.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [13]:
training.shape

(891, 12)

In [14]:
training.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292
