# Soluções de Data Science para o Titanic

### Este notebook é um complemento do livro [Data Science Solutions](https://www.amazon.com/Data-Science-Solutions-Startup-Workflow/dp/1520545312).

O notebook nos conduz por um fluxo de trabalho típico para resolver competições de ciência de dados em sites como o Kaggle.

Existem vários notebooks excelentes para estudar entradas em competições de ciência de dados. No entanto, muitos omitem algumas explicações sobre como a solução é desenvolvida, já que esses notebooks são feitos por especialistas para especialistas. O objetivo deste notebook é seguir um fluxo de trabalho passo a passo, explicando cada etapa e a lógica por trás de cada decisão tomada durante o desenvolvimento da solução.

## Etapas do fluxo de trabalho

O fluxo de trabalho para a solução da competição passa por sete etapas descritas no livro *Data Science Solutions*.

1. Definição da questão ou problema.
2. Obter dados de treinamento e teste.
3. Manipular, preparar e limpar os dados.
4. Analisar, identificar padrões e explorar os dados.
5. Modelar, prever e resolver o problema.
6. Visualizar, relatar e apresentar as etapas de resolução do problema e a solução final.
7. Fornecer ou submeter os resultados.

O fluxo de trabalho indica a sequência geral de como cada etapa pode seguir a outra. No entanto, existem casos de uso com exceções.

- Podemos combinar várias etapas do fluxo de trabalho. Podemos analisar visualizando os dados.
- Realizar uma etapa antes da indicada. Podemos analisar os dados antes e depois da manipulação.
- Executar uma etapa várias vezes em nosso fluxo de trabalho. A etapa de visualização pode ser usada várias vezes.
- Omitir uma etapa por completo. Pode ser que não precisemos da etapa de fornecimento para habilitar a produção ou serviço de nosso conjunto de dados em uma competição.

## Definição da questão e do problema

Sites de competição como o Kaggle definem o problema a ser resolvido ou as perguntas a serem respondidas enquanto fornecem os conjuntos de dados para treinar seu modelo de ciência de dados e testar os resultados do modelo em relação a um conjunto de teste. A definição da questão ou problema para a competição de Sobrevivência no Titanic é [descrita aqui no Kaggle](https://www.kaggle.com/c/titanic).

> Sabendo, a partir de um conjunto de treinamento de amostras que lista os passageiros que sobreviveram ou não ao desastre do Titanic, nosso modelo pode determinar, com base em um conjunto de teste que não contém a informação de sobrevivência, se esses passageiros do conjunto de teste sobreviveram ou não.

Também podemos querer desenvolver um entendimento inicial sobre o domínio de nosso problema. Isso é descrito na [página de descrição da competição no Kaggle](https://www.kaggle.com/c/titanic). Aqui estão os principais pontos a serem observados.

- Em 15 de abril de 1912, durante sua viagem inaugural, o Titanic afundou após colidir com um iceberg, matando 1.502 das 2.224 pessoas entre passageiros e tripulação. Traduzido para uma taxa de sobrevivência de 32%.
- Uma das razões pelas quais o naufrágio causou tanta perda de vidas foi a falta de botes salva-vidas suficientes para os passageiros e a tripulação.
- Embora houvesse um elemento de sorte envolvido na sobrevivência, alguns grupos de pessoas tinham mais chances de sobreviver do que outros, como mulheres, crianças e pessoas da alta classe social.

## Objetivos do fluxo de trabalho

O fluxo de trabalho de soluções de ciência de dados visa resolver sete objetivos principais.

**Classificação.** Podemos querer classificar ou categorizar nossas amostras. Também podemos querer entender as implicações ou a correlação de diferentes classes com o objetivo da solução.

**Correlação.** Podemos abordar o problema com base nos recursos disponíveis no conjunto de treinamento. Quais recursos dentro do conjunto de dados contribuem significativamente para o objetivo da nossa solução? Estatisticamente falando, existe uma [correlação](https://en.wikiversity.org/wiki/Correlation) entre um recurso e o objetivo da solução? À medida que os valores do recurso mudam, o estado da solução também muda, e vice-versa? Isso pode ser testado tanto para recursos numéricos quanto categóricos no conjunto de dados fornecido. Também podemos querer determinar a correlação entre recursos além da sobrevivência para objetivos subsequentes e etapas do fluxo de trabalho. Correlacionar certos recursos pode ajudar a criar, completar ou corrigir os recursos.

**Conversão.** Para a etapa de modelagem, é necessário preparar os dados. Dependendo da escolha do algoritmo de modelo, pode ser necessário que todos os recursos sejam convertidos para valores numéricos equivalentes. Por exemplo, convertendo valores categóricos de texto em valores numéricos.

**Completação.** A preparação dos dados também pode exigir que estimemos qualquer valor ausente em um recurso. Os algoritmos de modelagem podem funcionar melhor quando não há valores ausentes.

**Correção.** Podemos também analisar o conjunto de treinamento fornecido em busca de erros ou valores possivelmente imprecisos dentro dos recursos e tentar corrigir esses valores ou excluir as amostras que contêm os erros. Uma maneira de fazer isso é detectar quaisquer valores discrepantes entre nossas amostras ou recursos. Podemos também descartar completamente um recurso se ele não estiver contribuindo para a análise ou se distorcer significativamente os resultados.

**Criação.** Podemos criar novos recursos com base em um recurso existente ou em um conjunto de recursos, de modo que o novo recurso siga os objetivos de correlação, conversão e completude.

**Gráficos.** Como selecionar os gráficos e visualizações corretos dependendo da natureza dos dados e dos objetivos da solução.


[Click me!! Use GPT-4o with no limits！🚀 🚀](https://talk.speakpal.ai/talk/?teacher_id=21&ref=pgts)

In [5]:
# data analysis and wrangling
import pandas as pd
import numpy as np
import random as rnd

# visualization
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

# machine learning
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC, LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import Perceptron
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier

## Obter dados
O pacote Python Pandas nos ajuda a trabalhar com nossos conjuntos de dados. Começamos obtendo os conjuntos de dados de treinamento e teste em DataFrames do Pandas. Também combinamos esses conjuntos de dados para executar certas operações em ambos os conjuntos juntos.

In [10]:
train_df = pd.read_csv('titanic_data.csv')

## Analisar descrevendo os dados
O Pandas também ajuda a descrever os conjuntos de dados, respondendo às seguintes perguntas logo no início de nosso projeto.

Quais recursos estão disponíveis no conjunto de dados?

Observe os nomes dos recursos para manipulá-los ou analisá-los diretamente. Esses nomes de recursos estão descritos na página de dados do Kaggle aqui.

In [9]:
print(train_df.columns.values)

['PassengerId' 'Survived' 'Pclass' 'Name' 'Sex' 'Age' 'SibSp' 'Parch'
 'Ticket' 'Fare' 'Cabin' 'Embarked']


**Quais recursos são categóricos?**

Esses valores classificam as amostras em conjuntos de amostras semelhantes. Dentro dos recursos categóricos, os valores são nominais, ordinais, de razão ou intervalares? Entre outras coisas, isso nos ajuda a escolher os gráficos apropriados para visualização.

Categóricos: Survived, Sex e Embarked. Ordinais: Pclass.
Quais recursos são numéricos?

Quais recursos são numéricos? Esses valores variam de amostra para amostra. Dentro dos recursos numéricos, os valores são discretos, contínuos ou baseados em séries temporais? Entre outras coisas, isso nos ajuda a escolher os gráficos apropriados para visualização.

Contínuos: Age, Fare. Discretos: SibSp, Parch.

In [12]:
train_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


**Quais recursos têm tipos de dados mistos?**

Dados numéricos e alfanuméricos dentro do mesmo recurso. Estes são candidatos para o objetivo de correção.

Ticket é uma mistura de tipos de dados numéricos e alfanuméricos. Cabin é alfanumérico.
Quais recursos podem conter erros ou erros de digitação?

Isso é mais difícil de revisar em um grande conjunto de dados; no entanto, revisar algumas amostras de um conjunto de dados menor pode nos mostrar imediatamente quais recursos podem exigir correção.

O recurso Name pode conter erros ou erros de digitação, pois existem várias maneiras de descrever um nome, incluindo títulos, parênteses e aspas usadas para nomes alternativos ou abreviados.

In [13]:
train_df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


**Quais recursos contêm valores em branco, nulos ou vazios?**

Esses precisarão ser corrigidos.

- Os recursos Cabin > Age > Embarked contêm vários valores nulos, nessa ordem, no conjunto de dados de treinamento.
- Cabin > Age estão incompletos no caso do conjunto de dados de teste.

**Quais são os tipos de dados dos vários recursos?**

Isso nos ajuda durante o objetivo de conversão.

Sete recursos são inteiros ou decimais. Seis no caso do conjunto de dados de teste.
Cinco recursos são strings (objeto).

In [15]:
train_df.info()
print('_'*40)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
________________________________________



**Qual é a distribuição dos valores dos recursos numéricos entre as amostras?**

Isso nos ajuda a determinar, entre outros primeiros insights, quão representativo é o conjunto de dados de treinamento em relação ao domínio real do problema.

- O total de amostras é 891, ou 40% do número real de passageiros a bordo do Titanic (2.224).
- Survived é um recurso categórico com valores 0 ou 1.
- Cerca de 38% das amostras sobreviveram, representando a taxa real de sobrevivência de 32%.
- A maioria dos passageiros (> 75%) não viajou com pais ou filhos.
- Quase 30% dos passageiros tinham irmãos e/ou cônjuges a bordo.
- As tarifas variaram significativamente, com poucos passageiros (<1%) pagando até $512.
- Poucos passageiros idosos (<1%) estavam na faixa etária de 65-80 anos.


In [16]:
train_df.describe()
# Review survived rate using `percentiles=[.61, .62]` knowing our problem description mentions 38% survival rate.
# Review Parch distribution using `percentiles=[.75, .8]`
# SibSp distribution `[.68, .69]`
# Age and Fare `[.1, .2, .3, .4, .5, .6, .7, .8, .9, .99]`

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292
