<a href="https://colab.research.google.com/github/GabrielTrentino/Competicoes/blob/master/Naufr%C3%A1gio_Titanic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Desafio Kaggle do Titanic:

**O Desafio do Titanic** é uma das competições mais conhecidas no [Kaggle.com](https://www.kaggle.com/c/titanic) e, sem sombra de dúvidas, é uma das melhores primeiras experiências para "mergulhar" no mundo de *Machine Learning*.

Com o objetivo único de **familiarizar os novos Cientistas de Dados com as estrutura e as dinâmicas do Kaggle**, O desafio do Titanic é o equivalente ao "Olá Mundo!" para os Cientistas de Dados.

![](https://github.com/GabrielTrentino/Competicoes/blob/master/img/0Titanic.jpg?raw=true)

Sem dúvidas, o naufrágio do Titanic é um dos incidentes mais conhecidos pelo mundo, foi digno do famoso filme de mesmo nome. O evento ocorreu no dia 15 de Abril de 1912 **resultando na morte de 1502 pessoas de 2224**(entre passageiros e tripulação). 

Enquanto houve algum elemento de sorte envolvida nessa chance de sobrevivência do naufragio, houve uma maior probabilidade de sobrevivência entre um grupo e outro. E nosso objetivo é investigar essas chances, proporções, probabilidades com os dados fornecidos pelo Kaggle!

Essa competição, além da Análise Exploratória de Dados, também pede a elaboração de um **Modelo Preditivo** de *Machine Learning* **capaz de dizer se uma pessoa teria ou não chances de sobreviver.**

##Importação das Bibliotecas Essenciais:

Inicialmente, importaremos as bibliotecas essenciais para manipulação dos dados (como Pandas, Numpy) e outras focadas para criação de gráficos (Matplotlib.Pyplot e Seaborn).

In [1]:
#Importando as bibliotecas necessárias:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

  import pandas.util.testing as tm


##Importação dos Arquivos disponibilizados no Kaggle:

A Importação desses arquivos são feitos de forma simplificada através do seguinte [Tutorial em Inglês](https://medium.com/@opalkabert/downloading-kaggle-datasets-into-google-colab-fb9654c94235). O processo de Identificação de Upload do Token gerado pelo Kaggle é ocultado.

In [0]:
#Pedindo ao Pandas que leia os arquivos ".csv" e transforme em DataFrame:
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
submis = pd.read_csv('gender_submission.csv')

O arquivo `train.csv` contém as informações relativas ao treino do modelo (contendo a informação se a pessoa sobreviveu ou não). 

O arquivo `test.csv` contém as informações relativas ao teste do modelo, exceto as informações de sobrevivência.

#Análise Exploratória:
A Análise Exploratória é composta por técnicas simples que buscam extrair ou ilustrar as informações contidas nos dados, sem conter nenhuma alteração significativa. Com essa definição, utilizaremos da Visualização de Dados para aumentar a eficiência dessa exploração inicial.

A idéia dessa Análise é trabalharmos ela como uma exploração de hipoteses ou duvidas que possamos ter sobre um Data Set e, por isso, nada melhor que utilizarmos perguntas para instigarmos ou elucidar o que queremos achar.

##Q1. Quais são as variáveis do DataSet?
A primeira pergunta a se fazer é sobre quais são as variáveis iremos utilizar nos modelos, para entendermos melhor, utilizaremos a função `.head()` que nos mostrará as primeiras entradas do DataSet e cruzaremos as informações com o que é descrito no Kaggle para criarmos nosso **Dicionário de Variáveis**.

In [3]:
train.head(1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S


In [4]:
test.head(1)

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q


Aqui estará o Dicionário explicando cada variável:

*  `PassengerId`- 
*  `Survived`- 
*  `Pclass` - 
*  `Name` - 
*  `Sex` - 
*  `Age` - 
*  `SibSp` -  
*  `Parch` - 
*  `Ticket` - 
*  `Fare` - 
*  `Cabin` - 
*  `Embarked` - 

##Q2. Quais são as dimensões do Data Frame de Treino e Teste?

Um dos passos principais da Análise Exploratória é entender as dimensões desses Data Frames, pois assim, conseguiremos ter uma noção de quantos dados estamos analisando e manipulando.

In [5]:
#Imprimindo a quantidade de linhas e colunas dos Data Frames:
print("O Data Frame de Treino tem: {} linhas e {} colunas".format(train.shape[0], train.shape[1]))
print("O Data Frame de Teste tem: {} linhas e {} colunas".format(test.shape[0], test.shape[1]))

O Data Frame de Treino tem: 891 linhas e 12 colunas
O Data Frame de Teste tem: 418 linhas e 11 colunas


##Q3. Qual a Porcentagem de Instâncias (Linhas) do Data Frame de Treino sobre o Total?

In [6]:
#Imprimindo a % de dados de treino sobre o total:
print("Temos {:.3f}% dos dados estão como treino".format(train.shape[0]/(train.shape[0]+test.shape[0])*100))

Temos 68.067% dos dados estão como treino


##Q4. Qual a quantidade de dados nulos existentes (NaN)?
Uma das preocupações que devemos ter logo na Análise Exploratória é de sabermos a quantidade de dados nulos existentes no Data Frame, pois haverá alguns modelos que não conseguirão trabalhar com esses tipos de dados e, para isso, deveremos contornar de alguma forma. Usamos as funções `.isnull().sum()` que irão verificar se a entrada possui valor nulo e, em seguida, somar (`.sum()`) a quantidade de valores verdadeiros (que são representados por `True` ou `1`).

In [7]:
#Quantos dados nulos estão presentes nesse Data Frame por coluna:
train.isnull().sum().sort_values(ascending=False)

Cabin          687
Age            177
Embarked         2
Fare             0
Ticket           0
Parch            0
SibSp            0
Sex              0
Name             0
Pclass           0
Survived         0
PassengerId      0
dtype: int64

##Q5. Quais são os tipos de dados das nossas colunas?
Outra preocupação que deve ser investigada logo no começo, pois podemos achar que estamos manipulando valores númericos como `int64` ou `float64`, mas na verdade estaríamos trabalhando com `strings` que são acusados como `object`.

Para isso, utilizamos o atributo `.dtypes`.

In [8]:
#Verificando os tipos das variáveis:
train.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

##Q6. Quais são as Descrições Estatísticas?

In [9]:
#Informações Estatísticas Descritivas.
train.describe().round(2)

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.38,2.31,29.7,0.52,0.38,32.2
std,257.35,0.49,0.84,14.53,1.1,0.81,49.69
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.12,0.0,0.0,7.91
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.45
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.33


Aqui terão gráficos:

#Primeiras Correções:

In [0]:
train["Sex_bin"] = train['Sex'].map(lambda x: 0 if x == 'female' else 1)
test["Sex_bin"] = test['Sex'].map(lambda x: 0 if x == 'female' else 1)

#Modelo de Machine Learning:

In [11]:
X_train = train[['Sex_bin', 'Age']]
X_train.fillna(-1, inplace = True)
y_train = train.Survived

X_test = test[['Sex_bin', 'Age']]
X_test.fillna(-1, inplace = True)
y_test = test

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  downcast=downcast,


In [12]:
from sklearn.ensemble import RandomForestClassifier
modelo = RandomForestClassifier(n_estimators=100, n_jobs=1, random_state=0)
modelo.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=1,
                       oob_score=False, random_state=0, verbose=0,
                       warm_start=False)

In [0]:
y_pred = modelo.predict(X_test)

#Criando a Subscrição:

In [14]:
sub = pd.Series(y_pred, index = test['PassengerId'], name= 'Survived')
sub.to_csv("primeiro_modelo.csv", header=True)
!head -n10 primeiro_modelo.csv

PassengerId,Survived
892,0
893,1
894,0
895,1
896,1
897,0
898,1
899,0
900,1
