# Tutorial Titanic

Neste tutorial, aprenderemos conceitos de Machine learning usando o ScikitLearn e um conjunto de dados dos passageiros do RMS Titanic para fazermos um algoritmo, onde analisando fatores como a classe do passageiro, seu sexo e idade, possa prever quais passageiros sobreviveriam ao desastre.

# Importação das bibliotecas e módulos

Primeiramente importaremos nossas bibliotecas que usaremos neste tutorial:

<b>Numpy</b>: para computação numérica<br>
<b>Pandas</b>: para processamento dos dados<br>
<b>Seaborn e Matplotlib</b>: para visualização dos dados

```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
```

#### Agora é sua vez! Importe as bibliotecas necessárias

# Carregando dados dos passageiros

Agora, vamos carregar os dados dos nossos passageiros a partir de um .csv, usando o pandas, e imprimir as 5 primeiras linhas do conjunto de treinamento. Nós vamos usar esses dados para treinar e testar nosso modelo. 

```Python
train = pd.read_csv("./input/trainTitanic.csv")
test = pd.read_csv("./input/testTitanic.csv")
print(train.head(5))
#PassangerId Survived Pclass     Name                         Sex      Age  Ticket       Cabin     Embarked
# 1            0         3       Braund, Mr. Owen Harris      male     22.0 A/5 21171    NaN         S
# 2            1         1       Cumings, Mrs. John Bradley   female   38.0 PC 17599     C85         C
# 3            1         3       Heikkinen, Miss. Laina       female   26.0 STON/O2.3101282 NaN      S
# 4            1         1       Futrelle, Mrs. Jacques Heath female   35.0 113803        C123       S
# 5            0         3       Allen, Mr. William Henry     male     35.0 373450        NaN        S
```

Podemos também olhar como estão nossos dados
```Python
print(train.shape)
# (891, 12)
```

Temos 891 amostras e 12 recursos(891 linhas, e 12 colunas no nosso array)

#### <b>Agora é a sua vez! Carregue os dados de treinamento e teste dos passageiros do RMS Titanic, depois imprima na tela as 5 primeiras linhas do dataset train</b>

# Pré-processamento de dados

Agora vamos importar do sklearn o preprocessing, para podermos separar e interpretar melhor os dados que obtemos dos csv. <br> 
Vamos começar separando os recursos que queremos usar(Fare, Cabin, Age, Sex, Lname(Last name) e NamePrefix) e aplicando novos nomes(labels) a estes recursos.

```Python
from sklearn import preprocessing

    def encode_features(df_train, df_test):
        features = ["Fare", "Cabin", "Age", "Sex", "Lname", "NamePrefix"]
        df_combined = pd.concat([df_train[features], df_test[features]])
    
        for feature in features:
            le = preprocessing.LabelEnconder()
            le = le.fit(df_combined[feature])
            df_train[feature] = le.transform(df_train[feature])
            df_test[feature] = le.transform(df_test[feature])
            return df_train, df_test
```

Agora iremos simplificar os dados que queremos usar:

```Python
    def simplify_ages(df): # guardando idades e definindo em grupos
        bins = (-1, 0, 5, 12, 18, 25, 35, 60, 120)
        group_names = ['Unknow', 'Baby', 'Child', 'Teenager', 'Student', 'Young Adult', 'Adult', 'Senior']
        categories = pd.cut(df.Age, bins, labels = group_names)
        df.Age = categories
        return df
    
    def simplify_cabins(df): # guardando a primeira letra das cabines
        df.Cabin = df.Cabin.fillna('N')
        df.Cabin = df.Cabin.apply(lambda x: x[0])
        return df
    
    def simplify_fares(df): # guardando tarifas e definindo em grupos
        df.Fare = df.Fare.fillna(-0.5)
        bins = (-1, 0, 8, 15, 31, 1000)
        group_names = ['Unknow', '1_quartile', '2_quartile', '3_quartile', '4_quartile']
        categories = pd.cut(df.Fare, bins, labels = group_names)
        df.Fare = categories
        return df
    
    def format_name(df): # mantendo o prefixo do nome (ex: Mr ou Mrs)
        df['Lname'] = df.Name.apply(lambda x: x.split(' ')[0])
        df['NamePrefix'] = df.Name.apply(lambda x: x.split(' ')[1])
        return df
    
    def drop_features(df): # removendo os recursos desnecessário
        return df.drop(['Ticket', 'Name', 'Embarked'], axis = 1)
    
    def transform_features(df):
        df = simplify_ages(df)
        df = simplify_cabins(df)
        df = simplify_fares(df)
        df = format_name(df)
        df = drop_features(df)
        return df
```

Agora vamos aplicar nossas funções nos nossos conjuntos de dados train e test, e depois fazer a visualização

```Python
    train = transform_features(train)
    test = transform_features(test)
    train_vis = train.copy(deep = True) # dados para visualização
    train, test = encode_features(train, test)
    train.head()
    #PassangerId Survived Pclass  Sex      Age         SibSp Parch  Fare        Cabin Lname     NamePrefix
    # 1            0         3    male     Student     1     0      1_quartile  N     Braund,    Mr.
    # 2            1         1    female   Adult    PC 1     0      4_quartile  C     Cumings,   Mrs.
    # 3            1         3    female   Young Adult 0     0      1_quartile  N     Heikkinen, Miss.
    # 4            1         1    female   Young Adult 1     0      4_quartile  C     Futrelle,  Mrs.
    # 5            0         3    male     Young Adult 0     0      2_quartile  N     Allen,     Mr.
 ```

#### Agora é a sua vez de fazer o pré-processamento dos dados! Qualquer dúvida, pergunte ao Pyter, o nosso chatbot voltado para tirar suas dúvidas sobre Machine Learning!

# Visualização de dados

Vamos plotar um gráfico em barras para visualização, de Sex(X) por Survived(Y), usando a o Seaborn e o conjunto de dados para visulização que fizemos anteriormente

```Python
    sns.barplot(x = "Sex", y = "Survived", data = train_vis)
    
    
```
![image.png](attachment:image.png)

Agora vamos plotar um gráfico em pontos, de Pclass(X) por Survived(Y), com uma matiz Sex, usando o mesmo conjunto de dados de treinamento:

```Python
    sns.pointplot(x = "Pclass", y = "Survived", hue = "Sex", data = train_vis)
```
![image.png](attachment:image.png)

Vamos plotar outro gráfico em barras, agora de Age(X) por Survived(Y):

```Python
    sns.barplot(x = "Age", y = "Survived", hue = "Sex", data = train_vis)
```
![image.png](attachment:image.png)

E para uma última visualização, vamos plotar outro gráfico em barras de Pclass(X) por Survived(Y), mas agora usando a matiz em Fare:

```Python
    sns.barplot(x = "Pclass", y = "Survived", hue = "Fare", data = train_vis)
```
![image.png](attachment:image.png)

#### Agora tente plotar os 4 gráficos mostrados para aprender visualização de dados!

# Preparando dados de treinamento e teste

Vamos agora usar o sklearn para preparar nossos dados de treinamento e dados de teste:

```Python
    from sklearn.model_selection import train_test_split
    
    X_all = train.drop(['Survived', 'PassangerId'], axis = 1)
    Y_all = train['Survived']
    
    num_test = 0.20
    X_train, X_test, Y_train, Y_test = train_test_split(X_all, Y_all, test_size = num_test, random_state = 23)
```

#### Agora é sua vez de preparar os dados de treinamento e teste!

# Definindo e incrementando um algoritmo

Agora é o momento de definirmos o algoritmo com o sklearn e fazer algumas escolhas como o classificador, as combinações de parâmetros, o tipo de scoring usado para comparar as combinações de parâmetros e o melhor algoritmo para os dados:  

```Python
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.metrics import make_scorer, accuracy_score
    from sklearn.model_selection import GridSearchCV

    # escolhendo o melhor classificador 
    clf = RandomForestClassifier()

    # escolhendo as combinações de parâmetros
    parameters = {'n_estimators': [4, 6, 9], 
                  'max_features': ['log2', 'sqrt','auto'], 
                  'criterion': ['entropy', 'gini'],
                  'max_depth': [2, 3, 5, 10], 
                  'min_samples_split': [2, 3, 5],
                  'min_samples_leaf': [1,5,8]
                 }

    # tipo de scoring usado para comparar as combinações de parâmetros
    acc_scorer = make_scorer(accuracy_score)

    # fazendo a pesquisa no grid
    grid_obj = GridSearchCV(clf, parameters, scoring=acc_scorer)
    grid_obj = grid_obj.fit(X_train, y_train)

    # setar o classificador para a melhor combinação de parâmetros
    clf = grid_obj.best_estimator_

    # ajustar o melhor algoritmo para os dados 
    clf.fit(X_train, y_train)
    
    # RandomForestClassifier(bootstrap=True, class_weight=None, criterion='entropy',
    #        max_depth=5, max_features='sqrt', max_leaf_nodes=None,
    #        min_impurity_decrease=0.0, min_impurity_split=None,
    #        min_samples_leaf=1, min_samples_split=2,
    #        min_weight_fraction_leaf=0.0, n_estimators=9, n_jobs=1,
    #        oob_score=False, random_state=None, verbose=0,
    #        warm_start=False)
```

Agora vamos ver como está a precisão do nosso algoritmo: 

```Python
    predictions = clf.predict(X_test)
    print(accuracy_score(Y_test, predictions))
  
    #0.810055865922
```

#### Agora é sua vez de trabalhar no algoritmo! Lembre-se de que qualquer dúvida que tiver, o Pyter poderá responder para você.

# Validação com K-fold

Agora vamos validar nosso modelo usando o K-fold:

```Python
    from sklearn.cross_validation import KFold

    def run_kfold(clf):
        kf = KFold(891, n_folds=10)
        outcomes = []
        fold = 0
        for train_index, test_index in kf:
            fold += 1
            X_train, X_test = X_all.values[train_index], X_all.values[test_index]
            y_train, y_test = y_all.values[train_index], y_all.values[test_index]
            clf.fit(X_train, y_train)
            predictions = clf.predict(X_test)
            accuracy = accuracy_score(y_test, predictions)
            outcomes.append(accuracy)
            print("Fold {0} accuracy: {1}".format(fold, accuracy))     
        mean_outcome = np.mean(outcomes)
        print("Mean Accuracy: {0}".format(mean_outcome)) 

    run_kfold(clf)
    
    #Fold 1 accuracy: 0.7444444444444445
    #Fold 2 accuracy: 0.8651685393258427
    #Fold 3 accuracy: 0.7752808988764045
    #Fold 4 accuracy: 0.8539325842696629
    #Fold 5 accuracy: 0.8539325842696629
    #Fold 6 accuracy: 0.8089887640449438
    #Fold 7 accuracy: 0.7865168539325843
    #Fold 8 accuracy: 0.7865168539325843
    #Fold 9 accuracy: 0.8539325842696629
    #Fold 10 accuracy: 0.8202247191011236
    #Mean Accuracy: 0.8148938826466917
```

#### Agora é sua vez de validar o modelo, tente calcular a precisão!

# Prever usando os dados de teste

Chegou o momento de usarmos tudo que fizemos até agora para prever quais passageiros sobreviveram, usando o conjunto de dados teste:

```Python
    ids = test['PassengerId']
    predictions = clf.predict(test.drop('PassengerId', axis=1))


    output = pd.DataFrame({ 'PassengerId' : ids, 'Survived': predictions })
    output.to_csv('titanic-predictions.csv', index = False)
    output.head()
    
    # PassangerId   Survived
    #   892            0
    #   893            0
    #   894            0
    #   895            0
    #   896            1
    
```

#### Agora é a sua vez de prever usando o conjunto de dados teste! 