
# Submetendo nosso modelo ao Kaggle

<p class="importante"> https://www.kaggle.com/c/titanic </p>

Podemos ver que no kaggle o dataset desse desafio esta separado em treino e teste! O teste é o dataset que iremos estimar os resultados!

<span class="atencao">Para realizarmos as predições é importante realizar as etapas de pre-processamento no dataset de teste! </span>

Obs.: nesse caso será dado o dataset de teste já pre-processado

In [1]:
import pandas
titanic_test = pandas.read_csv("https://databootcamp.nyc3.digitaloceanspaces.com/titanic_test.csv")

titanic_test.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


### Nossa, mas vamos ter que processar tudo de novo?

Infelizmente sim... E precisa ser feito com os mesmos processos, senão pode dar erros no seu modelo que você não esperava!

In [2]:
titanic_test.isnull().sum()

PassengerId      0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64

Esse ainda tem uma pessoa que não sabemos o valor da passagem!

## Pipelines ao resgate!

Pipelines são uma forma de você sempre seguir um mesmo fluxo de processos. Quando a gente joga Mário a gente sempre sabe que ao entrar em um cano vamos sair do outro lado... O mesmo vale para nossos datasets.

![pipeline](https://databootcamp.nyc3.digitaloceanspaces.com/img/pipeline.jpg)

No **Sklearn** temos um fluxo de Pipeline para nos ajudar a aplicar sempre os mesmos processos nos dados.

#### Os Pipelines são super importantes para REPRODUTIBILIDADE

In [3]:
from sklearn.pipeline import make_pipeline

Para realizar um passo do pipeline com uma função sua você precisa usar o **FunctionTransformer**. Ele permite que você use qualquer função em um pipeline, desde que ela receba um Dataframe e retorne um Dataframe

In [4]:
from sklearn.preprocessing import FunctionTransformer, StandardScaler

Vamos fazer nossas funções de preprocessamento

In [5]:
def add_age_filled(titanic):
    titanic["AgeFilled"] = titanic["Age"].fillna(titanic["Age"].median())
    return titanic

In [6]:
def add_relatives(titanic):
    titanic["Relatives"] = titanic["SibSp"] + titanic["Parch"]
    return titanic

In [7]:
def fill_fare(titanic):
    titanic["Fare"].fillna(titanic["Fare"].median(), inplace=True)
    return titanic

In [8]:
def only_numbers(titanic):
    features = [
        "Pclass",
        "Sex",
        "SibSp",
        "Parch",
        "Relatives",
        "Embarked",
        "Fare",
        "AgeFilled"
    ]
    titanic_features = titanic[features]
    return pandas.get_dummies(titanic_features).drop("Sex_male", axis=1)


Vamos montar um Pipeline para todo nosso preprocessamento. Essas funções vão sendo executadas em um fluxo único

In [9]:
preprocess_pipeline = make_pipeline(
    FunctionTransformer(add_age_filled),
    FunctionTransformer(add_relatives),
    FunctionTransformer(fill_fare),
    FunctionTransformer(only_numbers),
    StandardScaler()
)

Vamos aplicar nosso pipeline no Dataframe original do Titanic

In [10]:
titanic = pandas.read_csv("https://databootcamp.nyc3.digitaloceanspaces.com/titanic.csv")
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Primeiro treinamos somente nosso Pipeline porque existem funções como o **StandardScaler** que precisam pegar os valores de média e desvio padrão com o dataset mais completo possível. O **fit** nos retorna um objeto Pipeline com todos os passos detalhados.

In [11]:
preprocess_trained = preprocess_pipeline.fit(titanic)
preprocess_trained

Pipeline(memory=None,
         steps=[('functiontransformer-1',
                 FunctionTransformer(accept_sparse=False, check_inverse=True,
                                     func=<function add_age_filled at 0x7f8572b3d840>,
                                     inv_kw_args=None, inverse_func=None,
                                     kw_args=None, validate=False)),
                ('functiontransformer-2',
                 FunctionTransformer(accept_sparse=False, check_inverse=True,
                                     func=<function add_relatives at 0x7f8572b3db70...
                                     func=<function fill_fare at 0x7f8572b3dbf8>,
                                     inv_kw_args=None, inverse_func=None,
                                     kw_args=None, validate=False)),
                ('functiontransformer-4',
                 FunctionTransformer(accept_sparse=False, check_inverse=True,
                                     func=<function only_numbers at 0x7f8572

Tendo o pipeline já treinado, podemos aplicar ele em qualquer novo conjunto de dados!

In [21]:
titanic_preprocessed = preprocess_trained.transform(titanic)
titanic_preprocessed.shape
titanic_preprocessed

array([[ 0.82737724,  0.43279337, -0.47367361, ..., -0.48204268,
        -0.30756234,  0.61930636],
       [-1.56610693,  0.43279337, -0.47367361, ...,  2.0745051 ,
        -0.30756234, -1.61470971],
       [ 0.82737724, -0.4745452 , -0.47367361, ..., -0.48204268,
        -0.30756234,  0.61930636],
       ...,
       [ 0.82737724,  0.43279337,  2.00893337, ..., -0.48204268,
        -0.30756234,  0.61930636],
       [-1.56610693, -0.4745452 , -0.47367361, ...,  2.0745051 ,
        -0.30756234, -1.61470971],
       [ 0.82737724, -0.4745452 , -0.47367361, ..., -0.48204268,
         3.25137334, -1.61470971]])

In [13]:
label = titanic["Survived"]
label.shape

(891,)

## <font color='blue'>Aplique nosso pipeline nos dados que vamos enviar para o Kaggle!</font>
![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/atrasada-relogio-pulso-1116-1400x800.jpg)

In [32]:
titanic_test = pandas.read_csv("https://databootcamp.nyc3.digitaloceanspaces.com/titanic_test.csv")

titanic_test.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [33]:
#solução
from sklearn.ensemble import RandomForestClassifier

In [34]:
model = RandomForestClassifier()

In [35]:
model.fit(preprocess_trained.transform(titanic), label)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

In [36]:
survived = model.predict(preprocess_trained.transform(titanic_test))

In [38]:
titanic_test["Survived"]  = survived
to_submit = titanic_test[["PassengerId", "Survived"]]
to_submit.to_csv("submit.csv", index=False)

Agora que temos nossos dados processados vamos treinar nosso modelo nele!

In [15]:
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(
    titanic_preprocessed, label, test_size = 0.3, random_state=42
)

In [None]:
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression(random_state=42, solver="liblinear")
modelo = log_reg.fit(x_treino, y_treino)

## <font color='blue'>Agora consigam as predições e coloquem no formato do Kaggle</font>
Colunas necessárias:
- PassengerId
- Survived
![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/atrasada-relogio-pulso-1116-1400x800.jpg)

In [None]:
#solução

## Exportação do Modelo

É bem inconveniente precisar treinar o modelo sempre... Para isso, podemos exportar esse modelo para usarmos depois!

Para isso vamos precisar usar uma ferramenta chamada **joblib**.

In [None]:
import joblib

Para salvar o modelo basta usar a função **dump**

In [None]:
joblib.dump(modelo, "survived_model.joblib")

Para carregar novamente é tão simples quanto usar a função **load**

In [None]:
novo_modelo = joblib.load("survived_model.joblib")
novo_modelo

Pode testar até em outro Notebook!