# 04 - DummyClassifier

Realizando predição simples (chute) para definir a linha base para os algoritmos de aprendizagem.

## Preparando o ambiente

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.dummy import DummyClassifier

## Carregando dados

In [2]:
titanic = pd.read_csv('../data/processed/train_processed_byage_ag.csv')
del titanic['Unnamed: 0']
titanic.head(5)

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Floor,Relateds,cod_faixa_etaria,faixa_etaria
0,0,3,male,22,1,0,SC,1,1,crianca_adolescente
1,1,1,female,38,1,0,C,1,1,crianca_adolescente
2,1,3,female,26,0,0,SC,0,1,crianca_adolescente
3,1,1,female,35,1,0,C,1,1,crianca_adolescente
4,0,3,male,35,0,0,SC,0,1,crianca_adolescente


In [3]:
teste = pd.read_csv('../data/processed/test_processed.csv')
del teste['Unnamed: 0']
Xvalidacao = teste.drop(columns=['PassengerId'])
teste.head(5)

Unnamed: 0,PassengerId,Pclass,Sex,Age,SibSp,Parch,Floor,Relateds,possui_cabine,acompanhado,faixa_etaria
0,892,3,male,34,0,0,SC,0,False,False,jovem_adulto
1,893,3,female,47,1,0,SC,1,False,True,adulto_idoso
2,894,2,male,62,0,0,SC,0,False,False,adulto_idoso
3,895,3,male,27,0,0,SC,0,False,False,jovem_adulto
4,896,3,female,22,1,1,SC,2,False,True,jovem_adulto


### Separando treino e teste

A separação é feita utilizando o método `train_test_split` distribuído por sobrevivência. Separações mais inteligentes apenas após o resultado dos primeiros testes.

In [5]:
SEED = 42
np.random.seed(SEED)

In [7]:
X = titanic.drop(columns=['Survived'])
y = titanic['Survived']

Selecionando 20% dos dados para teste. Essa separação acontece porque os dados de teste fornecidos não devem ser usados no processo de treinamento, mesmo que seja para validação.

In [8]:
treino_x, teste_x, treino_y, teste_y = train_test_split(X, y, test_size = 0.2, stratify = y)

In [9]:
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

Treinaremos com 712 elementos e testaremos com 179 elementos


## Executando o DummyClassifier

In [10]:
strategies = ["stratified", "most_frequent", "prior", "uniform"]
resultados = []

for s in strategies:
    dummy = DummyClassifier(strategy=s)
    dummy.fit(treino_x, treino_y)
    resultados.append({
        "strategy": s,
        "score": dummy.score(teste_x, teste_y)
    })

pd.DataFrame(resultados).sort_values(by='score', ascending=False)

Unnamed: 0,strategy,score
1,most_frequent,0.614525
2,prior,0.614525
0,stratified,0.536313
3,uniform,0.530726


O melhor score encontrado pelo `DummyClassifier` foi **61.45%**. Ou seja, qualquer algoritmo de aprendizado precisa ser melhor que esse valor. Abaixo vou obter o melhor modelo:

In [11]:
dummy = DummyClassifier(strategy='prior')
dummy.fit(treino_x, treino_y)

### Executando nos dados oficiais de teste

In [12]:
predicoes = dummy.predict(Xvalidacao)
predicoes

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

Gerando submissão

In [13]:
resultado = pd.DataFrame()
resultado['PassengerId'] = teste['PassengerId']
resultado['Survived'] = predicoes
resultado.head()

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,0
2,894,0
3,895,0
4,896,0


In [15]:
resultado.to_csv('../data/submissions/1_dummy.csv', index=False)

## Validando com dados de teste

O resultado obtido no Kaggle foi de **62.2%** de acurácia. Bem semelhante ao obtido com os dados de treinamento. Dessa forma é possível estipular que este seja o valor mínimo, considerando o `DummyClassifier`.

In [18]:
ground_truth = pd.read_csv('../data/original/ground_truth.csv')

In [23]:
merged = pd.merge(ground_truth, resultado, on='PassengerId', how='inner', suffixes=('_expected', '_predicted'))
merged

Unnamed: 0,PassengerId,Survived_expected,Survived_predicted
0,892,0,0
1,893,1,0
2,894,0,0
3,895,0,0
4,896,1,0
...,...,...,...
413,1305,0,0
414,1306,1,0
415,1307,0,0
416,1308,0,0


In [28]:
acuracia = round(merged[merged['Survived_expected'] == merged['Survived_predicted']].shape[0] / merged.shape[0] * 100, 2)
print(f'Acurácia de {acuracia}% nos dados de teste (submissão Kaggle)')

Acurácia de 62.2% nos dados de teste (submissão Kaggle)
