# 04 - DummyClassifier

Realizando predição simples (chute) para definir a linha base para os algoritmos de aprendizagem.

## Preparando o ambiente

In [4]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.dummy import DummyClassifier

## Carregando dados

In [2]:
titanic = pd.read_csv('https://raw.githubusercontent.com/SalatielBairros/kaggle-titanic/main/data/processed/train_processed_byage_ag.csv')
del titanic['Unnamed: 0']
titanic.head(5)

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Floor,Embarked,Relateds,faixa_etaria,acompanhado,possui_cabine
0,0,3,male,22,1,0,SC,S,1,jovem_adulto,True,False
1,0,3,male,22,0,0,SC,C,0,jovem_adulto,False,False
2,0,3,male,22,0,0,SC,S,0,jovem_adulto,False,False
3,0,3,male,22,0,0,SC,S,0,jovem_adulto,False,False
4,0,3,male,22,0,0,SC,S,0,jovem_adulto,False,False


### Separando treino e teste

A separação é feita utilizando o método `train_test_split` distribuído por sobrevivência. Separações mais inteligentes apenas após o resultado dos primeiros testes.

In [5]:
SEED = 5
np.random.seed(SEED)

In [7]:
X = titanic.drop(columns=['Embarked', 'Survived'])
y = titanic['Survived']

In [8]:
titanic.shape

(891, 12)

In [13]:
treino_x, teste_x, treino_y, teste_y = train_test_split(X, y, test_size = 0.2, stratify = y)

In [14]:
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

Treinaremos com 712 elementos e testaremos com 179 elementos


## Executando o DummyClassifier

In [21]:
strategies = ["stratified", "most_frequent", "prior", "uniform"]
resultados = []

for s in strategies:
    dummy = DummyClassifier(strategy=s)
    dummy.fit(treino_x, treino_y)
    resultados.append({
        "strategy": s,
        "score": dummy.score(teste_x, teste_y)
    })

pd.DataFrame(resultados).sort_values(by='score', ascending=False)

Unnamed: 0,strategy,score
1,most_frequent,0.614525
2,prior,0.614525
0,stratified,0.586592
3,uniform,0.581006


O melhor score encontrado pelo `DummyClassifier` foi **61.45%**. Ou seja, qualquer algoritmo de aprendizado precisa ser melhor que esse valor.