# Primeiro modelo com scikit-learn

Neste caderno, apresentamos como construir modelos preditivos em tabelas
conjuntos de dados, com apenas recursos numéricos.

Em particular, iremos destacar:

* a scikit-learn: `.fit (X, y)` /`.predict (X) `/`.score (X, y)`;
* como avaliar o desempenho estatístico de um modelo com um teste de trem
  dividir.

## Carregando o conjunto de dados com o Pandas

Usaremos o mesmo conjunto de dados "adult_census" descrito na seção anterior
caderno. Para obter mais detalhes sobre o conjunto de dados, consulte
<http://www.openml.org/d/1590>.

Os dados numéricos são o tipo mais natural de dados usado no aprendizado de máquina e
pode (quase) ser alimentado diretamente em modelos preditivos. Vamos carregar um
subconjunto dos dados originais com apenas as colunas numéricas.

In [2]:
import pandas as pd 

adult_census = pd.read_csv("adult-census.csv")

In [None]:
age	workclass	education	marital-status	occupation	relationship	race	sex	capital-gain	capital-loss	hours-per-week	native-country	class

Vamos dar uma olhada nos primeiros registros desse dataframe:

In [3]:
adult_census.head()

Unnamed: 0,ID,age,workclass,fnlwgt:,education:,education-num:,marital-status:,occupation:,relationship:,race:,sex:,capital-gain:,capital-loss:,hours-per-week:,native-country:,class
0,1,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,2,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,3,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,4,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,5,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [12]:
adult_census = adult_census[['age', 'capital-gain:', 'capital-loss:', 'hours-per-week:', 'class']]

In [13]:
adult_census.head()

Unnamed: 0,age,capital-gain:,capital-loss:,hours-per-week:,class
0,39,2174,0,40,<=50K
1,50,0,0,13,<=50K
2,38,0,0,40,<=50K
3,53,0,0,40,<=50K
4,28,0,0,40,<=50K


Vemos que este arquivo CSV contém todas as informações: o destino que gostaríamos
gostamos de prever (ou seja, `" classe "`) e os dados que queremos usar para treinar
nosso modelo preditivo (ou seja, as colunas restantes). O primeiro passo é
colunas separadas para obter de um lado o alvo e do outro lado o
dados.

## Separe os dados e o alvo

In [19]:
target_name = 'class'
target = adult_census[target_name]
target

0        <=50K
1        <=50K
2        <=50K
3        <=50K
4        <=50K
         ...  
32556    <=50K
32557     >50K
32558    <=50K
32559    <=50K
32560     >50K
Name: class, Length: 32561, dtype: object

In [20]:
data = adult_census.drop(columns=[target_name, ])
data.head()

Unnamed: 0,age,capital-gain:,capital-loss:,hours-per-week:
0,39,2174,0,40
1,50,0,0,13
2,38,0,0,40
3,53,0,0,40
4,28,0,0,40


Podemos agora nos demorar nas variáveis, também denominadas características, que iremos
usar para construir nosso modelo preditivo. Além disso, também podemos verificar quantos
as amostras estão disponíveis em nosso conjunto de dados.

In [21]:
data.columns

Index(['age', 'capital-gain:', 'capital-loss:', 'hours-per-week:'], dtype='object')

In [22]:
print(f"The dataset contains {data.shape[0]} samples and "
      f"{data.shape[1]} features")

The dataset contains 32561 samples and 4 features


## Ajuste um modelo e faça previsões

Vamos construir um modelo de classificação usando os "K-nearest mais próximos"
estratégia. Para prever o alvo de uma nova amostra, um vizinho k-mais próximo toma
em conta suas amostras mais próximas de `k` no conjunto de treinamento e prevê o
alvo da maioria dessas amostras.

<div class="admonition caution alert alert-warning">
<p class="first admonition-title" style="font-weight: bold;">Cuidado!</p>
<p class="last">Usamos vizinhos K-nearest próximos aqui. No entanto, esteja ciente de que raramente é útil
na prática. Nós o usamos porque é um algoritmo intuitivo. Na próxima
notebook, apresentaremos modelos melhores.</p>
</div>


O método `fit` é chamado para treinar o modelo a partir da entrada (recursos) e
dados de destino.

In [23]:
# to display nice model diagram
from sklearn import set_config
set_config(display='diagram')

In [24]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier()
model.fit(data, target)

A aprendizagem pode ser representada da seguinte forma:

![Predictor fit diagram](imagens/model.fit.png)

O método `fit` é composto por dois elementos: (i) um **learning algorithm**
e (ii) alguns **model states**. O algoritmo de aprendizagem leva o treinamento
dados e destino de treinamento como entrada e define os estados do modelo. Estes modelos
estados serão usados posteriormente para prever (para classificadores e regressores)
ou transformar dados (para transformadores).

Tanto o algoritmo de aprendizagem quanto o tipo de estado do modelo são específicos para cada
tipo de modelo.


<div class="admonition note alert alert-info">
<p class="first admonition-title" style="font-weight: bold;">Note</p>
<p class="last">Here and later, we use the name <tt class="docutils literal">data</tt> and <tt class="docutils literal">target</tt> to be explicit. In
scikit-learn documentation, <tt class="docutils literal">data</tt> is commonly named <tt class="docutils literal">X</tt> and <tt class="docutils literal">target</tt> is
commonly called <tt class="docutils literal">y</tt>.</p>
</div>

In [26]:
target_predicted = model.predict(data)

Podemos ilustrar o mecanismo de previsão da seguinte maneira:
    
![Predictor fit diagram](imagens/model.predict.png)

Para prever, um modelo usa uma **prediction function** que usará a entrada
dados junto com os estados do modelo. Quanto ao algoritmo de aprendizagem e o
estados do modelo, a função de previsão é específica para cada tipo de modelo.

Vamos agora dar uma olhada nas previsões calculadas. Por causa de
simplicidade, veremos os cinco primeiros alvos previstos.

In [27]:
target_predicted[:5]

array(['<=50K', '<=50K', '<=50K', '<=50K', '<=50K'], dtype=object)

Na verdade, podemos comparar essas previsões com os dados reais ...

In [29]:
target[:5]

0    <=50K
1    <=50K
2    <=50K
3    <=50K
4    <=50K
Name: class, dtype: object

... e podemos até verificar se as previsões estão de acordo com os alvos reais:

In [30]:
target[:5] == target_predicted[:5]

0    True
1    True
2    True
3    True
4    True
Name: class, dtype: bool

In [31]:
print(f"Number of correct prediction: "
      f"{(target[:5] == target_predicted[:5]).sum()} / 5")

Number of correct prediction: 5 / 5


Aqui, vemos que nosso modelo comete um erro ao prever para o primeiro
amostra.

Para obter uma avaliação melhor, podemos calcular a taxa média de sucesso.

In [32]:
(target == target_predicted).mean()

0.8162525720954517

Mas, essa avaliação pode ser confiável ou é boa demais para ser verdade?

## Divisão de dados de teste de trem

Ao construir um modelo de aprendizado de máquina, é importante avaliar o
modelo treinado em dados que não foram usados para ajustá-lo, pois a generalização é
mais do que memorização (o que significa que queremos uma regra que generalize para novos dados,
sem comparar com os dados que memorizamos).
É mais difícil concluir sobre instâncias nunca vistas do que sobre as já vistas.

A avaliação correta é facilmente feita, deixando de fora um subconjunto dos dados quando
treinar o modelo e usá-lo depois para avaliação do modelo.
Os dados usados para ajustar um modelo são chamados de dados de treinamento, enquanto os dados usados ​​para
avaliar um modelo é chamado de dados de teste.

Podemos carregar mais dados, que foram deixados de fora dos dados originais
definir.