# Usando vari√°veis num√©ricas e categ√≥ricas juntas

Nos cadernos anteriores, mostramos o pr√©-processamento necess√°rio para aplicar
ao lidar com vari√°veis num√©ricas e categ√≥ricas. No entanto, n√≥s dissociamos
o processo para tratar cada tipo individualmente. Neste caderno, vamos mostrar
como combinar essas etapas de pr√©-processamento.

Primeiro, carregaremos todo o conjunto de dados do censo de adultos.

In [1]:
import pandas as pd

adult_census = pd.read_csv("adult-census.csv")
# drop the duplicated column `"education-num"` as stated in the first notebook
adult_census = adult_census.drop(columns=['ID','fnlwgt:','education-num:'])

target_name = "class"
target = adult_census[target_name]

data = adult_census.drop(columns=target_name)

adult_census.head()

Unnamed: 0,age,workclass,education:,marital-status:,occupation:,relationship:,race:,sex:,capital-gain:,capital-loss:,hours-per-week:,native-country:,class
0,39,State-gov,Bachelors,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,Bachelors,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,HS-grad,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,11th,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,Bachelors,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


## Sele√ß√£o baseada em tipos de dados

Separaremos vari√°veis categ√≥ricas e num√©ricas usando seus dados
tipos para identific√°-los, como vimos anteriormente que `objeto` corresponde
para colunas categ√≥ricas (strings). Fazemos uso de `make_column_selector`
auxiliar para selecionar as colunas correspondentes.

In [2]:
from sklearn.compose import make_column_selector as selector

numerical_columns_selector = selector(dtype_exclude=object)
categorical_columns_selector = selector(dtype_include=object)

numerical_columns = numerical_columns_selector(data)
categorical_columns = categorical_columns_selector(data)

## Despachar colunas para um processador espec√≠fico

Nas se√ß√µes anteriores, vimos que precisamos tratar os dados de maneira diferente
dependendo de sua natureza (ou seja, num√©rica ou categ√≥rica).

Scikit-learn fornece uma classe `ColumnTransformer` que enviar√°
colunas para um transformador espec√≠fico, tornando mais f√°cil ajustar um √∫nico preditivo
modelo em um conjunto de dados que combina os dois tipos de vari√°veis juntos
(dados tabulares digitados de forma heterog√™nea).

Primeiro definimos as colunas dependendo de seu tipo de dados:

* **codifica√ß√£o one-hot** ser√° aplicada a colunas categ√≥ricas. Al√©m disso, n√≥s
  use `handle_unknown =" ignore "` para resolver os problemas potenciais devido ao raro
  categorias.
* **escala num√©rica** recursos num√©ricos que ser√£o padronizados.

Agora, criamos nosso `ColumnTransfomer` especificando tr√™s valores:
o nome do pr√©-processador, o transformador e as colunas.
Primeiro, vamos criar os pr√©-processadores para os dados num√©ricos e categ√≥ricos
partes.

In [3]:
from sklearn.preprocessing import OneHotEncoder, StandardScaler

categorical_preprocessor = OneHotEncoder(handle_unknown="ignore")
numerical_preprocessor = StandardScaler()

Agora, criamos o transformador e associamos cada um desses pr√©-processadores
com suas respectivas colunas.

In [4]:
from sklearn.compose import ColumnTransformer

preprocessor = ColumnTransformer([
    ('one-hot-encoder', categorical_preprocessor, categorical_columns),
    ('standard-scaler', numerical_preprocessor, numerical_columns)])

Podemos levar um minuto para representar graficamente a estrutura de um
`ColumnTransformer`:


![Predictor fit diagram](imagens/column_trans.png)


Um `ColumnTransformer` faz o seguinte:

* Ele **divide as colunas** do conjunto de dados original com base nos nomes das colunas
  ou √≠ndices fornecidos. Obteremos tantos subconjuntos quanto o n√∫mero de
  transformadores passados para o `ColumnTransformer`.
* Ele **transforma cada subconjunto**. Um transformador espec√≠fico √© aplicado a
  cada subconjunto: ele chamar√° internamente `fit_transform` ou` transform`. O
  a sa√≠da desta etapa √© um conjunto de conjuntos de dados transformados.
* Em seguida, ** concatena os conjuntos de dados transformados ** em um √∫nico conjunto de dados.

O importante √© que `ColumnTransformer` √© como qualquer outro
transformador scikit-learn. Em particular, pode ser combinado com um classificador
em um `Pipeline`:

In [5]:
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

model = make_pipeline(preprocessor, LogisticRegression(max_iter=500))

Podemos exibir um diagrama interativo com o seguinte comando:

In [6]:
from sklearn import set_config
set_config(display='diagram')
model

O modelo final √© mais complexo do que os modelos anteriores, mas ainda segue
a mesma API (o mesmo conjunto de m√©todos que pode ser chamado pelo usu√°rio):

- o m√©todo `fit` √© chamado para pr√©-processar os dados e, em seguida, treinar o
  classificador dos dados pr√©-processados;
- o m√©todo `predict` faz previs√µes sobre novos dados;
- o m√©todo `score` √© usado para prever os dados de teste e comparar o
  previs√µes para os r√≥tulos de teste esperados para calcular a precis√£o.

Vamos come√ßar dividindo nossos dados em conjuntos de treinamento e teste.

In [7]:
from sklearn.model_selection import train_test_split

data_train, data_test, target_train, target_test = train_test_split(
    data, target, random_state=42)

<div class="admonition caution alert alert-warning">
<p class="first admonition-title" style="font-weight: bold;">Caution!</p>
<p class="last">Esteja ciente de que usamos<tt class="docutils literal">train_test_split</tt> aqui para fins did√°ticos, para mostrar
a API scikit-learn.</p>
</div>

Agora, podemos treinar o modelo no conjunto de trem.

In [8]:
_ = model.fit(data_train, target_train)

Ent√£o, podemos enviar o conjunto de dados bruto direto para o pipeline. Na verdade, n√≥s n√£o
precisa fazer qualquer pr√©-processamento manual (chamando o `transform` ou
m√©todos `fit_transform`), pois ser√° tratado ao chamar o` predict`
m√©todo. Como exemplo, prevemos nas cinco primeiras amostras do teste
definir.

In [9]:
data_test.head()

Unnamed: 0,age,workclass,education:,marital-status:,occupation:,relationship:,race:,sex:,capital-gain:,capital-loss:,hours-per-week:,native-country:
14160,27,Private,Some-college,Divorced,Adm-clerical,Not-in-family,White,Female,0,0,38,United-States
27048,45,State-gov,HS-grad,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States
28868,29,Private,Bachelors,Married-civ-spouse,Exec-managerial,Husband,Black,Male,0,0,55,United-States
5667,30,Private,Bachelors,Never-married,Machine-op-inspct,Not-in-family,White,Female,0,0,40,United-States
7827,29,Self-emp-not-inc,Some-college,Divorced,Craft-repair,Not-in-family,White,Male,2202,0,50,United-States


In [10]:
model.predict(data_test)[:5]

array(['<=50K', '<=50K', '>50K', '<=50K', '<=50K'], dtype=object)

In [11]:
target_test[:5]

14160    <=50K
27048    <=50K
28868     >50K
5667     <=50K
7827     <=50K
Name: class, dtype: object

Para obter diretamente a pontua√ß√£o de precis√£o, precisamos chamar o m√©todo `score`. Vamos
calcule a pontua√ß√£o de precis√£o em todo o conjunto de teste.

In [12]:
model.score(data_test, target_test)

0.8578798673381648

## Avalia√ß√£o do modelo com valida√ß√£o cruzada

Como afirmado anteriormente, um modelo preditivo deve ser avaliado por
valida√ß√£o cruzada. Nosso modelo pode ser usado com as ferramentas de valida√ß√£o cruzada de
scikit-learn como qualquer outro preditor:

In [13]:
from sklearn.model_selection import cross_validate

cv_results = cross_validate(model, data, target, cv=5)
cv_results

{'fit_time': array([1.41780925, 0.87463403, 1.01599312, 1.66795349, 1.31983948]),
 'score_time': array([0.057796  , 0.02890229, 0.02682996, 0.04101801, 0.06900096]),
 'test_score': array([0.84861047, 0.84735872, 0.85273342, 0.85657248, 0.85304054])}

In [14]:
scores = cv_results["test_score"]
print("A mean cross-validation accuracy √©: "
      f"{scores.mean():.3f} +/- {scores.std():.3f}")

A mean cross-validation accuracy √©: 0.852 +/- 0.003


O modelo composto tem uma maior precis√£o preditiva do que os dois modelos que
utilizou vari√°veis num√©ricas e categ√≥ricas isoladamente.

## Adaptando um modelo mais poderoso

**Linear models** s√£o bons porque geralmente s√£o baratos para treinar,
**pequeno** para implantar, **r√°pido** para prever e fornecer uma **boa linha de base**.

No entanto, muitas vezes √© √∫til verificar se modelos mais complexos, como um
conjunto de √°rvores de decis√£o pode levar a um desempenho preditivo mais alto. Nisso
se√ß√£o, usaremos um modelo chamado **gradient-boosting trees** e
avaliar seu desempenho estat√≠stico. Mais precisamente, o modelo scikit-learn
usaremos √© chamado de `HistGradientBoostingClassifier`. Observe que impulsionar
os modelos ser√£o abordados com mais detalhes em um m√≥dulo futuro.

Para modelos baseados em √°rvore, o tratamento de vari√°veis num√©ricas e categ√≥ricas √©
mais simples do que para modelos lineares:
* n√≥s **n√£o precisamos dimensionar os recursos num√©ricos**
* usar uma **codifica√ß√£o ordinal para as vari√°veis categ√≥ricas** √© bom, mesmo se
  a codifica√ß√£o resulta em uma ordem arbitr√°ria

Portanto, para `HistGradientBoostingClassifier`, o pipeline de pr√©-processamento
√© um pouco mais simples do que o que vimos anteriormente para `LogisticRegression`:

In [18]:
from sklearn.experimental import enable_hist_gradient_boosting
from sklearn.ensemble import HistGradientBoostingClassifier
from sklearn.preprocessing import OrdinalEncoder

#categorical_preprocessor = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)
categorical_preprocessor = OrdinalEncoder()
preprocessor = ColumnTransformer([
    ('categorical', categorical_preprocessor, categorical_columns)],
    remainder="passthrough")

model = make_pipeline(preprocessor, HistGradientBoostingClassifier())

Agora que criamos nosso modelo, podemos verificar seu desempenho estat√≠stico.

In [19]:
%%time
_ = model.fit(data_train, target_train)

Wall time: 2.14 s


In [20]:
model.score(data_test, target_test)

0.8760594521557549

Podemos observar que obtemos precis√µes significativamente maiores com o Gradiente
Modelo de refor√ßo. Isso √© frequentemente o que observamos sempre que o conjunto de dados tem um
grande n√∫mero de amostras e n√∫mero limitado de recursos informativos (por exemplo, menos
de 1000) com uma mistura de vari√°veis num√©ricas e categ√≥ricas.

Isso explica por que as m√°quinas com gradiente aumentado s√£o muito populares entre
profissionais de ci√™ncia de dados que trabalham com dados tabulares.

Neste caderno n√≥s:

* usou um `ColumnTransformer` para aplicar diferentes pr√©-processamento para
  vari√°veis categ√≥ricas e num√©ricas;
* usou um pipeline para encadear o pr√©-processamento `ColumnTransformer` e
  ajuste de regress√£o log√≠stica;
* visto que **gradient boosting methods** podem superar o desempenho **linear
  models**.

# üìù Exerc√≠cio M1.05

O objetivo deste exerc√≠cio √© avaliar o impacto do pr√©-processamento de recursos
em um pipeline que usa um classificador baseado em √°rvore de decis√£o em vez de log√≠stico
regress√£o.

- A primeira quest√£o √© avaliar empiricamente se a escala num√©rica
  recurso √© √∫til ou n√£o;
- A segunda quest√£o √© avaliar se √© empiricamente melhor (ambos
  de uma perspectiva computacional e estat√≠stica) para usar c√≥digos inteiros ou
  categorias codificadas one-hot.

In [1]:
import pandas as pd

adult_census = pd.read_csv("adult-census.csv")
# drop the duplicated column `"education-num"` as stated in the first notebook
adult_census = adult_census.drop(columns=['ID','fnlwgt:','education-num:'])

target_name = "class"
target = adult_census[target_name]

data = adult_census.drop(columns=target_name)

adult_census.head()

Unnamed: 0,age,workclass,education:,marital-status:,occupation:,relationship:,race:,sex:,capital-gain:,capital-loss:,hours-per-week:,native-country:,class
0,39,State-gov,Bachelors,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,Bachelors,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,HS-grad,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,11th,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,Bachelors,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


Como nos blocos de notas anteriores, usamos o utilit√°rio `make_column_selector`
para selecionar apenas a coluna com um tipo de dados espec√≠fico. Al√©m disso, n√≥s listamos em
avance todas as categorias para as colunas categ√≥ricas.

In [2]:
from sklearn.compose import make_column_selector as selector

numerical_columns_selector = selector(dtype_exclude=object)
categorical_columns_selector = selector(dtype_include=object)
numerical_columns = numerical_columns_selector(data)
categorical_columns = categorical_columns_selector(data)

## Pipeline de refer√™ncia (sem escala num√©rica e categorias codificadas por inteiro)

Primeiro vamos cronometrar o pipeline que usamos no notebook principal para servir como um
refer√™ncia:

In [None]:
%%time
from sklearn.model_selection import cross_validate
from sklearn.pipeline import make_pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OrdinalEncoder
from sklearn.experimental import enable_hist_gradient_boosting
from sklearn.ensemble import HistGradientBoostingClassifier

#categorical_preprocessor = OrdinalEncoder(handle_unknown="use_encoded_value",unknown_value=-1)
categorical_preprocessor = OrdinalEncoder()

preprocessor = ColumnTransformer([
    ('categorical', categorical_preprocessor, categorical_columns)],
    remainder="passthrough")

model = make_pipeline(preprocessor, HistGradientBoostingClassifier())
cv_results = cross_validate(model, data, target)
scores = cv_results["test_score"]
print("The mean cross-validation accuracy is: "
      f"{scores.mean():.3f} +/- {scores.std():.3f}")

## Dimensionando recursos num√©ricos

Vamos escrever um pipeline semelhante que tamb√©m dimensiona os recursos num√©ricos usando
`StandardScaler` (ou semelhante):

In [None]:
%%time
from sklearn.preprocessing import StandardScaler

preprocessor = ColumnTransformer([
    ('numerical', StandardScaler(), numerical_columns),
    ('categorical', OrdinalEncoder(),
     categorical_columns)])

model = make_pipeline(preprocessor, HistGradientBoostingClassifier())
cv_results = cross_validate(model, data, target)
scores = cv_results["test_score"]
print("The mean cross-validation accuracy is: "
      f"{scores.mean():.3f} +/- {scores.std():.3f}")

## Codifica√ß√£o one-hot de vari√°veis categ√≥ricas

Para modelos lineares, observamos que a codifica√ß√£o inteira de
vari√°veis podem ser muito prejudiciais. Por√©m para
Modelos `HistGradientBoostingClassifier`, n√£o parece ser o caso, como
a valida√ß√£o cruzada do pipeline de refer√™ncia com `OrdinalEncoder` √© boa.

Vamos ver se podemos obter uma precis√£o ainda melhor com `OneHotEncoder`.

Dica: `HistGradientBoostingClassifier` ainda n√£o suporta entrada esparsa
dados. Voc√™ pode querer usar
`OneHotEncoder (handle_unknown =" ignore ", sparse = False)` para for√ßar o uso de um
representa√ß√£o densa como uma solu√ß√£o alternativa.

In [7]:
%%time
from sklearn.preprocessing import OneHotEncoder

categorical_preprocessor = OneHotEncoder(handle_unknown="ignore", sparse=False)

preprocessor = ColumnTransformer([
    ('one-hot-encoder', categorical_preprocessor, categorical_columns)],
    remainder="passthrough")

model = make_pipeline(preprocessor, HistGradientBoostingClassifier())
cv_results = cross_validate(model, data, target)
scores = cv_results["test_score"]
print("The mean cross-validation accuracy is: "
      f"{scores.mean():.3f} +/- {scores.std():.3f}")

The mean cross-validation accuracy is: 0.873 +/- 0.003
Wall time: 30.8 s
