# Trabalhar com dados num√©ricos

No notebook anterior, treinamos um modelo de k-nearest mais pr√≥ximos em
adicionar dados.

No entanto, simplificamos demais o procedimento carregando um conjunto de dados que continha
dados exclusivamente num√©ricos. Al√©m disso, usamos conjuntos de dados que j√° eram
dividido em conjuntos de teste de trem.

Neste bloco de notas, pretendemos:

* identificar dados num√©ricos em um conjunto de dados heterog√™neo;
* selecionar o subconjunto de colunas correspondentes aos dados num√©ricos;
* usando um helper scikit-learn para separar os dados em conjuntos de teste de treinamento;
* treinar e avaliar um modelo mais complexo de scikit-learn.

Come√ßaremos carregando o conjunto de dados do censo adulto usado durante os dados
explora√ß√£o.

## Carregando todo o conjunto de dados

Como no bloco de notas anterior, contamos com o pandas para abrir o arquivo CSV em
para pandas dataframe.

In [2]:
import pandas as pd
 
adult_census = pd.read_csv("adult-census.csv")
# drop the duplicated column `"education-num"` as stated in the first notebook
adult_census = adult_census.drop(columns="education-num:")
adult_census.head()

Unnamed: 0,ID,age,workclass,fnlwgt:,education:,marital-status:,occupation:,relationship:,race:,sex:,capital-gain:,capital-loss:,hours-per-week:,native-country:,class
0,1,39,State-gov,77516,Bachelors,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,2,50,Self-emp-not-inc,83311,Bachelors,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,3,38,Private,215646,HS-grad,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,4,53,Private,234721,11th,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,5,28,Private,338409,Bachelors,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [4]:
adult_census = adult_census.drop(columns=['ID','fnlwgt:'])
adult_census.head()

Unnamed: 0,age,workclass,education:,marital-status:,occupation:,relationship:,race:,sex:,capital-gain:,capital-loss:,hours-per-week:,native-country:,class
0,39,State-gov,Bachelors,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,Bachelors,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,HS-grad,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,11th,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,Bachelors,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K



A pr√≥xima etapa separa o destino dos dados. Executamos o mesmo
procedimento no caderno anterior.

In [5]:
data, target = adult_census.drop(columns="class"), adult_census["class"]

In [6]:
data.head()

Unnamed: 0,age,workclass,education:,marital-status:,occupation:,relationship:,race:,sex:,capital-gain:,capital-loss:,hours-per-week:,native-country:
0,39,State-gov,Bachelors,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States
1,50,Self-emp-not-inc,Bachelors,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States
2,38,Private,HS-grad,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States
3,53,Private,11th,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States
4,28,Private,Bachelors,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba


In [7]:
target

0        <=50K
1        <=50K
2        <=50K
3        <=50K
4        <=50K
         ...  
32556    <=50K
32557     >50K
32558    <=50K
32559    <=50K
32560     >50K
Name: class, Length: 32561, dtype: object

<div class="admonition note alert alert-info">
<p class="first admonition-title" style="font-weight: bold;">Note</p>
<p class="last">Here and later, we use the name <tt class="docutils literal">data</tt> and <tt class="docutils literal">target</tt> to be explicit. In
scikit-learn documentation, <tt class="docutils literal">data</tt> is commonly named <tt class="docutils literal">X</tt> and <tt class="docutils literal">target</tt> is
commonly called <tt class="docutils literal">y</tt>.</p>
</div>

Neste ponto, podemos nos concentrar nos dados que queremos usar para treinar nosso
modelo preditivo.

## Identificar dados num√©ricos

Os dados num√©ricos s√£o representados por n√∫meros. Eles est√£o ligados a mensur√°veis
dados (quantitativos), como idade ou o n√∫mero de horas que uma pessoa trabalha um
semana.

Os modelos preditivos s√£o projetados nativamente para trabalhar com dados num√©ricos.
Al√©m disso, os dados num√©ricos geralmente requerem muito pouco trabalho antes de obter
come√ßou com o treinamento.

A primeira tarefa aqui ser√° identificar dados num√©ricos em nosso conjunto de dados.

<div class="admonition caution alert alert-warning">
<p class="first admonition-title" style="font-weight: bold;">Caution!</p>
<p class="last">Os dados num√©ricos s√£o representados com n√∫meros, mas os n√∫meros nem sempre s√£o
representando dados num√©ricos. As categorias j√° podem ser codificadas com
n√∫meros e voc√™ precisar√° identificar esses recursos.</p>
</div>

Assim, podemos verificar o tipo de dados para cada uma das colunas no conjunto de dados.

In [8]:
data.dtypes

age                 int64
workclass          object
education:         object
marital-status:    object
occupation:        object
relationship:      object
race:              object
sex:               object
capital-gain:       int64
capital-loss:       int64
hours-per-week:     int64
native-country:    object
dtype: object

Parece que temos apenas dois tipos de dados. Podemos ter certeza, verificando o exclusivo
tipos de dados.

In [9]:
data.dtypes.unique()

array([dtype('int64'), dtype('O')], dtype=object)

Na verdade, os √∫nicos dois tipos no conjunto de dados s√£o inteiro e objeto.
Podemos olhar as primeiras linhas do dataframe para entender o
significado do tipo de dados `object`.

In [10]:
data.head()

Unnamed: 0,age,workclass,education:,marital-status:,occupation:,relationship:,race:,sex:,capital-gain:,capital-loss:,hours-per-week:,native-country:
0,39,State-gov,Bachelors,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States
1,50,Self-emp-not-inc,Bachelors,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States
2,38,Private,HS-grad,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States
3,53,Private,11th,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States
4,28,Private,Bachelors,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba


Vemos que o tipo de dados `object` corresponde a colunas contendo strings.
Como vimos na se√ß√£o de explora√ß√£o, essas colunas cont√™m categorias e n√≥s
veremos mais tarde como lidar com isso. Podemos selecionar as colunas que cont√™m
inteiros e verifique seu conte√∫do.

In [11]:
numerical_columns = ["age", "capital-gain:", "capital-loss:", "hours-per-week:"]
data[numerical_columns].head()

Unnamed: 0,age,capital-gain:,capital-loss:,hours-per-week:
0,39,2174,0,40
1,50,0,0,13
2,38,0,0,40
3,53,0,0,40
4,28,0,0,40


Agora que limitamos o conjunto de dados apenas a colunas num√©ricas,
podemos analisar esses n√∫meros para descobrir o que eles representam. Podemos
identificar dois tipos de uso.

A primeira coluna, `"age"`, √© autoexplicativa. Podemos notar que os valores
s√£o cont√≠nuos, o que significa que podem ocupar qualquer n√∫mero em um determinado intervalo. Vamos
descubra o que √© esse intervalo:

In [12]:
data["age"].describe()

count    32561.000000
mean        38.581647
std         13.640433
min         17.000000
25%         28.000000
50%         37.000000
75%         48.000000
max         90.000000
Name: age, dtype: float64

Podemos perceber que a idade varia entre 17 e 90 anos.

Poder√≠amos estender nossa an√°lise e descobriremos que `"capital-gain"`,
`"capital-loss"`, e `"hours-per-week"` tamb√©m representam
dados.

Agora, armazenamos o subconjunto de colunas num√©ricas em um novo dataframe.

In [13]:
data_numeric = data[numerical_columns]

## Train-test split the dataset

No notebook anterior, carregamos dois conjuntos de dados separados: um de treinamento e
um teste. No entanto, ter conjuntos de dados separados em dois arquivos distintos √©
incomum: na maioria das vezes, temos um √∫nico arquivo contendo todos os dados que
precisamos dividir uma vez carregado na mem√≥ria.

Scikit-learn fornece a fun√ß√£o auxiliar
`sklearn.model_selection.train_test_split` que √© usado para automaticamente
dividir o conjunto de dados em dois subconjuntos.

In [14]:
from sklearn.model_selection import train_test_split

data_train, data_test, target_train, target_test = train_test_split(
    data_numeric, target, random_state=42, test_size=0.25)

<div class="admonition tip alert alert-warning">
<p class="first admonition-title" style="font-weight: bold;">Tip</p>
<p class="last">Na configura√ß√£o do scikit-learn, o par√¢metro <tt class = "docutils literal"> random_state </tt> permite obter
resultados determin√≠sticos quando usamos um gerador de n√∫meros aleat√≥rios. No
<tt class = "docutils literal"> train_test_split </tt> caso a aleatoriedade venha do embaralhamento dos dados, que
decide como o conjunto de dados √© dividido em um trem e um conjunto de teste). </p>
</div>

Ao chamar a fun√ß√£o `train_test_split`, especificamos que gostar√≠amos
ter 25% das amostras no conjunto de teste, enquanto as amostras restantes (75%)
estar√° dispon√≠vel no conjunto de treinamento. Podemos verificar rapidamente se temos
o que esper√°vamos.

In [15]:
print(f"Number of samples in testing: {data_test.shape[0]} => "
      f"{data_test.shape[0] / data_numeric.shape[0] * 100:.1f}% of the"
      f" original set")

Number of samples in testing: 8141 => 25.0% of the original set


In [16]:
print(f"Number of samples in training: {data_train.shape[0]} => "
      f"{data_train.shape[0] / data_numeric.shape[0] * 100:.1f}% of the"
      f" original set")

Number of samples in training: 24420 => 75.0% of the original set


No notebook anterior, usamos um modelo de k-vizinhos mais pr√≥ximos. Enquanto isso
modelo √© intuitivo de entender, n√£o √© amplamente utilizado na pr√°tica. Agora n√≥s
usar√° um modelo mais √∫til, chamado de regress√£o log√≠stica, que pertence ao
a fam√≠lia de modelos lineares.

<div class="admonition note alert alert-info">
<p class="first admonition-title" style="font-weight: bold;">Note</p>
<p>In short, linear models find a set of weights to combine features linearly
and predict the target. For instance, the model can come up with a rule such
as:</p>
<ul class="simple">
<li>if <tt class="docutils literal">0.1 * age + 3.3 * <span class="pre">hours-per-week</span> - 15.1 &gt; 0</tt>, predict <tt class="docutils literal"><span class="pre">high-income</span></tt></li>
<li>otherwise predict <tt class="docutils literal"><span class="pre">low-income</span></tt></li>
</ul>
<p class="last">Linear models, and in particular the logistic regression, will be covered in
more details in the "Linear models" module later in this course. For now the
focus is to use this logistic regression model in scikit-learn rather than
understand how it works in details.</p>
</div>

Para criar um modelo de regress√£o log√≠stica no scikit-learn, voc√™ pode fazer:

In [17]:
# to display nice model diagram
from sklearn import set_config
set_config(display='diagram')

In [18]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()

Agora que o modelo foi criado, voc√™ pode us√°-lo exatamente da mesma maneira que
usamos o modelo de vizinhos k-mais pr√≥ximos no notebook anterior. Dentro
em particular, podemos usar o m√©todo `fit` para treinar o modelo usando o
dados e r√≥tulos:

In [19]:
model.fit(data_train, target_train)

Tamb√©m podemos usar o m√©todo `score` para verificar o desempenho estat√≠stico do modelo
no conjunto de teste.

In [20]:
accuracy = model.score(data_test, target_test)
print(f"Accuracy of logistic regression: {accuracy:.3f}")

Accuracy of logistic regression: 0.801


Agora, a verdadeira quest√£o √©: este desempenho estat√≠stico √© relevante para um bom
modelo preditivo? Descubra resolvendo o pr√≥ximo exerc√≠cio!

Neste caderno, aprendemos a:

* identificar dados num√©ricos em um conjunto de dados heterog√™neo;
* selecione o subconjunto de colunas correspondentes aos dados num√©ricos;
* use a fun√ß√£o scikit-learn `train_test_split` para separar os dados em
  um trem e um conjunto de teste;
* treinar e avaliar um modelo de regress√£o log√≠stica.

# üìù Exerc√≠cio M1.03

O objetivo deste exerc√≠cio √© comparar o desempenho estat√≠stico de nosso
classificador (81% de precis√£o) para alguns classificadores de linha de base que iriam ignorar o
inserir dados e, em vez disso, fazer previs√µes constantes.

- Qual seria a pontua√ß√£o de um modelo que sempre prev√™ `'> 50K'`?
- Qual seria a pontua√ß√£o de um modelo que sempre prev√™ `'<= 50K'`?
- A precis√£o de 81% ou 82% √© uma boa pontua√ß√£o para este problema?


Use um `DummyClassifier` e fa√ßa uma divis√£o de teste de trem para avaliar
sua precis√£o no conjunto de teste. Esta [link](https://scikit-learn.org/stable/modules/model_evaluation.html#dummy-estimators) mostra alguns exemplos de como avaliar o desempenho estat√≠stico desses
modelos de linha de base.

Vamos primeiro dividir nosso conjunto de dados para ter o alvo separado dos dados
usado para treinar nosso modelo preditivo.

In [21]:
target_name = "class"
target = adult_census[target_name]
data = adult_census.drop(columns=target_name)

Come√ßamos selecionando apenas as colunas num√©ricas, como visto no anterior
caderno.

In [22]:
numerical_columns = [
    "age", "capital-gain:", "capital-loss:", "hours-per-week:"]

data_numeric = data[numerical_columns]

A seguir, vamos dividir os dados e o destino em um conjunto de treinamento e teste.

In [23]:
from sklearn.model_selection import train_test_split

data_numeric_train, data_numeric_test, target_train, target_test = \
    train_test_split(data_numeric, target, random_state=0)

Divida o conjunto de dados em conjuntos de treinamento e teste.

In [25]:
from sklearn.model_selection import train_test_split
# Write your code here.
data_train, data_test, target_train, target_test = train_test_split(
    data_numeric, target, random_state=42, test_size=0.25)

Use um `DummyClassifier` de forma que o classificador resultante sempre
prever a classe `'> 50K'`. Qual √© a pontua√ß√£o de precis√£o no conjunto de teste?
Repita o experimento sempre prevendo a classe `'<= 50K'`.

Dica: voc√™ pode consultar o par√¢metro `strategy` do` DummyClassifier`
para alcan√ßar o comportamento desejado.

In [27]:
from sklearn.dummy import DummyClassifier

class_to_predict = ">50K"
high_revenue_clf = DummyClassifier(strategy="constant",
                                   constant=class_to_predict)
high_revenue_clf.fit(data_numeric_train, target_train)
score = high_revenue_clf.score(data_numeric_test, target_test)
print(f"Accuracy of a model predicting only high revenue: {score:.3f}")

Accuracy of a model predicting only high revenue: 0.237


Vemos claramente que a pontua√ß√£o est√° abaixo de 0,5, o que pode ser surpreendente √† primeira vista. Vamos agora verificar o desempenho estat√≠stico de um modelo que sempre prev√™ a classe de receita baixa, ou seja, "<= 50K".

In [28]:
class_to_predict = "<=50K"
low_revenue_clf = DummyClassifier(strategy="constant",
                                  constant=class_to_predict)
low_revenue_clf.fit(data_numeric_train, target_train)
score = low_revenue_clf.score(data_numeric_test, target_test)
print(f"Accuracy of a model predicting only low revenue: {score:.3f}")

Accuracy of a model predicting only low revenue: 0.763


Observamos que este modelo possui uma precis√£o superior a 0,5. Isso se deve ao fato de termos 3/4 da meta pertencendo √† classe de baixa renda.

Portanto, qualquer modelo preditivo que forne√ßa resultados abaixo desse classificador fict√≠cio n√£o ser√° √∫til.

In [29]:
adult_census["class"].value_counts()

<=50K    24720
>50K      7841
Name: class, dtype: int64

In [31]:
(target == "<=50K").mean()

0.7591904425539756

Na pr√°tica, poder√≠amos ter a estrat√©gia "most_frequent" para prever a classe que mais aparece no alvo de treinamento.

In [32]:
most_freq_revenue_clf = DummyClassifier(strategy="most_frequent")
most_freq_revenue_clf.fit(data_numeric_train, target_train)
score = most_freq_revenue_clf.score(data_numeric_test, target_test)
print(f"Accuracy of a model predicting the most frequent class: {score:.3f}")

Accuracy of a model predicting the most frequent class: 0.763


Portanto, a precis√£o LogisticRegression (cerca de 81%) parece melhor do que a precis√£o DummyClassifier (cerca de 76%). De certa forma, √© um pouco reconfortante, usar um modelo de aprendizado de m√°quina oferece um desempenho melhor do que sempre prever a turma da maioria, ou seja, a turma de baixa renda "<= 50 mil".