# **0 - Configurações iniciais**

## **Importando as bibliotecas necessárias**

*O foco dessa seção é importar as bibliotecas que serão utilizadas ao longo desse Jupyter Notebook.*

In [146]:
# Importa a biblioteca pandas para lidar com DataFrames.
import pandas as pd
# Importa a biblioteca numpy para lidar com nparrays e funções matemáticas.
import numpy as np
# Importa o módulo graph_objects da biblioteca plotly para construir algumas visualizações gráficas.
import plotly.graph_objects as go
# Importa o método "Optinal" da classe typing para lidar com tipagem de funções.
from typing import Optional
# Importa a biblioteca "itertools" para gerar combinações.
import itertools

## **Lendo o ".csv" e o transformando em um DataFrame do pandas**

*O foco dessa seção é importar os ".csv" que serão utilizados ao longo desse Jupyter Notebook (isto é, importar os dados de treino e teste).*

In [147]:
# Transforma o .csv "train_df.csv" em um DataFrame da biblioteca pandas e salva esse DataFrame na variável "train_df".
train_df = pd.read_csv('train_data.csv')

# Transforma o .csv "test_df.csv" em um DataFrame da biblioteca pandas e salva esse DataFrame na variável "test_df".
test_df = pd.read_csv('test_data.csv')

In [148]:
# Exibe parte do DataFrame de treino.
train_df

Unnamed: 0,Id,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income
0,16280,34,Private,204991,Some-college,10,Divorced,Exec-managerial,Own-child,White,Male,0,0,44,United-States,<=50K
1,16281,58,Local-gov,310085,10th,6,Married-civ-spouse,Transport-moving,Husband,White,Male,0,0,40,United-States,<=50K
2,16282,25,Private,146117,Some-college,10,Never-married,Machine-op-inspct,Not-in-family,White,Male,0,0,42,United-States,<=50K
3,16283,24,Private,138938,Some-college,10,Divorced,Adm-clerical,Not-in-family,White,Female,0,0,40,United-States,<=50K
4,16284,57,Self-emp-inc,258883,HS-grad,9,Married-civ-spouse,Transport-moving,Husband,White,Male,5178,0,60,Hungary,>50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32555,48835,42,Private,384236,Masters,14,Married-civ-spouse,Prof-specialty,Husband,White,Male,7688,0,40,United-States,>50K
32556,48836,23,Private,129042,HS-grad,9,Never-married,Machine-op-inspct,Unmarried,Black,Female,0,0,40,United-States,<=50K
32557,48837,30,Private,195488,HS-grad,9,Never-married,Priv-house-serv,Own-child,White,Female,0,0,40,Guatemala,<=50K
32558,48838,18,Private,27620,HS-grad,9,Never-married,Adm-clerical,Not-in-family,White,Female,0,0,25,United-States,<=50K


In [149]:
# Exibe parte do DataFrame de teste.
test_df

Unnamed: 0,Id,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country
0,0,25,Private,120596,Bachelors,13,Never-married,Prof-specialty,Not-in-family,White,Male,0,0,44,United-States
1,1,64,State-gov,152537,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,45,United-States
2,2,31,Private,100135,Masters,14,Divorced,Exec-managerial,Not-in-family,White,Female,0,0,40,United-States
3,3,45,Private,189123,HS-grad,9,Never-married,Machine-op-inspct,Own-child,White,Male,0,0,40,United-States
4,4,64,Self-emp-inc,487751,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,50,United-States
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16275,16275,40,Private,168113,HS-grad,9,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,40,United-States
16276,16276,30,Local-gov,327203,HS-grad,9,Married-civ-spouse,Other-service,Husband,White,Male,0,0,40,United-States
16277,16277,25,Private,116358,HS-grad,9,Never-married,Adm-clerical,Own-child,Asian-Pac-Islander,Male,0,0,40,Philippines
16278,16278,60,Private,39263,Masters,14,Never-married,Exec-managerial,Not-in-family,White,Female,3325,0,35,United-States


## **Observação importante**

**Todas as análises serão feitas tendo como base o DataFrame de treino e todas as eventuais modificações nesse DataFrame serão replicadas para o DataFrame de teste.**

# **1 - Análise e preparação dos dados**

## **Obtendo uma visão geral sobre o DataFrame**

*O foco dessa seção é ter um primeio vislumbre do DataFrame e também realizar algumas verificações iniciais.*

In [150]:
# Exibe as primeiras 10 amostras do DataFrame que será analisado (DataFrame de treino).
train_df.head(10)

Unnamed: 0,Id,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income
0,16280,34,Private,204991,Some-college,10,Divorced,Exec-managerial,Own-child,White,Male,0,0,44,United-States,<=50K
1,16281,58,Local-gov,310085,10th,6,Married-civ-spouse,Transport-moving,Husband,White,Male,0,0,40,United-States,<=50K
2,16282,25,Private,146117,Some-college,10,Never-married,Machine-op-inspct,Not-in-family,White,Male,0,0,42,United-States,<=50K
3,16283,24,Private,138938,Some-college,10,Divorced,Adm-clerical,Not-in-family,White,Female,0,0,40,United-States,<=50K
4,16284,57,Self-emp-inc,258883,HS-grad,9,Married-civ-spouse,Transport-moving,Husband,White,Male,5178,0,60,Hungary,>50K
5,16285,57,Private,163047,HS-grad,9,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,38,United-States,<=50K
6,16286,21,Private,197050,Some-college,10,Never-married,Other-service,Own-child,White,Female,0,0,35,United-States,<=50K
7,16287,25,Private,288519,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Female,0,0,40,United-States,<=50K
8,16288,53,Private,260106,HS-grad,9,Widowed,Sales,Not-in-family,White,Female,0,0,30,United-States,<=50K
9,16289,30,Private,213722,HS-grad,9,Never-married,Handlers-cleaners,Own-child,White,Male,0,0,40,United-States,<=50K


In [151]:
# Exibe algumas informações sobre o DataFrame em questão.
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32560 entries, 0 to 32559
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Id              32560 non-null  int64 
 1   age             32560 non-null  int64 
 2   workclass       32560 non-null  object
 3   fnlwgt          32560 non-null  int64 
 4   education       32560 non-null  object
 5   education.num   32560 non-null  int64 
 6   marital.status  32560 non-null  object
 7   occupation      32560 non-null  object
 8   relationship    32560 non-null  object
 9   race            32560 non-null  object
 10  sex             32560 non-null  object
 11  capital.gain    32560 non-null  int64 
 12  capital.loss    32560 non-null  int64 
 13  hours.per.week  32560 non-null  int64 
 14  native.country  32560 non-null  object
 15  income          32560 non-null  object
dtypes: int64(7), object(9)
memory usage: 4.0+ MB


Observando a saída da célula acima é possível ver que o DataFrame que estamos trabalhando não possui valores nulos em nenhuma de suas features. Tal conclusão é imediata ao se observar que o DataFrame em questão possui 32560 amostras e todas as suas features possuem 32560 amostras não nulas. Logo, não há o que se fazer com esse DataFrame em relação a valores nulos.

In [152]:
# Exibe algumas informações sobre o DataFrame de testes.
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16280 entries, 0 to 16279
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Id              16280 non-null  int64 
 1   age             16280 non-null  int64 
 2   workclass       16280 non-null  object
 3   fnlwgt          16280 non-null  int64 
 4   education       16280 non-null  object
 5   education.num   16280 non-null  int64 
 6   marital.status  16280 non-null  object
 7   occupation      16280 non-null  object
 8   relationship    16280 non-null  object
 9   race            16280 non-null  object
 10  sex             16280 non-null  object
 11  capital.gain    16280 non-null  int64 
 12  capital.loss    16280 non-null  int64 
 13  hours.per.week  16280 non-null  int64 
 14  native.country  16280 non-null  object
dtypes: int64(7), object(8)
memory usage: 1.9+ MB


Para não deixar eventuais dúvidas, veja, com base na saída da célula acima, que o DataFrame de testes também não possui valores nulos.

Contudo, observando a saída dessa mesma célula de código é possível ver que o DataFrame em questão possui features do tipo *"int64"* e do tipo *"object"*, sendo que, esse último tipo pode representar um problema, visto que, features do tipo *"object*" podem conter diferentes tipos de dados, o que pode gerar inúmeros erros no processo de tratamento e visualização dos dados. Por conta disso, vamos conferir se existe apenas um tipo de dados nas features do tipo *"object"*.

In [153]:
def feature_only_has_one_type(feature: pd.Series) -> bool:
    '''
        Description:
            Esta função verifica se todos os elementos da pd.Series "feature" possuem o mesmo tipo de dado. 
        Args:
            feature (pd.Series): Uma série de dados cujos elementos serão verificados quanto ao seu tipo.
        Return:
            bool: Retorna True se todos os elementos da série forem do mesmo tipo. Caso contrário, retorna False.
        Errors:
            TypeError: Levantado se o parâmetro "feature" não for do tipo pd.Series.
    '''
    
    # Verifica se o parâmetro recebido é do tipo pd.Series.
    if not isinstance(feature, pd.Series):
        raise TypeError("É esperado que o parâmetro 'feature' seja um objeto do tipo 'pd.Series'.")
    
    # Cria uma lista contendo o tipo de cada uma das amostras da pd.Series "feature".
    elements_type = [type(element) for element in feature]
    
    # Transforma a lista criada acima em um objeto do tipo "set". A ideia por trás dessa transformação é que o set é uma coleção de elementos
    # que não aceita duplicatas. Ou seja, ao transformarmos um objeto do tipo "list" em um objeto do tipo "set" todos os elementos duplicados
    # serão removidos.
    elements_type = set(elements_type)
    
    if(len(elements_type) == 1): 
        # Caso a variável "elements_type", após ser transformada em um objeto do tipo "set", possua apenas um elemento, então todos os dados da
        # pd.Series "feature" possuem um único tipo.
        return True
    else:
        # Caso contrário, os dados da pd.Series "feature" possuem mais de um tipo.
        return False
    

In [154]:
# É assumido, por hipótese, que todas as features possuem um único tipo de dados.
all_features_have_single_type = True

# Itera por cada uma das features.
for index, feature in enumerate(train_df.columns):
    if not feature_only_has_one_type(train_df[feature]):
        # Caso exista alguma feature no DataFrame que não possua todos os dados do mesmo tipo, o nome dessa feature será printado.
        all_features_have_single_type = False
        print(f"A feature {feature} possui dados de tipos diferentes.")

if(all_features_have_single_type):
    # Caso cada uma das features do DataFrame em questão possua apenas um tipo de dado, será exibido uma mensagem que informa isso.
    print(f"Todas as features do DataFrame em questão possuem apenas um tipo de dado.")

Todas as features do DataFrame em questão possuem apenas um tipo de dado.


Com base na saída da célula acima, vemos que todas as features do DataFrame em questão possuem apenas um único tipo de dado. Ou seja, as features que possuem tipo *"object"* não serão problemáticas nesse caso.

## **Lidando com *"valores estranhos"***

*O foco dessa seção é lidar com valores considerados estranhos que aparecem nas features.*

In [155]:
# Exibe as 50 primeiras amostras do DataFrame que está sendo analisado.
train_df.head(50)

Unnamed: 0,Id,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income
0,16280,34,Private,204991,Some-college,10,Divorced,Exec-managerial,Own-child,White,Male,0,0,44,United-States,<=50K
1,16281,58,Local-gov,310085,10th,6,Married-civ-spouse,Transport-moving,Husband,White,Male,0,0,40,United-States,<=50K
2,16282,25,Private,146117,Some-college,10,Never-married,Machine-op-inspct,Not-in-family,White,Male,0,0,42,United-States,<=50K
3,16283,24,Private,138938,Some-college,10,Divorced,Adm-clerical,Not-in-family,White,Female,0,0,40,United-States,<=50K
4,16284,57,Self-emp-inc,258883,HS-grad,9,Married-civ-spouse,Transport-moving,Husband,White,Male,5178,0,60,Hungary,>50K
5,16285,57,Private,163047,HS-grad,9,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,38,United-States,<=50K
6,16286,21,Private,197050,Some-college,10,Never-married,Other-service,Own-child,White,Female,0,0,35,United-States,<=50K
7,16287,25,Private,288519,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Female,0,0,40,United-States,<=50K
8,16288,53,Private,260106,HS-grad,9,Widowed,Sales,Not-in-family,White,Female,0,0,30,United-States,<=50K
9,16289,30,Private,213722,HS-grad,9,Never-married,Handlers-cleaners,Own-child,White,Male,0,0,40,United-States,<=50K


Com base na saída da célula acima podemos observar que existem algumas features numéricas do DataFrame analisado que possuem muitos valores 0 *(tais como as features "capital.gain" e "capital.loss")*, e, além disso, existem também algumas features categóricas desse mesmo DataFrame que possuem valores *"?"* *(tais como as features "occupation" e "native.country")*. Tendo em vista isso, vamos analisar mais a fundo a porcentagem desses valores em cada uma das features.

In [156]:
# Itera por cada uma das features do DataFrame em questão.
for feature in train_df.columns:
    # Obtem, através de um filtro booleano aplicado ao DataFrame analisado, a quantidade de "valores estranhos" (isto é, "0" ou "?") de cada 
    # uma das features.
    strange_values = len(train_df[(train_df[feature] == 0) | (train_df[feature] == "?")][feature])
    # Exibe a quantidade de "valores estranhos" que a feature em questão possui.
    print(f"- A feature '{feature}' possui {strange_values*100/train_df.shape[0]:.2f}% 'valores estranhos'.")

- A feature 'Id' possui 0.00% 'valores estranhos'.
- A feature 'age' possui 0.00% 'valores estranhos'.
- A feature 'workclass' possui 5.64% 'valores estranhos'.
- A feature 'fnlwgt' possui 0.00% 'valores estranhos'.
- A feature 'education' possui 0.00% 'valores estranhos'.
- A feature 'education.num' possui 0.00% 'valores estranhos'.
- A feature 'marital.status' possui 0.00% 'valores estranhos'.
- A feature 'occupation' possui 5.66% 'valores estranhos'.
- A feature 'relationship' possui 0.00% 'valores estranhos'.
- A feature 'race' possui 0.00% 'valores estranhos'.
- A feature 'sex' possui 0.00% 'valores estranhos'.
- A feature 'capital.gain' possui 91.67% 'valores estranhos'.
- A feature 'capital.loss' possui 95.33% 'valores estranhos'.
- A feature 'hours.per.week' possui 0.00% 'valores estranhos'.
- A feature 'native.country' possui 1.79% 'valores estranhos'.
- A feature 'income' possui 0.00% 'valores estranhos'.


Com base na saída da célula acima observe que as features numéricas *"capital.gain"* e *"capital.loss"* possuem mais de 90% de *"valores estranhos"*. Para tais features, esses *"valores estranhos"* são o número 0 *(pois, como dito anteriormente, essas features são numéricas)*. Dito isso, veja que, na verdade, o valor 0 para essas features não é estranho, já que tais features aparentemente representam o quanto aquela amostra já ganhou ou perdeu de capital no mercado de ações. Ou seja, o valor 0 nessas features indica que a pessoa nem ganhou nem perdeu capital nesse mercado. Portanto, o melhor a ser fazer com essas features no momento é mante-lás da forma que estão.

Em relação às features categóricas que apresentam *"valores estranhos"*, pode ser útil investigar se há relações entre a ocorrência desses valores em diferentes features. Ou seja, pode ser útil inverstigarmos se, ao encontramos um valor *"?"* em uma amostra da feature X, tal valor também aparece na mesma amostra da feature Y. Vejamos:

In [157]:
# Cria uma lista contendo as combinações 2 a 2 das features cuja aparição de valores "?" em simultâneo serão analisados.
arrangements = list(itertools.combinations(["workclass", "occupation", "native.country"],2))

# Itera por cada uma das combinações geradas acima.
for feature_arrangement in arrangements:
    # Cria um filtro para descobrir quantos valores "?" aparecem simultaneamente no par de features em questão.
    filter = ((train_df[feature_arrangement[0]] == '?') & (train_df[feature_arrangement[1]] == '?'))
    # Exibe uma mensagem informando a porcentagem de valores "?" que apareceram simultaneamente no par de features em questão.
    print(f"- A porcentagem de valores '?' que aparecem simultaneamente na feature '{feature_arrangement[0]}' e na feature '{feature_arrangement[1]}' é {(len(train_df[filter])*100)/train_df.shape[0]:.2f}%.")

# Cria um filtro para descobrir quantos valores "?" aparecem simultaneamente em todas as features analisadas (isto é, nas features 
# "workclass", "occupation", "native.country").
filter = ((train_df['workclass'] == '?') & (train_df['occupation'] == '?') & (train_df['native.country'] == '?'))

# Exibe uma mensasgem informando a porcentagem de valores "?" que aparecem simultaneamente nas features "workclass", "occupation" 
# e "native.country". 
print(f"- A porcentagem de valores '?' que aparecem simultaneamente nas features 'workclass', 'occupation' e 'native.country' é {(len(train_df[filter])*100)/train_df.shape[0]:.2f}%.")

- A porcentagem de valores '?' que aparecem simultaneamente na feature 'workclass' e na feature 'occupation' é 5.64%.
- A porcentagem de valores '?' que aparecem simultaneamente na feature 'workclass' e na feature 'native.country' é 0.08%.
- A porcentagem de valores '?' que aparecem simultaneamente na feature 'occupation' e na feature 'native.country' é 0.08%.
- A porcentagem de valores '?' que aparecem simultaneamente nas features 'workclass', 'occupation' e 'native.country' é 0.08%.


Com base na saída das últimas duas células de código é possível observar que toda vez que existe um valor *"?"* na feature *"workclass"*, tal valor também existe na feature *"occupation"*. Ou seja, as pessoas que optaram por não divulgar o seu tipo de trabalho, também optaram por não divulgar o que fazem em seu trabalho. Embora essa informação possa ser considerado um ruído, parece exister um padrão interessante por detrás dela. Vamos tentar confirmar isso atraǘes de um *"gráfico de pizza"*.

In [158]:
# Obtem as amostras do DataFrame onde a feature "workclass" possui valor igual à "?".
filtered_data = train_df[train_df['workclass'] == "?"]

# Para as amostras obtidas acima, conta quantas possuem "income <= 50k" e quantas possuem "income > 50k".
income_counts = filtered_data['income'].value_counts()

# Cria a figure onde será plotado o "gráfico de pizza".
fig = go.Figure()

# Cria um gráfico de pizza que mostra a porcentagem de amostras classificadas como "income <= 50k" e "income > 50k" para as amostras 
# onde "workclass" é igual a "?".
fig.add_trace(go.Pie(
    # Seta os labels do "gráfico de pizza".
    labels=income_counts.index,
    # Seta os valores de cada label do "gráfico de pizza".
    values=income_counts
    ))

# Adiciona um título ao gráfico em questão.
fig.update_layout(
    title_text=f"Distribuição da feature 'income' para os valores '?' da feature 'workclass'",
)

# Exibe o gráfico.
fig.show()

Com base no gráfico acima é possível ver que existe um claro padrão nas pessoas que optaram por não divulgar o seu tipo de trabalho e a sua função no trabalho. Tais pessoas tendem, em sua grande maioria, a receber um valor menor ou igual à 50k. Por conta da existência de tal padrão, julgo que é melhor manter os valores "?" nas features "workclass" e "occupation".

Por último, na saída da penúltima célula de código, observamos que, na maioria das vezes em que o valor *"?"* aparece nas features *"workclass"* e *"occupation"*, ele não aparece na feature *"native.country"*. Isso provavelmente indica que não há uma relação evidente entre a ocorrência simultânea desses valores nessas features. Além disso, notamos que apenas 1,79% dos valores em *"native.country"* são iguais a *"?"*. Com base nessas informações, parece conveniente remover do DataFrame as amostras onde *"native.country"* é igual a *"?"*, uma vez que essa informação parece representar um ruído desnecessário, que não carrega nenhum padrão consigo.

In [159]:
# Remove do DataFrame analisado todas as amostras onde a feature "native.country" possui valor igual à "?".
train_df = train_df[train_df['native.country'] != "?"]

In [160]:
#Vamos repetir a operação feita acima para o DataFrame de testes.

# Remove do DataFrame de teste todas as amostras onde a feature "native.country" possui valor igual à "?". Tal como foi feito no DataFrame de treino.
test_df = test_df[test_df['native.country'] != "?"]

## **Observando a distribuição inicial das features numéricas**

*O foco dessa seção é visualizar como os dados das features numéricas se distribuem, no intuito de ganhar uma intuição maior sobre tais features e de identificar eventuais ajustes que precisem ser feitos em tais dados.*

Uma maneira visual de analisar a distribuição das features numéricas é por meio da plotagem de histogramas para cada uma delas. Com isso em mente, serão separadas as features numéricas e a partir disso será criado um histograma para cada uma delas.

In [161]:
# Relembrando algumas informações sobre o DataFrame que estamos analisando
train_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 31977 entries, 0 to 32559
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Id              31977 non-null  int64 
 1   age             31977 non-null  int64 
 2   workclass       31977 non-null  object
 3   fnlwgt          31977 non-null  int64 
 4   education       31977 non-null  object
 5   education.num   31977 non-null  int64 
 6   marital.status  31977 non-null  object
 7   occupation      31977 non-null  object
 8   relationship    31977 non-null  object
 9   race            31977 non-null  object
 10  sex             31977 non-null  object
 11  capital.gain    31977 non-null  int64 
 12  capital.loss    31977 non-null  int64 
 13  hours.per.week  31977 non-null  int64 
 14  native.country  31977 non-null  object
 15  income          31977 non-null  object
dtypes: int64(7), object(9)
memory usage: 4.1+ MB


Observando a saída das duas células acima, vemos que apenas as features *"Id"*, *"age"*, *"fnlwgt"*, *"education.num"*, *"capital.gain"*,*"capital.loss"*, *"hours.per.week"* são as features numéricas do DataFrame em questão. Além disso, é imediato perceber que a feature *"Id"* é usada apenas como um identificador para cada amostra. Dado que queremos plotar um histograma para cada feature numérica, é conveniente que salvemos todas essas features em uma lista, com exceção da feature *"Id"*, já que não tem qualquer sentido criar um histograma de uma feature de identificadores.

In [162]:
# Cria uma lista que contém todas as features numéricas (com exceção da feature "id") do DataFrame em questão.
df_numeric_features = [train_df['age'], train_df['fnlwgt'], train_df['education.num'], train_df['capital.gain'], train_df['capital.loss'], train_df['hours.per.week']]

Feito isso, vamos agora criar uma função para plotar um histograma juntamente da média, mediana e moda de cada uma das features numéricas do DataFrame analisado.

In [163]:
def plot_histogram(feature: pd.Series, title: Optional[str] = "") -> None:
    '''
        Description:
            Esta função gera um histograma simples para a série de dados passada como argumento. O histograma apresenta a 
            densidade de probabilidade dos dados e exibe as barras de distribuição, além de linhas verticais indicando a
            média, a mediana e a moda da distribuição.
        Args:
            feature (pd.Series): A série de dados que será utilizada para gerar o histograma.
            title (Optional[str], opcional): O título do gráfico. O valor padrão é uma string vazia.
        Return:
            None: A função não retorna nenhum valor. O gráfico gerado é exibido diretamente.
        Errors:
            ValueError: Levantado se o parâmetro "feature" não for um objeto do tipo "pd.Series".
    '''
    
    # Verifica se o parâmetro recebido é do tipo "pd.Series".
    if not isinstance(feature, pd.Series):
        raise ValueError("O parâmetro 'feature' deve ser um objeto do tipo 'pd.Series'.")
    
    # Calcula a moda a mediana e a média dos valores da feature em questão.
    mean, median, mode = feature.mean(), feature.median(), feature.mode()[0]  # Pode haver mais de uma moda, aqui pegamos a primeira.
    
    # Cria a figure onde será plotado o histograma da feature em questão.
    fig = go.Figure()

    # Cria o histograma da feature em questão.
    fig.add_trace(
        go.Histogram(
            # Seta os valores do eixo x do histograma.
            x=feature.values, 
            # Seta o histograma como sendo um que exibe a densidade de probabilidade no eixo y.
            histnorm='probability density', 
            # Seta a cor das barras do histograma.
            marker_color='blue'
    ))
    # Adiciona uma linha vertical para representar onde se situa a média da distribuição.
    fig.add_shape(
        type="line",
        x0=mean, x1=mean,
        y0=0, y1=1,
        xref='x', yref='paper',
        line=dict(color="red", width=2),
        name="Média"
    )
    # Adiciona uma anotação para identificar a linha que representa onde se situa a média da distribuição.
    fig.add_annotation(
        x=mean, y=1, xref='x', yref='paper',
        text="Média", showarrow=False,
        xanchor="left", font=dict(color="red")
    )

    # Adiciona uma linha vertical para representar onde se situa a mediana da distribuição.
    fig.add_shape(
        type="line",
        x0=median, x1=median,
        y0=0, y1=1,
        xref='x', yref='paper',
        line=dict(color="orange", width=2),
        name="Mediana"
    )
    # Adiciona uma anotação para identificar a linha que representa onde se situa a mediana da distribuição.
    fig.add_annotation(
        x=median, y=0.5, xref='x', yref='paper',
        text="Mediana", showarrow=False,
        xanchor="left", font=dict(color="orange")
    )
    
    # Adiciona uma linha vertical para representar onde se situa a moda da distribuição.
    fig.add_shape(
        type="line",
        x0=mode, x1=mode,
        y0=0, y1=1,
        xref='x', yref='paper',
        line=dict(color="yellow", width=2),
        name="Moda"
    )
    # Adiciona uma anotação para identificar a linha que representa onde se situa a moda da distribuição.
    fig.add_annotation(
        x=mode, y=0, xref='x', yref='paper',
        text="Moda", showarrow=False,
        xanchor="left", font=dict(color="yellow")
    )

    # Seta algumas legendas para o histograma.
    fig.update_layout(
        # Seta o título do histograma.
        title_text=title,
        # Seta a legenda do eixo x do histograma.
        xaxis_title= "Valores",
        # Seta a legenda do eixo y do histograma.
        yaxis_title= "Densidade de probabilidade"
    )

    # Exibe o gráfico
    fig.show()

Criada a função acima, vamos plotar o histograma de cada uma das features numéricas do DataFrame analisado, no intuito de ver como tais features se distribuem.

In [164]:
# Itera por cada uma das features numéricos do DataFrame analisado.
for numerical_feature in df_numeric_features:
    # Seta um título que será usado no plot do histograma da feature em questão.
    title = f"Distribuição dos valores da feature '{numerical_feature.name}'"
    # Gera e plota o histograma da feature em questão.
    plot_histogram(numerical_feature, title=title)

Com base nos histogramas apresentados, podemos observar que nenhuma das features numéricas segue uma distribuição de probabilidade bem definida, ou que se aproxime de distribuições conhecidas, como a normal ou a exponencial, por exemplo. Saber de tal fato pode nos auxiliar em decisões futuras.

## **Verificando eventuais outliers nos dados numéricos**

*O foco dessa seção é visualizar e eventualmente tratar os outliers das features numéricas, dado que foi visto em aula que o KNN é um algoritmo de classificação que é especialmente sensível a outliers.*

Um método eficiente e visual para se verificar a eventual presença de outliers nas features numéricas é atraves do plot de boxplots para cada uma delas. Dito isso, será criada uma função para plotar tais boxplots.

In [165]:
def plot_boxplot(feature: pd.Series, title: Optional[str] = "", x_axis_title: Optional[str] = "", y_axis_title: Optional[str] = "") -> None:
    '''
        Description:
            Esta função gera um gráfico do tipo boxplot para a série de dados passada como argumento. O boxplot inclui a média e outliers.
        Args:
            feature (pd.Series): A série de dados que será utilizada para gerar o boxplot.
            title (Optional[str], opcional): Título do gráfico. Valor padrão é uma string vazia.
            x_axis_title (Optional[str], opcional): Título do eixo X do gráfico. Valor padrão é uma string vazia.
            y_axis_title (Optional[str], opcional): Título do eixo Y do gráfico. Valor padrão é uma string vazia.
        Return:
            None: A função não retorna nenhum valor. O gráfico gerado é exibido diretamente.
        Errors:
            TypeError: Levantado se o parâmetro "feature" não for do tipo pd.Series.
            ValueError: Levantado se o parâmetro "feature" não possuir um atributo "name", necessário para identificação no gráfico.
    '''
    
    # Verifica se o parâmetro recebido é do tipo pd.Series.
    if not isinstance(feature, pd.Series):
        raise TypeError("É esperado que o parâmetro 'feature' seja um objeto do tipo 'pd.Series'.")
    
    # Verifica se o parâmetro 'feature' possui um atributo 'name', necessário para o gráfico.
    if not hasattr(feature, 'name'):
        raise ValueError("É esperado que o parâmetro 'feature' possua um atributo 'name' que contenha o nome dessa feature.")
    
    # Cria a figure onde o gráfico será plotado.
    fig = go.Figure()
    
    # Adiciona um boxplot a figure criada.
    fig.add_trace(
        go.Box(
            # Seta os valores que definirão o boxplot.
            y = feature,
            # Seta um nome para o boxplot.
            name = feature.name,
            # Opta por exibir a média no gráfico.
            boxmean = True,  
            # Opta por exibir apenas os pontos outliers (ao invés de exibir todos os pontos, por exemplo).
            boxpoints= "outliers"
        )
    )
    
    # Atualiza os títulos do gráfico, eixo X e eixo Y.
    fig.update_layout(
        # Seta um título para o plot.
        title=title,
        # Seta um título para o eixo x do plot.
        xaxis_title=x_axis_title,
        # Seta um título para o eixo y do plot.
        yaxis_title=y_axis_title
    )
    
    # Exibe o plot criado.
    fig.show()


De posse da função criada acima, vamos plotar o boxplot de cada uma das features que estamos analisando.

In [166]:
# OBS: Lembre que a variável df_numeric_features foi criada na seção anterior.

# Itera sobre cada uma das features numéricas (com exceção da feature "Id") do DataFrame em questão.
for numeric_feature in df_numeric_features:
    # Plota um boxplot para cada uma das features em questão, adicionado o nome de cada uma delas ao título de seu respectivo boxplot.
    plot_boxplot(numeric_feature, f'Boxplot da feature "{numeric_feature.name}"')

Com base na saída da célula acima é possível ver que todas as features cujo boxplot foi plotado possuem outliers, algumas, inclusive, posssuindo um grande número destes. Dito isso, convêm que investiguemos quantos outliers existem em cada uma dessas features, visando tomar uma melhor decisão sobre como tratar tais outliers. Para tal, usaremos como definição de outlier todos os valores que estiverem abaixo de ($Q_{1} - 1,5 \cdot IQR$) ou acima de ($Q_{3} + 1,5 \cdot IQR$). Sendo $Q_{1}$ o primeiro quartil, $Q_{3}$ o terceiro quartil e $IQR$ o intervalo interquartil, isto é, ($Q_{3} - Q{1}$).

In [167]:
def get_outliers(feature: pd.Series) -> pd.Series:
    '''
        Description:
            Esta função identifica os outliers de uma série de dados com base no intervalo interquartil (IQR). Outliers são definidos como
            valores que estão abaixo de 1.5 vezes o IQR subtraído do primeiro quartil (Q1) ou acima de 1.5 vezes o IQR somado ao terceiro 
            quartil (Q3).
        Args:
            feature (pd.Series): Uma série de dados da qual os outliers serão extraídos.
        Return:
            pd.Series: Uma série contendo os valores considerados outliers da série de entrada.
        Errors:
            TypeError: Levantado se o parâmetro "feature" não for do tipo pd.Series.
    '''
    
    # Verifica se o parâmetro recebido é do tipo pd.Series.
    if not isinstance(feature, pd.Series):
        raise TypeError("É esperado que o parâmetro 'feature' seja do tipo 'pd.Series'.")
    
    # Transforma a feature recebida por parâmetro em um numpy array.
    features_array = feature.to_numpy()
    
    # Ordena o numpy array criado.
    features_array.sort()
    
    # Calcula o valor que delimita o primeiro quartil (Q1).
    q1 = np.percentile(features_array, 25)
    
    # Calcula o valor que delimita o terceiro quartil (Q3).
    q3 = np.percentile(features_array, 75)
    
    # Calcula o intervalo interquartil (IQR).
    IQR = q3 - q1
    
    # Calcula o limite inferior dos outliers.
    lower_bound = q1 - 1.5 * IQR
    
    # Calcula o limite superior dos outliers.
    upper_bound = q3 + 1.5 * IQR
    
    # Filtra a feature para retornar os valores que são outliers.
    outliers = feature[(feature < lower_bound) | (feature > upper_bound)]
    
    # Retorna os outliers da feature.
    return outliers


In [168]:
# Itera sobre cada uma das features numéricas (com exceção da feature "Id").
for numeric_feature in df_numeric_features:
    # Calcula a quantidade de dados que a feature em questão possui.
    numeric_feature_len = len(numeric_feature)
    # Calcula a quantidade de outliers que a feature em questão possui.
    outliers_amount = len(get_outliers(numeric_feature))
    # Exibe uma mensagem informando quantos outliers a feature em questão possui e qual a porcentagem desses outliers em relação a quantidade
    # total de dados de tal feature.
    print(f'- A feature numérica "{numeric_feature.name}" possui {outliers_amount} outliers. Sendo que estes representam aproximadamente {((outliers_amount*100)/numeric_feature_len):.2f}% dos dados.')

- A feature numérica "age" possui 140 outliers. Sendo que estes representam aproximadamente 0.44% dos dados.
- A feature numérica "fnlwgt" possui 961 outliers. Sendo que estes representam aproximadamente 3.01% dos dados.
- A feature numérica "education.num" possui 1158 outliers. Sendo que estes representam aproximadamente 3.62% dos dados.
- A feature numérica "capital.gain" possui 2657 outliers. Sendo que estes representam aproximadamente 8.31% dos dados.
- A feature numérica "capital.loss" possui 1483 outliers. Sendo que estes representam aproximadamente 4.64% dos dados.
- A feature numérica "hours.per.week" possui 8850 outliers. Sendo que estes representam aproximadamente 27.68% dos dados.


Com base na célula acima podemos tirar algumas conclusões, veja:

Inicialmente, nota-se que a feature *"age"* possui apenas 140 outliers, o que representa aproximadamente 0,44% do total de dados dessa variável, uma proporção bastante baixa. Além disso, conforme observado no boxplot da feature em questão, todos os outliers estão acima do terceiro quartil (Q3), indicando que esses valores correspondem a indivíduos mais velhos, em vez de serem apenas ruídos ou anomalias. Diante dessa situação e da quantidade reduzida de outliers, convêm manter tais dados no conjunto.

A respeito da feature *"fnlwgt"*, ela indica quantas pessoas da população total americana são representadas por cada linha do DataFrame. Portanto, outliers nessa feature correspondem a registros com uma representatividade muito maior ou menor na população geral, o que é uma informação valiosa, e não ruído. Dado o seu significado, a melhor abordagem para lidar com os outliers dessa feature é mantê-los, pois eles podem fornecer insights importantes sobre a amostra

Com relação a feature *"education.num"*, observe a saída da célula abaixo.

In [169]:
# Exibe os valores únicos da feature "education.num" para o DataFrame que está sendo analisado.
train_df['education.num'].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16])

Pois bem, dada a saída da célula acima, não há o que alterar na feature *"education.num"*, visto que, os valores possíveis de tal feature estão em um range de 1 à 16, ou seja, não há valores discrepantes nela que influenciem de forma desproporcional as previsões do modelo KNN.

Falando agora das features *"capital.gain"* e *"capital.loss"*, vimos nos boxplots dessas features que basicamente todos os valores diferentes de 0 são considerados outliers. Inclusive, para essas features, na seção "Lidando com valores estranhos" concluímos que a ocorrência dos valores 0 nessas features representam as pessoas que não ganharam e nem perderam capital na bolsa, ou seja, pessoas que não investem na bolsa. Dessa forma, os outliers de tais features seriam as pessoas que investem na bolsa, o que é um dado importante e não um ruído. Por conta disso, o melhor a se fazer em relação aos outliers dessas features é manté-los como estão.

Por fim, sobre a feature *"hours.per.week"*, dada a natureza dessa feature, convêm que seus outliers sejam analisados de forma mais cuidadosa, para tal, vamos plotar uma tabela cruzada para relacionar os outliers da feature em questão com os seus respectivos valores da feature *"income"*.

In [170]:
# Transforma a feature "hours.per.week" em um ndarray.
hours_per_week_feature_array = train_df['hours.per.week'].to_numpy()

# Ordena o numpy array criado acima.
hours_per_week_feature_array.sort()

# Calcula o valor que delimita o primeiro quartil (Q1) da feature "hours.per.week".
q1 = np.percentile(hours_per_week_feature_array, 25)

# Calcula o valor que delimita o terceiro quartil (Q3) da feature "hours.per.week".
q3 = np.percentile(hours_per_week_feature_array, 75)

# Calcula o intervalo interquartil (IQR) da feature "hours.per.week".
IQR = q3 - q1

# Calcula o limite inferior dos outliers da feature "hours.per.week".
lower_bound = q1 - 1.5 * IQR

# Calcula o limite superior dos outliers da feature "hours.per.week".
upper_bound = q3 + 1.5 * IQR

# Filtra a feature "hours.per.week" para retornar os valores de tal feature que são outliers.
hours_per_week_lower_bound_outliers = train_df['hours.per.week'][(train_df['hours.per.week'] < lower_bound)]
hours_per_week_upper_bound_outliers = train_df['hours.per.week'][(train_df['hours.per.week'] > upper_bound)]


In [171]:
# Cria e exibe uma tabela cruzada que contabiliza os número de horas trabalhadas por semana (que são outliers inferiores) e, para cada uma dessas horas, mostra a quantidade 
# de pessoas que têm renda superior a 50k e igual ou inferior a 50k trabalhando tal quantidade de horas por semana.
pd.crosstab(hours_per_week_lower_bound_outliers, train_df['income'])

income,<=50K,>50K
hours.per.week,Unnamed: 1_level_1,Unnamed: 2_level_1
1,16,2
2,28,4
3,24,15
4,39,14
5,40,18
6,51,13
7,22,3
8,107,37
9,14,4
10,212,62


In [172]:
# Cria e exibe uma tabela cruzada que contabiliza os número de horas trabalhadas por semana (que são outliers superiores) e, para cada uma dessas horas, mostra a quantidade 
# de pessoas que têm renda superior a 50k e igual ou inferior a 50k trabalhando tal quantidade de horas por semana.
pd.crosstab(hours_per_week_upper_bound_outliers, train_df['income'])

income,<=50K,>50K
hours.per.week,Unnamed: 1_level_1,Unnamed: 2_level_1
53,21,3
54,31,9
55,485,197
56,76,20
57,16,1
58,20,8
59,3,1
60,1089,350
61,2,0
62,11,7


Com base nas tabelas cruzadas exibidas anteriormente, é fácil concluir que existem alguns valores que são muito fora do comum, como, por exemplo, pessoas que trabalham mais de 90 horas por semana e ainda assim ganham um valor igual ou menor que 50k, além de casos de pessoas que trabalham entre 1 e 5 horas por semana e recebem mais que 50k. Sabendo disso, é importante lembrar que a feature em questão possui mais de 27% dos seus dados classificados como outliers. Como o KNN é sensível a outliers, não podemos simplesmente ignorá-los. No entanto, esses dados extremos também podem revelar padrões interessantes sobre o comportamento da renda de quem trabalha muito acima ou muito abaixo da média. Por isso, uma abordagem que parece promissora é remover apenas *(aproximadamente)* os 30% superiores dos outliers superiores e os 30% inferiores dos outliers inferiores. Dessa forma, é reduzido o número de outliers da feature em questão sem que essa perca eventuais padrões relevantes.

In [177]:
# Obtem o índice do limiar que foi definido no texto acima.
threshold_index = int(len(hours_per_week_upper_bound_outliers)*0.7)

# Obtem o valor limiar com base no índice obtido acima.
threshold = hours_per_week_upper_bound_outliers[threshold_index:].values[0]

# Filtra o DataFrame que está sendo analisado com base no valor limiar obtido acima.
train_df = train_df[train_df['hours.per.week'] < threshold]

# Exibe o resultado das operações dessa célula.
train_df

Unnamed: 0,Id,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income
0,16280,17,Private,12285,Some-college,1,Divorced,Exec-managerial,Own-child,White,Male,0,0,1,United-States,<=50K
1,16281,17,Local-gov,13769,10th,1,Married-civ-spouse,Transport-moving,Husband,White,Male,0,0,1,United-States,<=50K
2,16282,17,Private,14878,Some-college,1,Never-married,Machine-op-inspct,Not-in-family,White,Male,0,0,1,United-States,<=50K
3,16283,17,Private,18827,Some-college,1,Divorced,Adm-clerical,Not-in-family,White,Female,0,0,1,United-States,<=50K
4,16284,17,Self-emp-inc,19214,HS-grad,1,Married-civ-spouse,Transport-moving,Husband,White,Male,0,0,1,Hungary,>50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
31497,47777,66,Private,410351,HS-grad,14,Married-civ-spouse,Craft-repair,Husband,White,Male,7688,1740,64,United-States,<=50K
31498,47778,66,Local-gov,410351,HS-grad,14,Divorced,Adm-clerical,Not-in-family,White,Female,7688,1740,64,United-States,<=50K
31499,47779,66,State-gov,410351,Masters,14,Married-civ-spouse,Prof-specialty,Husband,White,Male,7688,1740,64,United-States,<=50K
31500,47780,66,Private,410439,HS-grad,14,Never-married,Machine-op-inspct,Own-child,White,Male,7688,1740,64,United-States,<=50K


In [178]:
# Repetindo, para o conjunto de teste, a operação feita na célula acima.
test_df = test_df[test_df['hours.per.week'] < threshold]

## **Analisando a correlação das features numéricas**

*O foco dessa seção é analisar como se correlacionam as features numéricas, visto que, quando features estão fortemente correlacionadas, elas podem capturar informações semelhantes, tornando o modelo desnecessariamente complexo. Além disso, dado que a presença de muitas features pode levar ao overfitting, é interessante sempre buscar por features redundantes, visando uma possível redução da dimensionalidade do conjunto de dados.*

Um método visual interessante para se observar a correlação entre features numéricas é plotar uma matriz de correlação com um mapa de calor, tal como será feito a seguir.

In [75]:
# Cria um novo DataFrame que contém apenas as features numéricas do DataFrame que estamos analisando (com exceção da feature "Id").
df_num = train_df.drop(axis=1,columns=['Id','workclass','education','marital.status','occupation','relationship','race','sex','native.country','income'])

In [76]:
# Cria, a partir do DataFrame gerado na célula acima, uma matriz de correlação.
correlation_matrix = df_num.corr()

# Exibe a matriz de correlação criada.
correlation_matrix

Unnamed: 0,age,fnlwgt,education.num,capital.gain,capital.loss,hours.per.week
age,1.0,0.977342,0.930594,0.390541,0.514495,0.907629
fnlwgt,0.977342,1.0,0.91032,0.531076,0.620477,0.936065
education.num,0.930594,0.91032,1.0,0.300823,0.417505,0.939237
capital.gain,0.390541,0.531076,0.300823,1.0,0.683669,0.474495
capital.loss,0.514495,0.620477,0.417505,0.683669,1.0,0.559674
hours.per.week,0.907629,0.936065,0.939237,0.474495,0.559674,1.0


In [77]:
# No intuito de melhorar a visualização da matriz exibida na saída da célula acima, criaremos um heatmap e plotaremos ele junto de tal matriz.

# Define uma escala de cores do laranja magma ao azul gelo para usar no heatmap.
colorscale = [
    [1, 'rgb(3, 169, 244)'],   # Azul gelo
    [0.5, 'rgb(255, 235, 59)'],  # Amarelo
    [0, 'rgb(255, 87, 34)']  # Laranja magma  
]

# Cria um heatmap que será exibido juntamente da matriz de correlação que foi gerada na célula anteior.
fig= go.Figure()

fig.add_trace(
    go.Heatmap(
        # Seta os valores da matriz de correlação.
        z=df_num.corr().values,
        # Seta os rótulos das colunas.
        x=df_num.columns,
        # Seta os rótulos das linhas.
        y=df_num.columns,
        # Seta a paleta de cores que será utilizida no heatmap da matriz de correlação.
        colorscale=colorscale,
        # Adiciona valores (formatados com 3 casas decimais) a cada uma das células da matriz de correlação.
        text=df_num.corr().round(3).values,
        # Define o formato do texto a ser exibido em cada uma das células.
        texttemplate="%{text}"
))
    
# Ajustando o layout
fig.update_layout(
    # Seta o título do plot.
    title='Matriz de Correlação',
    # Seta a legenda do eixo x do plot.
    xaxis_title="Variáveis",
    # Seta a legenda do eixo y do plot.
    yaxis_title="Variáveis"
)

# Exibe o plot.
fig.show()

Observando a saída da célula acima podemos ver que as features *"age"*, *"fnlwgt"*, *"education.num"*, e *"hours.per.week"* estão altamente correlacionadas entre si, com coeficientes próximos a 1. Isso sugere que essas variáveis fornecem informações semelhantes sobre os dados. Dada essa alta correlação entre algumas features, pode ser vantajoso considerar a remoção de algumas delas, visando simplificar o modelo através da eliminação de redundâncias. Por hora, não removeremos feature nenhuma. Contudo, após o treinamento do modelo, pode ser interessante ver como ele se sairia sem algumas dessas features altamente correlacionadas.

## **Verificando a distribuição das features categóricas**

*O foco dessa seção é visualizar como se distribuem as categorias das features categóricas, visando principalmente obter uma melhor intuição sobre tais features.*

Uma bom método visual para se observar a distribuição das categorias em uma feature categórica é através dos "gráficos de pizza". Sendo assim, vamos construir tais gráficos. De início, será feita uma cópia do DataFrame que estamos analisando e serão removidas dessa cópia todas as features numéricas, criando assim um DataFrame que só possui as features categóricas do DataFrame original.

In [78]:
# Cria uma cópia do DataFrame
copy_df = train_df.copy()

# Obtem um ndarray que contém nome de todas as features numéricas do DataFrame.
numerical_features = copy_df.select_dtypes(include=['number']).columns

# Dropa do DataFrame cópia todas as suas features numéricas e salva o resultado no DataFrame "categorical_df", criando assim um DataFrame que
# possui somente as features categóricas do DataFrame original.
categorical_df = copy_df.drop(columns=numerical_features)

# Exibe o DataFrame criado acima.
categorical_df

Unnamed: 0,workclass,education,marital.status,occupation,relationship,race,sex,native.country,income
0,Private,Some-college,Divorced,Exec-managerial,Own-child,White,Male,United-States,<=50K
1,Local-gov,10th,Married-civ-spouse,Transport-moving,Husband,White,Male,United-States,<=50K
2,Private,Some-college,Never-married,Machine-op-inspct,Not-in-family,White,Male,United-States,<=50K
3,Private,Some-college,Divorced,Adm-clerical,Not-in-family,White,Female,United-States,<=50K
4,Self-emp-inc,HS-grad,Married-civ-spouse,Transport-moving,Husband,White,Male,Hungary,>50K
...,...,...,...,...,...,...,...,...,...
32555,Private,Masters,Married-civ-spouse,Prof-specialty,Husband,White,Male,United-States,>50K
32556,Private,HS-grad,Never-married,Machine-op-inspct,Unmarried,Black,Female,United-States,<=50K
32557,Private,HS-grad,Never-married,Priv-house-serv,Own-child,White,Female,Guatemala,<=50K
32558,Private,HS-grad,Never-married,Adm-clerical,Not-in-family,White,Female,United-States,<=50K


Feito isso, convêm que seja feita uma função para facilitar o futuro plot dos *"gráficos de pizza"*.

In [79]:
def plot_pie_chart(feature: pd.Series, title: Optional[str] = "") -> None:
    '''
        Description:
            Esta função gera um gráfico do tipo gráfico de pizza (pie chart) para a série de dados passada como argumento. 
        Args:
            feature (pd.Series): A série de dados categóricos que será utilizada para gerar o gráfico de pizza.
            title (Optional[str], opcional): Título do gráfico. O valor padrão é uma string vazia.
        Return:
            None: A função não retorna nenhum valor. O gráfico gerado é exibido diretamente.
        Errors:
            TypeError: Levantado se o parâmetro "feature" não for do tipo pd.Series.
            ValueError: Levantado se o parâmetro "feature" estiver vazio, ou não contiver valores categóricos.
    '''
    
    # Verifica se o parâmetro "feature" é do tipo "pd.Series".
    if not isinstance(feature, pd.Series):
        raise TypeError("É esperado que o parâmetro 'feature' seja um objeto do tipo 'pd.Series'.")
    
    # Verifica se a série "feature" não está vazia.
    if feature.empty:
        raise ValueError("A série 'feature' não pode estar vazia.")
    
    # Verifica se a série "feature" contém apenas valores categóricos.
    if not feature.dtype == 'object' and not pd.api.types.is_categorical_dtype(feature):
        raise ValueError("A série 'feature' deve conter apenas dados categóricos.")
    
    # Cria a figure onde o gráfico será plotado.
    fig = go.Figure()
    
    # Adiciona um gráfico de pizza à figure criada.
    fig.add_trace(go.Pie(
        # Define os rótulos a partir dos valores únicos da feature.
        labels=feature.value_counts().index,  
        # Define os valores a partir da contagem de cada rótulo.
        values=feature.value_counts()  
    ))
    
    # Atualiza o layout do gráfico com o título.
    fig.update_layout(
        title=title
    )
    
    # Exibe o gráfico criado.
    fig.show()

Pois bem, no intuito de evitar o excesso de classes nos gráficos de pizza, convêm que, em todas as features categóricas, todas as categorias com menos de 1% sejam somadas e agrupadas em uma nova categoria de nome "Other". Tal operação será feita na célula abaixo.

In [80]:
# Obtem a quantidade total de amostras que as features em questão possuem.
total_values_number = copy_df.shape[0]

# Itera por cada uma das features do DataFrame que só contém as features categóricas.
for categorical_feature in categorical_df.columns:
    # Obtem a contagem de quantas vezes cada categoria aparece na feature em questão.
    feature_value_counts = categorical_df[categorical_feature].value_counts()
    # Obtem, através de um filtro booleano, um ndaray que contém o nome das categorias da feature em questão que representam menos de 1% 
    # do seu total de amostras.
    categories_to_replace = feature_value_counts[feature_value_counts < 0.01*total_values_number].index
    # Troca todas as categorias presentes no ndarray gerado acima por uma nova categoria chamada "Other".
    categorical_df[categorical_feature] = categorical_df[categorical_feature].replace({category:'Other' for category in categories_to_replace})

# Exibe o DataFrame resultante das operações dessa célula 
categorical_df # Observe que agora alguns valores de algumas features são categorizados como "Other".

Unnamed: 0,workclass,education,marital.status,occupation,relationship,race,sex,native.country,income
0,Private,Some-college,Divorced,Exec-managerial,Own-child,White,Male,United-States,<=50K
1,Local-gov,10th,Married-civ-spouse,Transport-moving,Husband,White,Male,United-States,<=50K
2,Private,Some-college,Never-married,Machine-op-inspct,Not-in-family,White,Male,United-States,<=50K
3,Private,Some-college,Divorced,Adm-clerical,Not-in-family,White,Female,United-States,<=50K
4,Self-emp-inc,HS-grad,Married-civ-spouse,Transport-moving,Husband,White,Male,Other,>50K
...,...,...,...,...,...,...,...,...,...
32555,Private,Masters,Married-civ-spouse,Prof-specialty,Husband,White,Male,United-States,>50K
32556,Private,HS-grad,Never-married,Machine-op-inspct,Unmarried,Black,Female,United-States,<=50K
32557,Private,HS-grad,Never-married,Other,Own-child,White,Female,Other,<=50K
32558,Private,HS-grad,Never-married,Adm-clerical,Not-in-family,White,Female,United-States,<=50K


Feito isso, agora serão plotados os *"gráficos de pizza"* para cada uma das features categóricas do DataFrame analisado.

In [81]:
# Itera por cada uma das features do DataFrame que só contém as features categóricas.
for categorical_feature in categorical_df.columns:
    # Para cada feature, um título personalizado com o seu nome é criado para ser usado no plot do seu "gráfico de pizza".
    title=f"Distribuição das categorias da feature '{categorical_feature}'"
    # Para cada feature, um "gráfico de pizza" é plotado.
    plot_pie_chart(categorical_df[categorical_feature], title=title)

Aparentemente, no contexto da preparação dos dados, não há muito o que comentar sobre os *"gráficos de pizza"* gerados acima.

## **Remoção de features desnecessárias e separação das features do target**

*Texto em itálico*

## **Codificando as features categóricas**

*Texto em itálico*

## **Normalizando as features numéricas**

*Texto em itálico*

# **2 - Criação e treinamento do modelo**

# **3 - Resultados obtidos**