# **Configurações iniciais**

## **Importando as bibliotecas necessárias**

In [69]:
# Importa a biblioteca pandas para lidar com DataFrames.
import pandas as pd
# Importa a biblioteca numpy para lidar com nparrays e funções matemáticas.
import numpy as np
# Importa o módulo graph_objects da biblioteca plotly para construir algumas visualizações gráficas.
import plotly.graph_objects as go
# Importa o método "Optinal" da classe typing para lidar com tipagem de funções.
from typing import Optional

## **Lendo o ".csv" e o transformando em um DataFrame do pandas**

In [70]:
# Transforma o .csv em um DataFrame da biblioteca pandas e salva esse DataFrame na variável "df".
df = pd.read_csv('train_data.csv')

In [71]:
# Exibe o DataFrame
df

Unnamed: 0,Id,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income
0,16280,34,Private,204991,Some-college,10,Divorced,Exec-managerial,Own-child,White,Male,0,0,44,United-States,<=50K
1,16281,58,Local-gov,310085,10th,6,Married-civ-spouse,Transport-moving,Husband,White,Male,0,0,40,United-States,<=50K
2,16282,25,Private,146117,Some-college,10,Never-married,Machine-op-inspct,Not-in-family,White,Male,0,0,42,United-States,<=50K
3,16283,24,Private,138938,Some-college,10,Divorced,Adm-clerical,Not-in-family,White,Female,0,0,40,United-States,<=50K
4,16284,57,Self-emp-inc,258883,HS-grad,9,Married-civ-spouse,Transport-moving,Husband,White,Male,5178,0,60,Hungary,>50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32555,48835,42,Private,384236,Masters,14,Married-civ-spouse,Prof-specialty,Husband,White,Male,7688,0,40,United-States,>50K
32556,48836,23,Private,129042,HS-grad,9,Never-married,Machine-op-inspct,Unmarried,Black,Female,0,0,40,United-States,<=50K
32557,48837,30,Private,195488,HS-grad,9,Never-married,Priv-house-serv,Own-child,White,Female,0,0,40,Guatemala,<=50K
32558,48838,18,Private,27620,HS-grad,9,Never-married,Adm-clerical,Not-in-family,White,Female,0,0,25,United-States,<=50K


# **Obtendo uma visão geral sobre o DataFrame**

In [72]:
# Exibe algumas informações sobre o DataFrame em questão.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32560 entries, 0 to 32559
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Id              32560 non-null  int64 
 1   age             32560 non-null  int64 
 2   workclass       32560 non-null  object
 3   fnlwgt          32560 non-null  int64 
 4   education       32560 non-null  object
 5   education.num   32560 non-null  int64 
 6   marital.status  32560 non-null  object
 7   occupation      32560 non-null  object
 8   relationship    32560 non-null  object
 9   race            32560 non-null  object
 10  sex             32560 non-null  object
 11  capital.gain    32560 non-null  int64 
 12  capital.loss    32560 non-null  int64 
 13  hours.per.week  32560 non-null  int64 
 14  native.country  32560 non-null  object
 15  income          32560 non-null  object
dtypes: int64(7), object(9)
memory usage: 4.0+ MB


*Observando a saída da célula acima é possível ver que o DataFrame que estamos trabalhando não possui valores nulos em nenhuma das suas colunas. Tal conclusão é imediata ao se observar que o DataFrame em questão possui 32560 amostras e todas as suas colunas possuem 32560 amostras não nulas.*

*Contudo, observando a saída da última célula de código é possível ver que o DataFrame possui colunas do tipo "int64" e do tipo "object", sendo que, esse último tipo pode representar um problema, visto que, colunas do tipo object podem conter diferentes tipos de dados, o que pode gerar inúmeros erros no processo de tratamento e visualização dos dados. Por conta disso, vamos conferir se existe apenas um tipo de dados nas colunas do tipo "object".*

In [73]:
# Cria uma função que facilitará a verificação de tipo único de cada coluna.
def column_only_has_one_type(column: pd.Series) -> bool:
    '''
        Description:
        
        Args:
        
        Return:
        
        Errors:
    '''
    
    # Verifica se o parâmetro recebido é do tipo pd.Series.
    if not isinstance(column, pd.Series):
        raise TypeError("É esperado que o parâmetro 'column' seja um objeto do tipo 'pd.Series'.")
    
    # Cria uma lista contendo o tipo de cada uma das amostras da pd.Series "column".
    elements_type = [type(element) for element in column]
    
    # Transforma a lista criada acima em um objeto do tipo "set". A ideia por trás dessa transformação é que o set é uma coleção de elementos
    # que não aceita duplicatas. Ou seja, ao transformarmos um objeto do tipo "list" em um objeto do tipo "set" todos os elementos duplicados
    # serão removidos.
    elements_type = set(elements_type)
    
    if(len(elements_type) == 1): 
        # Caso a variável "elements_type", após ser transformada em um objeto do tipo "set", possua apenas um elemento, então todos os dados da
        # pd.Series "column" possuem um único tipo.
        return True
    else:
        # Caso contrário, os dados da pd.Series "column" possuem mais de um tipo.
        return False
    

In [74]:
# É assumido, por hipótese, que todas as colunas possuem um único tipo de dados.
all_columns_have_single_type = True

# Itero por cada uma das colunas.
for index, column in enumerate(df.columns):
    if not column_only_has_one_type(df[column]):
        # Caso exista alguma coluna no DataFrame que não possua todos os dados do mesmo tipo, o nome dessa coluna será printado.
        all_columns_have_single_type = False
        print(f"A coluna {column} possui dados de tipos diferentes.")

if(all_columns_have_single_type):
    # Caso cada uma das colunas do DataFrame em questão possua apenas um tipo de dado, será exibido uma mensagem que informa isso.
    print(f"Todas as colunas do DataFrame em questão possuem apenas um tipo de dado.")

Todas as colunas do DataFrame em questão possuem apenas um tipo de dado.


*Com base na saída da célula acima, vemos que todas as colunas do DataFrame em questão possuem apenas um único tipo de dado. Ou seja, as colunas que possuem tipo "object" não serão problemáticas nesse caso.*

# **Verificando eventuais outliers nos dados**

*Vimos em aula que o KNN é um algoritmo de classificação que é especialmente sensível a outliers. Dado esse fato, convêm que análisemos se alguma das features possuem outliers.*

*Um método eficiente para verificarmos a eventual presença de outliers é atraves do plot de boxplots para todas as features numéricas.*

In [75]:
# Exibe algumas informações do DataFrame em questão.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32560 entries, 0 to 32559
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Id              32560 non-null  int64 
 1   age             32560 non-null  int64 
 2   workclass       32560 non-null  object
 3   fnlwgt          32560 non-null  int64 
 4   education       32560 non-null  object
 5   education.num   32560 non-null  int64 
 6   marital.status  32560 non-null  object
 7   occupation      32560 non-null  object
 8   relationship    32560 non-null  object
 9   race            32560 non-null  object
 10  sex             32560 non-null  object
 11  capital.gain    32560 non-null  int64 
 12  capital.loss    32560 non-null  int64 
 13  hours.per.week  32560 non-null  int64 
 14  native.country  32560 non-null  object
 15  income          32560 non-null  object
dtypes: int64(7), object(9)
memory usage: 4.0+ MB


In [76]:
# Exibe o DataFrame em questão.
df

Unnamed: 0,Id,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income
0,16280,34,Private,204991,Some-college,10,Divorced,Exec-managerial,Own-child,White,Male,0,0,44,United-States,<=50K
1,16281,58,Local-gov,310085,10th,6,Married-civ-spouse,Transport-moving,Husband,White,Male,0,0,40,United-States,<=50K
2,16282,25,Private,146117,Some-college,10,Never-married,Machine-op-inspct,Not-in-family,White,Male,0,0,42,United-States,<=50K
3,16283,24,Private,138938,Some-college,10,Divorced,Adm-clerical,Not-in-family,White,Female,0,0,40,United-States,<=50K
4,16284,57,Self-emp-inc,258883,HS-grad,9,Married-civ-spouse,Transport-moving,Husband,White,Male,5178,0,60,Hungary,>50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32555,48835,42,Private,384236,Masters,14,Married-civ-spouse,Prof-specialty,Husband,White,Male,7688,0,40,United-States,>50K
32556,48836,23,Private,129042,HS-grad,9,Never-married,Machine-op-inspct,Unmarried,Black,Female,0,0,40,United-States,<=50K
32557,48837,30,Private,195488,HS-grad,9,Never-married,Priv-house-serv,Own-child,White,Female,0,0,40,Guatemala,<=50K
32558,48838,18,Private,27620,HS-grad,9,Never-married,Adm-clerical,Not-in-family,White,Female,0,0,25,United-States,<=50K


*Observando a saída das duas células acima, vemos que apenas as colunas 'Id', 'age', 'fnlwgt', 'education.num', 'capital.gain', 'capital.loss', 'hours.per.week' são as colunas numéricas do DataFrame em questão. Além disso, é imediato perceber que a coluna 'Id' é usada apenas como uma coluna que cria um identificador para cada amostra. Dado que queremos plotar um boxplot para cada coluna numérica, é conveniente que salvemos todas essas colunas em uma lista, com exceção da coluna 'Id', já que não tem qualquer sentido criar um boxplot de uma coluna de identificadores.*

In [77]:
# Cria uma lista que contém todas as colunas numéricas (com exceção da coluna "id") do DataFrame em questão.
df_numeric_columns = [df['age'], df['fnlwgt'], df['education.num'],df['capital.gain'],df['capital.loss'],df['hours.per.week']]

In [78]:
# Cria uma função que facilitará o plot dos boxplots.
def plot_boxplot(column: pd.Series, title: Optional[str] = "", x_axis_title: Optional[str] = "", y_axis_title: Optional[str] = "") -> None:
    '''
        Description:
        Args:
        Return:
        Errors:
    '''
    
    # Verifica se o parâmetro recebido é do tipo pd.Series.
    if not isinstance(column, pd.Series):
        raise TypeError("É esperado que o parâmetro 'column' seja um objeto do tipo 'pd.Series'.")
    if not hasattr(column, 'name'):
        raise ValueError("É esperado que o parâmetro 'colunn' possua um atributo 'name' que contenha o nome dessa coluna.")
    
    
    fig = go.Figure()
    
    fig.add_trace(
        go.Box(
            y = column,
            name = column.name,
            boxmean = True,
            boxpoints= "outliers"
        )
    )
    
    fig.update_layout(
        title=title,
        xaxis_title=x_axis_title,
        yaxis_title=y_axis_title
    )
    
    
    fig.show()

In [79]:
# Itera sobre cada uma das colunas numéricas (com exceção da coluna "Id") do DataFrame em questão.
for numeric_column in df_numeric_columns:
    # Plota um boxplot para cada uma das colunas em questão, adicionado o nome de cada uma delas ao título de seu respectivo boxplot.
    plot_boxplot(numeric_column, f'Boxplot da feature "{numeric_column.name}"')

##