## Machine Learning e Data Science com Python de A a Z
### Professor: Jones Granatyr (Curso na Udemy)
### Estudante: Lucca de Sena Barbosa

Neste material, que desenvolvi com base no curso do professor Jones, vou compartilhar meu conhecimento sobre tudo que aprendi sobre Machine Learning. É importante destacar que estou criando este documento como forma de impulsionar meus conhecimentos sobre aprendizado de máquina. Caso alguém esteja interessado em se aprofundar no conteúdo, disponibilizo o link do curso logo abaixo:

https://www.udemy.com/share/101sO83@US23TajqwuGiCl1qlyuiV9hQGSvT7FLTWe0s7udWgCfZYaQ0D2C1-oxmnNGSat7siQ==/

Nesse arquivo, vamos realizar a PADRONIZAÇÃO nos registros que possuem variáveis previsores na base de dados. Isso se torna essencial em certas ocasiões como na implementação no algoritmo KNN que utiliza um cálculo de distância Euclidiana para a classificação de classes em novos registros. Algoritmo utilizado no código:

    K-Nearest Neighbour(KNN)

Para entender como será realizada a padronização, irei separar os passos a seguir:

    1- Importação das Bibliotecas/Ferramentas.
    2- Importação da Base de Dados.
    3- Separação da base de dados entre atributos previsores (X) e classes (Y).
    4- Preparação do Pré-processamento com o OneHotEncoder().
    5- Realização do pré-processamento do OneHotEncoder() nos atributos previsores (X).
    6- Preparação de mais um pré-processamento com o StandardScaler().
    7- Realização do pré-processamento do StandardScaler() nos atributos previsores (X).
    
Com base nesses passos, será possível realizar o treinamento dos algoritmos na base de dados. No final do documento, mostraremos os resultados para certificar que o treinamento foi realizado corretamente.

Espero que este material ajude no conhecimento de cada um de vocês :D

In [11]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.neighbors import KNeighborsClassifier
from sklearn.compose import ColumnTransformer


In [2]:
base_census = pd.read_csv("census.csv")
base_census

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


### 1- ***Divisão da base de dados***

> Nessa instância, vamos estar dividindo a base de dados em atributos previsores, indicados como X_Census, e as classes, indicados com Y_census.


In [3]:

x_census = base_census.iloc[:, 0:14].values
y_census = base_census.iloc[:, 14].values

### 2- ***Codificação com OneHotEncoder***

> Para começar o treinamento, utilizaremos um método chamado OneHotEncoder, responsável por transformar variáveis categóricas na base de dados em dígitos binários. Essa tranformação torna-se essencial, pois posteriormente quando o treinamento for realizado de fato, é necessário que todos os valores na base de dados estejam em valores numéricos. Para o método se tornar eficiente, utilizaremos a função ColumnTransformer que irá aplicar o método OneHotEncoder nas colunas assumidas na lista abaixo, vale destacar que cada coluna na base de dados possuem seus índices assim como as listas. O parâmetro remainder='passthrough' indica que as colunas não especificadas na lista devem ser mantidas como estão, uma vez que já são valores numéricos.

In [4]:
codificador_onehot = ColumnTransformer(transformers=[('OneHot', OneHotEncoder(), [1, 3, 5, 6, 7, 8, 9, 13])], remainder='passthrough')

> Para realizar o pré-processamento com o OneHotEncoder(), temos que assumir que a variável na qual armazena os atributos previsores seja igual aos atributos previsores tranformados pela função OneHotEncoder. A tranformação é realizada pelo '.fit_tranform' em um array através do 'toarray()'

In [5]:
x_census = codificador_onehot.fit_transform(x_census).toarray()
display(x_census)

array([[0.0000e+00, 0.0000e+00, 0.0000e+00, ..., 2.1740e+03, 0.0000e+00,
        4.0000e+01],
       [0.0000e+00, 0.0000e+00, 0.0000e+00, ..., 0.0000e+00, 0.0000e+00,
        1.3000e+01],
       [0.0000e+00, 0.0000e+00, 0.0000e+00, ..., 0.0000e+00, 0.0000e+00,
        4.0000e+01],
       ...,
       [0.0000e+00, 0.0000e+00, 0.0000e+00, ..., 0.0000e+00, 0.0000e+00,
        4.0000e+01],
       [0.0000e+00, 0.0000e+00, 0.0000e+00, ..., 0.0000e+00, 0.0000e+00,
        2.0000e+01],
       [0.0000e+00, 0.0000e+00, 0.0000e+00, ..., 1.5024e+04, 0.0000e+00,
        4.0000e+01]])

### 3- ***Padronizando a Base de Dados***

> Para realizar o pré-processamento com o StandardScaler(), a ideia é exatamente a mesma como a do OneHotEncoder(). No entanto, deve-se tomar cuidado para não acrescentar o .toarray() uma vez que no passo anterior ele já foi inserido e transformando o x_census em um array.

In [6]:
padronizador = StandardScaler()
x_census = padronizador.fit_transform(x_census)

### 4- ***Criando bases de treinos e de testes***

> Para a criação das variáveis de treinamento e de teste, vamos chamar a função train_test_split(), que foi criada especificamente para essa finalidade. É importante destacar que a ordem das variáveis de treinamento e de teste deve ser seguida conforme o formato abaixo, pois é nessa ordem que a função direcionará os dados de treinamento e de teste. Caso a ordem não seja seguida, pode ocorrer, por exemplo, que os dados de treinamento sejam atribuídos à variável de teste. Dentro da função train_test_split(), deve ser passado como parâmetro o test_size= para indicar a proporção da base de dados que deve ser direcionada para a variável de teste. Além disso, é necessário passar as variáveis que armazenam os atributos previsores e as classes.

In [7]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x_census, y_census, test_size=0.20)

### 5- ***Realizando o Treinamento com o algoritmo KNN***

> Para preparar os algoritmos de aprendizagem de máquina, vamos atribuí-los a uma variável e, em seguida, realizar o treinamento utilizando a função .fit(), passando as variáveis de treinamento divididas anteriormente.

In [8]:
modelo_knn = KNeighborsClassifier()
modelo_knn.fit(x_treino, y_treino)
previsoes = modelo_knn.predict(x_teste)

In [13]:
display(accuracy_score(previsoes,y_teste)*100)
print(classification_report(previsoes,y_teste))

81.92845079072623

              precision    recall  f1-score   support

       <=50K       0.90      0.87      0.88      5155
        >50K       0.56      0.63      0.59      1358

    accuracy                           0.82      6513
   macro avg       0.73      0.75      0.74      6513
weighted avg       0.83      0.82      0.82      6513



### ***Conclusão***

> Esses resultados indicam que o modelo é mais eficiente em prever corretamente as pessoas com renda menor ou igual a 50K do que aquelas com renda maior que 50K. Isso pode ser um reflexo do desequilíbrio nas classes, onde há mais exemplos na classe <=50K do que na classe >50K. Portanto, esse cenário pode ser considerado benéfico ao banco, pois geralemente pessoas que recebem menos tem a tendencia a serem um risco maior a instituição financeira e identificar corretamente aqueles resgitros que recebem menos podem ser o essencial para o banco.