<img src="logoINPE.png">

# Introdução ao Machine Learning

O **Machine Learning (ML)**, ou **Aprendizado de Máquina**, é uma disciplina da inteligência artificial que se concentra no desenvolvimento de algoritmos e modelos que permitem que sistemas computacionais aprendam padrões e façam previsões a partir de dados, sem serem explicitamente programados para tarefas específicas. Em vez disso, os modelos de machine learning são treinados usando dados históricos e exemplos para aprender a realizar uma determinada tarefa ou fazer uma predição.

# Tipos de Aprendizado de Máquina e conceitos

Existem três tipos principais de aprendizado de máquina:

**Aprendizado Supervisionado:** Neste tipo de aprendizado, os modelos são treinados em um conjunto de dados rotulados, onde cada exemplo de entrada é associado a uma saída desejada. O objetivo é aprender a mapear as entradas para as saídas corretas, de modo que o modelo possa fazer previsões precisas em novos dados não rotulados.

**Aprendizado Não Supervisionado:** Aqui, os modelos são treinados em conjuntos de dados não rotulados, e o objetivo é encontrar padrões ou estruturas nos dados sem a necessidade de rótulos pré-existentes. O aprendizado não supervisionado é frequentemente usado para tarefas como clusterização, redução de dimensionalidade e análise de associação.

**Aprendizado por Reforço:** Neste paradigma, os modelos aprendem através da interação com um ambiente dinâmico, recebendo feedback na forma de recompensas ou penalidades. O objetivo é que o modelo aprenda a tomar ações que maximizem a recompensa ao longo do tempo, aprendendo assim uma política ou estratégia ótima.

**Dados de Treinamento e Teste:** Os dados de treinamento são usados para treinar o modelo, enquanto os dados de teste são usados para avaliar o desempenho do modelo em dados não vistos. É importante dividir os dados adequadamente para evitar o overfitting (sobreajuste) do modelo aos dados de treinamento.

**Features e Target:** As features (características) são as variáveis de entrada que o modelo usa para fazer previsões, enquanto o target (alvo) é a variável que o modelo está tentando prever. No caso de aprendizado supervisionado, o target é a saída desejada.

**Avaliação de Modelos:** Existem várias métricas para avaliar o desempenho de modelos de machine learning, incluindo:
Precisão
Recall
F1-score
Matriz de Confusão
Curva ROC

**Pré-processamento de Dados:** Antes de treinar um modelo de machine learning, os dados geralmente precisam ser pré-processados para garantir que estejam limpos e em um formato adequado para o modelo. Isso pode incluir etapas como:
Remoção de valores ausentes
Normalização de dados
Codificação de variáveis categóricas
Seleção de features

# Componentes do Processo de Machine Learning

O processo de machine learning geralmente envolve os seguintes componentes:

**Coleta e Preparação de Dados:** Esta fase envolve a coleta de dados relevantes para a tarefa em questão e o processamento desses dados para garantir que estejam limpos, completos e prontos para serem usados no treinamento do modelo.

**Seleção e Engenharia de Recursos:** Aqui, os atributos ou características dos dados são selecionados e, se necessário, transformados ou criados para melhor representar as informações relevantes para o modelo.

**Escolha do Algoritmo de Machine Learning:** Com base no tipo de problema e nos requisitos específicos, um algoritmo de machine learning adequado é escolhido para treinar o modelo.

**Treinamento do Modelo:** Nesta etapa, o modelo é alimentado com os dados de treinamento para aprender a relação entre as entradas e as saídas desejadas. Isso envolve ajustar os parâmetros do modelo para minimizar uma função de perda ou maximizar uma função de recompensa.

**Avaliação do Modelo:** Após o treinamento, o modelo é avaliado usando um conjunto de dados de validação ou teste para verificar seu desempenho e generalização em dados não vistos.

**Ajuste de Hiperparâmetros:** Se necessário, os hiperparâmetros do modelo são ajustados para otimizar o desempenho do modelo em novos dados.

**Implantação e Monitoramento:** Finalmente, o modelo treinado é implantado em um ambiente de produção e monitorado continuamente para garantir que ele mantenha seu desempenho e eficácia ao longo do tempo.

# Aplicações do Machine Learning

O Machine Learning tem uma ampla gama de aplicações em várias indústrias e domínios, incluindo:

**Finanças:** Detecção de fraudes, previsão de riscos, análise de crédito.

**Saúde:** Diagnóstico médico, descoberta de medicamentos, análise de imagens médicas.

**Varejo:** Recomendação de produtos, previsão de demanda, detecção de anomalias.

**Tecnologia:** Reconhecimento de voz, tradução automática, veículos autônomos.

**Marketing:** Segmentação de clientes, personalização de conteúdo, otimização de campanhas.

# Script tutorial - XGBoost (Extreme Gradient Boosting)

## Gradient Boosting

O XGBoost é uma implementação do algoritmo de Gradient Boosting, que é uma técnica de ensemble learning. O Gradient Boosting funciona construindo modelos de aprendizado de máquina sequencialmente, onde cada modelo tenta corrigir os erros do modelo anterior. Em cada iteração, o modelo é treinado para prever a diferença entre as previsões atuais e os valores reais (gradiente), e o próximo modelo é treinado para prever essas diferenças.

## Árvores de Decisão

No XGBoost, os modelos base são geralmente árvores de decisão. Uma árvore de decisão é uma estrutura hierárquica de nós que representam decisões e suas possíveis consequências. Cada nó na árvore representa uma característica do conjunto de dados e cada ramo representa uma possível resposta a essa característica. A árvore é construída de forma iterativa, dividindo os dados em subconjuntos cada vez mais puros até que um critério de parada seja alcançado.

## Gradient Boosting Trees

O XGBoost constrói modelos de Gradient Boosting Trees, onde cada modelo é uma combinação linear de várias árvores de decisão fracas. Cada árvore é treinada para prever os resíduos do modelo anterior, ou seja, a diferença entre as previsões atuais e os valores reais. As árvores são adicionadas sequencialmente ao modelo, cada uma tentando corrigir os erros das árvores anteriores.

## Principais Características do XGBoost

### Regularização

O XGBoost utiliza técnicas de regularização para evitar overfitting e melhorar a generalização do modelo. Isso inclui penalidades nos pesos das árvores e a limitação da complexidade das árvores para evitar o crescimento excessivo.

### Funcionalidades de Split

O XGBoost utiliza uma abordagem eficiente para encontrar os pontos de divisão ideais durante a construção das árvores de decisão. Ele considera várias medidas de impureza, como ganho de informação e ganho de Gini, e utiliza algoritmos de otimização eficientes para encontrar as divisões que maximizam essas medidas.

### Processamento Paralelo

Uma das principais vantagens do XGBoost é sua capacidade de processamento paralelo e distribuído. Ele pode aproveitar eficientemente o poder de computação de hardware moderno, como CPUs multi-core e GPUs, para acelerar o treinamento e a inferência dos modelos.

<img src="XGB.png">

# Funcionamento do Script utilizando XGBoost para Regressão

**1 - Importação de Bibliotecas:** O script começa importando as bibliotecas necessárias, incluindo pandas para manipulação de dados, scikit-learn para construção do modelo de XGBoost e métricas de avaliação.

In [1]:
# Importando as bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import LabelEncoder
import numpy as np

**2 - Carregamento dos Dados:** Em seguida, o script carrega os dados do arquivo de texto "DadosBancarios.txt" utilizando a função 'pd.read_csv()'. Esta etapa é crucial para preparar os dados para treinamento e teste do modelo.

In [2]:
# Carregando os dados do arquivo txt
dados = pd.read_csv('DadosBancarios.txt', sep=',')  

**3 - Visualização dos Dados:** O script exibe os primeiros registros do conjunto de dados carregados usando 'print(dados.head())'. Isso permite uma rápida inspeção dos dados para garantir que foram carregados corretamente.

In [3]:
# Visualizando os primeiros registros do conjunto de dados
print("Visualização dos primeiros registros do conjunto de dados:")
print(dados.head())

Visualização dos primeiros registros do conjunto de dados:
   ID  Idade  Saldo  Emprestimo Aprovado EstadoCivil CartaoCredito
0   1     35   5000           0        S   NaoCasado             S
1   2     45   8000        2000        S      Casado             S
2   3     30   2000           0        N   NaoCasado             N
3   4     55  10000        5000        S  Divorciado             S
4   5     40   6000        1000        S      Casado             S


**4 - Preparação dos Dados:** 
    
    'LabelEncoder()': Este é um objeto da classe LabelEncoder do scikit-learn, que é usada para codificar variáveis categóricas em números inteiros.
    
    O método fit_transform()' ajusta o LabelEncoder ao conjunto de dados e, em seguida, transforma os valores da coluna 'EstadoCivil' de strings em números inteiros.
    
    O conjunto de dados é dividido em features (X) e target (y), onde as features são todas as colunas, exceto a coluna "Aprovado", que é nossa variável alvo. Isso é feito usando o método 'drop()' do pandas.

In [4]:
# Codificação de rótulos para variável categórica "Aprovado"
le = LabelEncoder()
dados['Aprovado'] = le.fit_transform(dados['Aprovado'])

# Codificação de rótulos para variável categórica "cartao de credito"
dados['CartaoCredito'] = le.fit_transform(dados['CartaoCredito'])

# Codificação de rótulos para variável categórica "EstadoCivil"
dados['EstadoCivil'] = le.fit_transform(dados['EstadoCivil'])

# Separando as features (atributos) e o target (variável que queremos prever)
X = dados.drop('Emprestimo', axis=1)  # Features
y = dados['Emprestimo']  # Target

print("X = \n", X.head())
print("\nY = \n", y.head())

X = 
    ID  Idade  Saldo  Aprovado  EstadoCivil  CartaoCredito
0   1     35   5000         1            2              1
1   2     45   8000         1            0              1
2   3     30   2000         0            2              0
3   4     55  10000         1            1              1
4   5     40   6000         1            0              1

Y = 
 0       0
1    2000
2       0
3    5000
4    1000
Name: Emprestimo, dtype: int64


**5 - Divisão em Conjuntos de Treinamento e Teste:** Os dados são divididos em conjuntos de treinamento e teste usando a função 'train_test_split()' do scikit-learn. Isso permite avaliar a capacidade do modelo de generalizar para novos dados não vistos.

In [5]:
# Dividindo o conjunto de dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Conjunto de treinamento: \n")
print("\nX_train = \n", X_train.head())
print("\nY_train = \n", y_train.head())
print("\nConjunto de teste: \n")
print("\nX_test = \n", X_test.head())
print("\nY_test = \n", y_test.head())

Conjunto de treinamento: 


X_train = 
     ID  Idade  Saldo  Aprovado  EstadoCivil  CartaoCredito
9   10     28   4000         0            2              0
13  14     37   6200         1            2              1
1    2     45   8000         1            0              1
22  23     49   9200         1            0              1
5    6     25   3000         0            2              0

Y_train = 
 9      500
13    1500
1     2000
22    5000
5        0
Name: Emprestimo, dtype: int64

Conjunto de teste: 


X_test = 
     ID  Idade  Saldo  Aprovado  EstadoCivil  CartaoCredito
8    9     42   7000         1            0              1
16  17     52  11000         1            0              1
0    1     35   5000         1            2              1
23  24     34   5400         1            0              1
11  12     33   4800         1            1              1

Y_test = 
 8     3000
16    7000
0        0
23    1600
11     800
Name: Emprestimo, dtype: int64


**6 - Construção e Treinamento do Modelo:** O script cria um classificador de usando 'XGBRegressor()' do xgb. Este classificador é treinado com os dados de treinamento usando o método 'fit()'.

In [6]:
# Criando o regressor XGBoost
xgb_regressor = XGBRegressor()

# Treinando o modelo
xgb_regressor.fit(X_train, y_train)

**7 - Avaliação do Modelo:** Após o treinamento, o modelo é avaliado usando os dados de teste. As previsões são feitas para os dados de teste usando predict() e o erro médio quadrático do modelo é calculada usando mean_squared_error() do scikit-learn.
    
**Exibição do erro médio quadrático (MSE) e a raiz o erro médio quadrático (RMSE):** Por fim, o script imprime o erro médio quadrático (MSE) e sua raiz (RMSE) do modelo, que é uma medida da precisão das previsões do modelo em relação aos rótulos verdadeiros dos dados de teste.

In [7]:
# Fazendo previsões no conjunto de teste
y_pred = xgb_regressor.predict(X_test)

print("Previsões do modelo para o conjunto de teste: ")
print(y_pred)

print("\nConjunto de teste (y_test):")
print(y_test)

# Calculando o erro médio quadrático (MSE) do modelo
mse = mean_squared_error(y_test, y_pred)
print("\nErro médio quadrático do modelo:", mse)

# Calculando o RMSE do modelo
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print("\nRMSE do modelo:", rmse)

Previsões do modelo para o conjunto de teste: 
[2322.6523 4595.653   357.4548  741.0644  552.7421]

Conjunto de teste (y_test):
8     3000
16    7000
0        0
23    1600
11     800
Name: Emprestimo, dtype: int64

Erro médio quadrático do modelo: 1433273.184525864

RMSE do modelo: 1197.1938792550955


**Créditos:**
- Patrick dos Santos Câmara
- ChatGPT