In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

df = pd.read_csv('src/datasets/transacaoPIXmod.csv', sep=';', decimal=',')

Correção de ponto e vírgula nos campos de valor:

In [3]:
for col in df.columns:
    if col.startswith('valor'):
        df[col] = df[col].astype(str).str.replace('.', '', regex=False).str.replace(',', '.', regex=False)
        df[col] = df[col].astype(float)

In [4]:
df.head()

Unnamed: 0.1,Unnamed: 0,AnoMes,PAG_PFPJ,REC_PFPJ,PAG_REGIAO,REC_REGIAO,PAG_IDADE,REC_IDADE,FORMAINICIACAO,NATUREZA,FINALIDADE,VALOR,QUANTIDADE
0,0,2025-01-01 00:00:00,PF,PF,CENTRO-OESTE,SUDESTE,entre 30 e 39 anos,entre 50 e 59 anos,QRES,P2P,Pix,1765604000000.0,30585000
1,1,2025-01-01 00:00:00,PF,PF,Nao informado,Nao informado,até 19 anos,entre 30 e 39 anos,MANU,P2P,Pix,32682420000.0,388000
2,2,2025-01-01 00:00:00,PF,PF,SUDESTE,SUL,entre 50 e 59 anos,entre 40 e 49 anos,MANU,P2P,Pix,10970830000000.0,25569000
3,3,2025-01-01 00:00:00,PJ,PF,Nao informado,SUDESTE,Nao se aplica,até 19 anos,QRES,B2P,Pix,75786770000.0,991000
4,4,2025-01-01 00:00:00,PF,PF,NORDESTE,SUDESTE,Nao informado,entre 40 e 49 anos,MANU,P2P,Pix,491500000.0,6000


In [11]:
users_cols = ['PAG_PFPJ', 'REC_PFPJ', 'PAG_REGIAO', 'REC_REGIAO', 'PAG_IDADE', 'REC_IDADE']

pix_cols = ['NATUREZA','VALOR', 'QUANTIDADE']

selected_cols = users_cols+pix_cols
df_pix = df[selected_cols].copy()

## 2. Definição das variáveis explicativas (X = características) e da variável resposta (Y = rótulo)

In [12]:
X = df_pix.drop('PAG_PFPJ', axis=1)
y = df_pix['PAG_PFPJ'] # Variável dependente

### 3. Separação da base de dados em *Dados de Treino* e *Dados de Teste*

In [13]:
# Importação do Método para separação dos dados entre treino e teste
from sklearn.model_selection import train_test_split

In [14]:
# Definição de 20% dos dados para teste e 80% para treino
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [15]:
print(X_train.shape)
print(X_test.shape) 
print(y_train.shape)
print(y_test.shape)

(8000, 8)
(2000, 8)
(8000,)
(2000,)


## 4. Construção de um Modelo de Classificação

In [16]:
from sklearn.ensemble import RandomForestClassifier # 1ª técnica de Machine Learning
from sklearn.svm import SVC                         # 2ª técnica de Machine Learning
from sklearn.linear_model import LogisticRegression # 3ª técnica de Machine Learning
from sklearn.neighbors import KNeighborsClassifier  # 4ª técnica de Machine Learning
from sklearn.naive_bayes import GaussianNB          # 5ª técnica de Machine Learning

# Instanciação dos modelos
modelo_1 = RandomForestClassifier(n_estimators=500, random_state=42)
modelo_2 = SVC(kernel='linear', random_state=42)
modelo_3 = LogisticRegression(max_iter=1000, random_state=42)
modelo_4 = KNeighborsClassifier(n_neighbors=5)
modelo_5 = GaussianNB()

In [18]:
import pandas as pd

X_train = pd.get_dummies(X_train)
X_test = pd.get_dummies(X_test)

# Para garantir que as colunas estejam alinhadas (algumas categorias podem faltar em X_test)
X_test = X_test.reindex(columns=X_train.columns, fill_value=0)


In [None]:
# Treinamento dos modelos com a base de treino

modelo_1.fit(X_train, y_train)
modelo_2.fit(X_train, y_train)
modelo_3.fit(X_train, y_train)
modelo_4.fit(X_train, y_train)
modelo_5.fit(X_train, y_train)

In [None]:
# Efetuando predições na base de teste

y_pred_1 = modelo_1.predict(X_test) # Predição do modelo 1
y_pred_2 = modelo_2.predict(X_test) # Predição do modelo 2
y_pred_3 = modelo_3.predict(X_test) # Predição do modelo 3
y_pred_4 = modelo_4.predict(X_test) # Predição do modelo 4
y_pred_5 = modelo_5.predict(X_test) # Predição do modelo 5

In [None]:
y_pred_1

## 5. Avaliação dos modelos

In [None]:
# Efetuando a importação do método da Acurácia (Taxa de acerto)
from sklearn.metrics import accuracy_score

In [None]:
# Avaliação do desempenho (taxa de acerto)

acuracia_1 = accuracy_score(y_test, y_pred_1)
acuracia_2 = accuracy_score(y_test, y_pred_2)
acuracia_3 = accuracy_score(y_test, y_pred_3)
acuracia_4 = accuracy_score(y_test, y_pred_4)
acuracia_5 = accuracy_score(y_test, y_pred_5)

# Impressão dos resultados

print(f'Acurácia do modelo 1: {acuracia_1 * 100:.2f}%')
print(f'Acurácia do modelo 2: {acuracia_2 * 100:.2f}%')
print(f'Acurácia do modelo 3: {acuracia_3 * 100:.2f}%')
print(f'Acurácia do modelo 4: {acuracia_4 * 100:.2f}%')
print(f'Acurácia do modelo 5: {acuracia_5 * 100:.2f}%')

### Verificação da estabilidade

Agora será realizada uma análise de desempenho a partir de várias execuções dos modelos para verificar estabilidade:

In [None]:
acuracia_modelo1 = []
acuracia_modelo2 = []
acuracia_modelo3 = []
acuracia_modelo4 = []
acuracia_modelo5 = []

for i in range(30):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

    modelo_1 = RandomForestClassifier(n_estimators=500, random_state=42)
    modelo_2 = SVC(kernel='linear', random_state=42)
    modelo_3 = LogisticRegression(max_iter=1000, random_state=42)
    modelo_4 = KNeighborsClassifier(n_neighbors=5)
    modelo_5 = GaussianNB()

    modelo_1.fit(X_train, y_train)
    modelo_2.fit(X_train, y_train)
    modelo_3.fit(X_train, y_train)
    modelo_4.fit(X_train, y_train)
    modelo_5.fit(X_train, y_train)

    y_pred_1 = modelo_1.predict(X_test)
    y_pred_2 = modelo_2.predict(X_test)
    y_pred_3 = modelo_3.predict(X_test)
    y_pred_4 = modelo_4.predict(X_test)
    y_pred_5 = modelo_5.predict(X_test)

    acuracia_1 = accuracy_score(y_test, y_pred_1)
    acuracia_2 = accuracy_score(y_test, y_pred_2)
    acuracia_3 = accuracy_score(y_test, y_pred_3)
    acuracia_4 = accuracy_score(y_test, y_pred_4)
    acuracia_5 = accuracy_score(y_test, y_pred_5)

    acuracia_modelo1.append(acuracia_1)
    acuracia_modelo2.append(acuracia_2)
    acuracia_modelo3.append(acuracia_3)
    acuracia_modelo4.append(acuracia_4)
    acuracia_modelo5.append(acuracia_5)

In [None]:
print(np.mean(acuracia_modelo1))
print(np.mean(acuracia_modelo2))
print(np.mean(acuracia_modelo3))
print(np.mean(acuracia_modelo4))
print(np.mean(acuracia_modelo5))

In [None]:
print(np.std(acuracia_modelo1))
print(np.std(acuracia_modelo2))
print(np.std(acuracia_modelo3))
print(np.std(acuracia_modelo4))
print(np.std(acuracia_modelo5))

## 6. Análise das Taxas de Acurácia e Estabilidade dos Modelos