<a href="https://colab.research.google.com/github/lissCez/CHALLENGE_AI/blob/main/CHALLENGE_IA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**INTEGRANTES**#
##Nome: Melissa Barbosa de Souza - RM: 552535
##Nome: Alissa Silva Cezero - RM: 553954
##Nome: Nícolas Paiffer do Carmo - RM: 554145

(Pedimos que não sejam executadas as células abaixo, utilizamos apenas exemplificações, portanto ainda se trata de um rascunho)

Primeiramente, implementamos um modelo de detecção de fraudes usando bibliotecas de Machine Learning, ou seja, **scikit-learn** para algoritmos tradicionais, ou **TensorFlow/Keras** para redes neurais. Preferimos usar o Google Colab, pois fornece um ambiente de programação baseado em nuvem com suporte a GPUs.
Abaixo estão as etapas do começo do projeto de **Detecção de Fraudes**.

### 1. Preparando o Ambiente e os Dados

Como é apenas um rascunho não temos um dataset montado, portanto usamos o **Credit Card Fraud Detection Dataset** do Kaggle que é um bom ponto de partida para simular um cenário de fraudes.

In [None]:
!pip install pandas scikit-learn seaborn matplotlib

In [2]:
#importando as bibliotecas:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import IsolationForest
from sklearn.metrics import classification_report, confusion_matrix

### 2. Carregamento e Visualização dos Dados

Carregando o arquivo CSV:

In [None]:
# Carregando dados (subistituiremos o 'fraud_data.csv' pelo caminho do nosso próprio arquivo)
data = pd.read_csv('fraud_data.csv')
data.head()

Vizualizando o balanceamento dos dados (geralmente existem poucos casos de fraude, então dados reais serão desbalanceados):

In [None]:
sns.countplot(x="Class", data=data)
plt.title("Distribuição de fraudes e transações normais")
plt.show()

### 3. Pré-Processamento dos Dados

Dividindo as colunas em variáveis dependentes (X) e alvo (y), e fazendo a divisão em conjuntos de treino e teste:

In [None]:
X = data.drop("Class", axis=1)
y = data["Class"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### 4. Treinamento do Modelo com **Isolation Forest**

O Isolation Forest é ideal para detecção de anomalias, pois detecta pontos fora do padrão (como fraudes).
Iremos treiná-lo nos dados.

In [None]:
model = IsolationForest(n_estimators=100, max_samples='auto', contamination=float(0.1), random_state=42)
model.fit(X_train)
y_pred = model.predict(X_test)
y_pred = [1 if x == -1 else 0 for x in y_pred]

### 5. Avaliação do Modelo

Utilizamos métricas como matriz de confusão e o relatório de classificação para avaliarmos o desempenho.

In [None]:
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

A Matriz de Confusão mostra:
- Verdadeiros Positivos (fraudes detectadas corretamente),
- Falsos Positivos (transações normais marcadas como fraudes),
- Verdadeiros Negativos (transações normais detectadas corretamente), e
- Falsos Negativos (fraudes não detectadas).

### 6. Visualização dos Resultados

Para deixarmos mais claro faremos gráficos que mostram a separação dos casos de fraude e transações normais.

In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_test)
plt.figure(figsize=(10, 6))
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y_pred, cmap='coolwarm', label='Detecções')
plt.title('Visualização de Detecção de Fraudes')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.legend(['Normal', 'Fraude'])
plt.show()

### 7. Melhoria e Ajustes

1. **Balanceamento de Dados**: Se o dataset ficar muito desbalanceado, usaremos **SMOTE** (Synthetic Minority Over-sampling Technique) para suavizar esses desbalanceamentos;

2. **Escolha de Modelos**: Pretendemos usar outros modelos de "detecção de anomalias" como SVMs e talvez redes neurais;

3. **Parâmetros de Contaminação**: Também ajustaremos os parâmetros de "contaminação" do Isolation Forest para que a taxa de fraudes seja a esperada nos dados.

#**Concluíndo**

Mesmo com essa configuração inicial funcionando bem, vemos várias oportunidades de aprimoramento. Pretendemos explorar técnicas de balanceamento de dados, como o SMOTE, e testar novos modelos de anomalias, incluindo redes neurais, para refinar ainda mais a precisão da detecção. Esse rascunho oferece uma base sólida que facilita futuros ajustes e abre caminho para uma implementação mais completa.