# Importação de Bibliotecas
Nesta seção, importamos as bibliotecas necessárias para manipulação de dados e visualização.

Coletando informações do workspaceAqui estão as melhorias prioritárias que você pode implementar no seu notebook:

### 1. **Correção de Erros**
- **Função `salvar_arvore`**: A função tenta salvar árvores de classificadores como `RandomForestClassifier` e `AdaBoostClassifier`, mas esses classificadores não possuem uma única árvore. Ajuste o código para salvar apenas árvores individuais ou remova essas chamadas. Por exemplo:


In [None]:
# Corrigir chamadas para salvar árvores de classificadores ensemble
# Exemplo para RandomForestClassifier:
for i, arvore in enumerate(classificador_random_forest.estimators_[:2]):  # Salvar apenas as 2 primeiras árvores
    salvar_arvore(arvore, f"random_forest_{i+1}.png")



---

### 2. **Organização do Código**
- **Evitar Repetição**: Crie funções para evitar duplicação de código, especialmente para treinar e validar classificadores. Por exemplo:


In [None]:
def executar_e_validar(classificador, X_train, X_test, y_train, y_test):
    y_pred = executar_classificador(classificador, X_train, X_test, y_train)
    validar_arvore(y_test, y_pred)
    return y_pred

Isso reduzirá a repetição em blocos como os de validação de classificadores.

---

### 3. **Visualização de Dados**
- **Distribuição de Classes**: Adicione gráficos para visualizar a distribuição de classes no dataset. Por exemplo:


In [None]:
import seaborn as sns

sns.countplot(x='Class', data=dados)
plt.title('Distribuição de Classes')
plt.show()



---

### 4. **Análise Exploratória**
- **Verificação de Correlações**: Inclua um heatmap para verificar correlações entre variáveis:


In [None]:
import numpy as np

correlacoes = dados.corr()
sns.heatmap(correlacoes, cmap='coolwarm', annot=False)
plt.title('Mapa de Correlação')
plt.show()



---

### 5. **Validação Cruzada**
- Substitua a divisão simples de treino/teste por validação cruzada para obter resultados mais robustos:


In [None]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(tree.DecisionTreeClassifier(), X, y, cv=5, scoring='accuracy')
print("Acurácia média (validação cruzada):", scores.mean())



---

### 6. **Documentação**
- **Explicação de Resultados**: Após cada bloco de código, adicione células Markdown explicando os resultados obtidos. Isso tornará o notebook mais compreensível.

---

### 7. **Balanceamento de Classes**
- Se as classes estiverem desbalanceadas, considere usar técnicas como SMOTE para balancear os dados:


In [None]:
from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=0)
X_resampled, y_resampled = smote.fit_resample(X, y)



---

Essas melhorias iniciais corrigem problemas críticos e tornam o notebook mais organizado, eficiente e informativo. Se precisar de ajuda para implementar alguma delas, é só pedir!

In [1]:
import pandas as pd

# Carregamento e Visualização dos Dados
Carregamos o dataset e exibimos as primeiras 10 linhas para entender sua estrutura.

In [2]:
dados = pd.read_csv("creditcard.csv")
dados.head(10)

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,...,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,0.0,-1.359807,-0.072781,2.536347,1.378155,-0.338321,0.462388,0.239599,0.098698,0.363787,...,-0.018307,0.277838,-0.110474,0.066928,0.128539,-0.189115,0.133558,-0.021053,149.62,0
1,0.0,1.191857,0.266151,0.16648,0.448154,0.060018,-0.082361,-0.078803,0.085102,-0.255425,...,-0.225775,-0.638672,0.101288,-0.339846,0.16717,0.125895,-0.008983,0.014724,2.69,0
2,1.0,-1.358354,-1.340163,1.773209,0.37978,-0.503198,1.800499,0.791461,0.247676,-1.514654,...,0.247998,0.771679,0.909412,-0.689281,-0.327642,-0.139097,-0.055353,-0.059752,378.66,0
3,1.0,-0.966272,-0.185226,1.792993,-0.863291,-0.010309,1.247203,0.237609,0.377436,-1.387024,...,-0.1083,0.005274,-0.190321,-1.175575,0.647376,-0.221929,0.062723,0.061458,123.5,0
4,2.0,-1.158233,0.877737,1.548718,0.403034,-0.407193,0.095921,0.592941,-0.270533,0.817739,...,-0.009431,0.798278,-0.137458,0.141267,-0.20601,0.502292,0.219422,0.215153,69.99,0
5,2.0,-0.425966,0.960523,1.141109,-0.168252,0.420987,-0.029728,0.476201,0.260314,-0.568671,...,-0.208254,-0.559825,-0.026398,-0.371427,-0.232794,0.105915,0.253844,0.08108,3.67,0
6,4.0,1.229658,0.141004,0.045371,1.202613,0.191881,0.272708,-0.005159,0.081213,0.46496,...,-0.167716,-0.27071,-0.154104,-0.780055,0.750137,-0.257237,0.034507,0.005168,4.99,0
7,7.0,-0.644269,1.417964,1.07438,-0.492199,0.948934,0.428118,1.120631,-3.807864,0.615375,...,1.943465,-1.015455,0.057504,-0.649709,-0.415267,-0.051634,-1.206921,-1.085339,40.8,0
8,7.0,-0.894286,0.286157,-0.113192,-0.271526,2.669599,3.721818,0.370145,0.851084,-0.392048,...,-0.073425,-0.268092,-0.204233,1.011592,0.373205,-0.384157,0.011747,0.142404,93.2,0
9,9.0,-0.338262,1.119593,1.044367,-0.222187,0.499361,-0.246761,0.651583,0.069539,-0.736727,...,-0.246914,-0.633753,-0.120794,-0.38505,-0.069733,0.094199,0.246219,0.083076,3.68,0


# Verificação de Valores Nulos
Aqui verificamos se há valores ausentes no dataset.

In [3]:
print(dados.isna().sum())

Time      0
V1        0
V2        0
V3        0
V4        0
V5        0
V6        0
V7        0
V8        0
V9        0
V10       0
V11       0
V12       0
V13       0
V14       0
V15       0
V16       0
V17       0
V18       0
V19       0
V20       0
V21       0
V22       0
V23       0
V24       0
V25       0
V26       0
V27       0
V28       0
Amount    0
Class     0
dtype: int64


In [None]:
import matplotlib.pyplot as plt

def salvar_arvore(classificador, nome):
  plt.figure(figsize=(200,100))
  tree.plot_tree(classificador, filled=True, fontsize=14)
  plt.savefig(nome)
  plt.close()

# Análise de Distribuição de Classes
Calculamos o número de transações normais e fraudulentas, bem como suas proporções.

In [4]:
n_transacoes = dados['Class'].count()
n_fraudes = dados['Class'].sum()
n_normais = n_transacoes - n_fraudes
fraudes_porc = n_fraudes / n_transacoes
normais_porc = n_normais / n_transacoes

print("Número de transações: ", n_transacoes)
print("Número de fraudes: ", n_fraudes, "%.2f" %(fraudes_porc*100))
print("Número de transações normais: ", n_normais, "%.2f" %(normais_porc*100))

Número de transações:  284807
Número de fraudes:  492 0.17
Número de transações normais:  284315 99.83


In [None]:
%%time
from sklearn import tree

def executar_classificador(classificador, X_train, X_test, y_train):
  arvore = classificador.fit(X_train, y_train)
  y_pred = arvore.predict(X_test)
  return y_pred

CPU times: total: 172 ms
Wall time: 1.28 s


In [None]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

def validar_arvore(y_test, y_pred):
  print(accuracy_score(y_test, y_pred))
  print(precision_score(y_test, y_pred))
  print(recall_score(y_test, y_pred))
  print(confusion_matrix(y_test, y_pred))

# Divisão dos Dados
Utilizamos validação estratificada para dividir os dados em conjuntos de treino e teste.

In [5]:
from sklearn.model_selection import StratifiedShuffleSplit

def executar_validador(X, y):
  validador = StratifiedShuffleSplit(n_splits=1, test_size=0.1, random_state=0)
  for treino_id, teste_id in validador.split(X, y):
    X_train, X_test = X[treino_id], X[teste_id]
    y_train, y_test = y[treino_id], y[teste_id]
  return X_train, X_test, y_train, y_test


# Execução de Classificadores
Nesta seção, executamos diferentes classificadores, como DecisionTreeClassifier, RandomForestClassifier e AdaBoostClassifier, e validamos seus resultados.

In [9]:
#execucao do validador
X = dados.drop('Class', axis=1).values
y = dados['Class'].values
X_train, X_test, y_train, y_test = executar_validador(X, y)

In [10]:
#execucao do classificador DecisionTreeClassifier
classificador_arvore_decisao = tree.DecisionTreeClassifier()
y_pred_arvore_decisao = executar_classificador(classificador_arvore_decisao, X_train, X_test, y_train)

In [11]:
#criacao da figura da arvore de decisao
salvar_arvore(classificador_arvore_decisao, "arvore_decisao2.png")

In [12]:
%%time
#execucao do classificador DecisionTreeClassifier
classificador_arvore_decisao = tree.DecisionTreeClassifier(max_depth= 10 ,random_state= 0 )
y_pred_arvore_decisao = executar_classificador(classificador_arvore_decisao, X_train, X_test, y_train)

CPU times: total: 16 s
Wall time: 18 s


In [13]:
#validacao arvore de decisao
validar_arvore(y_test, y_pred_arvore_decisao)

0.9994733330992591
0.9473684210526315
0.7346938775510204
[[28430     2]
 [   13    36]]


In [14]:
#execucao do classificador DecisionTreeClassifier
classificador_arvore_decisao = tree.DecisionTreeClassifier(max_depth= 10 ,random_state= 0, min_samples_leaf=10 )
y_pred_arvore_decisao = executar_classificador(classificador_arvore_decisao, X_train, X_test, y_train)

In [15]:
#validacao arvore de decisao
validar_arvore(y_test, y_pred_arvore_decisao)

0.9993679997191109
0.8604651162790697
0.7551020408163265
[[28426     6]
 [   12    37]]


In [16]:
#execucao do classificador DecisionTreeClassifier
classificador_arvore_decisao = tree.DecisionTreeClassifier(max_depth= 5 ,random_state= 0 )
y_pred_arvore_decisao = executar_classificador(classificador_arvore_decisao, X_train, X_test, y_train)

In [17]:
#validacao arvore de decisao
validar_arvore(y_test, y_pred_arvore_decisao)

0.999403110845827
0.9210526315789473
0.7142857142857143
[[28429     3]
 [   14    35]]


In [18]:
%%time
from sklearn.ensemble import RandomForestClassifier

classificador_random_forest = RandomForestClassifier(n_estimators=100, random_state=0)
y_pred_random_forest = executar_classificador(classificador_random_forest, X_train, X_test, y_train)

In [None]:
validar_arvore(y_test,y_pred_random_forest)


0.9995084442259752
0.9487179487179487
0.7551020408163265
[[28430     2]
 [   12    37]]


In [None]:
for i, arvore in enumerate(classificador_random_forest.estimators_[:2]):
    salvar_arvore(arvore, f"random_forest_{i+1}.png")

In [None]:
%%time
from sklearn.ensemble import RandomForestClassifier

classificador_random_forest = RandomForestClassifier(n_estimators=50, random_state=0, max_depth=10)
y_pred_random_forest = executar_classificador(classificador_random_forest, X_train, X_test, y_train)

CPU times: total: 1min 54s
Wall time: 1min 58s


In [None]:
for i, arvore in enumerate(classificador_random_forest.estimators_[:2]):
    salvar_arvore(arvore, f"random_forest_{i+1}.png")

In [None]:
validar_arvore(y_test,y_pred_random_forest)

0.9995435553526912
0.9736842105263158
0.7551020408163265
[[28431     1]
 [   12    37]]


In [None]:
%%time
from sklearn.ensemble import AdaBoostClassifier
classificador_adaboost = AdaBoostClassifier(random_state=0)
y_pred_adaboost = executar_classificador(classificador_adaboost, X_train,X_test, y_train)

CPU times: total: 1min 51s
Wall time: 1min 54s


In [None]:
for i, arvore in enumerate(classificador_adaboost.estimators_[:2]):
    salvar_arvore(arvore, f"adaboost_{i+1}.png")

In [None]:
validar_arvore(y_test,y_pred_adaboost)

0.9992626663389628
0.8888888888888888
0.6530612244897959
[[28428     4]
 [   17    32]]


In [None]:
%%time
from sklearn.ensemble import AdaBoostClassifier
classificador_adaboost = AdaBoostClassifier(random_state=0 , n_estimators=100)
y_pred_adaboost = executar_classificador(classificador_adaboost, X_train,X_test, y_train)

CPU times: total: 3min 45s
Wall time: 3min 54s


In [None]:
validar_arvore(y_test,y_pred_adaboost)

0.999403110845827
0.8636363636363636
0.7755102040816326
[[28426     6]
 [   11    38]]


In [None]:
%%time
from sklearn.ensemble import AdaBoostClassifier
classificador_adaboost = AdaBoostClassifier(random_state=0 , n_estimators=200)
y_pred_adaboost = executar_classificador(classificador_adaboost, X_train,X_test, y_train)

CPU times: total: 7min 11s
Wall time: 7min 23s


In [None]:
validar_arvore(y_test,y_pred_adaboost)

0.9995435553526912
0.9285714285714286
0.7959183673469388
[[28429     3]
 [   10    39]]
