## Projeto - Machine Learning


Passo 1 - Análise dos dados

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix
from sklearn import tree

df = pd.read_csv("BitcoinHeistData.csv")

In [None]:
tamanho_df = df.shape
print(f"O dataframe tem o seguinte tamanho {tamanho_df}")
print(df.head(5))

Paso 1.2 - Análise das variáveis

| Nome    | Tipo   | Descrição |
|---------|--------|-----------|
| address   | string |Endereço do destinátario exclusivo|
| year      | int    |Ano em que foi realizada a transação|
| day       | int    |Dia do ano em que foi realizada a transação|
| length    | int    |Número de mixing rounds - Dificulta o rastreio da fonte da transação através da mistura de bitcoins com outros utilizadores|
| weight    | float  |Referente à diferença entre o número de inputs e o outputs das transações - Pode haver várias inputs para uma única output - Fluxo|
| count     | int    |Conta o número de transações|
| looped    | int    |Conta o número de transações para um endereço através de mais que um caminho|
| neighbors | int    |Número de transações referentes a cada Bitcoin|
| income    | int    |Rendimento recebido no endereço|
| label     | string |Natureza da transição (Ransomware ou legitimo)|


Passo 1.3 - Análise gráfica das variáveis

Número de transações por ano

In [None]:
transacoes_por_ano = df["year"].value_counts().sort_index(ascending=True)
print(transacoes_por_ano)
plt.figure(figsize=(10,10))
plt.pie(transacoes_por_ano, labels = transacoes_por_ano.index, autopct = "%1.1f%%" )
plt.title("Transações por ano", weight = 'bold')
plt.legend(title = "Ano", loc = "best")
plt.show

Número de transações por dia

In [None]:
transacoes_por_dia = df["day"].value_counts().sort_index(ascending=True)
print(transacoes_por_dia)
plt.figure(figsize=(30,10))
plt.scatter(transacoes_por_dia.index, transacoes_por_dia.values, s=150)  # 's' define o tamanho dos pontos
plt.title("Transações por Dia", weight='bold')
plt.xlabel("Dias")
plt.ylabel("Número de Transações")
plt.show()

Número de mixing rounds

In [None]:
numero_mixing_rounds = df["length"].value_counts().sort_index(ascending=True)
print(numero_mixing_rounds)
plt.figure(figsize=(30, 10))
plt.step(numero_mixing_rounds.index, numero_mixing_rounds.values, where='mid', label="Número de Mixing Rounds")
plt.title("Distribuição de Mixing Rounds", weight='bold')
plt.xlabel("Mixing Rounds")
plt.ylabel("Número de Transações")
plt.legend(title="Mixing Rounds", loc="best")
plt.show()

Count

In [None]:
transacoes = df["count"].value_counts().sort_index(ascending=True)
print(transacoes)
plt.figure(figsize=(30, 10))
plt.hist(df['count'], bins=30, color='skyblue', edgecolor='black')
plt.title('Distribuição do Número de Transações', weight='bold')
plt.xlabel('Número de Transações')
plt.ylabel('Frequência')
plt.show()

Weight

In [None]:
weight = df["weight"].value_counts().sort_index(ascending=True)
print(weight)
plt.figure(figsize=(10,7))
plt.hexbin(weight.index, weight.values, bins=(50, 50), cmap=plt.cm.Reds)
plt.xlabel('Eixo X')
plt.ylabel('Eixo Y')
plt.title('Weight')
plt.colorbar()
plt.show()


Income


In [None]:
label = df["income"].value_counts().sort_index(ascending=True)
print(label)
plt.figure(figsize=(30,10))
plt.plot(label.index, label.values)
plt.show()

Neighbors

In [None]:
neighbors = df["neighbors"].value_counts().sort_index(ascending=True)
print(neighbors)
plt.figure(figsize=(10,10))
plt.hist(neighbors, bins=30)
plt.title("Número de transações referentes a cada Bitcoin", weight = 'bold')
plt.legend(title = "Ano", loc = "best")
plt.show()

Pré-processamento de dados

In [None]:
null_values = df.isnull().sum()
print("Número de nulos em cada coluna:\n ", null_values)

In [None]:
duplicates = df.duplicated().sum()
print("Número de duplicados em cada coluna:\n ", duplicates)

Substituição dos dados de strings em numeros

In [None]:
valores_unicos = df['label'].unique()
print(valores_unicos)

df.replace({'label':{'montrealWannaCry':0, 'montrealDMALockerv3':1,
 'montrealCryptoTorLocker2015':2, 'montrealSamSam':3, 'montrealFlyper':4,
 'montrealNoobCrypt':5, 'montrealDMALocker':6, 'montrealGlobe':7, 'montrealEDA2':8,
 'paduaKeRanger':9, 'montrealVenusLocker':10, 'montrealXTPLocker':11, 'paduaJigsaw':12,
 'montrealGlobev3':13, 'montrealJigSaw':14, 'montrealXLockerv5.0':15,
 'montrealXLocker':16, 'montrealRazy':17, 'montrealCryptConsole':18,
 'montrealGlobeImposter':19, 'montrealSam':20, 'montrealComradeCircle':21,
 'montrealAPT':22, 'white':23, 'pr':24, 'princetonLockyincetonCerber':25, 'princetonCerber':26,
 'princetonLocky':27, 'montrealCryptoLocker':28, 'montrealCryptXXX':29, 'paduaCryptoWall':30}},inplace=True)

#df.drop('adress', axis=1)

df['label'].head()

Conjuntos de treino e de teste

In [None]:
X = df[['year', 'day', 'length', 'weight', 'count', 'looped', 'neighbors', 'income']]
y = df['label']

# Dividir o dataset em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print(X.head())
print(y.head())

Criação e treino do modelo

In [None]:
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

Avaliação e classificação do modelo

In [None]:

print("Relatório de Classificação:\n", classification_report(y_test, y_pred))

print("Matriz de Confusão:\n", confusion_matrix(y_test, y_pred))

Visualização da Arvore

In [None]:
plt.figure(figsize=(20,10))
tree.plot_tree(clf, filled=True, rounded=True, proportion=False)
plt.title("Árvore de Decisão")
plt.show()