In [None]:
# 1. Importa as bibliotecas e aquivos :
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import  train_test_split
from sklearn.ensemble import RandomForestClassifier

normalizador = MinMaxScaler()
onehot = OneHotEncoder(sparse=False, drop='first')
df = pd.read_csv('./Breast_cancer_data.csv')
df.head()

In [None]:
# OPCIONAL : Gráfico de dispersão
plt.figure(figsize=(15, 8))
plt.scatter(df[df.risco == 'ruim' ].idade, df[df.risco == 'ruim' ].conta_corrente)
plt.scatter(df[df.risco == 'bom' ].idade, df[df.risco == 'bom' ].conta_corrente)
plt.xlabel('idade')
plt.ylabel('conta corrente')
plt.legend(['ruim','bom'])

In [8]:
# 2. Estruturação dos dados : 
# VERSÃO-1 : APENAS UMA COLUNA COM CATEGORIZADOS ============ :

# 2.1. Estabelece Inputs, Output e Normaliza os dados:
# input 'X':
X_origin = df.drop('diagnosis', axis=1)

# output  'y':
y_origin = df.diagnosis

# 2.2 normalizar os dados :
X_norm = normalizador.fit_transform(X_origin)

# 2.3. Estabelece bases de teste e treino :
X_train, X_test, y_train, y_test = train_test_split(X_norm, y_origin, train_size=2/3, random_state=1)

In [None]:
# 2. Estruturação dos dados : 
# VERSÃO-2 : TRATAMENTO DE DADOS: MAIS DE UMA COLUNA COM DADOS CATEGORIZADOS ============ :

# 2.1 - Estabelece Inputs, Output e Normaliza os dados:
# input 'X':
X_origin_v2 = df.drop('diagnosis', axis=1)

# 2.2 - Normaliza os dados categoricos:
X_cat = X_origin_v2.select_dtypes(include='object')
X_bin = onehot.fit_transform(X_cat)

# 2.3 - Normaliza os dados numéricos :
X_num = X_origin_v2.select_dtypes(exclude='object')
X_num = normalizador.fit_transform(X_num)

# 2.4 - X final normalizado :
X_all = np.append(X_num, X_bin, axis=1)

# 2.5 - output  'y':
y_origin_v2 = df.diagnosis

# 2.6 - Estabelece bases de teste e treino :
X_train_v2, X_test_v2, y_train_v2, y_test_v2 = train_test_split(X_all, y_origin_v2, train_size=2/3, random_state=1)

In [None]:
# 3. Medindo a acuracia do modelo de classificação :
rf = RandomForestClassifier(random_state=1)
rf2 = RandomForestClassifier(random_state=1)
rf.fit(X_train, y_train) # versao 1
rf2.fit(X_train_v2, y_train_v2) # versão 2

# accuracy_score(y_test, svc)
ac1 = accuracy_score(y_test, rf.predict(X_test)) # versao 1
ac2  =accuracy_score(y_test_v2, rf2.predict(X_test_v2)) # versão 2

# Results :
print(f'=== versão 1 %: {ac1}')
print(f'=== versão 2 %: {ac2}')

In [None]:
# 4. Lógica para novo input :
# Versão 1 :
X_new = [[17.99, 10.38, 122.80, 1001.0, 0.11840]]
X_new_norm = normalizador.transform(X_new)

# Versão 2 :
X_new2 = pd.DataFrame({
    "mean_radius": [20, 17.99, 18, 25.40, 20.29],
    "mean_texture": [20, 17.99, 18, 25.40, 20.29],
    "mean_perimeter": [120.80, 111.99, 111.20, 125.40, 120.29],
    "mean_area": [1220.80, 1211.99, 1111.20, 825.40, 1120.29 ],
    "mean_smoothness": [0.20, 0.99, 0.18, 0.40, 0.20],
    # "diagnosis": [0,0,0,0,0 ],
})
X_new2_cat = X_new2.select_dtypes(include=['object'])
X_new2_ncat = X_new2.select_dtypes(exclude=['object'])
X_new2_bin = onehot.transform(X_new2_cat)
X_new2_num = normalizador.transform(X_new2_ncat)
X_new2_all = np.append(X_new2_num, X_new2_bin, axis=1)

# Results :
predict1 = rf.predict(X_new_norm)
predict2 = rf2.predict(X_new2_all)
print(f'=== predição do modelo v1 : {predict1}')
print(f'=== predição do modelo v2 : {predict2}')