# Lectura y balanceo de datos

In [12]:
#Paquetes para lectura y recuento
from sklearn.datasets import load_breast_cancer
import pandas as pd

#Primero importamos los datos que vamos a leer
cancer_data = load_breast_cancer()

#Pasamos los datos a un DataFrame (datos en pandas)
data = pd.DataFrame(cancer_data['data'], columns = cancer_data['feature_names'])
target = pd.DataFrame(cancer_data['target'],columns = ['Tumor Type'])

#Si quisieramos coger solo unas características
data = data[['mean radius', 'mean texture']] 
data

In [14]:
#Importamos los paquetes de sobremuestreo
from imblearn.over_sampling import SMOTE

#SMOTE
smote = SMOTE()

#Generación de nuevas muestras sintéticas
dataSmote, targetSmote = smote.fit_resample(data,target)

#Representación
dataSmote

# Entrenamiento y evaluación de modelos

## Regresión logística

In [15]:
#Importamos los paquetes
from sklearn.linear_model import LogisticRegression

#Los pasos son siempre los mismos
#1. Inicialización.
modelLR = LogisticRegression()

#2. División de datos en conjunto de evaluación y conjunto de entrenamiento
from sklearn.model_selection import train_test_split
dataTrain, dataTest, targetTrain, targetTest = train_test_split(data,target, random_state = 0)

#3. Entrenamiento del modelo
modelLR.fit(dataTrain, targetTrain)

#4. Predicción con el modelo
targetPred = modelLR.predict(dataTest)

#5. Muestra de resultados
from sklearn.metrics import confusion_matrix
import seaborn as sn
import pandas as pd
import matplotlib.pyplot as plt

array = confusion_matrix(targetPred, targetTest)
df_cm = pd.DataFrame(array)

#Representación de la matriz de confusión
sn.set(font_scale=1)
plt.show(sn.heatmap(df_cm, annot=True, annot_kws={"size": 16}, cmap = 'Reds')) 

## Arbol de decisión

In [16]:
#Importamos los paquetes
from sklearn.tree import DecisionTreeClassifier

#Los pasos son siempre los mismos
#1. Inicialización.
modelDT = DecisionTreeClassifier()

#2. División de datos en conjunto de evaluación y conjunto de entrenamiento
from sklearn.model_selection import train_test_split
dataTrain, dataTest, targetTrain, targetTest = train_test_split(data,target, random_state = 0)

#3. Entrenamiento del modelo
modelDT.fit(dataTrain, targetTrain)

#4. Predicción con el modelo
targetPred = modelDT.predict(dataTest)

#5. Muestra de resultados
array = confusion_matrix(targetPred, targetTest)
df_cm = pd.DataFrame(array)

#Representación de la matriz de confusión
sn.set(font_scale=1)
plt.show(sn.heatmap(df_cm, annot=True, annot_kws={"size": 16}, cmap = 'Reds')) 

## Bosque aleatorio

In [17]:
#Importamos los paquetes
from sklearn.ensemble import RandomForestClassifier

#Los pasos son siempre los mismos
#1. Inicialización.
modelRF = RandomForestClassifier()

#2. División de datos en conjunto de evaluación y conjunto de entrenamiento
from sklearn.model_selection import train_test_split
dataTrain, dataTest, targetTrain, targetTest = train_test_split(data,target, random_state = 0)

#3. Entrenamiento del modelo
modelRF.fit(dataTrain, targetTrain)

#4. Predicción con el modelo
targetPred = modelRF.predict(dataTest)

#5. Muestra de resultados
array = confusion_matrix(targetPred, targetTest)
df_cm = pd.DataFrame(array)

#Representación de la matriz de confusión
sn.set(font_scale=1)
plt.show(sn.heatmap(df_cm, annot=True, annot_kws={"size": 16}, cmap = 'Reds')) 

## Red neuronal MLP

In [18]:
#Importamos los paquetes
from sklearn.neural_network import MLPClassifier

#Los pasos son siempre los mismos
#1. Inicialización.
modelMLP = MLPClassifier()

#2. División de datos en conjunto de evaluación y conjunto de entrenamiento
from sklearn.model_selection import train_test_split
dataTrain, dataTest, targetTrain, targetTest = train_test_split(data,target, random_state = 0)

#3. Entrenamiento del modelo
modelMLP.fit(dataTrain, targetTrain)

#4. Predicción con el modelo
targetPred = modelMLP.predict(dataTest)

#5. Muestra de resultados
array = confusion_matrix(targetPred, targetTest)
df_cm = pd.DataFrame(array)

#Representación de la matriz de confusión
sn.set(font_scale=1)
plt.show(sn.heatmap(df_cm, annot=True, annot_kws={"size": 16}, cmap = 'Reds')) 

## Almacenamiento de modelos

In [21]:
#Importamos los paquetes
import pickle

#Damos el nombre al fichero
filename = 'modelMLP.model'

#Guardamos el modelo
pickle.dump(modelMLP, open(filename, 'wb'))

In [22]:
#Que luego puede ser recuperado para usarse en otro fichero
modelMLP2 = pickle.load(open('modelMLP.model','rb'))
modelMLP2 == modelMLP