-----------------------

#  **Clasificación de Datos con Árboles de Decisión en Python**

------------------------------------

------------------------
-------------------------
## **Bunch**
------------------------
-------------------------

Bunch es una estructura de datos especial en Python que actúa como un contenedor para conjuntos de datos. Es similar a un diccionario, pero proporciona una interfaz más amigable y conveniente para acceder a sus elementos.

En el contexto de la biblioteca scikit-learn, Bunch se utiliza para almacenar conjuntos de datos que se utilizan comúnmente en el aprendizaje automático. Esta estructura de datos se utiliza para almacenar los datos de entrada (características), las etiquetas de salida (objetivo) y otra información relevante sobre el conjunto de datos.

-------------------------------
### ***Informacion adicional***
----------------------------

- **data:** El conjunto de datos que se utilizará para entrenar el modelo.
  
- **target:** La variable que el modelo intenta predecir.
  
- **feature_names:** Los nombres de las características en el conjunto de datos.
  
- **data de entrenamiento (x) y resultados del entrenamiento (y):** Las entradas y salidas conocidas utilizadas para entrenar el modelo.
  
- **data de testeo y resultado de testeo:** Conjuntos de datos separados para evaluar el rendimiento del modelo en datos no vistos.

--------------------------

-------------------------------
### ***Librerías Necesarias***
----------------------------

In [3]:
# IMPORTAR LAS LIBRERIAS NECESARIAS 
import pandas as pd
from IPython.core.display import HTML
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

-------------------------------
### ***Cargar datos y Descripción de estos***
----------------------------

In [12]:
# CARGAR LOS DATOS 
datos = load_breast_cancer()

# MOSTAR DESCRIPCION DEL CONJUNTO DE DATOS 
print(datos.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

:Number of Instances: 569

:Number of Attributes: 30 numeric, predictive attributes and the class

:Attribute Information:
    - radius (mean of distances from center to points on the perimeter)
    - texture (standard deviation of gray-scale values)
    - perimeter
    - area
    - smoothness (local variation in radius lengths)
    - compactness (perimeter^2 / area - 1.0)
    - concavity (severity of concave portions of the contour)
    - concave points (number of concave portions of the contour)
    - symmetry
    - fractal dimension ("coastline approximation" - 1)

    The mean, standard error, and "worst" or largest (mean of the three
    worst/largest values) of these features were computed for each image,
    resulting in 30 features.  For instance, field 0 is Mean Radius, field
    10 is Radius SE, field 20 is Worst Radius.

    - 

-------------------------------
### ***Crear DataFrames para las características (x) y las etiquetas (y)***
----------------------------

In [None]:
# CREAR DATAFRAMES PARA LAS CARACTERISTICAS (X) Y LAS ETIQUETAS (Y)
df_x = pd.DataFrame(datos["data"])
display(HTML(df_x.to_html()))

df_y = pd.DataFrame(datos["target"])
display(HTML(df_y.to_html()))

-------------------------------
### ***Dividir los datos en conjuntos de entrenamiento y prueba***
----------------------------

#### **División de datos:**
- *El objetivo de esta parte del código es dividir el conjunto de datos en dos conjuntos distintos:* uno para entrenamiento y otro para pruebas. Esto es fundamental en el aprendizaje automático para evaluar la capacidad de generalización de un modelo.

#### **Función train_test_split:**
- Esta función se importa del módulo **`sklearn.model_selection`** y se utiliza para dividir el conjunto de datos en conjuntos de entrenamiento y prueba.
  
- *Toma como entrada dos matrices (o DataFrames):* los datos de entrada **`(datos.data)`** y las etiquetas (o resultados esperados) correspondientes **` (datos.target)`**.

- La función realiza una división aleatoria de los datos, donde una fracción se asigna al conjunto de entrenamiento y el resto al conjunto de prueba.

- Por defecto, la división se realiza en una proporción de 75% para entrenamiento y 25% para pruebas. Sin embargo, esta proporción puede ajustarse utilizando el parámetro **`test_size`** de la función si se desea una división diferente.

#### **Variables resultantes:**
- ***Después de llamar a train_test_split, se asignan cuatro variables:***
  
  - **`x_train:`** Este es el conjunto de datos de entrada para entrenamiento.
  
  - **`x_test:`** Este es el conjunto de datos de entrada para pruebas.
  
  - **`y_train:`** Estas son las etiquetas correspondientes al conjunto de entrenamiento.
  
  - **`y_test:`** Estas son las etiquetas correspondientes al conjunto de pruebas.

#### **Impresión de la longitud de los conjuntos:**
- Finalmente, se imprime la longitud (o cantidad de instancias) de los conjuntos de entrenamiento y prueba para verificar que la división se haya realizado correctamente.

In [6]:
# DIVIDIR LOS DATOS EN CONJUNTOS DE ENTRENAMIENTO Y PRUEBA 
x_train, x_test, y_train, y_test = train_test_split(datos.data, datos.target)
print("Datos de entrenamiento:", len(x_train))
print("Datos de testeo:", len(x_test)) 

Datos de entrenamiento: 426
Datos de testeo: 143


-------------------------------
### ***Instanciar y entrenar el modelo***
----------------------------

#### **Instanciación del modelo:**
- En la primera línea, se está creando una instancia del clasificador de árbol de decisión utilizando la clase **`DecisionTreeClassifier`** del módulo **`sklearn.tree`**.
  
- **`DecisionTreeClassifier`** es una clase que implementa un algoritmo de árbol de decisión para la clasificación. Es decir, construye un árbol de decisiones que se utiliza para predecir las etiquetas de clase de las instancias de entrada.
  
- El parámetro **`criterion="entropy"`** especifica el criterio utilizado para medir la calidad de una división en el árbol. En este caso, se está utilizando la entropía como criterio. La entropía se utiliza para medir la impureza de un conjunto de datos, y el algoritmo intentará minimizarla durante la construcción del árbol.

#### **Ajuste del modelo (entrenamiento):**
- En la segunda línea, se llama al método **`fit`** del objeto model para entrenar el modelo.

- El método **`fit`** requiere dos conjuntos de datos como entrada: **`x_train`** y **`y_train`**.

- **`x_train`** contiene las características (o atributos) de las instancias de entrenamiento, mientras que **`y_train`** contiene las etiquetas correspondientes a esas instancias.
  
- Durante el entrenamiento, el modelo ajusta sus parámetros internos utilizando los datos proporcionados en **`x_train`** y **`y_train`**. Es decir, el modelo "aprende" a partir de estos datos para hacer predicciones precisas en el futuro.

In [21]:
# INSTANCIAR Y ENTRENAREL MODELO 
model = DecisionTreeClassifier(criterion="entropy")
model.fit(x_train, y_train)

-------------------------------
### ***Realizar predicciones***
----------------------------

- Utiliza el modelo de clasificación **`(model)`** que se ha entrenado previamente para hacer predicciones sobre un conjunto de datos de prueba **`(x_test)`**.
  
- Utiliza el método **`.predict()`** del modelo para realizar las predicciones. Este método toma como entrada las características de los datos de prueba **`(x_test)`** y devuelve las etiquetas predichas para esos datos.
  
- Almacena las predicciones resultantes en la variable **`y_pred`** para su posterior uso en la evaluación del rendimiento del modelo.

In [19]:
# REALIZAR PREDICCIONES 
y_pred = model.predict(x_test)

-------------------------------
### ***Comparación y visualización de predicciones y valores reales***
----------------------------

#### **Reshape para convertir el array horizontal a vertical:**
- El método **`reshape()`** se utiliza para cambiar la forma de un array sin cambiar sus datos. En este caso, se está cambiando la forma del array de predicciones **`(y_pred)`** y del array de valores reales **`(y_test)`** de horizontal a vertical.

- La función **`reshape()`** toma dos argumentos: el número de filas y el número de columnas que se desean en el nuevo array. En este caso, se especifica el número de filas como la longitud del array **`y_pred`** y **`y_test`**, y el número de columnas como 1, lo que convierte el array en una columna.

- Después de aplicar **`reshape()`**, las predicciones **`(pred)`** y los valores reales **`(reales)`** se convierten en matrices de una sola columna.

#### **Creación de DataFrames para las predicciones y valores reales:**
- Se crean dos DataFrames `(df_pred y df_reales) ` a partir de las matrices de predicciones y valores reales, respectivamente. Esto se hace para facilitar la visualización y el análisis de los datos.

- Cada DataFrame tiene una sola columna que contiene las predicciones **`(Predecidos)`** y los valores reales **`(Reales)`**, respectivamente.

#### **Concatenación de DataFrames:**
- Luego, se utilizan **`pd.concat()`** para concatenar horizontalmente los DataFrames **`df_pred`** y **`df_reales`**, lo que significa que se unen lado a lado.
  
- El argumento **`axis=1`** se utiliza para indicar que la concatenación se realiza a lo largo de las columnas.

- *El resultado es un nuevo DataFrame **`(df_eficiencia)`** que contiene dos columnas:* una para las predicciones y otra para los valores reales.
  
#### **Visualización del DataFrame:**
- Finalmente, se muestra el DataFrame **`df_eficiencia`** utilizando **`display(HTML(df_eficiencia.to_html()))`**, que muestra una representación HTML del DataFrame en el notebook.

In [17]:
# RESHAPE DE LAS PREDICCIONES PARA CONVERTIR EL ARRAY DE PREDICCIONES DEFORMA HORIZONTAL A  VERTICAL
pred = y_pred.reshape(len(y_pred), 1)

# RESHAPE DE LAS ETIQUETAS REALES PARA TENER LA MISMA FORMA QUE LAS PREDICCIONES 
reales = y_test.reshape(len(y_test), 1)

# CREACION DE DF PARA LAS PREDICCIONES Y LAS ETIQUETAS REALES 
df_pred = pd.DataFrame(pred)
df_reales = pd.DataFrame(reales)

# CONCATENACION DE LOS DF DE PREDICCIONES Y ETIQUETAS PARA FORMAR UN UNICO DF LLAMADO 'df_eficiencia'
df_eficiencia = pd.concat([df_pred, df_reales], axis=1)
df_eficiencia.columns = ["Predecidos", "Reales"]

# VISUALIZACION 
display(HTML(df_eficiencia.to_html()))


Unnamed: 0,Predecidos,Reales
0,0,0
1,0,0
2,1,1
3,0,0
4,1,1
5,1,1
6,1,1
7,1,1
8,0,0
9,1,1


-------------------------------
### ***Evaluar eficiencia del modelo***
----------------------------

- *Se crea un DataFrame llamado **`df_eficiencia`** que contiene dos columnas:* "Predecidos" y "Reales". En la columna "Predecidos" se almacenan las etiquetas predichas por el modelo **`(y_pred)`**, mientras que en la columna "Reales" se almacenan las etiquetas reales de los datos de prueba **`(y_test)`**.

- A continuación, se filtran las filas del DataFrame **`df_eficiencia`** donde las etiquetas predichas y las etiquetas reales coinciden. Esto se hace usando la condición **`df_eficiencia["Predecidos"] == df_eficiencia["Reales"]`**. El resultado es un nuevo DataFrame llamado **`df_exito`**, que contiene solo las filas donde las predicciones del modelo fueron correctas.

- Se calcula la eficiencia del modelo dividiendo el número de casos en los que las predicciones fueron correctas (longitud de **`df_exito`**) entre el total de casos evaluados (longitud de **`df_eficiencia`**). Esto se realiza mediante la fórmula **`eficiencia = len(df_exito) / len(df_eficiencia)`**.

- Finalmente, se imprime la eficiencia de la IA en forma de porcentaje, utilizando una **`f-string`** para incluir el valor de la eficiencia calculada en el mensaje.

In [22]:
# CREAR DF CON LAS PREDICCIONES Y LAS ETIQUETAS REALES 
df_eficiencia = pd.DataFrame({"Predecidos": y_pred, "Reales": y_test})

# FILTRAR LOS CASOS DONDE LAS PREDICCIONES SON IGUALES A LAS ETIQUETAS REALES 
df_exito = df_eficiencia[df_eficiencia["Predecidos"] == df_eficiencia["Reales"]]

# CALCULAR LA EFICIENCIA COMO EL NUMERO DE CASOS EXITOSOS DIVIDIDO POR EL TOTAL DE CASOS
eficiencia = len(df_exito) / len(df_eficiencia)

# IMPRIMIR LA EFICIENCIA DEL MODELO 
print(f"La eficiencia de la IA es: {eficiencia*100} %")

La eficiencia de la IA es: 93.00699300699301 %


---------------------------------------------
---------------------------------------------
## **Recursos**
---------------------------------------------
---------------------------------------------

- **Sklear:** https://scikit-learn.org/stable/
  
- **Git:** https://github.com/scikit-learn/scikit-learn/blob/main/doc/datasets/loading_other_datasets.rst

- **Archivo de data**: https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/breast-cancer

- **Modelo DesicionTreeClasifier:** https://towardsdatascience.com/decision-trees-explained-entropy-information-gain-gini-index-ccp-pruning-4d78070db36c