# Diplomatura en Ciencia de Datos - UNNE - 2024
### Módulo 4: Aprendizaje Automático
### Clase 2: Árboles de decisión

**Explicación de las Etiquetas en los Nodos del Árbol de Decisión:**

Cuando visualizamos el árbol de decisión, podemos encontrar algunas etiquetas en los nodos que nos proporcionan información relevante sobre el proceso de clasificación:

1. **Gini impurity (Gini):** Es una medida de la impureza de un nodo. Mientras más cerca esté de cero (0), más puro es el nodo y contiene principalmente ejemplos de una sola clase. Si Gini es cercano a uno (1), el nodo contiene una mezcla de diferentes clases.

2. **Samples:** Indica el número total de ejemplos en el nodo que se están evaluando en ese paso del árbol.

3. **Value:** Muestra la distribución de las clases en el nodo. En el primer ejemplo, tenemos dos clases "Benigno" y "Malingno", el valor [B, M] indicaría que hay "B" ejemplos de la clase "Benigno" y "M" ejemplos de la clase "Malingno" en ese nodo.

4. **Class:** Cuando un nodo es puramente de una sola clase, se muestra el nombre de la clase. Por ejemplo, si el nodo contiene solo ejemplos de "Malingno", entonces la etiqueta sería "M".

Es importante tener en cuenta que a medida que descendemos en el árbol, los nodos que están más cerca de la raíz son los que contienen características más generales y los que están más cerca de las hojas son los que contienen características más específicas para clasificar correctamente los ejemplos. El árbol de decisión utiliza estas etiquetas para tomar decisiones y clasificar nuevas imágenes según las características que encuentra en cada nodo.

## Dataset "Breast Cancer Wisconsin (Diagnostic)"
Disponible en el repositorio de aprendizaje automático de la UCI (UCI Machine Learning Repository). Este conjunto de datos es ampliamente utilizado en la comunidad de aprendizaje automático y es un recurso común para la clasificación de cáncer de mama.

El conjunto de datos contiene características calculadas a partir de imágenes digitalizadas de aspiraciones con aguja fina (FNA) de una masa mamaria. Estas características describen varios aspectos de los núcleos celulares presentes en las imágenes.

A continuación, te proporciono una descripción general de las columnas presentes en el conjunto de datos:

ID: Número de identificación del paciente.

- Diagnóstico (Diagnosis): Variable objetivo que indica si la muestra es benigna (B) o maligna (M).

10 características de valor real (real-valued features) que describen diferentes propiedades de los núcleos celulares en las imágenes FNA. Estas características incluyen:
- Radio (radius)
- Textura (texture)
- Perímetro (perimeter)
- Área (area)
- Suavidad (smoothness)
- Compacidad (compactness)
- Concavidad (concavity)
- Puntos cóncavos (concave points)
- Simetría (symmetry)
- Dimensión fractal (fractal dimension)




El objetivo de este análisis es desarrollar un modelo de clasificación utilizando árboles de decisión que pueda ayudar a determinar si un tumor es benigno (B) o maligno (M) en función de las características del núcleo celular. Utilizaremos variables como el radio medio del tumor, la textura media, el perímetro medio, el área media, entre otras, para realizar estas predicciones.

In [None]:
# Cargando modulos necesarios
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_graphviz, plot_tree
from sklearn.metrics import accuracy_score
from IPython.display import Image
import pydotplus
from io import StringIO
from sklearn.impute import SimpleImputer

# Lectura y visualización de información general de dataset

In [None]:
# Cargar el conjunto de datos Breast Cancer Wisconsin
data = pd.read_csv("breast-cancer-wisconsin-data_data.csv")

# Mostrar información general del conjunto de datos
print("Información general del conjunto de datos:")
print(data.info())

In [None]:
data.shape

In [None]:
data.head(10)

# Preparación de datos para entrenamiento

In [None]:
# Definir la variable objetivo y las características (variables predictoras)
y = data["diagnosis"]
X = data.drop(["diagnosis", "id", "Unnamed: 32"], axis=1)  # Eliminar columnas no deseadas

# Imputar los valores faltantes con la media de cada columna
imputer = SimpleImputer(strategy="mean")
X_imputed = imputer.fit_transform(X)

In [None]:
# Table con características
X.head(5)

In [None]:
# Variable objetivo
y.head(5)

## Separación del dataset en sets de entrenamiento y prueba

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_imputed, y, random_state=27)

## Entrenamiento del árbol de decisión

In [None]:
# Crear el clasificador del árbol de decisión
arbol_c = DecisionTreeClassifier()
arbol_c.fit(X_train, y_train)
# Mostrar el árbol de clasificación
plt.figure(figsize=(20, 20))
plot_tree(arbol_c, filled=True, feature_names=X.columns, fontsize=10)
plt.show()

# Realizar predicciones en el conjunto de prueba
predichos = arbol_c.predict(X_test)

# Calcular la tasa de aciertos
tasa_aciertos = accuracy_score(y_test, predichos)
print("Aciertos:", tasa_aciertos)
print("Aciertos %:", tasa_aciertos*100)

In [None]:
# Crear un DataFrame para mostrar la comparación entre los valores reales y predichos
comparacion_df = pd.DataFrame({'Valor Real': y_test.values[:10], 'Valor Predicho': predichos[:10]})

print("\nTabla de comparación entre Valor Real y Valor Predicho:")
print(comparacion_df)

## **Ajuste de Hiperparámetros**

## Modificando la profundidad del árbol (max_depth)

In [None]:
# Crear un árbol de clasificación con una profundidad máxima de 3 para visualización
arbol_c2 = DecisionTreeClassifier(max_depth=3) # Modificable
arbol_c2.fit(X_train, y_train)

predichos2 = arbol_c2.predict(X_test)

# Visualizar el árbol de clasificación más legible
dot_data = StringIO()
export_graphviz(arbol_c2, out_file=dot_data,
                filled=True, rounded=True,
                special_characters=True, feature_names=X.columns, class_names=['B', 'M'])
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
Image(graph.create_png())

In [None]:
# Calcular la tasa de aciertos del árbol podado en el conjunto de prueba
tasa_acierto2 = arbol_c2.score(X_test, y_test)
print("Tasa de acierto del árbol con profundidad máxima 3:", tasa_acierto2)
print("Tasa de acierto del árbol con profundidad máxima 3 %:", tasa_acierto2*100)

In [None]:
# Crear un DataFrame para mostrar la comparación entre los valores reales y predichos
comparacion_df = pd.DataFrame({'Valor Real': y_test.values[:10], 'Valor Predicho': predichos2[:10]})

print("\nTabla de comparación entre Valor Real y Valor Predicho:")
print(comparacion_df)

## Mejorando resultados mediante modificación de poda

El CCP alpha (Cost Complexity Pruning alpha) es un parámetro utilizado en la poda (pruning) basada en la complejidad de costo en los árboles de decisión. La poda es una técnica utilizada para reducir la complejidad y el sobreajuste de los árboles de decisión al eliminar las ramas que no aportan un beneficio significativo en términos de precisión de predicción.

El CCP alpha controla el equilibrio entre el ajuste del árbol a los datos de entrenamiento y la simplicidad del árbol resultante. Un valor mayor de CCP alpha conduce a una poda más agresiva, lo que significa que se eliminarán más nodos y ramas del árbol. Por otro lado, un valor menor de CCP alpha conservará más nodos y ramas, lo que resultará en un árbol más complejo y ajustado a los datos de entrenamiento.

En general, el CCP alpha suele estar en el rango de 0 a 1.

In [None]:
arbol_c3 = DecisionTreeClassifier(ccp_alpha=0.02) # Modificar con un valor entre 0 y 1
arbol_c3.fit(X_train, y_train)

predichos3 = arbol_c3.predict(X_test)

# Visualizar el árbol de clasificación podado
dot_data = StringIO()
export_graphviz(arbol_c3, out_file=dot_data,
                filled=True, rounded=True,
                special_characters=True, feature_names=X.columns, class_names=['B', 'M'])
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
Image(graph.create_png())

In [None]:
# Calcular la tasa de aciertos del árbol podado en el conjunto de prueba
tasa_acierto3 = arbol_c3.score(X_test, y_test)
print("Tasa de acierto del árbol podado:", tasa_acierto3)
print("Tasa de acierto del árbol podado:", tasa_acierto3*100)

In [None]:
# Crear un DataFrame para mostrar la comparación entre los valores reales y predichos
comparacion_df = pd.DataFrame({'Valor Real': y_test.values[:10], 'Valor Predicho': predichos3[:10]})

print("\nTabla de comparación entre Valor Real y Valor Predicho:")
print(comparacion_df)

## **Optimizando hipermarámetros**




In [None]:

# Realizar la poda del árbol utilizando el parámetro ccp_alpha
alfas = arbol_c.cost_complexity_pruning_path(X_train, y_train)
ccp_alphas = alfas.ccp_alphas

# Construir todos los árboles posibles con los diferentes valores de ccp_alpha
clfs = []
for ccp_alpha in ccp_alphas:
    clf = DecisionTreeClassifier(random_state=0, ccp_alpha=ccp_alpha)
    clf.fit(X_train, y_train)
    clfs.append(clf)

# Calcular las tasas de aciertos y el número de nodos para cada árbol
test_scores = [clf.score(X_test, y_test) for clf in clfs]
node_counts = [clf.tree_.node_count for clf in clfs]

# Encontrar el valor ccp_alpha que maximiza la tasa de aciertos
optimal_alpha = ccp_alphas[np.argmax(test_scores)]

# Crear un árbol de clasificación con el valor óptimo de ccp_alpha
arbol_c4 = DecisionTreeClassifier(ccp_alpha=optimal_alpha)
arbol_c4.fit(X_train, y_train)

predichos3 = arbol_c4.predict(X_test)

print("optimal alpha:", optimal_alpha)

# Visualizar el árbol de clasificación podado
dot_data = StringIO()
export_graphviz(arbol_c4, out_file=dot_data,
                filled=True, rounded=True,
                special_characters=True, feature_names=X.columns, class_names=['B', 'M'])
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
Image(graph.create_png())

In [None]:
# Calcular la tasa de aciertos del árbol podado en el conjunto de prueba
tasa_acierto4 = arbol_c4.score(X_test, y_test)
print("Tasa de acierto del árbol podado:", tasa_acierto4)
print("Tasa de acierto del árbol podado:", tasa_acierto4*100)

# **Regresion**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor, export_graphviz, plot_tree
from sklearn.metrics import mean_squared_error
from sklearn.impute import SimpleImputer
from IPython.display import Image
import pydotplus
from io import StringIO

# Cargar el conjunto de datos Breast Cancer Wisconsin
data = pd.read_csv("breast-cancer-wisconsin-data_data.csv")

# Mostrar información general del conjunto de datos
print("Información general del conjunto de datos:")
print(data.info())

# Utilizar "perimeter_mean" como variable objetivo para la regresión
y = data["perimeter_mean"]
X = data.drop(["diagnosis", "id", "Unnamed: 32", "perimeter_mean"], axis=1)  # Eliminar columnas no deseadas

# Imputar los valores faltantes con la media de cada columna
imputer = SimpleImputer(strategy="mean")
X_imputed = imputer.fit_transform(X)

# Separar el conjunto de datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_imputed, y, random_state=27)

# Crear el regresor del árbol de regresión
arbol_regresion = DecisionTreeRegressor(max_depth=3)

# Entrenar el modelo
arbol_regresion.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
predicciones = arbol_regresion.predict(X_test)

In [None]:
# Calcular el error cuadrado medio (MSE)
mse = mean_squared_error(y_test, predicciones)
print("Error cuadrado medio (MSE):", mse)

In [None]:
from sklearn.tree import export_graphviz
import pydotplus
from IPython.display import Image

# Visualizar el árbol de regresión
dot_data = export_graphviz(arbol_regresion, out_file=None,
                           filled=True, rounded=True, special_characters=True,
                           feature_names=X.columns)
graph = pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png())

# Validación cruzada

In [None]:
from sklearn.model_selection import cross_val_score

# Crear el regresor del árbol de regresión con la profundidad máxima deseada
arbol_regresion = DecisionTreeRegressor(max_depth=3)

# Realizar validación cruzada
scores = cross_val_score(arbol_regresion, X_imputed, y, cv=5, scoring='neg_mean_squared_error')

# Convertir los scores negativos a MSE positivos
mse_scores = -scores

# Calcular el promedio de los MSE
mean_mse = mse_scores.mean()

print("Promedio del Error cuadrado medio (MSE) en validación cruzada:", mean_mse)