<a href="https://colab.research.google.com/github/sharop/CD3001B/blob/main/indicadores/Actividades.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejemplo 1: empresa de ventas en linea

Supongamos que eres el gerente de ventas de una empresa y quieres diseñar un conjunto de KPIs para tus vendedores. Sabes que la empresa tiene tres productos principales: A, B y C, y que cada uno de ellos tiene un margen de beneficio diferente. También sabes que hay dos tipos de clientes: los que compran solo un producto y los que compran dos o tres productos al mismo tiempo.

Para diseñar los KPIs, decides utilizar un árbol de decisión para modelar las diferentes opciones que tienen los vendedores al momento de atender a los clientes y la teoría de juegos para encontrar la mejor estrategia para cada tipo de cliente. El árbol de decisión podría lucir así:


                       Tipo de cliente
                          /       \
              Compra un producto   Compra varios productos
                  /             \
          Producto A         Dos o más productos
                                  /     |     \
                              A + B   A + C   B + C


En este árbol de decisión, el vendedor primero debe determinar el tipo de cliente con el que está tratando. Si es un cliente que compra solo un producto, entonces debe decidir qué producto ofrecerle. Si es un cliente que compra varios productos, entonces debe decidir qué combinación de productos ofrecerle.

Para determinar la mejor estrategia para cada tipo de cliente, podemos utilizar la teoría de juegos. Por ejemplo, si el vendedor sabe que el margen de beneficio de A es mayor que el de B o C, entonces podría ofrecer primero el producto A a los clientes que compran solo un producto. Si el cliente quiere comprar dos o tres productos, el vendedor podría ofrecer la combinación A + B o A + C, dependiendo de cuál tenga el mayor margen de beneficio.

In [2]:
from sklearn.tree import DecisionTreeClassifier

# Creamos el conjunto de datos de entrenamiento
X = [[1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [1, 2], [2, 1], [2, 0], [0, 2], [2, 2]]
y = ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C', 'AB', 'BC']



In [3]:
# Creamos el árbol de decisión y lo entrenamos
clf = DecisionTreeClassifier()
clf.fit(X, y)



In [5]:
# Probamos el modelo con un ejemplo
print(clf.predict([[1, 0]]))  # Salida: ['A']

['A']


Este modelo toma como entrada una matriz X que representa el tipo de cliente y los productos que quiere comprar, y una lista y que representa la mejor estrategia para cada combinación de cliente y producto. El árbol de decisión se entrena con estos datos y se puede utilizar para predecir la mejor estrategia para un nuevo cliente.

# Teoria de juegos

In [4]:
!pip install nashpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting nashpy
  Downloading nashpy-0.0.36-py3-none-any.whl (25 kB)
Installing collected packages: nashpy
Successfully installed nashpy-0.0.36


In [5]:
import nashpy as nash
import numpy as np

A = np.array([[3, 1], [0, 2]])
B = np.array([[3, 0], [1, 2]])

game = nash.Game(A, B)
equilibria = game.support_enumeration()

for eq in equilibria:
    print("Equilibrio de Nash encontrado:", eq)



Equilibrio de Nash encontrado: (array([1., 0.]), array([1., 0.]))
Equilibrio de Nash encontrado: (array([0., 1.]), array([0., 1.]))
Equilibrio de Nash encontrado: (array([0.25, 0.75]), array([0.25, 0.75]))


# Arboles de decisión

CASO EJEMPLO: Como gerente de marketing, desea un conjunto de clientes que tengan más probabilidades de comprar su producto. Así es como puede ahorrar su presupuesto de marketing al encontrar su audiencia. Como administrador de préstamos, debe identificar las solicitudes de préstamos riesgosas para lograr una tasa de incumplimiento de préstamos más baja. Este proceso de clasificar a los clientes en un grupo de clientes potenciales y no potenciales o solicitudes de préstamo seguras o riesgosas se conoce como problema de clasificación.

La clasificación es un proceso de dos pasos; un paso de aprendizaje y un paso de predicción. En el paso de aprendizaje, el modelo se desarrolla en base a datos de entrenamiento dados. En el paso de predicción, el modelo se utiliza para predecir la respuesta a los datos dados. Un árbol de decisión es uno de los algoritmos de clasificación más fáciles y populares utilizados para comprender e interpretar datos. Se puede utilizar tanto para problemas de clasificación como de regresión.

## El algoritmo del árbol de decisión
Un árbol de decisión es una estructura jerárquica similar a un diagrama de flujo, donde cada nodo interno representa una característica o atributo, cada rama representa una regla de decisión y cada nodo hoja representa un resultado o una acción. El nodo superior de un árbol de decisión se conoce como nodo raíz.

El árbol de decisión aprende a particionar el conjunto de datos en base al valor del atributo seleccionado y lo hace de manera recursiva mediante la llamada partición recursiva. Esta estructura similar a un diagrama de flujo se utiliza para facilitar la toma de decisiones. Debido a su sencilla visualización, como si fuera un diagrama de flujo, los árboles de decisión son fáciles de entender e interpretar, lo que los hace muy útiles en el análisis y la toma de decisiones en diversos campos.

![](https://res.cloudinary.com/dyd911kmh/image/upload/v1677504957/decision_tree_for_heart_attack_prevention_2140bd762d.png)

Un árbol de decisión es un tipo de algoritmo de Machine Learning que permite entender cómo se toman las decisiones internamente. A diferencia de otros algoritmos, como las redes neuronales, su entrenamiento es más rápido. La complejidad de los árboles de decisión depende del tamaño de los datos que se usan y son una buena opción para manejar datos con muchas variables. Además, no requieren asumir una distribución de probabilidad específica. Los árboles de decisión pueden manejar grandes cantidades de datos con alta precisión.

## ¿Cómo funciona?
El algoritmo del árbol de decisión funciona siguiendo los siguientes pasos:

1. Selecciona el mejor atributo para dividir el conjunto de datos utilizando medidas de selección de atributos (ASM).
2. Convierte ese atributo en un nodo de decisión y divide el conjunto de datos en subconjuntos más pequeños.
3. Repite este proceso recursivamente para cada subconjunto hasta que se cumpla una de estas condiciones:
* Todas las tuplas pertenecen al mismo valor de atributo.
* No quedan más atributos para dividir.
* No hay más instancias en el subconjunto.

El objetivo del árbol de decisión es construir una estructura jerárquica que permita tomar decisiones de manera eficiente y precisa. Siguiendo estos pasos, el árbol se va construyendo de forma recursiva, dividiendo el conjunto de datos en subconjuntos más pequeños, hasta llegar a los nodos hoja, donde se toma la decisión final.

![link text](https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1545934190/2_btay8n.png)

## Medidas de selección de atributos
La medida de selección de atributos es una heurística para seleccionar el criterio de división que divide los datos de la mejor manera posible. También se conoce como reglas de división porque nos ayuda a determinar puntos de ruptura para tuplas en un nodo dado. ASM proporciona una clasificación para cada característica (o atributo) al explicar el conjunto de datos dado. El atributo de mejor puntaje se seleccionará como un atributo de división ( Fuente ). En el caso de un atributo de valor continuo, también es necesario definir los puntos de división para las ramas. Las medidas de selección más populares son la ganancia de información, la relación de ganancia y el índice de Gini.

## Ganancia de información
Claude Shannon inventó el concepto de entropía, que mide la impureza del conjunto de entrada. En física y matemáticas, la entropía se conoce como la aleatoriedad o la impureza en un sistema. En teoría de la información, se refiere a la impureza en un grupo de ejemplos. La ganancia de información es la disminución de la entropía. La ganancia de información calcula la diferencia entre la entropía antes de la división y la entropía promedio después de la división del conjunto de datos en función de los valores de los atributos dados. El algoritmo de árbol de decisión ID3 (dicotómico iterativo) utiliza la ganancia de información.

ganancia de información
Donde Pi es la probabilidad de que una tupla arbitraria en D pertenezca a la clase Ci.

ganancia de información
ganancia de información
Dónde:

Info(D) es la cantidad promedio de información necesaria para identificar la etiqueta de clase de una tupla en D.
|Dj|/|D| actúa como el peso de la j-ésima partición.
InfoA(D) es la información esperada requerida para clasificar una tupla de D basada en la partición de A.
El atributo A con la mayor ganancia de información, Ganancia(A), se elige como atributo de división en el nodo N().

## Relación de ganancia
La ganancia de información está sesgada por el atributo con muchos resultados. Significa que prefiere el atributo con una gran cantidad de valores distintos. Por ejemplo, considere un atributo con un identificador único, como ID_cliente, que tiene cero información (D) debido a la partición pura. Esto maximiza la ganancia de información y crea particiones inútiles.

C4.5, una mejora de ID3, utiliza una extensión de la ganancia de información conocida como relación de ganancia. La relación de ganancia maneja el problema del sesgo al normalizar la ganancia de información usando Split Info. La implementación Java del algoritmo C4.5 se conoce como J48 y está disponible en la herramienta de minería de datos WEKA.

Relación de ganancia
Dónde:

|Dj|/|D| actúa como el peso de la j-ésima partición.
v es el número de valores discretos en el atributo A.
La relación de ganancia se puede definir como

Relación de ganancia
El atributo con la relación de ganancia más alta se elige como atributo de división ( Fuente ).

## Índice Gini
Otro algoritmo de árbol de decisiones CART (Classification and Regression Tree) utiliza el método Gini para crear puntos de división.

 ![](https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1545934190/8_k4ia8r.png)
Donde pi es la probabilidad de que una tupla en D pertenezca a la clase Ci.

El Índice Gini considera una división binaria para cada atributo. Puede calcular una suma ponderada de la impureza de cada partición. Si una división binaria en el atributo A divide los datos D en D1 y D2, el índice de Gini de D es:

![](https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1545934191/9_atnmbc.png)
En el caso de un atributo de valor discreto, el subconjunto que da el índice de Gini mínimo para el elegido se selecciona como atributo de división. En el caso de atributos de valores continuos, la estrategia es seleccionar cada par de valores adyacentes como un posible punto de división, y se elige un punto con un índice de Gini más pequeño como punto de división.

![](https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1545934191/10_oqzzp6.png
)

El atributo con el índice de Gini mínimo se elige como atributo de división.

In [1]:
# Load libraries
import pandas as pd
from sklearn.tree import DecisionTreeClassifier # Import Decision Tree Classifier
from sklearn.model_selection import train_test_split # Import train_test_split function
from sklearn import metrics #Import scikit-learn metrics module for accuracy calculation


Primero, carguemos el conjunto de datos Pima Indian Diabetes requerido usando la función read CSV de pandas. 



In [2]:
col_names = ['pregnant', 'glucose', 'bp', 'skin', 'insulin', 'bmi', 'pedigree', 'age', 'label']
# load dataset
pima = pd.read_csv("https://raw.githubusercontent.com/sharop/CD3001B/main/indicadores/diabetes.csv", header=None, names=col_names)

In [3]:
pima.head()


Unnamed: 0,pregnant,glucose,bp,skin,insulin,bmi,pedigree,age,label
0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
1,6,148,72,35,0,33.6,0.627,50,1
2,1,85,66,29,0,26.6,0.351,31,0
3,8,183,64,0,0,23.3,0.672,32,1
4,1,89,66,23,94,28.1,0.167,21,0


# Selección de características
Aquí, debe dividir las columnas dadas en dos tipos de variables dependientes (o variables de destino) y variables independientes (o variables de características).

In [8]:
#split dataset in features and target variable
feature_cols = ['pregnant', 'insulin', 'bmi', 'age','glucose','bp','pedigree']
X = pima[feature_cols] # Features
y = pima.label # Target variable


## División de datos
Para comprender el rendimiento del modelo, dividir el conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba es una buena estrategia.

Dividamos el conjunto de datos usando la función train_test_split(). Debe pasar tres funciones de parámetros; objetivo y tamaño de test_set.

In [9]:
# Split dataset into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1) # 70% training and 30% test


## Modelo de árbol de decisiones de construcción
Creemos un modelo de árbol de decisión usando Scikit-learn.

In [10]:
# Create Decision Tree classifer object
clf = DecisionTreeClassifier()

# Train Decision Tree Classifer
clf = clf.fit(X_train,y_train)

#Predict the response for test dataset
y_pred = clf.predict(X_test)


ValueError: ignored

## Evaluación del modelo
Estimemos con qué precisión el clasificador o modelo puede predecir el tipo de cultivares.

La precisión se puede calcular comparando los valores reales del conjunto de pruebas y los valores predichos.

In [11]:
# Model Accuracy, how often is the classifier correct?
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))


NameError: ignored

Obtuvimos una tasa de clasificación del 67,53%, que se considera una buena precisión. Puede mejorar esta precisión ajustando los parámetros en el algoritmo del árbol de decisiones.

## Visualización de árboles de decisión
Puede usar la función export_graphviz de Scikit-learn para mostrar el árbol dentro de un cuaderno Jupyter. Para trazar el árbol, también necesita instalar graphviz y pydotplus.


La función export_graphviz convierte el clasificador del árbol de decisiones en un archivo de puntos, y pydotplus convierte este archivo de puntos en png o en un formato visualizable en Jupyter.

In [None]:
!pip install graphviz
!pip install pydotplus


In [None]:
from sklearn.tree import export_graphviz
from sklearn.externals.six import StringIO  
from IPython.display import Image  
import pydotplus

dot_data = StringIO()
export_graphviz(clf, out_file=dot_data,  
                filled=True, rounded=True,
                special_characters=True,feature_names = feature_cols,class_names=['0','1'])
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())  
graph.write_png('diabetes.png')
Image(graph.create_png())


En el gráfico de árbol de decisión, cada nodo interno tiene una regla de decisión que divide los datos. Gini, denominado relación de Gini, mide la impureza del nodo. Puede decir que un nodo es puro cuando todos sus registros pertenecen a la misma clase, tales nodos se conocen como el nodo hoja.

Aquí, el árbol resultante no se poda. Este árbol sin podar es inexplicable y no es fácil de entender. En la siguiente sección, vamos a optimizarlo mediante la poda.

# Optimización del rendimiento del árbol de decisiones

* criterio: opcional (predeterminado=”gini”) o Elegir medida de selección de atributo.  Este parámetro nos permite utilizar la medida de selección de atributo diferente-diferente. Los criterios admitidos son "gini" para el índice de Gini y "entropía" para la ganancia de información.

* divisor: cadena, opcional (predeterminado = "mejor") o estrategia dividida.  Este parámetro nos permite elegir la estrategia de división. Las estrategias admitidas son "mejor" para elegir la mejor división y "aleatoria" para elegir la mejor división aleatoria.

* profundidad_máxima: int o Ninguno, opcional (predeterminado=Ninguno) o Profundidad máxima de un árbol.  La profundidad máxima del árbol. Si es Ninguno, los nodos se expanden hasta que todas las hojas contienen menos de min_samples_split samples. El valor más alto de la profundidad máxima provoca un ajuste excesivo y un valor inferior provoca un ajuste insuficiente ( Fuente ).

En Scikit-learn, la optimización del clasificador del árbol de decisión se realiza solo con la poda previa. La profundidad máxima del árbol se puede utilizar como variable de control para la poda previa. En el siguiente ejemplo, puede trazar un árbol de decisión en los mismos datos con max_depth=3. Además de los parámetros de poda previa, también puede probar otras medidas de selección de atributos, como la entropía.

In [12]:
# Create Decision Tree classifer object
clf = DecisionTreeClassifier(criterion="entropy", max_depth=3)

# Train Decision Tree Classifer
clf = clf.fit(X_train,y_train)

#Predict the response for test dataset
y_pred = clf.predict(X_test)

# Model Accuracy, how often is the classifier correct?
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))


ValueError: ignored

la tasa de clasificación aumentó a 77.05%, lo cual es una mejor precisión que el modelo anterior.

Visualizacion simplificada

In [None]:
from six import StringIO from IPython.display import Image  
from sklearn.tree import export_graphviz
import pydotplus
dot_data = StringIO()
export_graphviz(clf, out_file=dot_data,  
                filled=True, rounded=True,
                special_characters=True, feature_names = feature_cols,class_names=['0','1'])
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())  
graph.write_png('diabetes.png')
Image(graph.create_png())


Aquí, hemos completado los siguientes pasos: 

Importó las bibliotecas requeridas.
Creó un StringIOobjeto llamado dot_datapara contener la representación de texto del árbol de decisión.
Exportó el árbol de decisión al dotformato usando la export_graphvizfunción y escribió la salida en el dot_databúfer.
Creó un pydotplusobjeto de gráfico a partir de la dotrepresentación de formato del árbol de decisión almacenado en el dot_databúfer.
Escribió el gráfico generado en un archivo PNG llamado "diabetes.png".
Mostró la imagen PNG generada del árbol de decisión usando el Imageobjeto del IPython.displaymódulo.

![](https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1545933328/output_65_0_jteora.png)