## ÁRBOL DE DECISIÓN

`By: Omar Andony Giron Rene` 

### Introducción
<br>
En el aprendizaje automático, la clasificación es un proceso de dos pasos, paso de aprendizaje (el modelo se desarrolla en base a los datos de entrenamiento) y paso de predicción (el modelo se usa para predecir la respuesta).

**Árbol de Decisión** es uno de los algoritmos de clasificación más fáciles y populares de comprender e interpretar. Pertenece a la familia de otros algoritmos de aprendizaje supervisado (tiene una target predefinido), el algoritmo del árbol de decisión tambien se puede usar para resolver problemas de regresión y clasificación.
<br>

### ¿Por qué untilizarlo?
Al ser uno de los mejores y más utlizados del aprendizaje supervisado, permiten armar un modelo predictivo con mayor precisión, mejor estabilidad y facilidad de interpretación. A diferencia de las técnicas para los modelos lineales, el ábol de decisión mapea bastante bien las relaciones no lienales.

> <small>*Nota: Generalmente los árboles de decisión se pueden utilizar cuando los datos son de mala calidad. Además que no se ven afectados por los valores atípicos.*</small>

> <small>*Nota: Se pueden realizar pruebas como las de Hosmer Lemish para ver si los datos son aptos para una regresión logística o no. Además, cuando los datos son muy complejos o la situación es muy compleja y es difícil de explicar a un cliente, se pueden utilizar árboles de decisión, ya que proporcionan un control de nivel por nivel al proceso de clasificación, mientras que la regresión logística funciona como una caja negra donde alimentamos.*</small>

### Tipos de Árboles de decisión



* **Árbol de Regresión** (La variable dependiente es continua)
* **Árbol de Clasificación** (La variable dependiente es discreta) 

#### Términologías

1. **Nodo Raíz (Root node):** representa toda la población o muestra y esta se divide en dos o más conjuntos homogéneos.
2. **División (Splitting):** es un proceso de división de un nodo en dos o más subnodos.
3. **Nodo de decisión (Decission node):** cuando un subnodo se divide en otros subnodos, se denomina nodo de decisión.
4. **Nodo hoja/terminal (Leaf):** los nodos que no se dividen se denominan nodo hoja.
5. **Poda (Pruning):** es cuando eliminamos subnodos de un nodo de decisión (proceso opuesto a la división).
6. **Rama (Branch):** una subsección de todo el árbol se denomina rama.
7. **Nodo padre e hijo (Parent and child node):** un nodo, que se divide en subnodos, se denomina nodo padre de subnodos, mientras que los subnodos son hijos de un nodo padre.
8. **Máxima profundidad (Max depth)** 

![image.png](attachment:image.png)

![image.png](attachment:image.png)

#### Supuestos

* Al principio, todo el conjunto de entrenamiento se considera la  raíz.
* Se prefiere que los valores de las características sean categóricos. Si los valores son continuos, se discretizan antes de construir el modelo.
* Los registros se  distribuyen de forma recursiva  sobre la base de los valores de los atributos.
* El orden para colocar atributos como raíz o nodo interno del árbol se realiza utilizando algún enfoque estadístico.

> <small>*Nota:Los árboles de decisión siguen la representación de la  suma del producto (SOP) . La suma del producto (SOP) también se conoce como  forma normal disyuntiva . Para una clase, cada rama desde la raíz del árbol hasta un nodo hoja que tiene la misma clase es una conjunción (producto) de valores, las diferentes ramas que terminan en esa clase forman una disyunción (suma).El desafío principal en la implementación del árbol de decisiones es identificar qué atributos debemos considerar como el nodo raíz y cada nivel. El manejo de esto se conoce como selección de atributos. Disponemos de diferentes medidas de selección de atributos para identificar el atributo que se puede considerar como nota fundamental en cada nivel.
.*</small>

### ¿Cómo funciona?
La decisión de realizar divisiones estratégicas afecta en gran medida la precisión de un árbol. Los criterios de decisión son diferentes para los árboles de clasificación y regresión.

Los árboles de decisión utilizan múltiples algoritmos para decidir dividir un nodo en dos o más subnodos. La creación de subnodos aumenta la homogeneidad de los subnodos resultantes. En otras palabras, podemos decir que la pureza del nodo aumenta con respecto a la variable objetivo. El árbol de decisión divide los nodos en todas las variables disponibles y luego selecciona la división que da como resultado los subnodos más homogéneos.

La selección del algoritmo también se basa en el tipo de variables objetivo. Veamos algunos algoritmos utilizados en los árboles de decisión:

* ID3  → (extensión de D3)
* C4.5  → (sucesor de ID3)
* CART  → (Árbol de clasificación y regresión)
* CHAID  → (Detección de interacción automática de chi-cuadrado Realiza divisiones de varios niveles al calcular árboles de clasificación)
* MARS  → (splines de regresión adaptativa multivariante )

El algoritmo ID3 construye árboles de decisión utilizando un enfoque de búsqueda codiciosa de  arriba hacia abajo  a través del espacio de posibles ramas sin retroceso. Un algoritmo codicioso, como su nombre indica, siempre toma la decisión que parece ser la mejor en ese momento.

1. Comienza con el conjunto original S como nodo raíz.
2. En cada iteración del algoritmo, recorre el atributo muy no utilizado del conjunto S y calcula la  entropía (H)  y  la ganancia de información (IG)  de este atributo.
3. Luego selecciona el atributo que tiene la menor entropía o la mayor ganancia de información.
4. El conjunto S luego se divide por el atributo seleccionado para producir un subconjunto de los datos.
5. El algoritmo continúa recurriendo a cada subconjunto, considerando solo atributos nunca seleccionados antes.

### Métodos de construcción
Como se discutió ocasionalmente anteriormente, existen múltiples métodos a través de los cuales se pueden crear árboles de decisión. Cada uno de estos métodos utiliza ciertos algoritmos como criterio de decisión para crear e incrementar la homogeneidad de los subnodos. Hay muchos métodos famosos como:

**ID3 :** El dicotomidor iterativo 3 es el algoritmo central para construir árboles de decisión y utiliza un enfoque de arriba hacia abajo (división). Utiliza Entropía (Entropía de Shannon) para construir árboles de decisión de clasificación. Como ID3 utiliza un enfoque de arriba hacia abajo, tiene el problema de sobreajuste.

 

**C4.5 :** Este método es el sucesor de ID3. Se usa para clasificación cuando la variable dependiente tiene más de 2 categorías y se usa para árboles de regresión cuando la relación entre la variable independiente y dependiente no es lineal. Fue una mejora importante con respecto a ID3, ya que podía manejar variables dependientes e independientes tanto continuas como categóricas. También es capaz de resolver el problema de sobreajuste (discutido a continuación en el blog) optando por un enfoque de abajo hacia arriba (poda).

 

**C5.0 :** Se realizaron algunas mejoras con respecto a C4.5 Estas fueron una mejor velocidad y uso de la memoria y, lo más importante, la incorporación de un algoritmo de aprendizaje de conjunto de refuerzo

 

**CART :** Entre los más comunes, es un algoritmo de aprendizaje de árbol de decisión no paramétrico con su forma completa como árboles de clasificación y regresión. Es similar a C4.5 pero utiliza el algoritmo de impureza de Gini para la clasificación donde el objetivo es hacer que cada nodo sea lo más 'puro' posible.

 

**CHAID :** El detector de interacción automático de chi-cuadrado en realidad es anterior a ID3 en 6 años y se puede usar para árboles de regresión y clasificación y es un enfoque no paramétrico ya que usa chi-cuadrado como métrica para construir árboles de decisión de clasificación.

 

Otros algoritmos utilizados en árboles de decisión incluyen **MARS , QUEST , CRUISE , etc.**

### Criterios/ métricas de decisión
Si el conjunto de datos consta de  N  atributos, entonces decidir qué atributo colocar en la raíz o en diferentes niveles del árbol como nodos internos es un paso complicado. Con solo seleccionar al azar cualquier nodo para que sea la raíz, no se puede resolver el problema. Si seguimos un enfoque aleatorio, puede darnos malos resultados con poca precisión.

Para resolver este problema de selección de atributos, los investigadores trabajaron e idearon algunas soluciones. Sugirieron usar algunos  criterios  como:

* Entropía
* Ganancia de información
* Índice de Gini
* Ralación de ganancia
* Reducción de la varianza (para árboles de regresión) ANOVA
* Chi-cuadrado (para árboles de clasificación)

Estos criterios calcularán valores para cada atributo. Los valores se ordenan y los atributos se colocan en el árbol siguiendo el orden, es decir, el atributo con un valor alto (en caso de ganancia de información) se coloca en la raíz.
Al utilizar la ganancia de información como criterio, asumimos que los atributos son categóricos y, para el índice de Gini, se supone que los atributos son continuos.

#### Entropía
La entropía es una medida de la aleatoriedad de la información que se procesa. Cuanto mayor sea la entropía, más difícil será sacar conclusiones de esa información. Lanzar una moneda es un ejemplo de una acción que proporciona información aleatoria.
![image.png](attachment:image.png)
En el gráfico anterior, es bastante evidente que la entropía H (X) es cero cuando la probabilidad es 0 o 1. La entropía es máxima cuando la probabilidad es 0.5 porque proyecta una aleatoriedad perfecta en los datos y no hay posibilidad si determinando perfectamente el resultado.

> ID3 sigue la regla: una rama con una entropía de cero es un nodo hoja y una rama con entropía mayor que cero necesita más división.


Matemáticamente, la entropía para 1 atributo se representa como:
![image.png](attachment:image.png)
Donde,
* S: Estado actual
* Pi: Probabilidad de un evento  i  del estado S o Porcentaje de la clase  i  en un nodo del estado S.

Matemáticamente, la entropía para múltiples atributos se representa como:
![image.png](attachment:image.png)
Donde,
* T: Estado actual
* X: Atributo seleccionado

#### Ganancia de información
La ganancia de información se basa en la disminución de la entropía después de que un conjunto de datos se divide en un atributo. La construcción de un árbol de decisiones se trata de encontrar un atributo que devuelva la mayor ganancia de información (es decir, las ramas más homogéneas).

![image.png](attachment:image.png)


De una forma mucho más sencilla, podemos concluir que:
![image.png](attachment:image.png)
Donde "before" es el conjunto de datos antes de la división, K es el número de subconjuntos generados por la división y (j, after) es el subconjunto j después de la división.

#### Índice de Gini
Puede entender el índice de Gini como una función de costo que se usa para evaluar divisiones en el conjunto de datos. Se calcula restando la suma de las probabilidades al cuadrado de cada clase de uno. Favorece las particiones más grandes y fáciles de implementar mientras que la ganancia de información favorece las particiones más pequeñas con valores distintos.
![image.png](attachment:image.png)

El Índice de Gini trabaja con la variable objetivo categórica "Éxito" o "Fracaso". Realiza solo divisiones binarias.

> <font color=blue>A mayor valor del índice de Gini, mayor homogeneidad.</font>

* Funciona con la variable objetivo categórica "Éxito" o "Fracaso".
* Realiza solo divisiones binarias
* A mayor valor de Gini mayor homogeneidad.

> <small>*Nota: CART (Árbol de clasificación y regresión) utiliza el método de índice de Gini para crear puntos de división.*</small>

Pasos para calcular el índice de Gini para una división

1. Calcule el Gini para los subnodos, utilizando la fórmula anterior para el éxito (p) y el fracaso (q) (p² + q²).
2. Calcule el índice de Gini para la división utilizando la puntuación de Gini ponderada de cada nodo de esa división.


**Ejemplo:** Queremos segregar a los estudiantes en función de la variable de destino (jugando al cricket o no). En la instantánea a continuación, dividimos la población usando dos variables de entrada Sexo y Clase. Ahora, quiero identificar qué división está produciendo subnodos más homogéneos utilizando el índice de Gini.

![image.png](attachment:image.png)

**Dividido por género:**
- Gini para el subnodo Mujer = (0,2) * (0,2) + (0,8) * (0,8) = 0,68
- Gini para el subnodo masculino = (0,65) * (0,65) + (0,35) * (0,35) = 0,55
- Gini ponderado para género dividido = (10/30) * 0,68 + (20/30) * 0,55 = 0,59

**Similar para Split on Class:**
- Gini para el subnodo Clase IX = (0.43) * (0.43) + (0.57) * (0.57) = 0.51
- Gini para el subnodo Clase X = (0.56) * (0.56) + (0.44) * (0.44) = 0.51
- Gini ponderado para la clase dividida = (14/30) * 0,51 + (16/30) * 0,51 = 0,51

> Entonces, puede ver que la puntuación de Gini para Dividir en género es más alta que Dividir en clase, por lo tanto, la división de nodos tendrá lugar en Género.

#### Relación de ganancia

La ganancia de información está sesgada hacia la elección de atributos con una gran cantidad de valores como nodos raíz. Significa que prefiere el atributo con una gran cantidad de valores distintos.

C4.5, una mejora de ID3, utiliza la relación de ganancia, que es una modificación de la ganancia de información que reduce su sesgo y suele ser la mejor opción. La relación de ganancia resuelve el problema de la ganancia de información al tener en cuenta el número de sucursales que resultarían antes de realizar la división. Corrige la ganancia de información teniendo en cuenta la información intrínseca de una división.

> Consideremos si tenemos un conjunto de datos que tiene usuarios y sus preferencias de género de películas en función de variables como género, grupo de edad, calificación, bla, bla. Con la ayuda de la ganancia de información, se divide en 'Género' (asumiendo que tiene la mayor ganancia de información) y ahora las variables 'Grupo de edad' y 'Calificación' podrían ser igualmente importantes y con la ayuda de la relación de ganancia, penalizará una variable con valores más distintos que nos ayudará a decidir la división en el siguiente nivel.

![image.png](attachment:image.png)

Donde "before" es el conjunto de datos antes de la división, K es el número de subconjuntos generados por la división y (j, after) es el subconjunto j después de la división.

#### Reducción de varianza

La reducción de la varianza  es un algoritmo utilizado para variables objetivo continuas (problemas de regresión). Este algoritmo utiliza la fórmula estándar de varianza para elegir la mejor división. La división con menor varianza se selecciona como criterio para dividir la población:

![image.png](attachment:image.png)

Por encima de la barra X está la media de los valores, X es real yn es el número de valores.

Pasos para calcular la varianza:

1. Calcule la varianza para cada nodo.
2. Calcule la varianza para cada división como el promedio ponderado de la varianza de cada nodo.

**Ejemplo:** Asignemos el valor numérico 1 para jugar al cricket y 0 para no jugar al cricket. Ahora siga los pasos para identificar la división correcta:

1. Varianza para el nodo raíz, aquí el valor medio es (15 * 1 + 15 * 0) / 30 = 0.5 y tenemos 15 uno y 15 cero. Ahora la varianza sería ((1–0.5) ² + (1–0.5) ² +… .15 veces + (0–0.5) ² + (0–0.5) ² +… 15 veces) / 30, esto se puede escribir como ( 15 * (1–0,5) ² + 15 * (0–0,5) ²) / 30 = 0,25
2. Media del nodo femenino = (2 * 1 + 8 * 0) /10=0.2 y Varianza = (2 * (1–0.2) ² + 8 * (0–0.2) ²) / 10 = 0.16
3. Media del nodo masculino = (13 * 1 + 7 * 0) /20=0.65 y varianza = (13 * (1–0.65) ² + 7 * (0–0.65) ²) / 20 = 0.23
4. Varianza para género dividido = Varianza ponderada de subnodos = (10/30) * 0.16 + (20/30) * 0.23 = 0.21
5. Media del nodo Clase IX = (6 * 1 + 8 * 0) /14=0.43 y Varianza = (6 * (1–0.43) ² + 8 * (0–0.43) ²) / 14 = 0.24
6. Media del nodo Clase X = (9 * 1 + 7 * 0) /16=0.56 y Varianza = (9 * (1–0.56) ² + 7 * (0–0.56) ²) / 16 = 0.25
7. Varianza para género dividido = (14/30) * 0,24 + (16/30) * 0,25 = 0,25

Arriba, puede ver que la división por género tiene una varianza más baja en comparación con el nodo principal, por lo que la división tendría lugar en la variable de género .

Hasta aquí, aprendimos sobre los conceptos básicos de los árboles de decisión y el proceso de toma de decisiones involucrado para elegir las mejores divisiones en la construcción de un modelo de árbol. Como dije, el árbol de decisiones se puede aplicar tanto en problemas de regresión como de clasificación. Entendamos estos aspectos en detalle.

#### Chi-cuadrado

El acrónimo CHAID significa  Detector de Interacción Automático Chi- cuadrado. Es uno de los métodos de clasificación de árboles más antiguos. Descubre la significancia estadística entre las diferencias entre los subnodos y el nodo padre. Lo medimos por la suma de cuadrados de las diferencias estandarizadas entre las frecuencias observadas y esperadas de la variable objetivo.

Funciona con la variable objetivo categórica "Éxito" o "Fallo". Puede realizar dos o más divisiones. Cuanto mayor sea el valor de Chi-Cuadrado, mayor será la significación estadística de las diferencias entre el subnodo y el nodo principal.

Genera un árbol llamado CHAID (Detector Automático de Interacción Chi-cuadrado).

Matemáticamente, Chi-cuadrado se representa como:

![image.png](attachment:image.png)

Pasos para calcular chi-cuadrado para una división:

1. Calcule Chi-cuadrado para un nodo individual calculando la desviación para el éxito y el fracaso tanto
2. Chi-cuadrado calculado de la división usando la suma de todas las chi-cuadrado de éxito y fracaso de cada nodo de la división

**Ejemplo:** Trabajemos con el ejemplo anterior que hemos usado para calcular Gini.
Dividido por género:

1. Primero, estamos poblando para el nodo Femenino, Complete el valor real para " Jugar Cricket" y "No jugar Cricket" , aquí estos son 2 y 8 respectivamente.
2. Calcule el valor esperado para " Jugar Cricket" y " No jugar Cricket" , aquí sería 5 para ambos porque el nodo principal tiene una probabilidad del 50% y hemos aplicado la misma probabilidad en el recuento de mujeres (10).
3. Calcule las desviaciones usando la fórmula, Real - Esperado. Es para “ Jugar al cricket” (2–5 = -3) y para “ No jugar al cricket” (8–5 = 3).
4. Calcule el chi-cuadrado del nodo para “ Jugar al críquet ” y “ No jugar al críquet ” usando la fórmula con la fórmula = ((Real - Esperado) ² / Esperado) ¹ / 2 . Puede consultar la siguiente tabla para el cálculo.
5. Siga pasos similares para calcular el valor de chi-cuadrado para el nodo masculino.
6. Ahora agregue todos los valores de Chi-cuadrado para calcular Chi-cuadrado para género dividido.

![image.png](attachment:image.png)


Dividir en clase:
Realice pasos similares de cálculo para dividir en Clase y obtendrá la siguiente tabla.

![image.png](attachment:image.png)

> Arriba, puede ver que Chi-cuadrado también identifica la división de género es más significativa en comparación con la clase.

### ¿Cómo evitar / contrarrestar el sobreajuste en los árboles de decisión?
 
El problema común con los árboles de decisión, especialmente si tienen una tabla llena de columnas, encajan mucho. A veces parece que el árbol memorizó el conjunto de datos de entrenamiento. Si no hay un límite establecido en un árbol de decisión, le dará un 100% de precisión en el conjunto de datos de entrenamiento porque, en el peor de los casos, terminará haciendo 1 hoja por cada observación. Por tanto, esto afecta la precisión al predecir muestras que no forman parte del conjunto de entrenamiento.

Aquí hay dos formas de eliminar el sobreajuste:

- Poda de árboles de decisión.
- Bosque aleatorio

#### Poda de árboles de decisión

El proceso de división da como resultado árboles completamente desarrollados hasta que se alcanzan los criterios de detención. Pero, es probable que el árbol completamente desarrollado se ajuste a los datos, lo que lleva a una precisión deficiente en los datos invisibles.

Al  podar , se recortan las ramas del árbol, es decir, se eliminan los nodos de decisión comenzando por el nodo de la hoja de manera que no se altere la precisión general. Esto se hace segregando el conjunto de entrenamiento real en dos conjuntos: conjunto de datos de entrenamiento, D y conjunto de datos de validación, V.Preparar el árbol de decisión utilizando el conjunto de datos de entrenamiento segregado, D. Luego, continúe recortando el árbol en consecuencia para optimizar la precisión del conjunto de datos de validación, V.

![image.png](attachment:image.png)

En el diagrama anterior, el atributo 'Edad' en el lado izquierdo del árbol se ha podado ya que tiene más importancia en el lado derecho del árbol, eliminando así el sobreajuste.

#### Bosque aleatorio

Random Forest es un ejemplo de aprendizaje por conjuntos, en el que combinamos múltiples algoritmos de aprendizaje automático para obtener un mejor rendimiento predictivo.

#### ¿Por qué el nombre "Random"?

Dos conceptos clave que le dan el nombre aleatorio:

1. Un muestreo aleatorio del conjunto de datos de entrenamiento al construir árboles.
2. Subconjuntos aleatorios de características consideradas al dividir nodos.

Se utiliza una técnica conocida como ensacado para crear un conjunto de árboles donde se generan múltiples conjuntos de entrenamiento con reemplazo.

En la técnica de ensacado, un conjunto de datos se divide en  N  muestras utilizando un muestreo aleatorio. Luego, utilizando un solo algoritmo de aprendizaje, se construye un modelo en todas las muestras. Posteriormente, las predicciones resultantes se combinan mediante votaciones o promedios en paralelo.

![image.png](attachment:image.png)


#### ¿Cuál es mejor los modelos lineales o basados en árboles?
 
Bueno, depende del tipo de problema que estés resolviendo.

- Si la relación entre las variables dependientes e independientes está bien aproximada por un modelo lineal, la regresión lineal superará al modelo basado en árboles.
- Si hay una alta no linealidad y una relación compleja entre las variables dependientes e independientes, un modelo de árbol superará a un método de regresión clásico.
- Si necesita construir un modelo que sea fácil de explicar a las personas, un modelo de árbol de decisiones siempre funcionará mejor que un modelo lineal. Los modelos de árboles de decisión son incluso más sencillos de interpretar que la regresión lineal.

**Ventajas:**

Los árboles de decisiones ayudan a los gerentes a evaluar las próximas opciones. El árbol crea una representación visual de todos los posibles resultados, recompensas y decisiones de seguimiento en un documento. Cada decisión posterior resultante de la elección original también se muestra en el árbol, por lo que puede ver el efecto general de cualquier decisión. A medida que recorra el árbol y haga elecciones, verá una ruta específica de un nodo a otro y el impacto que una decisión tomada ahora podría tener en el futuro.
1. Resultados de la lluvia de ideas: los árboles de decisiones le ayudan a pensar en todos los resultados posibles para una próxima elección. Las consecuencias de cada resultado deben explorarse a fondo, por lo que no se pierden detalles. Tomarse el tiempo para hacer una lluvia de ideas evita reacciones exageradas a cualquier variable. La descripción gráfica de varias alternativas facilita la comparación entre sí. El árbol de decisiones también agrega transparencia al proceso. Una parte independiente puede ver exactamente cómo se tomó una decisión en particular.
2. Versatilidad del árbol de decisiones: los árboles de decisiones se pueden personalizar para una variedad de situaciones. La forma lógica es buena para programadores e ingenieros. Los técnicos también pueden utilizar árboles de decisión para diagnosticar fallas mecánicas en equipos o solucionar problemas de reparación de automóviles. Los árboles de decisiones también son útiles para evaluar alternativas comerciales o de inversión. Los gerentes pueden recrear las matemáticas utilizadas en un árbol de decisiones en particular para analizar el proceso de toma de decisiones de la empresa.
3. Requiere menos limpieza de datos: Requiere menos limpieza de datos en comparación con otras técnicas de modelado. No está influenciado por valores atípicos y valores perdidos en un grado razonable.
4. El tipo de datos no es una restricción: puede manejar variables tanto numéricas como categóricas.
5. Método no paramétrico: el árbol de decisión se considera un método no paramétrico. Esto significa que los árboles de decisión no tienen supuestos sobre la distribución del espacio y la estructura del clasificador.

Próximos pasos:

* armar un arbol
* ¿Como funciona cuando se tiene variables independiente continuas y categoricas?
* ¿Qué indicadores me determinan que el arbol es el mejor?



#### BIBLIOGAPHY


* [DT kDnuggets](https://www.kdnuggets.com/2020/01/decision-tree-algorithm-explained.html)
* [DT Datavedas](https://www.datavedas.com/decision-trees/)
* [DT Medium](https://medium.com/@rishabhjain_22692/decision-trees-it-begins-here-93ff54ef134)
* [](https://towardsdatascience.com/decision-trees-d07e0f420175)
* [](https://medium.com/@aaaanchakure/decision-tree-classification-de64fc4d5aac)
* [](https://www.vebuso.com/2020/01/decision-tree-intuition-from-concept-to-application/)

https://towardsdatascience.com/decision-trees-in-machine-learning-641b9c4e8052
https://petrowiki.org/Decision_tree_analysis
https://www.cs.cmu.edu/~bhiksha/courses/10-601/decisiontrees/
https://www.kaggle.com/arthurtok/decision-boundaries-visualised-via-python-plotly
https://www.kaggle.com/learn-forum/60582#372703

* [DT Dhirajk](https://dhirajkumarblog.medium.com/decision-tree-from-scratch-in-python-629631ec3e3a)




* [](https://stats.stackexchange.com/questions/262794/why-does-a-decision-tree-have-low-bias-high-variance)
* [](https://datascience.stackexchange.com/questions/48166/why-can-decision-trees-have-a-high-amount-of-variance)

* []()
* []()
* []()
* [](https://julienbeaulieu.gitbook.io/wiki/sciences/machine-learning/decision-trees)
* [Variable dummy DT](https://towardsdatascience.com/one-hot-encoding-is-making-your-tree-based-ensembles-worse-heres-why-d64b282b5769)
https://www.kdnuggets.com/2020/01/decision-tree-algorithm-explained.html


-- logistica
https://dhirajkumarblog.medium.com/logistic-regression-in-python-from-scratch-5b901d72d68e
https://www.kdnuggets.com/2019/01/logistic-regression-concise-technical-overview.html
https://www.kdnuggets.com/2019/10/build-logistic-regression-model-python.html
https://www.kdnuggets.com/2018/02/logistic-regression-concise-technical-overview.html

--otros
https://www.kdnuggets.com/2020/10/guide-authentic-data-science-portfolio-project.html
https://www.kdnuggets.com/2020/09/machine-learning-from-scratch-free-online-textbook.html
https://www.kdnuggets.com/2020/10/data-science-minimum-10-essential-skills.html
https://www.kdnuggets.com/2020/10/goodharts-law-data-science-measure-target.html
https://www.youtube.com/watch?v=z2n8kHXkwtM&list=PLTKMiZHVd_2KyGirGEvKlniaWeLOHhUF3&index=34
https://www.kdnuggets.com/2020/09/online-certificates-ai-data-science-machine-learning-top.html
https://www.kdnuggets.com/2020/09/online-courses-better-data-scientist.html

https://www.youtube.com/watch?v=jgA5Y_E7BDY
-- Spark
https://www.data4v.com/spark-dataframe-performance-benefits/
https://towardsdatascience.com/pyspark-and-sparksql-basics-6cb4bf967e53


In [None]:
import pandas as pd
from pyspark.sql import SparkSession
from pyspark.context import SparkContext
from pyspark.sql.functions 
import *from pyspark.sql.types 
import *from datetime import date, timedelta, datetime
import time

https://medium.com/@lope.ai/decision-trees-from-scratch-using-id3-python-coding-it-up-6b79e3458de4

https://www.python-course.eu/Decision_Trees.php

https://www.analyticsvidhya.com/blog/2020/10/all-about-decision-tree-from-scratch-with-python-implementation/

https://datascience.stackexchange.com/questions/26775/how-to-prevent-tell-if-decision-tree-is-overfitting ****

https://www.analyticsvidhya.com/blog/2019/08/11-important-model-evaluation-error-metrics/

In [7]:
#cargar bases x defecto de sklearn
from sklearn.datasets import load_iris
import pandas as pd

data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
df.head()


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


load_boston
load_iris
load_diabetes
load_digits
load_linnerud
load_wine
load_breast_cancer
https://scikit-learn.org/stable/datasets/index.html