<a href="https://colab.research.google.com/github/JotaBlanco/TheValley/blob/main/Arboles/Clase_03_Arboles/03A_sin_resolver_%7C_Repaso_I_sobre_%C3%81rboles_Decisi%C3%B3n.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 01 REPASO I: Árboles de Decisión
Repaso sobre cómo utilizar árboles de decisión.

Notebook por [Javier Blanco Cordero](https://www.linkedin.com/in/javier-blanco-cordero-71373656/).

### Enlaces de interés
*   [Slides de presentación](https://docs.google.com/presentation/d/1jRg7Dk2y_2_fxnC_Jpj5aWcqgW9t1KAd7izdmWzv9Sk/edit?usp=sharing)
*   [Enlace a este notebook ya resuelto](https://colab.research.google.com/github/JotaBlanco/TheValley/blob/main/Arboles/Clase_03_Arboles/03A_%7C_Repaso_I_sobre_%C3%81rboles_Decisi%C3%B3n.ipynb)




## 0101 Qué es un árbol de decisión?
Un tipo de algoritmo de aprendizaje supervisado que se basa en realizar particiones recursivas a partir de distintos niveles de las variables disponibles.

## 0102 Import
Importamos todas las librerías necesarias para este análisis ([¿No sabes lo que es una librería de Python?](https://www.quora.com/What-is-a-Python-library-and-what-can-I-use-it-for)): pandas, numpy, seaborn, matplotlib.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## 0103 Carga el dataset del Titanic
Recordais el dataset del Titanic?

Vamos a hacer un árbol de decisión que prediga si alguien fallece o no. Este mismo ejemplo lo resolvisteis en el [notebook 1A](https://colab.research.google.com/github/JotaBlanco/TheValley/blob/main/Arboles/Clase_01_Arboles/01_A_%C3%81rboles_Decisi%C3%B3n_Clasificaci%C3%B3n_Resuelto.ipynb#scrollTo=V66-xgckYMQs).

Para ello utilizaremos un dataset previamente transformado, ya listo para entrenar un árbol. Puedes encontrarlo en mi github. Este es el link al archivo raw: https://raw.githubusercontent.com/JotaBlanco/TheValley/main/Data/Titanic_Limpio.csv.

Importa los datos en un dataframe llamado **dataframe df_titanic**.

In [None]:
# Url archivo raw
url = 'https://raw.githubusercontent.com/JotaBlanco/TheValley/main/Data/Titanic_Limpio.csv'

# Importa csv
df_titanic = pd.read_csv(url)

# Visualización primeras filas
df_titanic.head()

# 02 EDA
Realizaremos un pequeño análisis exploratorio visual para familiarizarnos con el dataset. 

Recuerda que puedes encontrar mis clases sobre análisis exploratorio [aquí](https://github.com/JotaBlanco/TheValley/tree/main/EDA/).

In [None]:
df_titanic.info()

In [None]:
df_titanic.describe()

In [None]:
# Visualización coeficientes Pearson
plt.figure(figsize=(8,7))
sns.heatmap(np.round(df_titanic.corr(),2), 
            vmin=-1, vmax=1, 
            annot=True, cmap="coolwarm")
plt.show()

# 03 Construcción árbol de decisión con scikit learn
Construcción de un árbol de decisión utilizando la librería [scikit learn](https://scikit-learn.org/stable/), la libería básica de referencia para machine learning.

## 0301 Importamos las librerías

In [None]:
# Nos importamos las funciones de árboles de scikit learn
from sklearn import tree

## 0302 Inicializamos el árbol
Definiendo las características que tendrá.

https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier

In [None]:
# Inicializamos un árbol. Por ahora está vacío. 
# Solo definimos cómo queremos que sea en cuanto a su estructura y condiciones de entrenamiento
arbol = tree.DecisionTreeClassifier(max_depth=3)
arbol

In [None]:
# Recuerda que si éste fuera un problema de regresión
# inicializaríamos el modelo como:
arbol_2 = tree.DecisionTreeRegressor(max_depth=3)
arbol_2

## 0303 Entrenamos el modelo
Una vez inicializado y definido el árbol, el método .[fit()](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier.fit) realiza el proceso de particionado recursivo que hemos hecho nosotros antes a mano.

In [None]:
df_titanic.head()

In [None]:
df_titanic.columns

In [None]:
# Entrenamos el árbol inicializado a partir de los datos que le pasemos con .fit()
cols = ['Pclass', 'Sex', 'SibSp', 'Parch', 'Fare', 'Age', 'Embarked_C', 'Embarked_Q', 'Embarked_S']
arbol = arbol.fit(X = df_titanic[cols],  # vars descriptivas
                  y = df_titanic['Survived'])                  # var objetico
arbol

##0304 Visualizamos el modelo
Una vez entrenado el modelo, podemos visualizarlo.

In [None]:
# Con el método export_text en un print()
esquema_print = tree.export_text(arbol, 
                                 feature_names=cols)
print(esquema_print)

In [None]:
# O con la librería graphviz
import graphviz 

# Export_graphviz
dot_data = tree.export_graphviz(arbol, 
                                out_file=None, 
                                feature_names=cols) 
graph = graphviz.Source(dot_data) 
graph

## 0405 Realizamos una predicción
Una vez el modelo está entrenado (definido) podemos pasarle datos para obtener las prediciones correspondientes de la variable objetivo. 

Para esto utilizamos el método .[predict()](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier.predict).

In [None]:
# Predicción
prediccion = arbol.predict(df_titanic[cols])

In [None]:
# Cómo de buena es la predicción?
from sklearn.metrics import accuracy_score
accuracy_score(df_titanic['Survived'], prediccion)

# 04 EJERCICIO PREDICCIÓN DIABETES

## 0401 Importa el dataset
Puedes encontrarlo en mi github. Este es el link al archivo raw: https://raw.githubusercontent.com/JotaBlanco/TheValley/main/Data/diabetesIndia.csv.

Importa los datos en un dataframe llamado **dataframe df**.

In [None]:
url = ...

df = pd.read_csv(url)

df.head()

## 0402 EDA
Puedes realizar un análisis exploratorio utilizando, por ejemplo: 

*   funciones como dataframe.info()
*   dataframe.describe() para comprobar la distribución de las variables numéricas
*   dataframe.isna().sum() para comprobar si hay nulos
*   visualización de los coeficientes de pearson para ver las correlaciones

 

## 0403 Crea el árbol de decisión
En realidad crea 3 árboles: de 3, 6 y 12 capas de profundidad.

In [None]:
df.columns

In [None]:
# Crea una lista con las variables que vamos a utilizar para predecir:
# ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
#  'BMI', 'DiabetesPedigreeFunction', 'Age']
lista = [...]

# Define el dataframe X con las variables predictivas
X = df[lista]

# Define el vector y con la variable a predecir
y = df['...']

In [None]:
# Inicializamos los distintos árboles de decisión definiendo la profundidad
arbol_3 = ...
arbol_6 = ...
arbol_12 = ..

In [None]:
# Entrena el árbol con los datos del Titanic


## 0404 Visualiza el árbol
Qué variables utiliza el árbol para inferir el riesgo de diabetes? Tiene sentido?

In [None]:
# con export_test


In [None]:
# con export_graphviz


## 0405 Realiza una predicción
Realiza una predicción con tus árboles y comprueba cuánto han acertado.

In [None]:
# Realiza una predicción con cada árbol


In [None]:
# Comprueba la precisión de cada predicción
