##**1. Árboles de Decisión para Regresión**

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
from google.colab import files
files.upload()

In [None]:
data_frame = pd.read_csv("3.3.2 turbines_df.csv")
data_frame.head(15)

In [None]:
data_frame.shape

In [None]:
data_frame.dtypes

In [None]:
# ANÁLISIS DE VALORES NULOS

for feature in data_frame.columns:
    print('Total de valores nulos de', feature, '=', data_frame[feature].isna().sum())

In [None]:
# DEFINICIÓN VALORES ÚNICOS

for feature in data_frame.columns:
    print('Valores únicos de', feature, '=', data_frame[feature].unique())

In [None]:
# MEDIDAS ESTADÍSTICAS BÁSICAS

data_frame.describe()

In [None]:
# CONSIDERANDO SÓLO LAS COLUMNAS DEL TIPO OBJECT

import numpy as np
data_frame.describe(include=[np.object])

In [None]:
for col in ['rotor_diameter_m','hub_height_m', 'commissioning_date']:
    fig, ax =plt.subplots(1, 2, figsize=(15, 6))
    fig.suptitle(col, fontsize=18)
    sns.distplot(data_frame[col], ax=ax[0], kde=False)
    data_frame[[col]+['turbine_capacity']].plot.scatter(x=col,y='turbine_capacity', ax=ax[1])

plt.show()

In [None]:
# ANÁLISIS DE CORRELACIÓN DE VARIABLES

plt.figure(figsize=(10,10))
p=sns.heatmap(data_frame.corr(), annot=True,cmap='RdYlGn',square=True)

##**2. Implementación en Función de los Datos**

In [None]:
y_train

In [None]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split

X = data_frame[['rotor_diameter_m','hub_height_m']]
y = data_frame.turbine_capacity

# DIVIDIR LOS DATOS EN ENTRENAMIENTO Y PRUEBA PARA EVALUAR EL MODELO

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,random_state = 29)
modelo = DecisionTreeRegressor(max_depth = 5, random_state = 29)

# ENTRENAMIENTO DEL MODELO
modelo.fit(X_train, y_train)

# VALIDACIÓN DEL MODELO
Y_pred = modelo.predict(X_test)

# EVALUACIÓN DEL MODELO
print('Precisión del modelo (en entrenamiento):', modelo.score(X_train,y_train))
print('Precisión del modelo (en validación):', modelo.score(X_test, y_test))

###**2.1. Representación Gráfica del Árbol de Decisión**

In [None]:
from sklearn.tree import plot_tree

fig, ax = plt.subplots(figsize=(35, 15))

print(f"Profundidad del Árbol: {modelo.get_depth()}")
print(f"Número de Nodos Terminales: {modelo.get_n_leaves()}")

plot = plot_tree(
            decision_tree = modelo,
            feature_names = data_frame.drop(columns = ["province_territory",
            "model","turbine_capacity"]).columns,
            class_names = 'turbine_capacity',filled = True,impurity = False,
            fontsize = 10,precision = 2,ax = ax)