# Agrupamiento de datos mediante H2O
A continuación se desea recategorizar y agrupar las variables de _Calle1 y Calle2_, ya que éstas poseen demasiados datos, como para realizar un _one hot encoding_. Esta agrupación de datos, se realizó mediante el algoritmo descenso de gradiente de la librería __H2O__.

<br>

Para poder hacer uso de esta librería se deben ejecutar los siguientes comandos en la terminal en modo administrador del sistema:
> pip install requests \
> pip install tabulate \
> pip install future

Una vez instalados esos paquetes, se debe desinstalar cualquier instancia preexistente de h2o:
> pip uninstall h2o

Se vuele a instalar una nueva instancia de h2o>
> pip install -f ht<span>tp://</span>h2o-release.s3.amazonaws.com/h2o/latest_stable_Py.html h2o

<hr>

## Previsualización de los datos

In [264]:
import pandas as pd
import io
from sklearn import tree
import matplotlib.pyplot as plt
import numpy as np
from sklearn.metrics import roc_curve, auc
import random
import sys
import h2o

# Configuracion de pandas para que no bloque asignaciones masivas
pd.options.mode.chained_assignment = None

# Se carga el dataset
df = pd.read_csv("../data_unida/Dataset_unido_imputado.csv")
df.head()

Unnamed: 0,X,Y,Anio,Comuna,Calle1,Calle2,Numero,Interseccion,Fallecidos,Graves,MenosGraves,Leves
0,-70.714761,-33.621957,2013,SAN BERNARDO,PRESIDENTE JORGE ALESSANDRI RODRIGUEZ,,12489,0,1,0,0,0
1,-70.713433,-33.629206,2013,SAN BERNARDO,PRESIDENTE JORGE ALESSANDRI RODRIGUEZ,,20040,0,0,0,0,1
2,-70.712113,-33.601339,2013,SAN BERNARDO,CALLE 1 DE MAYO,EYZAGUIRRE,0,1,0,0,0,1
3,-70.710571,-33.601829,2013,SAN BERNARDO,CALLE 1 DE MAYO,FIDEL PINOCHET,0,1,1,0,0,0
4,-70.707259,-33.636547,2013,SANTIAGO,PORTALES,,3000,0,0,1,0,0


Se reemplazan los nulos de la variable _Calle2_ por espacios vacíos para evitar conflictos. Se elimina la columna _Numero_ del set de datos.

In [265]:
# se reemplaza el nulo de "calle 2" por espacio vacio
df["Calle2"] = df["Calle2"].apply(lambda x: "" if(x is np.nan) else x)
print("Cantidad nulos Calle2: ", df["Calle2"].isna().sum())
# se borra la varibla de "numero"
del df["Numero"]

Cantidad nulos Calle2:  0


In [266]:
# lista de variables
l=list()

# por cada variable predictora se crea su caracteristica
for v in df.columns:
    # diccionario
    d=dict()
    d['var']=v
    d['cardinalidad']=len(df[v].unique())# cuantos valores diferentes tiene la variable
    d['tipo']=df[v].dtype
    d['nulos']=len(df[df[v].isna()])

    if d['tipo']!='object':
        d['mean']=df[v].mean()
        d['std'] = df[v].std()
        d['max']=df[v].max()
        d['min']=df[v].min()
        d['zeros']=len(df[df[v]==0])/len(df)
    
    d['ejemplo']=','.join([str(x) for x in random.choices(df[v].unique().tolist(), k=4)])

    l.append(d)
    
# Se convierte a listado el set de datos
tabla_variables = pd.DataFrame(l)
tabla_variables

Unnamed: 0,var,cardinalidad,tipo,nulos,mean,std,max,min,zeros,ejemplo
0,X,9237,float64,0,-70.643993,0.066069,-70.48242,-70.921865,0.0,"-70.6616569141488,-70.6418144,-70.75537000247067,-70.5516894287241"
1,Y,9239,float64,0,-33.470311,0.07075,-33.088773,-33.648727,0.0,"-33.415495524569145,-33.47270439998789,-33.40926561748052,-33.5234..."
2,Anio,5,int64,0,2015.084316,1.427747,2017.0,2013.0,0.0,2015201320142015
3,Comuna,39,object,0,,,,,,"PROVIDENCIA,TILTIL,LA CISTERNA,LA FLORIDA"
4,Calle1,1952,object,0,,,,,,"DIAGONAL DE LOS LAGOS,DOCTOR RAIMUNDO CHARLIN,GENERAL GANA,DE LA G..."
5,Calle2,2399,object,0,,,,,,"TENIENTE YAVAR,GENERAL DEL CANTO,BLEST GANA,DOMINGO ARTEAGA"
6,Interseccion,2,int64,0,0.728109,0.444958,1.0,0.0,0.271891,0010
7,Fallecidos,4,int64,0,0.195476,0.551815,3.0,0.0,0.877801,0003
8,Graves,6,int64,0,0.426237,0.787258,5.0,0.0,0.70473,3324
9,MenosGraves,4,int64,0,0.095681,0.325608,3.0,0.0,0.913843,0300


Como se puede apreciar, la variable _Calle1_ posee 1952 valores diferentes, mientras que la variable _Calle2_ posee 2399 valores diferentes. Para poder agrupar y tener una menor cardinalidad de valores, se emplea un algoritmo de descenso de gradiente de la librería h2o.

<hr>

## Se genera una instancia de máquina virutal de h2o

In [203]:
h2o.init(nthreads=-1, enable_assertions = False)

Checking whether there is an H2O instance running at http://localhost:54321 ..... not found.
Attempting to start a local H2O server...
; Java HotSpot(TM) 64-Bit Server VM (build 25.111-b14, mixed mode)
  Starting server from C:\Python39\Lib\site-packages\h2o\backend\bin\h2o.jar
  Ice root: C:\Users\crist\AppData\Local\Temp\tmptxal6is1
  JVM stdout: C:\Users\crist\AppData\Local\Temp\tmptxal6is1\h2o_crist_started_from_python.out
  JVM stderr: C:\Users\crist\AppData\Local\Temp\tmptxal6is1\h2o_crist_started_from_python.err
  Server is running at http://127.0.0.1:54321
Connecting to H2O server at http://127.0.0.1:54321 ... successful.


0,1
H2O_cluster_uptime:,03 secs
H2O_cluster_timezone:,America/Santiago
H2O_data_parsing_timezone:,UTC
H2O_cluster_version:,3.34.0.3
H2O_cluster_version_age:,2 months and 1 day
H2O_cluster_name:,H2O_from_python_crist_sgflzn
H2O_cluster_total_nodes:,1
H2O_cluster_free_memory:,14.08 Gb
H2O_cluster_total_cores:,16
H2O_cluster_allowed_cores:,16


### Calle 1
Se hace pasa a variable dummie _Calle1_ de forma personalizada y se deja como variable dependiente la de _Fallecidos_.

In [267]:
xvar = "Calle1"
yvar = "Fallecidos"
df[xvar] = df[xvar].apply(lambda x: "Calle1_"+str(x))

Se valida que se hayan creado las variables dummies en base a que el set de datos posee mayor número de columnas.

In [268]:
df.shape

(9239, 11)

In [269]:
df[xvar].value_counts()

Calle1_LIBERTADOR BERNARDO OHIGGINS        221
Calle1_GRAN AVENIDA JOSE MIGUEL CARRERA    151
Calle1_VICUNA MACKENNA                     144
Calle1_SAN PABLO                           136
Calle1_CONCHA Y TORO                       121
                                          ... 
Calle1_ALCALDE JORGE MONCKEBERG              1
Calle1_EL PINAR                              1
Calle1_TIROS                                 1
Calle1_GENERAL BAQUEDANO                     1
Calle1_VOLCAN SOCOMPA                        1
Name: Calle1, Length: 1952, dtype: int64

In [270]:
df.dtypes

X               float64
Y               float64
Anio              int64
Comuna           object
Calle1           object
Calle2           object
Interseccion      int64
Fallecidos        int64
Graves            int64
MenosGraves       int64
Leves             int64
dtype: object

Se pasa el dataframe de _pandas_ a dataframe de _h2o_.

In [271]:
hf = h2o.H2OFrame(df)

Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%


In [272]:
hf

X,Y,Anio,Comuna,Calle1,Calle2,Interseccion,Fallecidos,Graves,MenosGraves,Leves
-70.7148,-33.622,2013,SAN BERNARDO,Calle1_PRESIDENTE JORGE ALESSANDRI RODRIGUEZ,,0,1,0,0,0
-70.7134,-33.6292,2013,SAN BERNARDO,Calle1_PRESIDENTE JORGE ALESSANDRI RODRIGUEZ,,0,0,0,0,1
-70.7121,-33.6013,2013,SAN BERNARDO,Calle1_CALLE 1 DE MAYO,EYZAGUIRRE,1,0,0,0,1
-70.7106,-33.6018,2013,SAN BERNARDO,Calle1_CALLE 1 DE MAYO,FIDEL PINOCHET,1,1,0,0,0
-70.7073,-33.6365,2013,SANTIAGO,Calle1_PORTALES,,0,0,1,0,0
-70.7061,-33.6076,2013,SAN BERNARDO,Calle1_EUCALIPTUS,BULNES,1,0,0,0,1
-70.7037,-33.6136,2013,SAN BERNARDO,Calle1_MATEO DE TORO Y ZAMBRANO,LAS AGATAS,1,0,0,0,1
-70.6992,-33.6186,2013,SAN BERNARDO,Calle1_DIEGO PORTALES,CENTRAL,1,0,0,0,1
-70.6971,-33.6004,2013,SAN BERNARDO,Calle1_BAQUEDANO,,0,0,0,0,1
-70.6947,-33.6192,2013,SAN BERNARDO,Calle1_CENTRAL,LOS ALERCES,1,0,0,0,1




Se importa el algoritmo de descenso de gradiente de h2o para agrupar la variable de _Calle1_.

In [273]:
from h2o.estimators import H2OGradientBoostingEstimator

Se configuran los siguientes hiper-parámetros para el algoritmo:
- __ntrees = 10000__: puesto que el set de datos está dentro de un rango de "pocos datos" respecto a la capacidad de la librería.
- __learn_rate = 0.05__: se emplea un ratio de aprendizaje, ya que es lo recomendable para los set de datos en general.
- __min_rows = 10__: mínimo de filas asognadas a los nodos hijos o terminales.
- __sample_rate = 0.8 y col_sample_rate = 0.8__: es el rango recomendable para el muestreo que se realice por columna y/o fila.
- __max_depth = 0__: corresponde a que sea un número infinito de árboles de profundidad del árbol, para así maximizar la categorización de la variable.
- __nfolds = 4__: es el valor recomendado para set de datos pequeños.
- __seed = 1213__: es un valor aleatorio de inicio para el algoritmo.
- __score_tree_interval = 10__: cada 10 árboles va puntuando para que evaluar una posible detención de la rama en cuestión. Esta se relaciona con los siguientes 2 hiperparámetros.
- __stopping_rounds = 5 y stopping_tolerance = 0.0001__: lo que evalúa cada 10 árboles es que, si para 5 árboles consecutivos la métrica de precisión no ha variado en un más de un 0.001%, se detenga dicha rama. 

Esa configuración de hiperparámetros se empleó para agrupar los campos de _Calle1_ y _Calle2_.

In [274]:
tree_var = H2OGradientBoostingEstimator(ntrees = 10000,
                                        learn_rate = 0.05, 
                                        learn_rate_annealing = 0.99,
                                        min_rows = 10, 
                                        sample_rate = 0.8,            
                                        col_sample_rate = 0.8,                                        
                                        max_depth = 0,
                                        nfolds = 4,
                                        seed = 1213,
                                        score_tree_interval = 10,
                                        stopping_rounds = 5,
                                        stopping_tolerance = 0.0001)

In [275]:
tree_var.train(x = xvar, 
               y = yvar, 
               training_frame = hf)

gbm Model Build progress: |██████████████████████████████████████████████████████| (done) 100%
Model Details
H2OGradientBoostingEstimator :  Gradient Boosting Machine
Model Key:  GBM_model_python_1638996084700_7


Model Summary: 


Unnamed: 0,Unnamed: 1,number_of_trees,number_of_internal_trees,model_size_in_bytes,min_depth,max_depth,mean_depth,min_leaves,max_leaves,mean_leaves
0,,60.0,60.0,849456.0,11.0,22.0,14.766666,100.0,154.0,128.9




ModelMetricsRegression: gbm
** Reported on train data. **

MSE: 0.22282008569862272
RMSE: 0.4720382248278445
MAE: 0.26101722700194946
RMSLE: 0.2746830099054999
Mean Residual Deviance: 0.22282008569862272

ModelMetricsRegression: gbm
** Reported on cross-validation data. **

MSE: 0.3050922900754029
RMSE: 0.5523516000478345
MAE: 0.29708233320718774
RMSLE: 0.3244209642943317
Mean Residual Deviance: 0.3050922900754029

Cross-Validation Metrics Summary: 


Unnamed: 0,Unnamed: 1,mean,sd,cv_1_valid,cv_2_valid,cv_3_valid,cv_4_valid
0,mae,0.294711,0.002653,0.293719,0.293605,0.29865,0.29287
1,mean_residual_deviance,0.309107,0.004819,0.304724,0.307188,0.315926,0.308591
2,mse,0.309107,0.004819,0.304724,0.307188,0.315926,0.308591
3,r2,-0.015622,0.023834,-0.004812,-0.023788,-0.044487,0.010598
4,residual_deviance,0.309107,0.004819,0.304724,0.307188,0.315926,0.308591
5,rmse,0.555961,0.004322,0.552018,0.554245,0.562073,0.555509
6,rmsle,0.327315,0.003737,0.324571,0.32767,0.33247,0.324547



Scoring History: 


Unnamed: 0,Unnamed: 1,timestamp,duration,number_of_trees,training_rmse,training_mae,training_deviance
0,,2021-12-08 18:07:18,1.989 sec,0.0,0.551785,0.343177,0.304467
1,,2021-12-08 18:07:18,2.110 sec,10.0,0.505734,0.30881,0.255767
2,,2021-12-08 18:07:18,2.231 sec,20.0,0.487083,0.288834,0.23725
3,,2021-12-08 18:07:18,2.342 sec,30.0,0.478842,0.276584,0.22929
4,,2021-12-08 18:07:18,2.450 sec,40.0,0.475019,0.269151,0.225643
5,,2021-12-08 18:07:18,2.559 sec,50.0,0.473121,0.26414,0.223843
6,,2021-12-08 18:07:19,2.663 sec,60.0,0.472038,0.261017,0.22282



Variable Importances: 


Unnamed: 0,variable,relative_importance,scaled_importance,percentage
0,Calle1,9999.841797,1.0,1.0




Según las métricas, se puede observar que se construyeron 60 árboles en total. El error cuadrático medio (RMSE) da un valor de 0.47 y con validación cruzada de 0.55 de acuerdo a las métricas arrojadas por el modelo resultante. Como se está agrupando una categoría y no se está prediciendo; se puede observar que la agrupación que se está realizando es buena debido al valor no extremo de RMSE.

In [276]:
# Se obtienen las nuevas categorias
new_var = tree_var.predict_leaf_node_assignment(hf)
# Se observa cuantas categorias son en total
len(new_var.unique())

112

Se realiza la predicción del nodo al que pertenece la observación para obtener la categoría que le corresponde.

In [277]:
nueva = h2o.as_list(new_var)["T1"].tolist()
tabla = pd.DataFrame({"var" : df[xvar], "new_var" : nueva})
tabla

Unnamed: 0,var,new_var
0,Calle1_PRESIDENTE JORGE ALESSANDRI RODRIGUEZ,RLLLLL
1,Calle1_PRESIDENTE JORGE ALESSANDRI RODRIGUEZ,RLLLLL
2,Calle1_CALLE 1 DE MAYO,LLRRRLLLRL
3,Calle1_CALLE 1 DE MAYO,LLRRRLLLRL
4,Calle1_PORTALES,RLLRRRL
...,...,...
9234,Calle1_AHUMADA,LLRRLLLL
9235,Calle1_SAN DIEGO,RLLLLL
9236,Calle1_ARTESANOS,LLRRLLLL
9237,Calle1_LO OVALLE,RLRLLLRR


Calles que pertenecen a cada una de las nuevas categorías.

In [278]:
tabla.groupby("new_var")["var"].apply(lambda x : ','.join(x)).reset_index()

Unnamed: 0,new_var,var
0,LLL,"Calle1_2 ORIENTE,Calle1_11 DE SEPTIEMBRE,Calle1_11 DE SEPTIEMBRE,C..."
1,LLRLLL,"Calle1_4 ALAMOS,Calle1_9 DE ENERO,Calle1_6 PONIENTE,Calle1_4 VIENT..."
2,LLRLLRL,"Calle1_5 DE ABRIL,Calle1_5 DE ABRIL,Calle1_5 DE ABRIL,Calle1_5 DE ..."
3,LLRLLRR,"Calle1_3 PONIENTE,Calle1_3 PONIENTE,Calle1_3 PONIENTE,Calle1_3 PON..."
4,LLRLR,"Calle1_4 PONIENTE,Calle1_8 DE ENERO,Calle1_4 PONIENTE,Calle1_4 PON..."
...,...,...
107,RRLLRR,"Calle1_VICUNA MACKENNA ORIENTE,Calle1_VICUNA MACKENNA ORIENTE,Call..."
108,RRLRLL,"Calle1_PADRE ALBERTO HURTADO,Calle1_PADRE ALBERTO HURTADO,Calle1_P..."
109,RRLRLR,"Calle1_PAICAVI,Calle1_OSORNO,Calle1_VICHUQUEN,Calle1_ZANARTU,Calle..."
110,RRLRR,"Calle1_TORO MAZOTTE,Calle1_TUCAPEL,Calle1_TUCAPEL,Calle1_VICUNA MA..."


Se añade la nueva categoría de calle sobre una copia del set de datos original

In [279]:
df_copia = df.copy()
df_copia["Calle1_CAT"] = tabla["new_var"]
df_copia.head()

Unnamed: 0,X,Y,Anio,Comuna,Calle1,Calle2,Interseccion,Fallecidos,Graves,MenosGraves,Leves,Calle1_CAT
0,-70.714761,-33.621957,2013,SAN BERNARDO,Calle1_PRESIDENTE JORGE ALESSANDRI RODRIGUEZ,,0,1,0,0,0,RLLLLL
1,-70.713433,-33.629206,2013,SAN BERNARDO,Calle1_PRESIDENTE JORGE ALESSANDRI RODRIGUEZ,,0,0,0,0,1,RLLLLL
2,-70.712113,-33.601339,2013,SAN BERNARDO,Calle1_CALLE 1 DE MAYO,EYZAGUIRRE,1,0,0,0,1,LLRRRLLLRL
3,-70.710571,-33.601829,2013,SAN BERNARDO,Calle1_CALLE 1 DE MAYO,FIDEL PINOCHET,1,1,0,0,0,LLRRRLLLRL
4,-70.707259,-33.636547,2013,SANTIAGO,Calle1_PORTALES,,0,0,1,0,0,RLLRRRL


In [280]:
# Se borra la categoria antigua de "Calle1"
del df_copia["Calle1"]
df_copia.head()

Unnamed: 0,X,Y,Anio,Comuna,Calle2,Interseccion,Fallecidos,Graves,MenosGraves,Leves,Calle1_CAT
0,-70.714761,-33.621957,2013,SAN BERNARDO,,0,1,0,0,0,RLLLLL
1,-70.713433,-33.629206,2013,SAN BERNARDO,,0,0,0,0,1,RLLLLL
2,-70.712113,-33.601339,2013,SAN BERNARDO,EYZAGUIRRE,1,0,0,0,1,LLRRRLLLRL
3,-70.710571,-33.601829,2013,SAN BERNARDO,FIDEL PINOCHET,1,1,0,0,0,LLRRRLLLRL
4,-70.707259,-33.636547,2013,SANTIAGO,,0,0,1,0,0,RLLRRRL


## A continuación se realiza el mismo proceso para la categoría de _Calle2_

In [281]:
xvar = "Calle2"
yvar = "Fallecidos"
df_copia[xvar] = df_copia[xvar].apply(lambda x: "Calle2_"+str(x))

In [282]:
df_copia[xvar].value_counts()

Calle2_                                    2580
Calle2_AMERICO VESPUCIO                      80
Calle2_LIBERTADOR BERNARDO OHIGGINS          59
Calle2_VICUNA MACKENNA                       48
Calle2_GRAN AVENIDA JOSE MIGUEL CARRERA      37
                                           ... 
Calle2_NUNEZ DE BALBOA                        1
Calle2_ILOCA                                  1
Calle2_VALLE CENTRAL                          1
Calle2_NANCU                                  1
Calle2_VILLA SUR                              1
Name: Calle2, Length: 2399, dtype: int64

In [283]:
hf2 = h2o.H2OFrame(df_copia)
hf2

Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%


X,Y,Anio,Comuna,Calle2,Interseccion,Fallecidos,Graves,MenosGraves,Leves,Calle1_CAT
-70.7148,-33.622,2013,SAN BERNARDO,Calle2_,0,1,0,0,0,RLLLLL
-70.7134,-33.6292,2013,SAN BERNARDO,Calle2_,0,0,0,0,1,RLLLLL
-70.7121,-33.6013,2013,SAN BERNARDO,Calle2_EYZAGUIRRE,1,0,0,0,1,LLRRRLLLRL
-70.7106,-33.6018,2013,SAN BERNARDO,Calle2_FIDEL PINOCHET,1,1,0,0,0,LLRRRLLLRL
-70.7073,-33.6365,2013,SANTIAGO,Calle2_,0,0,1,0,0,RLLRRRL
-70.7061,-33.6076,2013,SAN BERNARDO,Calle2_BULNES,1,0,0,0,1,LLRRLLLL
-70.7037,-33.6136,2013,SAN BERNARDO,Calle2_LAS AGATAS,1,0,0,0,1,RLLLLL
-70.6992,-33.6186,2013,SAN BERNARDO,Calle2_CENTRAL,1,0,0,0,1,LLRRLRLLRL
-70.6971,-33.6004,2013,SAN BERNARDO,Calle2_,0,0,0,0,1,LLRRLLLL
-70.6947,-33.6192,2013,SAN BERNARDO,Calle2_LOS ALERCES,1,0,0,0,1,LLRRLLRLLL




In [284]:
# Se usa el mismo modelo configurado para la "Calle1"
tree_var.train(x = xvar, 
               y = yvar, 
               training_frame = hf2)

gbm Model Build progress: |██████████████████████████████████████████████████████| (done) 100%
Model Details
H2OGradientBoostingEstimator :  Gradient Boosting Machine
Model Key:  GBM_model_python_1638996084700_8


Model Summary: 


Unnamed: 0,Unnamed: 1,number_of_trees,number_of_internal_trees,model_size_in_bytes,min_depth,max_depth,mean_depth,min_leaves,max_leaves,mean_leaves
0,,60.0,60.0,900638.0,12.0,37.0,23.266666,101.0,216.0,173.46666




ModelMetricsRegression: gbm
** Reported on train data. **

MSE: 0.1890190591648035
RMSE: 0.43476322195512757
MAE: 0.233151736004444
RMSLE: 0.25461136516477234
Mean Residual Deviance: 0.1890190591648035

ModelMetricsRegression: gbm
** Reported on cross-validation data. **

MSE: 0.3424690744078402
RMSE: 0.585208573423049
MAE: 0.29682231084068306
RMSLE: 0.3416546823508833
Mean Residual Deviance: 0.3424690744078402

Cross-Validation Metrics Summary: 


Unnamed: 0,Unnamed: 1,mean,sd,cv_1_valid,cv_2_valid,cv_3_valid,cv_4_valid
0,mae,0.294555,0.008333,0.298792,0.288574,0.28668,0.304176
1,mean_residual_deviance,0.351011,0.020316,0.355296,0.337232,0.333567,0.37795
2,mse,0.351011,0.020316,0.355296,0.337232,0.333567,0.37795
3,r2,-0.15252,0.048868,-0.171569,-0.123919,-0.10281,-0.211783
4,residual_deviance,0.351011,0.020316,0.355296,0.337232,0.333567,0.37795
5,rmse,0.592278,0.01704,0.596067,0.580717,0.577553,0.614777
6,rmsle,0.34589,0.008785,0.348862,0.339909,0.337845,0.356943



Scoring History: 


Unnamed: 0,Unnamed: 1,timestamp,duration,number_of_trees,training_rmse,training_mae,training_deviance
0,,2021-12-08 18:07:36,2.403 sec,0.0,0.551785,0.343177,0.304467
1,,2021-12-08 18:07:36,2.506 sec,10.0,0.487491,0.297725,0.237647
2,,2021-12-08 18:07:36,2.625 sec,20.0,0.458829,0.270925,0.210524
3,,2021-12-08 18:07:36,2.759 sec,30.0,0.445868,0.254722,0.198798
4,,2021-12-08 18:07:36,2.898 sec,40.0,0.439573,0.244318,0.193224
5,,2021-12-08 18:07:36,3.038 sec,50.0,0.436474,0.237519,0.190509
6,,2021-12-08 18:07:36,3.196 sec,60.0,0.434763,0.233152,0.189019



Variable Importances: 


Unnamed: 0,variable,relative_importance,scaled_importance,percentage
0,Calle2,14677.773438,1.0,1.0




De acuerdo al reporte arrojado por la aplicación del algoritmo, se puede apreciar que se generaron 60 árboles en total. El error cuadrático medio (RMSE) da un valor de 0.43 y con validación cruzada de 0.58 de acuerdo a las métricas arrojadas por el modelo resultante. Como se está agrupando una categoría y no se está prediciendo; se puede observar que la agrupación que se está realizando es buena debido al valor no extremo de RMSE.

In [285]:
new_var = tree_var.predict_leaf_node_assignment(hf2)
len(new_var.unique())

101

Se realiza la predicción del nodo al que pertenece la observación para obtener la categoría que le corresponde.

In [286]:
nueva = h2o.as_list(new_var)["T1"].tolist()
tabla = pd.DataFrame({"var" : df_copia[xvar], "new_var" : nueva})
tabla

Unnamed: 0,var,new_var
0,Calle2_,LR
1,Calle2_,LR
2,Calle2_EYZAGUIRRE,RRLLLLLLRLRLR
3,Calle2_FIDEL PINOCHET,RRLLLLLLRRLRL
4,Calle2_,LR
...,...,...
9234,Calle2_AGUSTINAS,RRLLLLLLLLL
9235,Calle2_ELEUTERIO RAMIREZ,RRLLLLLLRLLLL
9236,Calle2_SALAS,RRRLLLL
9237,Calle2_IQUIQUE,RRLLLLLLRLLRRLR


In [287]:
tabla.groupby("new_var")["var"].apply(lambda x : ','.join(x)).reset_index()

Unnamed: 0,new_var,var
0,LL,"Calle2_10 NORTE,Calle2_11 DE SEPTIEMBRE,Calle2_10 DE JULIO HUAMACH..."
1,LR,"Calle2_,Calle2_,Calle2_,Calle2_,Calle2_,Calle2_,Calle2_,Calle2_,Ca..."
2,RLLLL,"Calle2_13 SUR,Calle2_15 SUR,Calle2_2 SUR,Calle2_5 ORIENTE,Calle2_2..."
3,RLLLR,"Calle2_4 PONIENTE,Calle2_4 PONIENTE,Calle2_4 PONIENTE,Calle2_4 PON..."
4,RLLR,"Calle2_3 PONIENTE,Calle2_3 PONIENTE,Calle2_3 PONIENTE,Calle2_3 PON..."
...,...,...
96,RRRRLRR,"Calle2_RAFAEL RIESCO BERNALES,Calle2_RUIZ TAGLE,Calle2_RUIZ TAGLE,..."
97,RRRRRLL,"Calle2_SANTA CECILIA,Calle2_STA MARTA,Calle2_STA MARTA,Calle2_TORO..."
98,RRRRRLRL,"Calle2_SENADOR JAIME GUZMAN,Calle2_SENADOR JAIME GUZMAN,Calle2_NIC..."
99,RRRRRLRR,"Calle2_PRIMERA TRANSVERSAL,Calle2_RIO LAUCA,Calle2_RANQUIL,Calle2_..."


In [288]:
df_copia["Calle2_CAT"] = tabla["new_var"]
df_copia.head()

Unnamed: 0,X,Y,Anio,Comuna,Calle2,Interseccion,Fallecidos,Graves,MenosGraves,Leves,Calle1_CAT,Calle2_CAT
0,-70.714761,-33.621957,2013,SAN BERNARDO,Calle2_,0,1,0,0,0,RLLLLL,LR
1,-70.713433,-33.629206,2013,SAN BERNARDO,Calle2_,0,0,0,0,1,RLLLLL,LR
2,-70.712113,-33.601339,2013,SAN BERNARDO,Calle2_EYZAGUIRRE,1,0,0,0,1,LLRRRLLLRL,RRLLLLLLRLRLR
3,-70.710571,-33.601829,2013,SAN BERNARDO,Calle2_FIDEL PINOCHET,1,1,0,0,0,LLRRRLLLRL,RRLLLLLLRRLRL
4,-70.707259,-33.636547,2013,SANTIAGO,Calle2_,0,0,1,0,0,RLLRRRL,LR


In [289]:
# Borramos la categoria antigua de "Calle1"
del df_copia["Calle2"]
df_copia.head()

Unnamed: 0,X,Y,Anio,Comuna,Interseccion,Fallecidos,Graves,MenosGraves,Leves,Calle1_CAT,Calle2_CAT
0,-70.714761,-33.621957,2013,SAN BERNARDO,0,1,0,0,0,RLLLLL,LR
1,-70.713433,-33.629206,2013,SAN BERNARDO,0,0,0,0,1,RLLLLL,LR
2,-70.712113,-33.601339,2013,SAN BERNARDO,1,0,0,0,1,LLRRRLLLRL,RRLLLLLLRLRLR
3,-70.710571,-33.601829,2013,SAN BERNARDO,1,1,0,0,0,LLRRRLLLRL,RRLLLLLLRRLRL
4,-70.707259,-33.636547,2013,SANTIAGO,0,0,1,0,0,RLLRRRL,LR


Se exporta este nuevo set de datos con la nueva categorizacion de las calles

In [290]:
df_copia.to_csv("../data_unida/Dataset_unido_imputado2.csv", index = False)
print("Dataset exportado!")

Dataset exportado!


Se cierra la instancia virtual de h2o

In [291]:
h2o.cluster().shutdown()

H2O session _sid_9baf closed.
