In [7]:
import os
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest, f_regression, SelectFromModel
from sklearn.linear_model import LassoCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.inspection import permutation_importance
import matplotlib.pyplot as plt
import seaborn as sns

In [8]:
df_csv = pd.read_csv(r"C:\Users\irwin\Downloads\Sin_GZ.csv")
df_csv

Unnamed: 0,POLIZA,SUBRAMO,INCISO,SINIESTRO,VIGENCIA,TIPO DE VEHICULO,MARCA VEHICULO,DESCRIPCION VEHICULO,MODELO,SERIE VEHICULO,...,CNS_RC,CNS_OTROS,RVA_DM,RVA_RT,RVA_RC,RVA_GM,RVA_OTROS,RANGO TERMINO,CONTADOR,RANGO MONTO
0,VCI756140700,4,18,MT10310O,22-23,EP,INTERNATIONAL,INTERNATIONAL 7,2011,3HTWGAZT1CN551335,...,17280.0,0,0,0,0.0,0,0,0-30,1,0 a 25mil
1,VCI756140700,4,16,MT13650O,22-23,EP,INTERNATIONAL,INTERNATIONAL 4,2013,3HAMMAAR0DL437025,...,3000.0,0,0,0,0.0,0,0,0-30,1,0 a 25mil
2,VCI756140700,4,5,MT24431O,22-23,EP,KENWORTH,GRUA INDUSTRIAL,2001,12748,...,0.0,0,0,0,0.0,0,0,0-30,1,0 a 25mil
3,VCI756140700,4,9,MT25458O,22-23,EP,KENWORTH,GRUA HIDRAULICA,2007,14553,...,22800.0,0,0,0,0.0,0,0,0-30,1,0 a 25mil
4,VCI756140800,4,4,MT08771P,23-24,EP,INTERNATIONAL,CHASIS CABINA 4,2002,3HTNKAAR42N545750,...,20419.0,0,0,0,0.0,0,0,31-90,1,0 a 25mil
5,VCI756140800,4,11,MT09279P,23-24,EP,INTERNATIONAL,INTERNATIONAL 7,2010,3HTWGAZT9AN268372,...,0.0,0,0,0,0.0,0,0,151-180,1,0 a 25mil
6,VCI756140800,4,11,MT12527P,23-24,EP,INTERNATIONAL,INTERNATIONAL 7,2010,3HTWGAZT9AN268372,...,20934.0,0,0,0,0.0,0,0,0-30,1,0 a 25mil
7,VCI817210300,4,15,MT13282P,23-24,EP,INTERNATIONAL,CHASIS CABINA 4,2013,3HAMMAARXDL321086,...,0.0,0,0,0,0.0,0,0,más de 180,1,0 a 25mil
8,VCI756140800,4,20,MT13880P,23-24,EP,INTERNATIONAL,INTERNATIONAL 4,2011,3HAMMAAR1BL454350,...,21511.0,0,0,0,0.0,0,0,31-90,1,0 a 25mil
9,VCI817210300,4,11,MT14856P,23-24,EP,IMPORTADO,KENWORTH T600,2006,3WKAD40X06F628861,...,16450.0,0,0,0,0.0,0,0,151-180,1,0 a 25mil


In [9]:
# Realizamos que las variables numéricas sean de tipo float
# Variable COSTO NETO TOTAL
# 1. Remplaza la coma separadora de miles por nada (la elimina)
df_csv['COSTO NETO TOTAL'] = df_csv['COSTO NETO TOTAL'].str.replace(',', '')

# 2. Convierte la columna a numérico (float porque tiene decimales)
df_csv['COSTO NETO TOTAL'] = pd.to_numeric(df_csv['COSTO NETO TOTAL'], errors='coerce')

# Variable RESERVA
# 1. Remplaza la coma separadora de miles por nada (la elimina)
df_csv['RESERVA'] = df_csv['RESERVA'].str.replace(',', '')

# 2. Convierte la columna a numérico (float porque tiene decimales)
df_csv['RESERVA'] = pd.to_numeric(df_csv['RESERVA'], errors='coerce')

# Variable AJUSTES
# 1. Remplaza la coma separadora de miles por nada (la elimina)
df_csv['AJUSTES'] = df_csv['AJUSTES'].str.replace(',', '')

# 2. Convierte la columna a numérico (float porque tiene decimales)
df_csv['AJUSTES'] = pd.to_numeric(df_csv['AJUSTES'], errors='coerce')

# Variable PAGO
# 1. Remplaza la coma separadora de miles por nada (la elimina)
df_csv['PAGO'] = df_csv['PAGO'].str.replace(',', '')

# 2. Convierte la columna a numérico (float porque tiene decimales)
df_csv['PAGO'] = pd.to_numeric(df_csv['PAGO'], errors='coerce')

# Variable CNS_RC
# 1. Remplaza la coma separadora de miles por nada (la elimina)
df_csv['CNS_RC'] = df_csv['CNS_RC'].str.replace(',', '')

# 2. Convierte la columna a numérico (float porque tiene decimales)
df_csv['CNS_RC'] = pd.to_numeric(df_csv['CNS_RC'], errors='coerce')


In [10]:
df_csv.dtypes

POLIZA                   object
SUBRAMO                   int64
INCISO                    int64
SINIESTRO                object
VIGENCIA                 object
TIPO DE VEHICULO         object
MARCA VEHICULO           object
DESCRIPCION VEHICULO     object
MODELO                    int64
SERIE VEHICULO           object
ESTADO                   object
POBLACIÓN                object
FECHA DE SINIESTRO        int64
AÑO                       int64
MES                      object
DÍA                      object
RANGO_HORA               object
FECHA DE REPORTE          int64
FECHA CIERRE             object
ESTATUS                  object
NOMBRE CONDUCTOR         object
TIPO PERDIDA             object
CAUSA DETALLADA          object
RESPONSABILIDAD          object
COBERTURA AFECTADA       object
CDR                      object
RED                      object
TIPO TALLER/AGENCIA     float64
RESERVA                 float64
AJUSTES                 float64
PAGO                    float64
DEDUCIBL

In [None]:
sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (8,5)

In [None]:
# Realizamos un análisis exploratorio de los datos
print('Dimensiones:', df_csv.shape)
df_csv.head()

Dimensiones: (38, 50)


Unnamed: 0,POLIZA,SUBRAMO,INCISO,SINIESTRO,VIGENCIA,TIPO DE VEHICULO,MARCA VEHICULO,DESCRIPCION VEHICULO,MODELO,SERIE VEHICULO,...,CNS_RC,CNS_OTROS,RVA_DM,RVA_RT,RVA_RC,RVA_GM,RVA_OTROS,RANGO TERMINO,CONTADOR,RANGO MONTO
0,VCI756140700,4,18,MT10310O,22-23,EP,INTERNATIONAL,INTERNATIONAL 7,2011,3HTWGAZT1CN551335,...,17280.0,0,0,0,0,0,0,0-30,1,0 a 25mil
1,VCI756140700,4,16,MT13650O,22-23,EP,INTERNATIONAL,INTERNATIONAL 4,2013,3HAMMAAR0DL437025,...,3000.0,0,0,0,0,0,0,0-30,1,0 a 25mil
2,VCI756140700,4,5,MT24431O,22-23,EP,KENWORTH,GRUA INDUSTRIAL,2001,12748,...,0.0,0,0,0,0,0,0,0-30,1,0 a 25mil
3,VCI756140700,4,9,MT25458O,22-23,EP,KENWORTH,GRUA HIDRAULICA,2007,14553,...,22800.0,0,0,0,0,0,0,0-30,1,0 a 25mil
4,VCI756140800,4,4,MT08771P,23-24,EP,INTERNATIONAL,CHASIS CABINA 4,2002,3HTNKAAR42N545750,...,20419.0,0,0,0,0,0,0,31-90,1,0 a 25mil


In [None]:
# Columnas 
columnas = [ 'POLIZA', 'SUBRAMO', 'INCISO', 'SINIESTRO', 'VIGENCIA', 'TIPO DE VEHICULO',
    'MARCA VEHICULO', 'DESCRIPCION VEHICULO', 'MODELO', 'SERIE VEHICULO',
    'ESTADO', 'POBLACIÓN', 'FECHA DE SINIESTRO', 'AÑO', 'MES', 'DÍA',
    'RANGO_HORA', 'FECHA DE REPORTE', 'FECHA CIERRE', 'ESTATUS',
    'NOMBRE CONDUCTOR', 'TIPO PERDIDA', 'CAUSA DETALLADA', 'RESPONSABILIDAD',
    'COBERTURA AFECTADA', 'CDR', 'RED', 'TIPO TALLER/AGENCIA', 'RESERVA',
    'AJUSTES', 'PAGO', 'DEDUCIBLE', 'RECUPERACION', 'SALVAMENTO', 'GASTOS',
    'COSTO NETO TOTAL', 'RVA DISPONIBLE', 'CNS_DM', 'CNS_RT', 'CNS_GM',
    'CNS_RC', 'CNS_OTROS', 'RVA_DM', 'RVA_RT', 'RVA_RC', 'RVA_GM',
    'RVA_OTROS', 'RANGO TERMINO', 'CONTADOR', 'RANGO MONTO'
]    
columnas  

columnas = [c for c in columnas if c in df_csv.columns]
df = df_csv[columnas].copy()
     

In [25]:
# Columnas no numericas 
no_numericas = ['POLIZA','SINIESTRO', 'VIGENCIA', 'TIPO DE VEHICULO',
    'MARCA VEHICULO', 'DESCRIPCION VEHICULO','SERIE VEHICULO',
    'ESTADO', 'POBLACIÓN','MES', 'DÍA','RANGO_HORA','FECHA CIERRE', 'ESTATUS',
    'NOMBRE CONDUCTOR', 'TIPO PERDIDA', 'CAUSA DETALLADA', 'RESPONSABILIDAD',
    'COBERTURA AFECTADA', 'CDR', 'RED','GASTOS','RVA DISPONIBLE', 'RVA_RC','RANGO TERMINO', 'RANGO MONTO']
for c in no_numericas:
  if c not in df_csv.columns:
    no_numericas.remove(c)

no_numericas

['POLIZA',
 'SINIESTRO',
 'VIGENCIA',
 'TIPO DE VEHICULO',
 'MARCA VEHICULO',
 'DESCRIPCION VEHICULO',
 'SERIE VEHICULO',
 'ESTADO',
 'POBLACIÓN',
 'MES',
 'DÍA',
 'RANGO_HORA',
 'FECHA CIERRE',
 'ESTATUS',
 'NOMBRE CONDUCTOR',
 'TIPO PERDIDA',
 'CAUSA DETALLADA',
 'RESPONSABILIDAD',
 'CDR',
 'RED',
 'GASTOS',
 'RVA DISPONIBLE',
 'RVA_RC',
 'RANGO TERMINO']

In [26]:
# Variables numéricas
num_vars = df_csv.select_dtypes(include=[np.number]).columns.tolist()
print('Variables numéricas:', num_vars)

Variables numéricas: ['SUBRAMO', 'INCISO', 'MODELO', 'FECHA DE SINIESTRO', 'AÑO', 'FECHA DE REPORTE', 'TIPO TALLER/AGENCIA', 'RESERVA', 'AJUSTES', 'PAGO', 'DEDUCIBLE', 'RECUPERACION', 'SALVAMENTO', 'COSTO NETO TOTAL', 'CNS_DM', 'CNS_RT', 'CNS_GM', 'CNS_RC', 'CNS_OTROS', 'RVA_DM', 'RVA_RT', 'RVA_GM', 'RVA_OTROS', 'CONTADOR']


In [28]:
# Variables X y Y
X = df.drop(columns=['CDR','RED','TIPO DE VEHICULO'], errors='ignore')
# Columnas object
X = X.select_dtypes(include=[np.number])
y = df['COSTO NETO TOTAL']
print('X shape:', X.shape)

X shape: (38, 24)


In [30]:
# Quitar columnas con desviación estándar cero
X = X.loc[:, X.std() != 0]


In [32]:
X = X.replace([np.inf, -np.inf], np.nan)
X = X.fillna(0)  # o usa .dropna() si prefieres eliminar filas


In [33]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [34]:
## Método filtro: SelectKBest con ANOVA F-test para regresión
k = 7
selector = SelectKBest(score_func=f_regression, k=k)
selector.fit(X_train, y_train)
scores = selector.scores_
pvalues = selector.pvalues_
selected_mask_kbest = selector.get_support()
features_kbest = X.columns[selected_mask_kbest].tolist()

print('Top features (SelectKBest f_regression):')
for f,s,p in zip(X.columns, scores, pvalues):
  print(f'{f}: F={s:.3f}, p={p:.4g}')

print('Seleccionadas:', features_kbest)

Top features (SelectKBest f_regression):
INCISO: F=2.181, p=0.1517
MODELO: F=1.304, p=0.2638
FECHA DE SINIESTRO: F=0.361, p=0.5533
AÑO: F=0.335, p=0.5678
FECHA DE REPORTE: F=0.361, p=0.5534
TIPO TALLER/AGENCIA: F=0.000, p=1
RESERVA: F=7.137, p=0.01285
AJUSTES: F=94.423, p=3.84e-10
PAGO: F=43.339, p=5.564e-07
COSTO NETO TOTAL: F=179769313486231570814527423731704356798070567525844996598917476803157260780028538760589558632766878171540458953514382464234321326889464182768467546703537516986049910576551282076245490090389328944075868508455133942304583236903222948165808559332123348274797826204144723168738177180919299881250404026184124858368.000, p=0
CNS_RC: F=179769313486231570814527423731704356798070567525844996598917476803157260780028538760589558632766878171540458953514382464234321326889464182768467546703537516986049910576551282076245490090389328944075868508455133942304583236903222948165808559332123348274797826204144723168738177180919299881250404026184124858368.000, p=0
Seleccionadas: ['INCIS

In [35]:
## Método embebido: LassoCV (L1) — selección via coeficientes
lasso = LassoCV(cv=5, random_state=42, n_jobs=-1)
lasso.fit(X_train_scaled, y_train)
coef = lasso.coef_
selected_mask_lasso = coef != 0
features_lasso = X.columns[selected_mask_lasso].tolist()
print('Alpha elegido por LassoCV:', lasso.alpha_)
print('Características seleccionadas por Lasso:', features_lasso)
# Mostrar coeficientes
for f,c in zip(X.columns, coef):
  print(f'{f}: coef={c:.4f}')

Alpha elegido por LassoCV: 18.735475467416748
Características seleccionadas por Lasso: ['COSTO NETO TOTAL', 'CNS_RC']
INCISO: coef=-0.0000
MODELO: coef=-0.0000
FECHA DE SINIESTRO: coef=0.0000
AÑO: coef=0.0000
FECHA DE REPORTE: coef=0.0000
TIPO TALLER/AGENCIA: coef=0.0000
RESERVA: coef=0.0000
AJUSTES: coef=0.0000
PAGO: coef=0.0000
COSTO NETO TOTAL: coef=18716.7400
CNS_RC: coef=0.0000


In [36]:
## Basado en árboles: RandomForest + Permutation Importance
rf = RandomForestRegressor(n_estimators=200, random_state=42, n_jobs=-1)
rf.fit(X_train, y_train)
importances = rf.feature_importances_
feat_imp = pd.Series(importances, index=X.columns).sort_values(ascending=False)
print('Importancias (MDI) — Random Forest:')
print(feat_imp)

Importancias (MDI) — Random Forest:
COSTO NETO TOTAL       0.367922
CNS_RC                 0.358363
AJUSTES                0.114793
PAGO                   0.090499
INCISO                 0.022592
FECHA DE REPORTE       0.010859
FECHA DE SINIESTRO     0.009648
RESERVA                0.009192
MODELO                 0.008566
AÑO                    0.007566
TIPO TALLER/AGENCIA    0.000000
dtype: float64


In [37]:
# Permutation importance sobre el set de test (más seguro)
perm = permutation_importance(rf, X_test, y_test, n_repeats=30, random_state=42, n_jobs=-1)
perm_imp = pd.Series(perm.importances_mean, index=X.columns).sort_values(ascending=False)
print('Importancias por Permutation Importance:')
print(perm_imp)

Importancias por Permutation Importance:
CNS_RC                 3.119159e-01
COSTO NETO TOTAL       3.075245e-01
AJUSTES                1.264648e-01
PAGO                   6.629092e-04
TIPO TALLER/AGENCIA   -2.220446e-17
RESERVA               -7.519147e-04
MODELO                -1.410330e-03
INCISO                -2.236259e-03
AÑO                   -4.896326e-03
FECHA DE SINIESTRO    -5.175615e-03
FECHA DE REPORTE      -5.372006e-03
dtype: float64


In [39]:
## Comparación y determinación de características relevantes
# DataFrame
res = pd.DataFrame({'SelectKBest': [f in features_kbest for f in X.columns],
                    'Lasso': [f in features_lasso for f in X.columns],
                    'RF_MDI': feat_imp.reindex(X.columns).values,
                    'RF_Permutation': perm_imp.reindex(X.columns).values
                    }, index=X.columns)

In [40]:
# RF importance binary with threshold
res['RF_MDI_bin'] = res['RF_MDI'] >= np.percentile(res['RF_MDI'][res['RF_MDI']>0], 75) if any(res['RF_MDI']>0) else False
res['RF_Permutation_bin'] = res['RF_Permutation'] >= np.percentile(res['RF_Permutation'][res['RF_Permutation']>0], 75) if any(res['RF_Permutation']>0) else False

# Conteo de votos (filtrado por métodos)
res['votes'] = res[['SelectKBest','Lasso','RF_MDI_bin','RF_Permutation_bin']].sum(axis=1)
res_sorted = res.sort_values('votes', ascending=False)
res_sorted

# Features seleccionadas por mayoría (>=2 votes)
selected_final = res_sorted[res_sorted['votes']>=2].index.tolist()
print('Características finales seleccionadas (votos>=2):', selected_final)

Características finales seleccionadas (votos>=2): ['CNS_RC', 'COSTO NETO TOTAL', 'AJUSTES']


# Conclusiones 

La Permutation Importance mide cuánto empeora el rendimiento del modelo al permutar una columna mientras mantiene las demás iguales.

Si al desordenar una variable el rendimiento baja mucho, esa variable es muy importante.

Si el cambio es casi cero o negativo, la variable no aporta o incluso introduce ruido.


# *Referencias*

Scikit-learn: SelectKBest, f_regression, permutation_importance, SelectFromModel.

Breiman, L. (2001). Random Forests.

Lasso: Tibshirani (1996) — L1 regularization for feature selection.

Molnar, C. (Interpretable ML) — Permutation importance discussion.