In [199]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix

In [200]:
combinado2018 = pd.read_csv('data/tablas/combinado2018.csv', sep=';')

In [201]:
# PROM_GRAL change , for . the datatyope is float
combinado2018['PROM_GRAL'] = combinado2018['PROM_GRAL'].str.replace(',', '.').astype(float)

In [202]:
# Convertir 'FEC_NAC_ALU' a una cadena
combinado2018['FEC_NAC_ALU'] = combinado2018['FEC_NAC_ALU'].astype(str)

# Asegurarse de que la cadena tiene el formato correcto (YYYYMM)
combinado2018['FEC_NAC_ALU'] = combinado2018['FEC_NAC_ALU'].str.pad(width=6, side='left', fillchar='0')

# Convertir la cadena a un formato de fecha
combinado2018['FEC_NAC_ALU'] = pd.to_datetime(combinado2018['FEC_NAC_ALU'], format='%Y%m')

print(combinado2018['FEC_NAC_ALU'])

0         2001-04-01
1         2000-04-01
2         2001-09-01
3         2001-05-01
4         2001-07-01
             ...    
2893195   2002-07-01
2893196   2003-03-01
2893197   2001-11-01
2893198   2002-08-01
2893199   2003-06-01
Name: FEC_NAC_ALU, Length: 2893200, dtype: datetime64[ns]


In [203]:
combinado2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2893200 entries, 0 to 2893199
Data columns (total 39 columns):
 #   Column          Dtype         
---  ------          -----         
 0   Unnamed: 0      int64         
 1   AGNO            int64         
 2   RBD             int64         
 3   DGV_RBD         int64         
 4   NOM_RBD         object        
 5   COD_REG_RBD     int64         
 6   NOM_REG_RBD_A   object        
 7   COD_PRO_RBD     int64         
 8   COD_COM_RBD     int64         
 9   NOM_COM_RBD     object        
 10  COD_DEPROV_RBD  int64         
 11  NOM_DEPROV_RBD  object        
 12  COD_DEPE        int64         
 13  COD_DEPE2       int64         
 14  RURAL_RBD       int64         
 15  ESTADO_ESTAB    int64         
 16  COD_ENSE        int64         
 17  COD_ENSE2       int64         
 18  COD_GRADO       int64         
 19  LET_CUR         object        
 20  COD_JOR         int64         
 21  COD_TIP_CUR     int64         
 22  COD_DES_CUR     in

In [204]:
# Drop Unnamed: 0      
combinado2018 = combinado2018.drop(['Unnamed: 0'], axis=1)

In [205]:
# Drop "NOM_RBD", "NOM_REG_RBD_A", "NOM_COM_RBD", "NOM_DEPROV_RBD", "LET_CUR", "NOM_COM_ALU", "SIT_FIN"
combinado2018 = combinado2018.drop(["NOM_RBD", "NOM_REG_RBD_A", "NOM_COM_RBD", "NOM_DEPROV_RBD", "LET_CUR", "NOM_COM_ALU", "SIT_FIN" ], axis=1)

In [206]:
combinado2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2893200 entries, 0 to 2893199
Data columns (total 31 columns):
 #   Column          Dtype         
---  ------          -----         
 0   AGNO            int64         
 1   RBD             int64         
 2   DGV_RBD         int64         
 3   COD_REG_RBD     int64         
 4   COD_PRO_RBD     int64         
 5   COD_COM_RBD     int64         
 6   COD_DEPROV_RBD  int64         
 7   COD_DEPE        int64         
 8   COD_DEPE2       int64         
 9   RURAL_RBD       int64         
 10  ESTADO_ESTAB    int64         
 11  COD_ENSE        int64         
 12  COD_ENSE2       int64         
 13  COD_GRADO       int64         
 14  COD_JOR         int64         
 15  COD_TIP_CUR     int64         
 16  COD_DES_CUR     int64         
 17  MRUN            int64         
 18  GEN_ALU         int64         
 19  FEC_NAC_ALU     datetime64[ns]
 20  EDAD_ALU        int64         
 21  COD_REG_ALU     int64         
 22  COD_COM_ALU     in

In [207]:
# Crear nuevas columnas para el año y el mes
combinado2018['AGNO_NAC_ALU'] = combinado2018['FEC_NAC_ALU'].dt.year
combinado2018['MES_NAC_ALU'] = combinado2018['FEC_NAC_ALU'].dt.month

# Eliminar la columna del día
combinado2018['FEC_NAC_ALU'] = combinado2018['FEC_NAC_ALU'].dt.to_period('M')

In [208]:
combinado2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2893200 entries, 0 to 2893199
Data columns (total 33 columns):
 #   Column          Dtype    
---  ------          -----    
 0   AGNO            int64    
 1   RBD             int64    
 2   DGV_RBD         int64    
 3   COD_REG_RBD     int64    
 4   COD_PRO_RBD     int64    
 5   COD_COM_RBD     int64    
 6   COD_DEPROV_RBD  int64    
 7   COD_DEPE        int64    
 8   COD_DEPE2       int64    
 9   RURAL_RBD       int64    
 10  ESTADO_ESTAB    int64    
 11  COD_ENSE        int64    
 12  COD_ENSE2       int64    
 13  COD_GRADO       int64    
 14  COD_JOR         int64    
 15  COD_TIP_CUR     int64    
 16  COD_DES_CUR     int64    
 17  MRUN            int64    
 18  GEN_ALU         int64    
 19  FEC_NAC_ALU     period[M]
 20  EDAD_ALU        int64    
 21  COD_REG_ALU     int64    
 22  COD_COM_ALU     int64    
 23  COD_RAMA        int64    
 24  COD_SEC         int64    
 25  COD_ESPE        int64    
 26  PROM_GRAL     

In [209]:
combinado2018['FEC_NAC_ALU']

0          2001-04
1          2000-04
2          2001-09
3          2001-05
4          2001-07
            ...   
2893195    2002-07
2893196    2003-03
2893197    2001-11
2893198    2002-08
2893199    2003-06
Name: FEC_NAC_ALU, Length: 2893200, dtype: period[M]

In [210]:
# Drop FEC_NAC_ALU
combinado2018 = combinado2018.drop(['FEC_NAC_ALU'], axis=1)

In [211]:
combinado2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2893200 entries, 0 to 2893199
Data columns (total 32 columns):
 #   Column          Dtype  
---  ------          -----  
 0   AGNO            int64  
 1   RBD             int64  
 2   DGV_RBD         int64  
 3   COD_REG_RBD     int64  
 4   COD_PRO_RBD     int64  
 5   COD_COM_RBD     int64  
 6   COD_DEPROV_RBD  int64  
 7   COD_DEPE        int64  
 8   COD_DEPE2       int64  
 9   RURAL_RBD       int64  
 10  ESTADO_ESTAB    int64  
 11  COD_ENSE        int64  
 12  COD_ENSE2       int64  
 13  COD_GRADO       int64  
 14  COD_JOR         int64  
 15  COD_TIP_CUR     int64  
 16  COD_DES_CUR     int64  
 17  MRUN            int64  
 18  GEN_ALU         int64  
 19  EDAD_ALU        int64  
 20  COD_REG_ALU     int64  
 21  COD_COM_ALU     int64  
 22  COD_RAMA        int64  
 23  COD_SEC         int64  
 24  COD_ESPE        int64  
 25  PROM_GRAL       float64
 26  ASISTENCIA      int64  
 27  SIT_FIN_R       object 
 28  DESERTOR    

In [212]:
combinado2018['SIT_FIN_R'].unique()

array(['R', 'T', 'Y', 'P', ' '], dtype=object)

In [213]:
combinado2018['SIT_FIN_R'].value_counts()

SIT_FIN_R
P    2569757
T     189897
R      79319
Y      53805
         422
Name: count, dtype: int64

In [214]:
# Eliminar valores nulos de 'SIT_FIN_R'
combinado2018 = combinado2018.dropna(subset=['SIT_FIN_R'])

In [215]:
combinado2018['SIT_FIN_R'].unique()

array(['R', 'T', 'Y', 'P', ' '], dtype=object)

In [216]:
import numpy as np

combinado2018['SIT_FIN_R'].replace(' ', np.nan, inplace=True)

In [217]:
most_common = combinado2018['SIT_FIN_R'].mode()[0]
combinado2018['SIT_FIN_R'] = combinado2018['SIT_FIN_R'].fillna(most_common)

In [218]:
combinado2018['SIT_FIN_R'] = combinado2018['SIT_FIN_R'].fillna('Unknown')

In [219]:
# Verificar valores nulos
combinado2018.isnull().sum()

AGNO                  0
RBD                   0
DGV_RBD               0
COD_REG_RBD           0
COD_PRO_RBD           0
COD_COM_RBD           0
COD_DEPROV_RBD        0
COD_DEPE              0
COD_DEPE2             0
RURAL_RBD             0
ESTADO_ESTAB          0
COD_ENSE              0
COD_ENSE2             0
COD_GRADO             0
COD_JOR               0
COD_TIP_CUR           0
COD_DES_CUR           0
MRUN                  0
GEN_ALU               0
EDAD_ALU              0
COD_REG_ALU           0
COD_COM_ALU           0
COD_RAMA              0
COD_SEC               0
COD_ESPE              0
PROM_GRAL             0
ASISTENCIA            0
SIT_FIN_R             0
DESERTOR              0
COD_MEN           79315
AGNO_NAC_ALU          0
MES_NAC_ALU           0
dtype: int64

In [220]:
# Drop COD_MEN
combinado2018 = combinado2018.drop(['COD_MEN'], axis=1)

In [221]:
# Dummies  de variable SIT_FIN_R
# combinado2018 = pd.get_dummies(combinado2018, columns=['SIT_FIN_R'])

In [222]:
combinado2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2893200 entries, 0 to 2893199
Data columns (total 31 columns):
 #   Column          Dtype  
---  ------          -----  
 0   AGNO            int64  
 1   RBD             int64  
 2   DGV_RBD         int64  
 3   COD_REG_RBD     int64  
 4   COD_PRO_RBD     int64  
 5   COD_COM_RBD     int64  
 6   COD_DEPROV_RBD  int64  
 7   COD_DEPE        int64  
 8   COD_DEPE2       int64  
 9   RURAL_RBD       int64  
 10  ESTADO_ESTAB    int64  
 11  COD_ENSE        int64  
 12  COD_ENSE2       int64  
 13  COD_GRADO       int64  
 14  COD_JOR         int64  
 15  COD_TIP_CUR     int64  
 16  COD_DES_CUR     int64  
 17  MRUN            int64  
 18  GEN_ALU         int64  
 19  EDAD_ALU        int64  
 20  COD_REG_ALU     int64  
 21  COD_COM_ALU     int64  
 22  COD_RAMA        int64  
 23  COD_SEC         int64  
 24  COD_ESPE        int64  
 25  PROM_GRAL       float64
 26  ASISTENCIA      int64  
 27  SIT_FIN_R       object 
 28  DESERTOR    

In [223]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

In [224]:
X = combinado2018.drop('DESERTOR', axis=1)
y = combinado2018['DESERTOR']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [225]:
numeric_features = ['AGNO', 'RBD', 'DGV_RBD', 'COD_REG_RBD', 'COD_PRO_RBD', 'COD_COM_RBD', 'COD_DEPROV_RBD', 'COD_DEPE', 'COD_DEPE2', 'RURAL_RBD', 'ESTADO_ESTAB', 'COD_ENSE', 'COD_ENSE2', 'COD_GRADO', 'COD_JOR', 'COD_TIP_CUR', 'COD_DES_CUR', 'MRUN', 'GEN_ALU', 'COD_REG_ALU', 'COD_COM_ALU', 'COD_RAMA', 'COD_SEC', 'COD_ESPE','EDAD_ALU', 'PROM_GRAL', 'ASISTENCIA','AGNO_NAC_ALU', 'MES_NAC_ALU']  
categorical_features = ['SIT_FIN_R']  

In [226]:
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(), categorical_features)
    ])

In [227]:
clf = Pipeline(steps=[('preprocessor', preprocessor),
                      ('classifier', RandomForestClassifier())])

In [228]:
X_train.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2025240 entries, 1381675 to 2219110
Data columns (total 30 columns):
 #   Column          Dtype  
---  ------          -----  
 0   AGNO            int64  
 1   RBD             int64  
 2   DGV_RBD         int64  
 3   COD_REG_RBD     int64  
 4   COD_PRO_RBD     int64  
 5   COD_COM_RBD     int64  
 6   COD_DEPROV_RBD  int64  
 7   COD_DEPE        int64  
 8   COD_DEPE2       int64  
 9   RURAL_RBD       int64  
 10  ESTADO_ESTAB    int64  
 11  COD_ENSE        int64  
 12  COD_ENSE2       int64  
 13  COD_GRADO       int64  
 14  COD_JOR         int64  
 15  COD_TIP_CUR     int64  
 16  COD_DES_CUR     int64  
 17  MRUN            int64  
 18  GEN_ALU         int64  
 19  EDAD_ALU        int64  
 20  COD_REG_ALU     int64  
 21  COD_COM_ALU     int64  
 22  COD_RAMA        int64  
 23  COD_SEC         int64  
 24  COD_ESPE        int64  
 25  PROM_GRAL       float64
 26  ASISTENCIA      int64  
 27  SIT_FIN_R       object 
 28  AGNO_NAC_AL

In [229]:
y_train.info()

<class 'pandas.core.series.Series'>
Index: 2025240 entries, 1381675 to 2219110
Series name: DESERTOR
Non-Null Count    Dtype
--------------    -----
2025240 non-null  int64
dtypes: int64(1)
memory usage: 30.9 MB


In [230]:
clf.fit(X_train, y_train)