In [2]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix

In [3]:
combinado2018 = pd.read_csv('data/tablas/combinado2018.csv', sep=';')

In [4]:
combinado2018['PROM_GRAL'] = combinado2018['PROM_GRAL'].str.replace(',', '.').astype(float)

In [5]:
# Convertir 'FEC_NAC_ALU' a una cadena
combinado2018['FEC_NAC_ALU'] = combinado2018['FEC_NAC_ALU'].astype(str)

# Asegurarse de que la cadena tiene el formato correcto (YYYYMM)
combinado2018['FEC_NAC_ALU'] = combinado2018['FEC_NAC_ALU'].str.pad(width=6, side='left', fillchar='0')

# Convertir la cadena a un formato de fecha
combinado2018['FEC_NAC_ALU'] = pd.to_datetime(combinado2018['FEC_NAC_ALU'], format='%Y%m')

print(combinado2018['FEC_NAC_ALU'])

0         2001-04-01
1         2000-04-01
2         2001-09-01
3         2001-05-01
4         2001-07-01
             ...    
2893195   2002-07-01
2893196   2003-03-01
2893197   2001-11-01
2893198   2002-08-01
2893199   2003-06-01
Name: FEC_NAC_ALU, Length: 2893200, dtype: datetime64[ns]


In [6]:
# Crear nuevas columnas para el año y el mes
combinado2018['AGNO_NAC_ALU'] = combinado2018['FEC_NAC_ALU'].dt.year
combinado2018['MES_NAC_ALU'] = combinado2018['FEC_NAC_ALU'].dt.month

# Eliminar la columna del día
combinado2018['FEC_NAC_ALU'] = combinado2018['FEC_NAC_ALU'].dt.to_period('M')

In [7]:
# Drop Unnamed: 0      
combinado2018 = combinado2018.drop(['Unnamed: 0'], axis=1)

In [8]:
combinado2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2893200 entries, 0 to 2893199
Data columns (total 40 columns):
 #   Column          Dtype    
---  ------          -----    
 0   AGNO            int64    
 1   RBD             int64    
 2   DGV_RBD         int64    
 3   NOM_RBD         object   
 4   COD_REG_RBD     int64    
 5   NOM_REG_RBD_A   object   
 6   COD_PRO_RBD     int64    
 7   COD_COM_RBD     int64    
 8   NOM_COM_RBD     object   
 9   COD_DEPROV_RBD  int64    
 10  NOM_DEPROV_RBD  object   
 11  COD_DEPE        int64    
 12  COD_DEPE2       int64    
 13  RURAL_RBD       int64    
 14  ESTADO_ESTAB    int64    
 15  COD_ENSE        int64    
 16  COD_ENSE2       int64    
 17  COD_GRADO       int64    
 18  LET_CUR         object   
 19  COD_JOR         int64    
 20  COD_TIP_CUR     int64    
 21  COD_DES_CUR     int64    
 22  MRUN            int64    
 23  GEN_ALU         int64    
 24  FEC_NAC_ALU     period[M]
 25  EDAD_ALU        int64    
 26  COD_REG_ALU   

In [9]:
combinado2018 = combinado2018.drop(['FEC_NAC_ALU'], axis=1)

In [10]:
combinado2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2893200 entries, 0 to 2893199
Data columns (total 39 columns):
 #   Column          Dtype  
---  ------          -----  
 0   AGNO            int64  
 1   RBD             int64  
 2   DGV_RBD         int64  
 3   NOM_RBD         object 
 4   COD_REG_RBD     int64  
 5   NOM_REG_RBD_A   object 
 6   COD_PRO_RBD     int64  
 7   COD_COM_RBD     int64  
 8   NOM_COM_RBD     object 
 9   COD_DEPROV_RBD  int64  
 10  NOM_DEPROV_RBD  object 
 11  COD_DEPE        int64  
 12  COD_DEPE2       int64  
 13  RURAL_RBD       int64  
 14  ESTADO_ESTAB    int64  
 15  COD_ENSE        int64  
 16  COD_ENSE2       int64  
 17  COD_GRADO       int64  
 18  LET_CUR         object 
 19  COD_JOR         int64  
 20  COD_TIP_CUR     int64  
 21  COD_DES_CUR     int64  
 22  MRUN            int64  
 23  GEN_ALU         int64  
 24  EDAD_ALU        int64  
 25  COD_REG_ALU     int64  
 26  COD_COM_ALU     int64  
 27  NOM_COM_ALU     object 
 28  COD_RAMA    

In [11]:
marzo2018 = pd.read_csv('data/asistencia/2018/20180816_Asistencia_Marzo_2018_20180415_PUBL.csv', sep=';')

In [12]:
marzo2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3328379 entries, 0 to 3328378
Data columns (total 26 columns):
 #   Column           Dtype 
---  ------           ----- 
 0   AGNO             int64 
 1   MES_ESCOLAR      int64 
 2   RBD              int64 
 3   DGV_RBD          int64 
 4   NOM_RBD          object
 5   COD_REG_RBD      int64 
 6   COD_PRO_RBD      int64 
 7   COD_COM_RBD      int64 
 8   NOM_COM_RBD      object
 9   COD_DEPROV_RBD   int64 
 10  NOM_DEPROV_RBD   object
 11  RURAL_RBD        int64 
 12  COD_DEPE         int64 
 13  COD_DEPE2        int64 
 14  COD_ENSE         int64 
 15  COD_ENSE2        int64 
 16  COD_GRADO        int64 
 17  LET_CUR          object
 18  MRUN             int64 
 19  GEN_ALU          int64 
 20  FEC_NAC_ALU      int64 
 21  COD_COM_ALU      int64 
 22  NOM_COM_ALU      object
 23  DIAS_ASISTIDOS   int64 
 24  DIAS_TRABAJADOS  int64 
 25  ASIS_PROMEDIO    object
dtypes: int64(20), object(6)
memory usage: 660.2+ MB


In [13]:
marzo2018 = marzo2018[['MRUN', 'DIAS_ASISTIDOS', 'DIAS_TRABAJADOS', 'ASIS_PROMEDIO']]

In [14]:
# Convertir ASIS_PROMEDIO a float
marzo2018['ASIS_PROMEDIO'] = marzo2018['ASIS_PROMEDIO'].str.replace(',', '.').astype(float)

In [15]:
marzo2018.head()

Unnamed: 0,MRUN,DIAS_ASISTIDOS,DIAS_TRABAJADOS,ASIS_PROMEDIO
0,710054,4,9,0.4444
1,4895728,2,9,0.2222
2,7519082,3,9,0.3333
3,7752592,9,9,1.0
4,8445111,8,9,0.8889


In [16]:
# Join de los dos dataframes con la clave comun de MRUN
combinado2018 = pd.merge(combinado2018, marzo2018, on='MRUN')

In [17]:
combinado2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2650576 entries, 0 to 2650575
Data columns (total 42 columns):
 #   Column           Dtype  
---  ------           -----  
 0   AGNO             int64  
 1   RBD              int64  
 2   DGV_RBD          int64  
 3   NOM_RBD          object 
 4   COD_REG_RBD      int64  
 5   NOM_REG_RBD_A    object 
 6   COD_PRO_RBD      int64  
 7   COD_COM_RBD      int64  
 8   NOM_COM_RBD      object 
 9   COD_DEPROV_RBD   int64  
 10  NOM_DEPROV_RBD   object 
 11  COD_DEPE         int64  
 12  COD_DEPE2        int64  
 13  RURAL_RBD        int64  
 14  ESTADO_ESTAB     int64  
 15  COD_ENSE         int64  
 16  COD_ENSE2        int64  
 17  COD_GRADO        int64  
 18  LET_CUR          object 
 19  COD_JOR          int64  
 20  COD_TIP_CUR      int64  
 21  COD_DES_CUR      int64  
 22  MRUN             int64  
 23  GEN_ALU          int64  
 24  EDAD_ALU         int64  
 25  COD_REG_ALU      int64  
 26  COD_COM_ALU      int64  
 27  NOM_COM_ALU 

In [18]:
# cambiar nombre DIAS_ASISTIDOS a DIAS_ASISTIDOS_MARZO
combinado2018 = combinado2018.rename(columns={'DIAS_ASISTIDOS': 'DIAS_ASISTIDOS_MARZO'})

In [19]:
# Cambiar nombre de DIAS_TRABAJADOS a DIAS_TRABAJADOS_MARZO
combinado2018 = combinado2018.rename(columns={'DIAS_TRABAJADOS': 'DIAS_TRABAJADOS_MARZO'})

In [20]:
# Cambiar nombre de ASIS_PROMEDIO a ASIS_PROMEDIO_MARZO
combinado2018 = combinado2018.rename(columns={'ASIS_PROMEDIO': 'ASIS_PROMEDIO_MARZO'})

In [21]:
combinado2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2650576 entries, 0 to 2650575
Data columns (total 42 columns):
 #   Column                 Dtype  
---  ------                 -----  
 0   AGNO                   int64  
 1   RBD                    int64  
 2   DGV_RBD                int64  
 3   NOM_RBD                object 
 4   COD_REG_RBD            int64  
 5   NOM_REG_RBD_A          object 
 6   COD_PRO_RBD            int64  
 7   COD_COM_RBD            int64  
 8   NOM_COM_RBD            object 
 9   COD_DEPROV_RBD         int64  
 10  NOM_DEPROV_RBD         object 
 11  COD_DEPE               int64  
 12  COD_DEPE2              int64  
 13  RURAL_RBD              int64  
 14  ESTADO_ESTAB           int64  
 15  COD_ENSE               int64  
 16  COD_ENSE2              int64  
 17  COD_GRADO              int64  
 18  LET_CUR                object 
 19  COD_JOR                int64  
 20  COD_TIP_CUR            int64  
 21  COD_DES_CUR            int64  
 22  MRUN              

In [22]:
# Importar asistencia de abril
abril2018 = pd.read_csv('data/asistencia/2018/20180830_Asistencia_Abril_2018_20180515_PUBL.csv', sep=';')

In [23]:
abril2018 = abril2018[['MRUN', 'DIAS_ASISTIDOS', 'DIAS_TRABAJADOS', 'ASIS_PROMEDIO']]

In [24]:
abril2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3390004 entries, 0 to 3390003
Data columns (total 4 columns):
 #   Column           Dtype 
---  ------           ----- 
 0   MRUN             int64 
 1   DIAS_ASISTIDOS   int64 
 2   DIAS_TRABAJADOS  int64 
 3   ASIS_PROMEDIO    object
dtypes: int64(3), object(1)
memory usage: 103.5+ MB


In [25]:
# Convertir ASIS_PROMEDIO a float
abril2018['ASIS_PROMEDIO'] = abril2018['ASIS_PROMEDIO'].str.replace(',', '.').astype(float)

In [26]:
# cambiar nombre DIAS_ASISTIDOS a DIAS_ASISTIDOS_MARZO
abril2018 = abril2018.rename(columns={'DIAS_ASISTIDOS': 'DIAS_ASISTIDOS_ABRIL'})

In [27]:
# Cambiar nombre de DIAS_TRABAJADOS a DIAS_TRABAJADOS_ABRIL
abril2018 = abril2018.rename(columns={'DIAS_TRABAJADOS': 'DIAS_TRABAJADOS_ABRIL'})

In [28]:
# Cambiar nombre de ASIS_PROMEDIO a ASIS_PROMEDIO_ABRIL
abril2018 = abril2018.rename(columns={'ASIS_PROMEDIO': 'ASIS_PROMEDIO_ABRIL'})

In [29]:
# Join de los dos dataframes con la clave comun de MRUN
combinado2018 = pd.merge(combinado2018, abril2018, on='MRUN')

In [30]:
combinado2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793440 entries, 0 to 2793439
Data columns (total 45 columns):
 #   Column                 Dtype  
---  ------                 -----  
 0   AGNO                   int64  
 1   RBD                    int64  
 2   DGV_RBD                int64  
 3   NOM_RBD                object 
 4   COD_REG_RBD            int64  
 5   NOM_REG_RBD_A          object 
 6   COD_PRO_RBD            int64  
 7   COD_COM_RBD            int64  
 8   NOM_COM_RBD            object 
 9   COD_DEPROV_RBD         int64  
 10  NOM_DEPROV_RBD         object 
 11  COD_DEPE               int64  
 12  COD_DEPE2              int64  
 13  RURAL_RBD              int64  
 14  ESTADO_ESTAB           int64  
 15  COD_ENSE               int64  
 16  COD_ENSE2              int64  
 17  COD_GRADO              int64  
 18  LET_CUR                object 
 19  COD_JOR                int64  
 20  COD_TIP_CUR            int64  
 21  COD_DES_CUR            int64  
 22  MRUN              

In [31]:
# Importar asistencia de mayo
mayo2018 = pd.read_csv('data/asistencia/2018/20180720_Asistencia_Mayo_2018_20180615_PUBL.csv', sep=';')

In [32]:
mayo2018 = mayo2018[['MRUN', 'DIAS_ASISTIDOS', 'DIAS_TRABAJADOS', 'ASIS_PROMEDIO']]

In [33]:
# Convertir ASIS_PROMEDIO a float
mayo2018['ASIS_PROMEDIO'] = mayo2018['ASIS_PROMEDIO'].str.replace(',', '.').astype(float)

In [34]:
# Cambiar nombre DIAS_ASISTIDOS a DIAS_ASISTIDOS_MAYO
mayo2018 = mayo2018.rename(columns={'DIAS_ASISTIDOS': 'DIAS_ASISTIDOS_MAYO'})

In [35]:
# Cambiar nombre de DIAS_TRABAJADOS a DIAS_TRABAJADOS_MAYO
mayo2018 = mayo2018.rename(columns={'DIAS_TRABAJADOS': 'DIAS_TRABAJADOS_MAYO'})

In [36]:
# Cambiar nombre de ASIS_PROMEDIO a ASIS_PROMEDIO_MAYO
mayo2018 = mayo2018.rename(columns={'ASIS_PROMEDIO': 'ASIS_PROMEDIO_MAYO'})

In [37]:
mayo2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3436857 entries, 0 to 3436856
Data columns (total 4 columns):
 #   Column                Dtype  
---  ------                -----  
 0   MRUN                  int64  
 1   DIAS_ASISTIDOS_MAYO   int64  
 2   DIAS_TRABAJADOS_MAYO  int64  
 3   ASIS_PROMEDIO_MAYO    float64
dtypes: float64(1), int64(3)
memory usage: 104.9 MB


In [38]:
# Join de los dos dataframes con la clave comun de MRUN
combinado2018 = pd.merge(combinado2018, mayo2018, on='MRUN')

In [39]:
# Importar asistencia de junio
junio2018 = pd.read_csv('data/asistencia/2018/20180816_Asistencia_Junio_2018_20180715_PUBL.csv', sep=';')

In [40]:
# Seleccionar columnas
junio2018 = junio2018[['MRUN', 'DIAS_ASISTIDOS', 'DIAS_TRABAJADOS', 'ASIS_PROMEDIO']]

In [41]:
# Convertir ASIS_PROMEDIO a float
junio2018['ASIS_PROMEDIO'] = junio2018['ASIS_PROMEDIO'].str.replace(',', '.').astype(float)

In [42]:
# Cambiar nombre DIAS_ASISTIDOS a DIAS_ASISTIDOS_JUNIO
junio2018 = junio2018.rename(columns={'DIAS_ASISTIDOS': 'DIAS_ASISTIDOS_JUNIO'})

In [43]:
# Cambiar nombre de DIAS_TRABAJADOS a DIAS_TRABAJADOS_JUNIO
junio2018 = junio2018.rename(columns={'DIAS_TRABAJADOS': 'DIAS_TRABAJADOS_JUNIO'})

In [44]:
# Cambiar nombre de ASIS_PROMEDIO a ASIS_PROMEDIO_JUNIO
junio2018 = junio2018.rename(columns={'ASIS_PROMEDIO': 'ASIS_PROMEDIO_JUNIO'})

In [45]:
# Join de los dos dataframes con la clave comun de MRUN
combinado2018 = pd.merge(combinado2018, junio2018, on='MRUN')

In [46]:
combinado2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4041806 entries, 0 to 4041805
Data columns (total 51 columns):
 #   Column                 Dtype  
---  ------                 -----  
 0   AGNO                   int64  
 1   RBD                    int64  
 2   DGV_RBD                int64  
 3   NOM_RBD                object 
 4   COD_REG_RBD            int64  
 5   NOM_REG_RBD_A          object 
 6   COD_PRO_RBD            int64  
 7   COD_COM_RBD            int64  
 8   NOM_COM_RBD            object 
 9   COD_DEPROV_RBD         int64  
 10  NOM_DEPROV_RBD         object 
 11  COD_DEPE               int64  
 12  COD_DEPE2              int64  
 13  RURAL_RBD              int64  
 14  ESTADO_ESTAB           int64  
 15  COD_ENSE               int64  
 16  COD_ENSE2              int64  
 17  COD_GRADO              int64  
 18  LET_CUR                object 
 19  COD_JOR                int64  
 20  COD_TIP_CUR            int64  
 21  COD_DES_CUR            int64  
 22  MRUN              

In [47]:
# Importar datos de asistencia de julio
julio2018 = pd.read_csv('data/asistencia/2018/20180904_Asistencia_Julio_2018_20180815_PUBL.csv', sep=';')

In [48]:
# Seleccionar columnas
julio2018 = julio2018[['MRUN', 'DIAS_ASISTIDOS', 'DIAS_TRABAJADOS', 'ASIS_PROMEDIO']]

In [49]:
# Convertir ASIS_PROMEDIO a float
julio2018['ASIS_PROMEDIO'] = julio2018['ASIS_PROMEDIO'].str.replace(',', '.').astype(float)

In [50]:
# Cambiar nombre DIAS_ASISTIDOS a DIAS_ASISTIDOS_JULIO
julio2018 = julio2018.rename(columns={'DIAS_ASISTIDOS': 'DIAS_ASISTIDOS_JULIO'})

In [51]:
# Cambiar nombre de DIAS_TRABAJADOS a DIAS_TRABAJADOS_JULIO
julio2018 = julio2018.rename(columns={'DIAS_TRABAJADOS': 'DIAS_TRABAJADOS_JULIO'})

In [52]:
# Cambiar nombre de ASIS_PROMEDIO a ASIS_PROMEDIO_JULIO
julio2018 = julio2018.rename(columns={'ASIS_PROMEDIO': 'ASIS_PROMEDIO_JULIO'})

In [53]:
# Join de los dos dataframes con la clave comun de MRUN
combinado2018 = pd.merge(combinado2018, julio2018, on='MRUN')

In [54]:
combinado2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6758035 entries, 0 to 6758034
Data columns (total 54 columns):
 #   Column                 Dtype  
---  ------                 -----  
 0   AGNO                   int64  
 1   RBD                    int64  
 2   DGV_RBD                int64  
 3   NOM_RBD                object 
 4   COD_REG_RBD            int64  
 5   NOM_REG_RBD_A          object 
 6   COD_PRO_RBD            int64  
 7   COD_COM_RBD            int64  
 8   NOM_COM_RBD            object 
 9   COD_DEPROV_RBD         int64  
 10  NOM_DEPROV_RBD         object 
 11  COD_DEPE               int64  
 12  COD_DEPE2              int64  
 13  RURAL_RBD              int64  
 14  ESTADO_ESTAB           int64  
 15  COD_ENSE               int64  
 16  COD_ENSE2              int64  
 17  COD_GRADO              int64  
 18  LET_CUR                object 
 19  COD_JOR                int64  
 20  COD_TIP_CUR            int64  
 21  COD_DES_CUR            int64  
 22  MRUN              

In [55]:
# Importar datos de asistencia de agosto
agosto2018 = pd.read_csv('data/asistencia/2018/20181026_Asistencia_Agosto_2018_20180915_PUBL.csv', sep=';')

  agosto2018 = pd.read_csv('data/asistencia/2018/20181026_Asistencia_Agosto_2018_20180915_PUBL.csv', sep=';')


In [56]:
# Seleccionar columnas
agosto2018 = agosto2018[['MRUN', 'DIAS_ASISTIDOS', 'DIAS_TRABAJADOS', 'ASIS_PROMEDIO']]

In [57]:
# Convertir ASIS_PROMEDIO a float
agosto2018['ASIS_PROMEDIO'] = agosto2018['ASIS_PROMEDIO'].str.replace(',', '.').astype(float)

In [58]:
# Cambiar nombre DIAS_ASISTIDOS a DIAS_ASISTIDOS_AGOSTO
agosto2018 = agosto2018.rename(columns={'DIAS_ASISTIDOS': 'DIAS_ASISTIDOS_AGOSTO'})

In [59]:
# Cambiar nombre de DIAS_TRABAJADOS a DIAS_TRABAJADOS_AGOSTO
agosto2018 = agosto2018.rename(columns={'DIAS_TRABAJADOS': 'DIAS_TRABAJADOS_AGOSTO'})

In [60]:
# Cambiar nombre de ASIS_PROMEDIO a ASIS_PROMEDIO_AGOSTO
agosto2018 = agosto2018.rename(columns={'ASIS_PROMEDIO': 'ASIS_PROMEDIO_AGOSTO'})

In [61]:
# Join de los dos dataframes con la clave comun de MRUN
combinado2018 = pd.merge(combinado2018, agosto2018, on='MRUN')

In [62]:
combinado2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18703892 entries, 0 to 18703891
Data columns (total 57 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   AGNO                    int64  
 1   RBD                     int64  
 2   DGV_RBD                 int64  
 3   NOM_RBD                 object 
 4   COD_REG_RBD             int64  
 5   NOM_REG_RBD_A           object 
 6   COD_PRO_RBD             int64  
 7   COD_COM_RBD             int64  
 8   NOM_COM_RBD             object 
 9   COD_DEPROV_RBD          int64  
 10  NOM_DEPROV_RBD          object 
 11  COD_DEPE                int64  
 12  COD_DEPE2               int64  
 13  RURAL_RBD               int64  
 14  ESTADO_ESTAB            int64  
 15  COD_ENSE                int64  
 16  COD_ENSE2               int64  
 17  COD_GRADO               int64  
 18  LET_CUR                 object 
 19  COD_JOR                 int64  
 20  COD_TIP_CUR             int64  
 21  COD_DES_CUR             int64

In [63]:
# Importar datos de asistencia de septiembre
septiembre2018 = pd.read_csv('data/asistencia/2018/20181127_Asistencia_Septiembre_2018_20181015_PUBL.csv', sep=';')

In [64]:
# Seleccionar columnas
septiembre2018 = septiembre2018[['MRUN', 'DIAS_ASISTIDOS', 'DIAS_TRABAJADOS', 'ASIS_PROMEDIO']]

In [65]:
# Convertir ASIS_PROMEDIO a float
septiembre2018['ASIS_PROMEDIO'] = septiembre2018['ASIS_PROMEDIO'].str.replace(',', '.').astype(float)

In [66]:
# Cambiar nombre DIAS_ASISTIDOS a DIAS_ASISTIDOS_SEPTIEMBRE
septiembre2018 = septiembre2018.rename(columns={'DIAS_ASISTIDOS': 'DIAS_ASISTIDOS_SEPTIEMBRE'})

In [67]:
# Cambiar nombre de DIAS_TRABAJADOS a DIAS_TRABAJADOS_SEPTIEMBRE
septiembre2018 = septiembre2018.rename(columns={'DIAS_TRABAJADOS': 'DIAS_TRABAJADOS_SEPTIEMBRE'})

In [68]:
# Cambiar nombre de ASIS_PROMEDIO a ASIS_PROMEDIO_SEPTIEMBRE
septiembre2018 = septiembre2018.rename(columns={'ASIS_PROMEDIO': 'ASIS_PROMEDIO_SEPTIEMBRE'})

In [69]:
combinado2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18703892 entries, 0 to 18703891
Data columns (total 57 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   AGNO                    int64  
 1   RBD                     int64  
 2   DGV_RBD                 int64  
 3   NOM_RBD                 object 
 4   COD_REG_RBD             int64  
 5   NOM_REG_RBD_A           object 
 6   COD_PRO_RBD             int64  
 7   COD_COM_RBD             int64  
 8   NOM_COM_RBD             object 
 9   COD_DEPROV_RBD          int64  
 10  NOM_DEPROV_RBD          object 
 11  COD_DEPE                int64  
 12  COD_DEPE2               int64  
 13  RURAL_RBD               int64  
 14  ESTADO_ESTAB            int64  
 15  COD_ENSE                int64  
 16  COD_ENSE2               int64  
 17  COD_GRADO               int64  
 18  LET_CUR                 object 
 19  COD_JOR                 int64  
 20  COD_TIP_CUR             int64  
 21  COD_DES_CUR             int64

In [70]:
# Join de los dos dataframes con la clave comun de MRUN
combinado2018 = pd.merge(combinado2018, septiembre2018, on='MRUN')

: 

In [None]:
# Importar datos de asistencia de octubre
octubre2018 = pd.read_csv('data/asistencia/2018/20181213_Asistencia_Octubre_2018_20181115_PUBL.csv', sep=';')

In [None]:
# Seleccionar columnas
octubre2018 = octubre2018[['MRUN', 'DIAS_ASISTIDOS', 'DIAS_TRABAJADOS', 'ASIS_PROMEDIO']]

In [None]:
# Convertir ASIS_PROMEDIO a float
octubre2018['ASIS_PROMEDIO'] = octubre2018['ASIS_PROMEDIO'].str.replace(',', '.').astype(float)

In [None]:
# Cambiar nombre DIAS_ASISTIDOS a DIAS_ASISTIDOS_OCTUBRE
octubre2018 = octubre2018.rename(columns={'DIAS_ASISTIDOS': 'DIAS_ASISTIDOS_OCTUBRE'})

In [None]:
# Cambiar nombre de DIAS_TRABAJADOS a DIAS_TRABAJADOS_OCTUBRE
octubre2018 = octubre2018.rename(columns={'DIAS_TRABAJADOS': 'DIAS_TRABAJADOS_OCTUBRE'})

In [None]:
# Cambiar nombre de ASIS_PROMEDIO a ASIS_PROMEDIO_OCTUBRE
octubre2018 = octubre2018.rename(columns={'ASIS_PROMEDIO': 'ASIS_PROMEDIO_OCTUBRE'})

In [None]:
# Join de los dos dataframes con la clave comun de MRUN
combinado2018 = pd.merge(combinado2018, octubre2018, on='MRUN')

In [None]:
# Importar datos de asistencia de noviembre
noviembre2018 = pd.read_csv('data/asistencia/2018/20190107_Asistencia_Noviembre_2018_20181215_PUBL.csv', sep=';')

In [None]:
# Seleccionar columnas
noviembre2018 = noviembre2018[['MRUN', 'DIAS_ASISTIDOS', 'DIAS_TRABAJADOS', 'ASIS_PROMEDIO']]

In [None]:
# Convertir ASIS_PROMEDIO a float
noviembre2018['ASIS_PROMEDIO'] = noviembre2018['ASIS_PROMEDIO'].str.replace(',', '.').astype(float)

In [None]:
# Cambiar nombre DIAS_ASISTIDOS a DIAS_ASISTIDOS_NOVIEMBRE
noviembre2018 = noviembre2018.rename(columns={'DIAS_ASISTIDOS': 'DIAS_ASISTIDOS_NOVIEMBRE'})

In [None]:
# Cambiar nombre de DIAS_TRABAJADOS a DIAS_TRABAJADOS_NOVIEMBRE
noviembre2018 = noviembre2018.rename(columns={'DIAS_TRABAJADOS': 'DIAS_TRABAJADOS_NOVIEMBRE'})

In [None]:
# Cambiar nombre de ASIS_PROMEDIO a ASIS_PROMEDIO_NOVIEMBRE
noviembre2018 = noviembre2018.rename(columns={'ASIS_PROMEDIO': 'ASIS_PROMEDIO_NOVIEMBRE'})

In [None]:
# Join de los dos dataframes con la clave comun de MRUN
combinado2018 = pd.merge(combinado2018, noviembre2018, on='MRUN')

In [None]:
# Importar datos de asistencia de diciembre
diciembre2018 = pd.read_csv('data/asistencia/2018/20190121_Asistencia_Diciembre_2018_20190115_PUBL.csv', sep=';')

In [None]:
# Seleccionar columnas
diciembre2018 = diciembre2018[['MRUN', 'DIAS_ASISTIDOS', 'DIAS_TRABAJADOS', 'ASIS_PROMEDIO']]

In [None]:
# Convertir ASIS_PROMEDIO a float
diciembre2018['ASIS_PROMEDIO'] = diciembre2018['ASIS_PROMEDIO'].str.replace(',', '.').astype(float)

In [None]:
# Cambiar nombre DIAS_ASISTIDOS a DIAS_ASISTIDOS_DICIEMBRE
diciembre2018 = diciembre2018.rename(columns={'DIAS_ASISTIDOS': 'DIAS_ASISTIDOS_DICIEMBRE'})

In [None]:
# Cambiar nombre de DIAS_TRABAJADOS a DIAS_TRABAJADOS_DICIEMBRE
diciembre2018 = diciembre2018.rename(columns={'DIAS_TRABAJADOS': 'DIAS_TRABAJADOS_DICIEMBRE'})

In [None]:
# Cambiar nombre de ASIS_PROMEDIO a ASIS_PROMEDIO_DICIEMBRE
diciembre2018 = diciembre2018.rename(columns={'ASIS_PROMEDIO': 'ASIS_PROMEDIO_DICIEMBRE'})

In [None]:
# Join de los dos dataframes con la clave comun de MRUN
combinado2018 = pd.merge(combinado2018, diciembre2018, on='MRUN')

In [None]:
# Explortar archivo como csv
combinado2018.to_csv('data/tablas/seguimiento2018.csv', sep=';', index=False)