In [44]:
#install.packages("readxl")
#install.packages("dplyr")
#install.packages("stringr")

library(readxl)
library(dplyr)
library(stringr)

In [2]:
options(warn=-1)
dataset_sin_limpiar <- read_excel("./LAPAZ3.xlsx")

In [3]:
str(dataset_sin_limpiar)

Classes 'tbl_df', 'tbl' and 'data.frame':	485086 obs. of  25 variables:
 $ CUE               : num  6e+06 6e+06 6e+06 6e+06 6e+06 ...
 $ departamento      : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ localidad         : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ EsPrivada         : chr  "N" "N" "N" "N" ...
 $ turno             : chr  "TARDE" "TARDE" "TARDE" "TARDE" ...
 $ curso             : chr  "3 - U Prim" "1 - U Prim" "1 - U Prim" "1 - U Prim" ...
 $ periodoEvaluatorio: chr  "Tercer Trimestre" "Segundo Trimestre" "Segundo Trimestre" "Segundo Trimestre" ...
 $ idalumno          : num  726939 875616 875604 875614 875612 ...
 $ Documento         : num  53360157 55445296 55243932 54712732 55445366 ...
 $ anioLectivo       : num  2022 2022 2022 2022 2022 ...
 $ asignatura        : chr  "LENGUA" "ARTES VISUALES" "ARTES VISUALES" "ARTES VISUALES" ...
 $ nota              : chr  "6" "9" "9" "7" ...
 $ observaciones     : chr  NA NA NA NA ...
 $ idSubOrganizacion : num  41 41 41 4

In [4]:
ftable(dataset_sin_limpiar$ModEnsenaza, dataset_sin_limpiar$Modalidad)

                       Inicial   NULL Primaria Secundaria Secundaria 3 años
                                                                           
Adultos                      0      0        0      10685             14267
Agrotécnica                  0      0        0      11553                 0
Comun                       34     30   174067     218517              4752
Ed.Especial                  0      0       35          0                 0
Escuelas NINA                0      0     6155          0                 0
Formacion Profesional        0     30        0          0                 0
NULL                         0    708        0          0                 0
Técnica                      0      0        0      44253                 0

## Antes de comenzar a trabajar, hacemos una copia de nuestro dataset

In [5]:
dataset <- dataset_sin_limpiar

## Remplazamos los valores de EsPrivada a "T" y "F", verdadero y falso respectivamente, para poder transformarlos a variables lógicas. 

In [6]:
ftable(dataset$EsPrivada)

      N      S
              
 427312  57774

In [7]:
dataset$EsPrivada <- str_replace_all(dataset$EsPrivada, "S", "T")
dataset$EsPrivada <- str_replace_all(dataset$EsPrivada, "N", "F")
ftable(dataset$EsPrivada)

      F      T
              
 427312  57774

## Renombramos las columnas necesarias

In [8]:
dataset_rename <- rename(dataset, año = anioLectivo, NivelEnseñanza = NivelEnsenanza, ModEnseñanza = ModEnsenaza)

In [9]:
str(dataset_rename)

Classes 'tbl_df', 'tbl' and 'data.frame':	485086 obs. of  25 variables:
 $ CUE               : num  6e+06 6e+06 6e+06 6e+06 6e+06 ...
 $ departamento      : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ localidad         : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ EsPrivada         : chr  "F" "F" "F" "F" ...
 $ turno             : chr  "TARDE" "TARDE" "TARDE" "TARDE" ...
 $ curso             : chr  "3 - U Prim" "1 - U Prim" "1 - U Prim" "1 - U Prim" ...
 $ periodoEvaluatorio: chr  "Tercer Trimestre" "Segundo Trimestre" "Segundo Trimestre" "Segundo Trimestre" ...
 $ idalumno          : num  726939 875616 875604 875614 875612 ...
 $ Documento         : num  53360157 55445296 55243932 54712732 55445366 ...
 $ año               : num  2022 2022 2022 2022 2022 ...
 $ asignatura        : chr  "LENGUA" "ARTES VISUALES" "ARTES VISUALES" "ARTES VISUALES" ...
 $ nota              : chr  "6" "9" "9" "7" ...
 $ observaciones     : chr  NA NA NA NA ...
 $ idSubOrganizacion : num  41 41 41 4

## Agregamos una columna de año de cursado que tomará solo el año del curso. En este caso es el primer elemento del string de "curso", luego transformamos a numeric.

In [10]:
dataset_rename_curso <- mutate(dataset_rename, AñoCursado= as.numeric(str_sub(dataset_rename$curso, 1, 1)))
str(dataset_rename_curso)

Classes 'tbl_df', 'tbl' and 'data.frame':	485086 obs. of  26 variables:
 $ CUE               : num  6e+06 6e+06 6e+06 6e+06 6e+06 ...
 $ departamento      : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ localidad         : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ EsPrivada         : chr  "F" "F" "F" "F" ...
 $ turno             : chr  "TARDE" "TARDE" "TARDE" "TARDE" ...
 $ curso             : chr  "3 - U Prim" "1 - U Prim" "1 - U Prim" "1 - U Prim" ...
 $ periodoEvaluatorio: chr  "Tercer Trimestre" "Segundo Trimestre" "Segundo Trimestre" "Segundo Trimestre" ...
 $ idalumno          : num  726939 875616 875604 875614 875612 ...
 $ Documento         : num  53360157 55445296 55243932 54712732 55445366 ...
 $ año               : num  2022 2022 2022 2022 2022 ...
 $ asignatura        : chr  "LENGUA" "ARTES VISUALES" "ARTES VISUALES" "ARTES VISUALES" ...
 $ nota              : chr  "6" "9" "9" "7" ...
 $ observaciones     : chr  NA NA NA NA ...
 $ idSubOrganizacion : num  41 41 41 4

## Modificamos el tipo de dato de las columnas que nos interesan

In [11]:
dataset_rename_curso$turno <- as.factor(dataset_rename_curso$turno)
dataset_rename_curso$Modalidad <- as.factor(dataset_rename_curso$Modalidad)
dataset_rename_curso$nota <- as.numeric(dataset_rename_curso$nota)
dataset_rename_curso$EsPrivada <- as.logical(dataset_rename_curso$EsPrivada)
dataset_rename_curso$ModEnseñanza <- as.factor(dataset_rename_curso$ModEnseñanza)

In [12]:
str(dataset_rename_curso)

Classes 'tbl_df', 'tbl' and 'data.frame':	485086 obs. of  26 variables:
 $ CUE               : num  6e+06 6e+06 6e+06 6e+06 6e+06 ...
 $ departamento      : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ localidad         : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ EsPrivada         : logi  FALSE FALSE FALSE FALSE FALSE FALSE ...
 $ turno             : Factor w/ 8 levels "COMPLETO","DIURNO",..: 7 7 7 7 7 7 7 7 7 4 ...
 $ curso             : chr  "3 - U Prim" "1 - U Prim" "1 - U Prim" "1 - U Prim" ...
 $ periodoEvaluatorio: chr  "Tercer Trimestre" "Segundo Trimestre" "Segundo Trimestre" "Segundo Trimestre" ...
 $ idalumno          : num  726939 875616 875604 875614 875612 ...
 $ Documento         : num  53360157 55445296 55243932 54712732 55445366 ...
 $ año               : num  2022 2022 2022 2022 2022 ...
 $ asignatura        : chr  "LENGUA" "ARTES VISUALES" "ARTES VISUALES" "ARTES VISUALES" ...
 $ nota              : num  6 9 9 7 9 8 9 9 7 6 ...
 $ observaciones     : chr  NA 

In [13]:
dataset_nuevo <- select(dataset_rename_curso, CUE, EsPrivada, turno, periodoEvaluatorio, Documento, año, asignatura, nota, NivelEnseñanza, Nivel, Modalidad, ModEnseñanza, AñoCursado)
str(dataset_nuevo)

Classes 'tbl_df', 'tbl' and 'data.frame':	485086 obs. of  13 variables:
 $ CUE               : num  6e+06 6e+06 6e+06 6e+06 6e+06 ...
 $ EsPrivada         : logi  FALSE FALSE FALSE FALSE FALSE FALSE ...
 $ turno             : Factor w/ 8 levels "COMPLETO","DIURNO",..: 7 7 7 7 7 7 7 7 7 4 ...
 $ periodoEvaluatorio: chr  "Tercer Trimestre" "Segundo Trimestre" "Segundo Trimestre" "Segundo Trimestre" ...
 $ Documento         : num  53360157 55445296 55243932 54712732 55445366 ...
 $ año               : num  2022 2022 2022 2022 2022 ...
 $ asignatura        : chr  "LENGUA" "ARTES VISUALES" "ARTES VISUALES" "ARTES VISUALES" ...
 $ nota              : num  6 9 9 7 9 8 9 9 7 6 ...
 $ NivelEnseñanza    : chr  "PRIMARIO" "PRIMARIO" "PRIMARIO" "PRIMARIO" ...
 $ Nivel             : num  2 2 2 2 2 2 2 2 2 2 ...
 $ Modalidad         : Factor w/ 5 levels "Inicial","NULL",..: 3 3 3 3 3 3 3 3 3 3 ...
 $ ModEnseñanza      : Factor w/ 8 levels "Adultos","Agrotécnica",..: 3 3 3 3 3 3 3 3 3 3 ...
 $ AñoCur

## Ahora calculamos el promedio de cada estudiante usando las notas del primer, segundo y tercer trimestre

In [14]:
PrimerT <- filter(dataset_nuevo, periodoEvaluatorio=="Primer Trimestre")
PrimerT <- rename(PrimerT, NotasPrimerT=nota)

SegundoT <- filter(dataset_nuevo, periodoEvaluatorio=="Segundo Trimestre")
SegundoT <- rename(SegundoT, NotasSegundoT=nota)

TercerT <- filter(dataset_nuevo, periodoEvaluatorio=="Tercer Trimestre")
TercerT <- rename(TercerT, NotasTercerT=nota)

In [15]:
dataset_merge_trimestres <- merge(x = PrimerT, y = SegundoT, by = c("Documento", "asignatura"))
dataset_merge_trimestres <- merge(x = dataset_merge_trimestres, y = TercerT, by = c("Documento", "asignatura"))
dataset_notas <- select(dataset_merge_trimestres, CUE, EsPrivada, turno, periodoEvaluatorio, Documento, año, asignatura, NivelEnseñanza, Nivel, Modalidad, ModEnseñanza, AñoCursado, NotasPrimerT, NotasSegundoT, NotasTercerT)

In [16]:
dataset_notas_promedio <- mutate(dataset_notas, Promedio = (NotasPrimerT+NotasSegundoT+NotasTercerT)/3)

## A partir del promedio, sabremos la condición final para la materia

In [17]:
dataset_condicion_final <- mutate(dataset_notas_promedio, CondicionFinal = case_when(
    Promedio < 6 ~ "DESAPROBADO", 
    Promedio >= 6 ~ "APROBADO",
    TRUE ~ "SIN DATOS"))

In [18]:
ftable(dataset_condicion_final$CondicionFinal)

 APROBADO DESAPROBADO SIN DATOS
                               
   175603       27518      8659

In [19]:
ftable(dataset_condicion_final$Modalidad, dataset_condicion_final$ModEnseñanza)

                   Adultos Agrotécnica  Comun Ed.Especial Escuelas NINA Formacion Profesional   NULL Técnica
                                                                                                            
Inicial                  0           0      8           0             0                     0      0       0
NULL                     0           0      0           0             0                     0     86       0
Primaria                 0           0  45280           0          1725                     0      0       0
Secundaria            4117        3842 138377           0             0                     0      0   12721
Secundaria 3 años     4191           0   1433           0             0                     0      0       0

## Separamos el dataset en primaria y secundaria

In [20]:
dataset_primaria <- filter(dataset_condicion_final, ModEnseñanza == "Comun" & Modalidad == "Primaria")
dataset_secundaria <- filter(dataset_condicion_final, (ModEnseñanza == "Comun" | ModEnseñanza == "Técnica" | ModEnseñanza == "Agrotécnica") & Modalidad == "Secundaria")
ftable(dataset_secundaria$Modalidad, dataset_secundaria$ModEnseñanza)

                   Adultos Agrotécnica  Comun Ed.Especial Escuelas NINA Formacion Profesional   NULL Técnica
                                                                                                            
Inicial                  0           0      0           0             0                     0      0       0
NULL                     0           0      0           0             0                     0      0       0
Primaria                 0           0      0           0             0                     0      0       0
Secundaria               0        3842 138377           0             0                     0      0   12721
Secundaria 3 años        0           0      0           0             0                     0      0       0

## Tomamos solamente el año 2022 para cada dataset

In [21]:
dataset_primaria_2022 <- filter(dataset_primaria, año == 2022)
dataset_secundaria_2022 <- filter(dataset_secundaria, año == 2022)

In [22]:
ftable(dataset_primaria_2022$asignatura)

 Acompañamiento al Estudio ACOMPAÑAMIENTO AL ESTUDIO ARTES VISUALES Catequesis CIENCIAS NATURALES CIENCIAS SOCIALES Educación Agropecuaria EDUCACION FISICA EDUCACIÓN FÍSICA EDUCACION MUSICAL EDUCACIÓN MUSICAL EDUCACION TECNOLOGICA EDUCACIÓN TECNOLÓGICA EDUCACUÓN FÍSICA IDIOMA EXTRANJERO IDIOMA EXTRANJERO INGLES ingles INGLES Inglés LENGUA MATEMATICA Música Creatividad y comunicación Talle Tic Taller Acompañamiento al estudio Taller Acompañamiento al Estudio Taller Arte Taller Artes visuales Taller Danzarte Taller de Aceleración Taller de Acompañamiento al Estudio Taller de Artes Visuales TALLER DE ARTES VISUALES TALLER DE DEPORTE TALLER DE HUERTA Taller de Idioma Extranjero-Inglés Taller de idioma Inglés Taller de Ingles Taller de inglés Taller de Inglés TALLER DE INGLÉS Taller de JC Taller de Percusión Taller de Teatro Taller de TIC TALLER DE TIC Taller Deporte Taller Idioma Ingles Taller Inglés Taller Jugando con las Emociones Taller Lengua Extranjera Inglés Taller Marroquineria Tall

## Acondicionamos los nombres de las asignaturas de primaria para que queden homogeneas

In [23]:
# Pasamos todo a mayúsculas
dataset_primaria_2022_asignatura <- mutate(dataset_primaria_2022, asignatura = str_to_upper(dataset_primaria_2022$asignatura, locale="es"))

# Matemática
dataset_primaria_2022_asignatura <- mutate(dataset_primaria_2022_asignatura, asignatura = str_replace_all(dataset_primaria_2022_asignatura$asignatura, ".*MATEM[ÁA]TICAS?", "MATEMÁTICA"))
# Inglés
dataset_primaria_2022_asignatura <- mutate(dataset_primaria_2022_asignatura, asignatura = str_replace_all(dataset_primaria_2022_asignatura$asignatura, ".*INGL[ÉE]S", "INGLÉS"))
# Educación física
dataset_primaria_2022_asignatura <- mutate(dataset_primaria_2022_asignatura, asignatura = str_replace_all(dataset_primaria_2022_asignatura$asignatura, ".+F[IÍ]SICA", "EDUCACIÓN FÍSICA"))
sort(table(dataset_primaria_2022_asignatura$asignatura))


              TALLER DE ACELERACIÓN   MÚSICA CREATIVIDAD Y COMUNICACIÓN 
                                  3                                  15 
                TALLER DE PERCUSIÓN                   EDUCACIÓN MUSICAL 
                                 25                                  31 
              EDUCACIÓN TECNOLÓGICA                    TALLER PERCUSIÓN 
                                 31                                  45 
TALLER DE ACOMPAÑAMIENTO AL ESTUDIO               TALLER ARTES VISUALES 
                                 53                                  54 
               TALLER MARROQUINERIA                   TALLER DE DEPORTE 
                                 56                                  58 
                     TALLER DEPORTE                           TALLE TIC 
                                 60                                  71 
                        TALLER ARTE                     TALLER DANZARTE 
                                 71               

In [24]:
sort(table(dataset_secundaria_2022$asignatura))


                     CIENCIAS NATURALES FISICA  QUIMICA 
                                                      1 
                        PRODUCCION DE PLANTAS DE VIVERO 
                                                      1 
                                           CONTABILIDAD 
                                                      2 
                                                 DIBUJO 
                                                      2 
                                    DIBUJO Y CARICATURA 
                                                      2 
                        ETICA Y DEONTOLOGIA PROFESIONAL 
                                                      2 
                                                 Inglés 
                                                      2 
                            LENGUA EXTRANJERA (FRANCES) 
                                                      2 
                       SOCIOLOGIA DE LAS ORGANIZACIONES 
                              

## Ahora haremos lo mismo con el dataset de secundaria

In [25]:
dataset_secundaria_2022_asignatura <- mutate(dataset_secundaria_2022, asignatura = str_to_upper(dataset_secundaria_2022$asignatura, locale="es"))

# Biologia
dataset_secundaria_2022_asignatura <- mutate(dataset_secundaria_2022_asignatura, asignatura = str_replace_all(dataset_secundaria_2022_asignatura$asignatura, ".+BIOLOGIA.?", "BIOLOGIA"))
# Fisica y quimica
dataset_secundaria_2022_asignatura <- mutate(dataset_secundaria_2022_asignatura, asignatura = str_replace_all(dataset_secundaria_2022_asignatura$asignatura, ".+FISICO.QUIMICA.?", "FISICA Y QUIMICA"))
# Historia
dataset_secundaria_2022_asignatura <- mutate(dataset_secundaria_2022_asignatura, asignatura = str_replace_all(dataset_secundaria_2022_asignatura$asignatura, ".+HISTORIA.?", "HISTORIA"))
# Geografía
dataset_secundaria_2022_asignatura <- mutate(dataset_secundaria_2022_asignatura, asignatura = str_replace_all(dataset_secundaria_2022_asignatura$asignatura, ".+GEOGRAF[IÍ]A.?", "GEOGRAFIA"))
# Geografía
dataset_secundaria_2022_asignatura <- mutate(dataset_secundaria_2022_asignatura, asignatura = str_replace_all(dataset_secundaria_2022_asignatura$asignatura, ".*INGL[ÉE]S.?", "INGLÉS"))

sort(table(dataset_secundaria_2022_asignatura$asignatura))


                     CIENCIAS NATURALES FISICA  QUIMICA 
                                                      1 
                        PRODUCCION DE PLANTAS DE VIVERO 
                                                      1 
                                           CONTABILIDAD 
                                                      2 
                                                 DIBUJO 
                                                      2 
                                    DIBUJO Y CARICATURA 
                                                      2 
                        ETICA Y DEONTOLOGIA PROFESIONAL 
                                                      2 
                            LENGUA EXTRANJERA (FRANCES) 
                                                      2 
                       SOCIOLOGIA DE LAS ORGANIZACIONES 
                                                      2 
         TALLER EXPERIMENTAL DE PRODUCCIONES VISUALES I 
                              

## Ahora filtramos por materias troncales

In [26]:
dataset_primaria_2022_troncales <- filter(dataset_primaria_2022_asignatura, asignatura %in%
                                         c("CIENCIAS NATURALES", "CIENCIAS SOCIALES", "MATEMÁTICA", "LENGUA", 
                                           "EDUCACIÓN FÍSICA", "INGLÉS"))
dataset_secundaria_2022_troncales <- filter(dataset_secundaria_2022_asignatura, asignatura %in%
                                           c("MATEMATICA", "EDUCACION FISICA", "GEOGRAFIA", "HISTORIA", "BIOLOGIA",
                                            "LENGUA Y LITERATURA", "FISICA Y QUIMICA", "QUIMICA", "FISICA", "INGLÉS"))

In [29]:
dataset_limpio <- rbind(dataset_primaria_2022_troncales, dataset_secundaria_2022_troncales)
dim(dataset_limpio)

In [47]:
#install.packages("writexl")

library(writexl)
write_xlsx(dataset_limpio, "./lapaz_troncales_limpio.xlsx")