In [47]:
#install.packages("readxl")
#install.packages("dplyr")
#install.packages("stringr")

library(readxl)
library(dplyr)
library(stringr)
library(fdth)

In [48]:
options(warn=-1)
dataset_sin_limpiar <- read_excel("./LAPAZ3.xlsx")

In [49]:
str(dataset_sin_limpiar)

Classes 'tbl_df', 'tbl' and 'data.frame':	485086 obs. of  25 variables:
 $ CUE               : num  6e+06 6e+06 6e+06 6e+06 6e+06 ...
 $ departamento      : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ localidad         : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ EsPrivada         : chr  "N" "N" "N" "N" ...
 $ turno             : chr  "TARDE" "TARDE" "TARDE" "TARDE" ...
 $ curso             : chr  "3 - U Prim" "1 - U Prim" "1 - U Prim" "1 - U Prim" ...
 $ periodoEvaluatorio: chr  "Tercer Trimestre" "Segundo Trimestre" "Segundo Trimestre" "Segundo Trimestre" ...
 $ idalumno          : num  726939 875616 875604 875614 875612 ...
 $ Documento         : num  53360157 55445296 55243932 54712732 55445366 ...
 $ anioLectivo       : num  2022 2022 2022 2022 2022 ...
 $ asignatura        : chr  "LENGUA" "ARTES VISUALES" "ARTES VISUALES" "ARTES VISUALES" ...
 $ nota              : chr  "6" "9" "9" "7" ...
 $ observaciones     : chr  NA NA NA NA ...
 $ idSubOrganizacion : num  41 41 41 4

In [50]:
ftable(dataset_sin_limpiar$ModEnsenaza, dataset_sin_limpiar$Modalidad)

                       Inicial   NULL Primaria Secundaria Secundaria 3 años
                                                                           
Adultos                      0      0        0      10685             14267
Agrotécnica                  0      0        0      11553                 0
Comun                       34     30   174067     218517              4752
Ed.Especial                  0      0       35          0                 0
Escuelas NINA                0      0     6155          0                 0
Formacion Profesional        0     30        0          0                 0
NULL                         0    708        0          0                 0
Técnica                      0      0        0      44253                 0

## Antes de comenzar a trabajar, hacemos una copia de nuestro dataset

In [51]:
dataset <- dataset_sin_limpiar

## Remplazamos los valores de EsPrivada a "T" y "F", verdadero y falso respectivamente, para poder transformarlos a variables lógicas. 

In [52]:
ftable(dataset$EsPrivada)

      N      S
              
 427312  57774

In [53]:
dataset$EsPrivada <- str_replace_all(dataset$EsPrivada, "S", "T")
dataset$EsPrivada <- str_replace_all(dataset$EsPrivada, "N", "F")
ftable(dataset$EsPrivada)

      F      T
              
 427312  57774

## Renombramos las columnas necesarias

In [54]:
dataset_rename <- rename(dataset, año = anioLectivo, NivelEnseñanza = NivelEnsenanza, ModEnseñanza = ModEnsenaza)

In [55]:
str(dataset_rename)

Classes 'tbl_df', 'tbl' and 'data.frame':	485086 obs. of  25 variables:
 $ CUE               : num  6e+06 6e+06 6e+06 6e+06 6e+06 ...
 $ departamento      : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ localidad         : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ EsPrivada         : chr  "F" "F" "F" "F" ...
 $ turno             : chr  "TARDE" "TARDE" "TARDE" "TARDE" ...
 $ curso             : chr  "3 - U Prim" "1 - U Prim" "1 - U Prim" "1 - U Prim" ...
 $ periodoEvaluatorio: chr  "Tercer Trimestre" "Segundo Trimestre" "Segundo Trimestre" "Segundo Trimestre" ...
 $ idalumno          : num  726939 875616 875604 875614 875612 ...
 $ Documento         : num  53360157 55445296 55243932 54712732 55445366 ...
 $ año               : num  2022 2022 2022 2022 2022 ...
 $ asignatura        : chr  "LENGUA" "ARTES VISUALES" "ARTES VISUALES" "ARTES VISUALES" ...
 $ nota              : chr  "6" "9" "9" "7" ...
 $ observaciones     : chr  NA NA NA NA ...
 $ idSubOrganizacion : num  41 41 41 4

## Agregamos una columna de año de cursado que tomará solo el año del curso. En este caso es el primer elemento del string de "curso", luego transformamos a numeric.

In [56]:
dataset_rename_curso <- mutate(dataset_rename, AñoCursado= as.numeric(str_sub(dataset_rename$curso, 1, 1)))
str(dataset_rename_curso)

Classes 'tbl_df', 'tbl' and 'data.frame':	485086 obs. of  26 variables:
 $ CUE               : num  6e+06 6e+06 6e+06 6e+06 6e+06 ...
 $ departamento      : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ localidad         : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ EsPrivada         : chr  "F" "F" "F" "F" ...
 $ turno             : chr  "TARDE" "TARDE" "TARDE" "TARDE" ...
 $ curso             : chr  "3 - U Prim" "1 - U Prim" "1 - U Prim" "1 - U Prim" ...
 $ periodoEvaluatorio: chr  "Tercer Trimestre" "Segundo Trimestre" "Segundo Trimestre" "Segundo Trimestre" ...
 $ idalumno          : num  726939 875616 875604 875614 875612 ...
 $ Documento         : num  53360157 55445296 55243932 54712732 55445366 ...
 $ año               : num  2022 2022 2022 2022 2022 ...
 $ asignatura        : chr  "LENGUA" "ARTES VISUALES" "ARTES VISUALES" "ARTES VISUALES" ...
 $ nota              : chr  "6" "9" "9" "7" ...
 $ observaciones     : chr  NA NA NA NA ...
 $ idSubOrganizacion : num  41 41 41 4

## Modificamos el tipo de dato de las columnas que nos interesan

In [57]:
dataset_rename_curso$turno <- as.factor(dataset_rename_curso$turno)
dataset_rename_curso$Modalidad <- as.factor(dataset_rename_curso$Modalidad)
dataset_rename_curso$nota <- as.numeric(dataset_rename_curso$nota)
dataset_rename_curso$EsPrivada <- as.logical(dataset_rename_curso$EsPrivada)
dataset_rename_curso$ModEnseñanza <- as.factor(dataset_rename_curso$ModEnseñanza)

In [58]:
str(dataset_rename_curso)

Classes 'tbl_df', 'tbl' and 'data.frame':	485086 obs. of  26 variables:
 $ CUE               : num  6e+06 6e+06 6e+06 6e+06 6e+06 ...
 $ departamento      : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ localidad         : chr  "LA PAZ" "LA PAZ" "LA PAZ" "LA PAZ" ...
 $ EsPrivada         : logi  FALSE FALSE FALSE FALSE FALSE FALSE ...
 $ turno             : Factor w/ 8 levels "COMPLETO","DIURNO",..: 7 7 7 7 7 7 7 7 7 4 ...
 $ curso             : chr  "3 - U Prim" "1 - U Prim" "1 - U Prim" "1 - U Prim" ...
 $ periodoEvaluatorio: chr  "Tercer Trimestre" "Segundo Trimestre" "Segundo Trimestre" "Segundo Trimestre" ...
 $ idalumno          : num  726939 875616 875604 875614 875612 ...
 $ Documento         : num  53360157 55445296 55243932 54712732 55445366 ...
 $ año               : num  2022 2022 2022 2022 2022 ...
 $ asignatura        : chr  "LENGUA" "ARTES VISUALES" "ARTES VISUALES" "ARTES VISUALES" ...
 $ nota              : num  6 9 9 7 9 8 9 9 7 6 ...
 $ observaciones     : chr  NA 

In [59]:
dataset_nuevo <- select(dataset_rename_curso, CUE, EsPrivada, turno, periodoEvaluatorio, Documento, año, asignatura, nota, NivelEnseñanza, Nivel, Modalidad, ModEnseñanza, AñoCursado)
str(dataset_nuevo)

Classes 'tbl_df', 'tbl' and 'data.frame':	485086 obs. of  13 variables:
 $ CUE               : num  6e+06 6e+06 6e+06 6e+06 6e+06 ...
 $ EsPrivada         : logi  FALSE FALSE FALSE FALSE FALSE FALSE ...
 $ turno             : Factor w/ 8 levels "COMPLETO","DIURNO",..: 7 7 7 7 7 7 7 7 7 4 ...
 $ periodoEvaluatorio: chr  "Tercer Trimestre" "Segundo Trimestre" "Segundo Trimestre" "Segundo Trimestre" ...
 $ Documento         : num  53360157 55445296 55243932 54712732 55445366 ...
 $ año               : num  2022 2022 2022 2022 2022 ...
 $ asignatura        : chr  "LENGUA" "ARTES VISUALES" "ARTES VISUALES" "ARTES VISUALES" ...
 $ nota              : num  6 9 9 7 9 8 9 9 7 6 ...
 $ NivelEnseñanza    : chr  "PRIMARIO" "PRIMARIO" "PRIMARIO" "PRIMARIO" ...
 $ Nivel             : num  2 2 2 2 2 2 2 2 2 2 ...
 $ Modalidad         : Factor w/ 5 levels "Inicial","NULL",..: 3 3 3 3 3 3 3 3 3 3 ...
 $ ModEnseñanza      : Factor w/ 8 levels "Adultos","Agrotécnica",..: 3 3 3 3 3 3 3 3 3 3 ...
 $ AñoCur

## Ahora calculamos el promedio de cada estudiante usando las notas del primer, segundo y tercer trimestre

In [60]:
PrimerT <- filter(dataset_nuevo, periodoEvaluatorio=="Primer Trimestre")
PrimerT <- rename(PrimerT, NotasPrimerT=nota)

SegundoT <- filter(dataset_nuevo, periodoEvaluatorio=="Segundo Trimestre")
SegundoT <- rename(SegundoT, NotasSegundoT=nota)

TercerT <- filter(dataset_nuevo, periodoEvaluatorio=="Tercer Trimestre")
TercerT <- rename(TercerT, NotasTercerT=nota)

In [61]:
dataset_merge_trimestres <- merge(x = PrimerT, y = SegundoT, by = c("Documento", "asignatura"))
dataset_merge_trimestres <- merge(x = dataset_merge_trimestres, y = TercerT, by = c("Documento", "asignatura"))
dataset_notas <- select(dataset_merge_trimestres, CUE, EsPrivada, turno, periodoEvaluatorio, Documento, año, asignatura, NivelEnseñanza, Nivel, Modalidad, ModEnseñanza, AñoCursado, NotasPrimerT, NotasSegundoT, NotasTercerT)

In [62]:
dataset_notas_promedio <- mutate(dataset_notas, Promedio = (NotasPrimerT+NotasSegundoT+NotasTercerT)/3)

## A partir del promedio, sabremos la condición final para la materia

In [63]:
dataset_condicion_final <- mutate(dataset_notas_promedio, CondicionFinal = case_when(
    Promedio < 6 ~ "DESAPROBADO", 
    Promedio >= 6 ~ "APROBADO",
    TRUE ~ "SIN DATOS"))

In [64]:
ftable(dataset_condicion_final$CondicionFinal)

 APROBADO DESAPROBADO SIN DATOS
                               
   175603       27518      8659

## La cantidad de filas con notas mal cargadas es de 8659. Esto representa un 4.26% de las notas cargadas, por lo que no consideramos que sea significativa la cantidad de notas mal cargadas.

## Ahora veremos las distribuciones entre las diferentes variables

### Por modalidad de enseñanza:

In [65]:
ftable((dataset_condicion_final %>% distinct(Documento, .keep_all = TRUE))$Modalidad)

 Inicial NULL Primaria Secundaria Secundaria 3 años
                                                   
       1    9     5336       5600               397

### Por turno

In [66]:
ftable((dataset_condicion_final %>% distinct(Documento, .keep_all = TRUE))$turno)

 COMPLETO DIURNO INTERMEDIO MAÑANA NOCHE ROTATIVO TARDE VESPERTINO
                                                                  
      112     78          2   5777   766      155  4391         62

## Ahora vemos por turno pero tomando en cuenta si es secundaria o primaria:

In [67]:
ftable((dataset_condicion_final %>% distinct(Documento, .keep_all = TRUE))$turno,
       (dataset_condicion_final %>% distinct(Documento, .keep_all = TRUE))$Modalidad)

            Inicial NULL Primaria Secundaria Secundaria 3 años
                                                              
COMPLETO          0    0      112          0                 0
DIURNO            0    0        0         78                 0
INTERMEDIO        0    0        2          0                 0
MAÑANA            1    2     2004       3755                15
NOCHE             0    0        0        387               379
ROTATIVO          0    0      142         13                 0
TARDE             0    7     3076       1305                 3
VESPERTINO        0    0        0         62                 0

## Ahora veremos la distribución entre público y privado dependiendo del nivel de enseñanza

In [68]:
ftable((dataset_condicion_final %>% distinct(Documento, .keep_all = TRUE))$EsPrivada,
       (dataset_condicion_final %>% distinct(Documento, .keep_all = TRUE))$Modalidad)

       Inicial NULL Primaria Secundaria Secundaria 3 años
                                                         
FALSE        1    9     4716       4808               397
TRUE         0    0      620        792                 0

## Separamos el dataset en primaria y secundaria

In [69]:
dataset_primaria <- filter(dataset_condicion_final, ModEnseñanza == "Comun" & Modalidad == "Primaria")
dataset_secundaria <- filter(dataset_condicion_final, (ModEnseñanza == "Comun" | ModEnseñanza == "Técnica" | ModEnseñanza == "Agrotécnica") & Modalidad == "Secundaria")
ftable(dataset_secundaria$Modalidad, dataset_secundaria$ModEnseñanza)

                   Adultos Agrotécnica  Comun Ed.Especial Escuelas NINA Formacion Profesional   NULL Técnica
                                                                                                            
Inicial                  0           0      0           0             0                     0      0       0
NULL                     0           0      0           0             0                     0      0       0
Primaria                 0           0      0           0             0                     0      0       0
Secundaria               0        3842 138377           0             0                     0      0   12721
Secundaria 3 años        0           0      0           0             0                     0      0       0

## Tomamos solamente el año 2022 para cada dataset

In [70]:
dataset_primaria_2022 <- filter(dataset_primaria, año == 2022)
dataset_secundaria_2022 <- filter(dataset_secundaria, año == 2022)

In [71]:
ftable(dataset_primaria_2022$asignatura)

 Acompañamiento al Estudio ACOMPAÑAMIENTO AL ESTUDIO ARTES VISUALES Catequesis CIENCIAS NATURALES CIENCIAS SOCIALES Educación Agropecuaria EDUCACION FISICA EDUCACIÓN FÍSICA EDUCACION MUSICAL EDUCACIÓN MUSICAL EDUCACION TECNOLOGICA EDUCACIÓN TECNOLÓGICA EDUCACUÓN FÍSICA IDIOMA EXTRANJERO IDIOMA EXTRANJERO INGLES ingles INGLES Inglés LENGUA MATEMATICA Música Creatividad y comunicación Talle Tic Taller Acompañamiento al estudio Taller Acompañamiento al Estudio Taller Arte Taller Artes visuales Taller Danzarte Taller de Aceleración Taller de Acompañamiento al Estudio Taller de Artes Visuales TALLER DE ARTES VISUALES TALLER DE DEPORTE TALLER DE HUERTA Taller de Idioma Extranjero-Inglés Taller de idioma Inglés Taller de Ingles Taller de inglés Taller de Inglés TALLER DE INGLÉS Taller de JC Taller de Percusión Taller de Teatro Taller de TIC TALLER DE TIC Taller Deporte Taller Idioma Ingles Taller Inglés Taller Jugando con las Emociones Taller Lengua Extranjera Inglés Taller Marroquineria Tall

## Acondicionamos los nombres de las asignaturas de primaria para que queden homogeneas

In [72]:
# Pasamos todo a mayúsculas
dataset_primaria_2022_asignatura <- mutate(dataset_primaria_2022, asignatura = str_to_upper(dataset_primaria_2022$asignatura, locale="es"))

# Matemática
dataset_primaria_2022_asignatura <- mutate(dataset_primaria_2022_asignatura, asignatura = str_replace_all(dataset_primaria_2022_asignatura$asignatura, ".*MATEM[ÁA]TICAS?", "MATEMÁTICA"))
# Inglés
dataset_primaria_2022_asignatura <- mutate(dataset_primaria_2022_asignatura, asignatura = str_replace_all(dataset_primaria_2022_asignatura$asignatura, ".*INGL[ÉE]S", "INGLÉS"))
# Educación física
dataset_primaria_2022_asignatura <- mutate(dataset_primaria_2022_asignatura, asignatura = str_replace_all(dataset_primaria_2022_asignatura$asignatura, ".+F[IÍ]SICA", "EDUCACIÓN FÍSICA"))
sort(table(dataset_primaria_2022_asignatura$asignatura))


              TALLER DE ACELERACIÓN   MÚSICA CREATIVIDAD Y COMUNICACIÓN 
                                  3                                  15 
                TALLER DE PERCUSIÓN                   EDUCACIÓN MUSICAL 
                                 25                                  31 
              EDUCACIÓN TECNOLÓGICA                    TALLER PERCUSIÓN 
                                 31                                  45 
TALLER DE ACOMPAÑAMIENTO AL ESTUDIO               TALLER ARTES VISUALES 
                                 53                                  54 
               TALLER MARROQUINERIA                   TALLER DE DEPORTE 
                                 56                                  58 
                     TALLER DEPORTE                           TALLE TIC 
                                 60                                  71 
                        TALLER ARTE                     TALLER DANZARTE 
                                 71               

In [73]:
sort(table(dataset_secundaria_2022$asignatura))


                     CIENCIAS NATURALES FISICA  QUIMICA 
                                                      1 
                        PRODUCCION DE PLANTAS DE VIVERO 
                                                      1 
                                           CONTABILIDAD 
                                                      2 
                                                 DIBUJO 
                                                      2 
                                    DIBUJO Y CARICATURA 
                                                      2 
                        ETICA Y DEONTOLOGIA PROFESIONAL 
                                                      2 
                                                 Inglés 
                                                      2 
                            LENGUA EXTRANJERA (FRANCES) 
                                                      2 
                       SOCIOLOGIA DE LAS ORGANIZACIONES 
                              

## Ahora haremos lo mismo con el dataset de secundaria

In [74]:
dataset_secundaria_2022_asignatura <- mutate(dataset_secundaria_2022, asignatura = str_to_upper(dataset_secundaria_2022$asignatura, locale="es"))

# Biologia
dataset_secundaria_2022_asignatura <- mutate(dataset_secundaria_2022_asignatura, asignatura = str_replace_all(dataset_secundaria_2022_asignatura$asignatura, ".+BIOLOGIA.?", "BIOLOGIA"))
# Fisica y quimica
dataset_secundaria_2022_asignatura <- mutate(dataset_secundaria_2022_asignatura, asignatura = str_replace_all(dataset_secundaria_2022_asignatura$asignatura, ".+FISICO.QUIMICA.?", "FISICA Y QUIMICA"))
# Historia
dataset_secundaria_2022_asignatura <- mutate(dataset_secundaria_2022_asignatura, asignatura = str_replace_all(dataset_secundaria_2022_asignatura$asignatura, ".+HISTORIA.?", "HISTORIA"))
# Geografía
dataset_secundaria_2022_asignatura <- mutate(dataset_secundaria_2022_asignatura, asignatura = str_replace_all(dataset_secundaria_2022_asignatura$asignatura, ".+GEOGRAF[IÍ]A.?", "GEOGRAFIA"))
# Geografía
dataset_secundaria_2022_asignatura <- mutate(dataset_secundaria_2022_asignatura, asignatura = str_replace_all(dataset_secundaria_2022_asignatura$asignatura, ".*INGL[ÉE]S.?", "INGLÉS"))

sort(table(dataset_secundaria_2022_asignatura$asignatura))


                     CIENCIAS NATURALES FISICA  QUIMICA 
                                                      1 
                        PRODUCCION DE PLANTAS DE VIVERO 
                                                      1 
                                           CONTABILIDAD 
                                                      2 
                                                 DIBUJO 
                                                      2 
                                    DIBUJO Y CARICATURA 
                                                      2 
                        ETICA Y DEONTOLOGIA PROFESIONAL 
                                                      2 
                            LENGUA EXTRANJERA (FRANCES) 
                                                      2 
                       SOCIOLOGIA DE LAS ORGANIZACIONES 
                                                      2 
         TALLER EXPERIMENTAL DE PRODUCCIONES VISUALES I 
                              

## Ahora filtramos por materias troncales

In [75]:
dataset_primaria_2022_troncales <- filter(dataset_primaria_2022_asignatura, asignatura %in%
                                         c("CIENCIAS NATURALES", "CIENCIAS SOCIALES", "MATEMÁTICA", "LENGUA", 
                                           "EDUCACIÓN FÍSICA", "INGLÉS"))
dataset_secundaria_2022_troncales <- filter(dataset_secundaria_2022_asignatura, asignatura %in%
                                           c("MATEMATICA", "EDUCACION FISICA", "GEOGRAFIA", "HISTORIA", "BIOLOGIA",
                                            "LENGUA Y LITERATURA", "FISICA Y QUIMICA", "QUIMICA", "FISICA", "INGLÉS"))

In [76]:
dataset_limpio <- rbind(dataset_primaria_2022_troncales, dataset_secundaria_2022_troncales)
dim(dataset_limpio)

In [77]:
#install.packages("writexl")

library(writexl)
write_xlsx(dataset_limpio, "./lapaz_troncales_limpio.xlsx")

## Escuelas totales, primaria y secundaria

In [78]:
length(unique(dataset_primaria_2022_troncales$CUE))

In [79]:
length(unique(dataset_secundaria_2022_troncales$CUE))

In [80]:
length(unique(dataset_limpio$CUE))

In [81]:
sort(table(dataset_secundaria_2022_troncales$CUE))


6003786 6002170 6000576 6003816 6002746 6006732 6006256 6005300 6006402 6001922 
      7      10      15      20      36      58     388     426     482     638 
6001904 6005388 6005384 6002178 6005302 6001912 6002222 6003782 6002172 6002732 
    795    1101    1109    1777    1993    2209    2457    2487    2943    4250 
6002220 6003776 
   5119   15617 

In [82]:
sort(table(dataset_primaria_2022_troncales$CUE))


6002138 6002128 6002134 6003792 6006026 6002122 6002124 6002130 6001842 6001846 
      4       5       5       5       6      10      10      10      19      20 
6001924 6002140 6002142 6001852 6002102 6002120 6001916 6001850 6004014 6002114 
     20      20      20      25      25      25      34      35      35      45 
6002108 6001840 6001908 6001848 6002104 6001838 6002118 6003778 6002106 6003790 
     50      52      55      60      60      81     115     125     174     204 
6002744 6000576 6003816 6003780 6005840 6000044 6002750 6003788 6000046 6003758 
    290     437     523     566     654     792     803     930    1022    1037 
6002746 6002180 6003820 6002170 6002176 6003794 6003786 6002182 6003776 
   1120    1348    1417    1893    2102    2127    2604    2724    2961 

## Cantidad de alumnos de la matricula por nivel en primaria

In [83]:
for (i in 1:6)
{
    rm(dataset_primaria_1)
    print(i)
    dataset_primaria_1 <- filter(dataset_primaria_2022_troncales, AñoCursado == i)
    print("Cantidad de alumnos totales:")
    print(length(unique(dataset_primaria_1$Documento)))
    print("Cantidad de alumnos totales con notas:")
    dataset_primaria_1_con_notas <- filter(dataset_primaria_1, CondicionFinal %in% c("APROBADO", "DESAPROBADO"))
    print(length(unique(dataset_primaria_1_con_notas$Documento)))
    print("--------------------------------")
}

[1] 1
[1] "Cantidad de alumnos totales:"
[1] 982
[1] "Cantidad de alumnos totales con notas:"
[1] 964
[1] "--------------------------------"
[1] 2
[1] "Cantidad de alumnos totales:"
[1] 836
[1] "Cantidad de alumnos totales con notas:"
[1] 814
[1] "--------------------------------"
[1] 3
[1] "Cantidad de alumnos totales:"
[1] 863
[1] "Cantidad de alumnos totales con notas:"
[1] 846
[1] "--------------------------------"
[1] 4
[1] "Cantidad de alumnos totales:"
[1] 840
[1] "Cantidad de alumnos totales con notas:"
[1] 827
[1] "--------------------------------"
[1] 5
[1] "Cantidad de alumnos totales:"
[1] 789
[1] "Cantidad de alumnos totales con notas:"
[1] 783
[1] "--------------------------------"
[1] 6
[1] "Cantidad de alumnos totales:"
[1] 841
[1] "Cantidad de alumnos totales con notas:"
[1] 829
[1] "--------------------------------"


## Cantidad de alumnos de la matricula por nivel en secundaria

In [84]:
for (i in 1:7)
{
    rm(dataset_secundaria_1)
    print(i)
    dataset_secundaria_1 <- filter(dataset_secundaria_2022_troncales, AñoCursado == i)
    print("Cantidad de alumnos totales:")
    print(length(unique(dataset_secundaria_1$Documento)))
    print("Cantidad de alumnos totales con notas:")
    dataset_secundaria_1_con_notas <- filter(dataset_secundaria_1, CondicionFinal %in% c("APROBADO", "DESAPROBADO"))
    print(length(unique(dataset_secundaria_1_con_notas$Documento)))
    print("--------------------------------")
}

[1] 1
[1] "Cantidad de alumnos totales:"
[1] 892
[1] "Cantidad de alumnos totales con notas:"
[1] 890
[1] "--------------------------------"
[1] 2
[1] "Cantidad de alumnos totales:"
[1] 844
[1] "Cantidad de alumnos totales con notas:"
[1] 841
[1] "--------------------------------"
[1] 3
[1] "Cantidad de alumnos totales:"
[1] 849
[1] "Cantidad de alumnos totales con notas:"
[1] 847
[1] "--------------------------------"
[1] 4
[1] "Cantidad de alumnos totales:"
[1] 763
[1] "Cantidad de alumnos totales con notas:"
[1] 762
[1] "--------------------------------"
[1] 5
[1] "Cantidad de alumnos totales:"
[1] 598
[1] "Cantidad de alumnos totales con notas:"
[1] 589
[1] "--------------------------------"
[1] 6
[1] "Cantidad de alumnos totales:"
[1] 561
[1] "Cantidad de alumnos totales con notas:"
[1] 559
[1] "--------------------------------"
[1] 7
[1] "Cantidad de alumnos totales:"
[1] 57
[1] "Cantidad de alumnos totales con notas:"
[1] 57
[1] "--------------------------------"


In [85]:
names(dataset_rename_curso)

In [87]:
str(dataset_secundaria)

'data.frame':	154940 obs. of  17 variables:
 $ CUE               : num  6e+06 6e+06 6e+06 6e+06 6e+06 ...
 $ EsPrivada         : logi  FALSE FALSE FALSE FALSE FALSE FALSE ...
 $ turno             : Factor w/ 8 levels "COMPLETO","DIURNO",..: 7 7 7 7 7 7 7 7 7 7 ...
 $ periodoEvaluatorio: chr  "Tercer Trimestre" "Tercer Trimestre" "Tercer Trimestre" "Tercer Trimestre" ...
 $ Documento         : num  10948172 10948172 10948172 12896526 12896526 ...
 $ año               : num  2022 2022 2022 2022 2022 ...
 $ asignatura        : chr  "PRACTICA PROFESIONAL" "PRODUCCION MULTIMEDIAL EN LENGUAJES ARTISTICOS" "TALLER DE PRODUCCION III" "DIBUJO Y COMPOSICION VISUAL II" ...
 $ NivelEnseñanza    : chr  "SECUNDARIO" "SECUNDARIO" "SECUNDARIO" "SECUNDARIO" ...
 $ Nivel             : num  3 3 3 3 3 3 3 3 3 3 ...
 $ Modalidad         : Factor w/ 5 levels "Inicial","NULL",..: 4 4 4 4 4 4 4 4 4 4 ...
 $ ModEnseñanza      : Factor w/ 8 levels "Adultos","Agrotécnica",..: 3 3 3 3 3 3 3 3 3 3 ...
 $ AñoCursad

## Procedemos a armar tablas de frecuencia para matemática y lengua, para cada año en cada nivel de enseñanza.

### Primaria:

In [88]:
for (i in 1:6)
{
    print(i)
    filtrado <- dplyr::filter(dataset_primaria_2022_troncales, AñoCursado == i)
    print("Tabla de frecuencia para los promedios de matemáticas")
    tf_mat <- fdt(dplyr::filter(filtrado, asignatura == "MATEMÁTICA")$Promedio, k=5, na.rm = TRUE)
    print(tf_mat)
    print("Tabla de frecuencia para los promedios de lengua")
    tf_len <- fdt(dplyr::filter(filtrado, asignatura == "LENGUA")$Promedio, k=5, na.rm = TRUE)
    print(tf_len)
}

[1] 1
[1] "Tabla de frecuencia para los promedios de matemáticas"
 Class limits   f   rf rf(%)  cf  cf(%)
    [5.9,6.8)  79 0.10  9.79  79   9.79
    [6.8,7.6)  97 0.12 12.02 176  21.81
    [7.6,8.4) 189 0.23 23.42 365  45.23
    [8.4,9.3) 186 0.23 23.05 551  68.28
     [9.3,10) 256 0.32 31.72 807 100.00
[1] "Tabla de frecuencia para los promedios de lengua"
 Class limits   f   rf rf(%)  cf  cf(%)
    [5.9,6.8)  89 0.12 11.62  89  11.62
    [6.8,7.6)  98 0.13 12.79 187  24.41
    [7.6,8.4) 192 0.25 25.07 379  49.48
    [8.4,9.3) 160 0.21 20.89 539  70.37
     [9.3,10) 227 0.30 29.63 766 100.00
[1] 2
[1] "Tabla de frecuencia para los promedios de matemáticas"
 Class limits   f   rf rf(%)  cf  cf(%)
    [5.9,6.8)  63 0.09  9.32  63   9.32
    [6.8,7.6)  97 0.14 14.35 160  23.67
    [7.6,8.4) 142 0.21 21.01 302  44.67
    [8.4,9.3) 140 0.21 20.71 442  65.38
     [9.3,10) 234 0.35 34.62 676 100.00
[1] "Tabla de frecuencia para los promedios de lengua"
 Class limits   f   rf rf(%)  cf  cf(%

### Secundaria

In [89]:
for (i in 1:7)
{
    print(i)
    filtrado <- dplyr::filter(dataset_secundaria_2022_troncales, AñoCursado == i)
    print("Tabla de frecuencia para los promedios de matemáticas")
    tf_mat <- fdt(dplyr::filter(filtrado, asignatura == "MATEMATICA")$Promedio, k=5, na.rm = TRUE)
    print(tf_mat)
    print("Tabla de frecuencia para los promedios de lengua")
    tf_len <- fdt(dplyr::filter(filtrado, asignatura == "LENGUA Y LITERATURA")$Promedio, k=5, na.rm = TRUE)
    print(tf_len)
}

[1] 1
[1] "Tabla de frecuencia para los promedios de matemáticas"
 Class limits   f   rf rf(%)  cf  cf(%)
   [0.99,2.8)  20 0.02  2.26  20   2.26
    [2.8,4.6)  65 0.07  7.35  85   9.62
    [4.6,6.5) 300 0.34 33.94 385  43.55
    [6.5,8.3) 297 0.34 33.60 682  77.15
     [8.3,10) 202 0.23 22.85 884 100.00
[1] "Tabla de frecuencia para los promedios de lengua"
 Class limits   f   rf rf(%)  cf  cf(%)
    [2.3,3.9)  28 0.03  3.30  28   3.30
    [3.9,5.4) 135 0.16 15.90 163  19.20
      [5.4,7) 238 0.28 28.03 401  47.23
      [7,8.5) 283 0.33 33.33 684  80.57
     [8.5,10) 165 0.19 19.43 849 100.00
[1] 2
[1] "Tabla de frecuencia para los promedios de matemáticas"
 Class limits   f   rf rf(%)  cf  cf(%)
    [1.6,3.3)  81 0.10  9.68  81   9.68
      [3.3,5) 161 0.19 19.24 242  28.91
      [5,6.7) 254 0.30 30.35 496  59.26
    [6.7,8.4) 218 0.26 26.05 714  85.30
     [8.4,10) 123 0.15 14.70 837 100.00
[1] "Tabla de frecuencia para los promedios de lengua"
 Class limits   f   rf rf(%)  cf  cf(%

## Ahora procederemos a sacar summaries de la variable Promedio de cada materia, para cada nivel en su respectivo año de cursado

### Primaria

In [90]:
for (i in 1:6)
{
    print(i)
    filtrado <- dplyr::filter(dataset_primaria_2022_troncales, AñoCursado == i & asignatura %in% c("MATEMÁTICA", "LENGUA"))
    sum <- filtrado %>% group_by(asignatura) %>%
            summarise(conteo=n(),
                     media=mean(Promedio, na.rm=TRUE),
                     varianza=var(Promedio, na.rm=TRUE),
                     desvio=sd(Promedio, na.rm=TRUE),
                     minimo=min(Promedio, na.rm=TRUE),
                     maximo=max(Promedio, na.rm=TRUE),
                     IQR=IQR(Promedio, na.rm=TRUE),
                     rango=maximo-minimo,
                     mediana=median(Promedio, na.rm=TRUE),
                     Q1=quantile(Promedio, 0, 25, na.rm=TRUE),
                     Q3=quantile(Promedio, 0, 75, na.rm=TRUE),
                     sup=Q3 + 1.5 * IQR,
                     inf=Q1 - 1.5 * IQR,
                     cv=desvio / media * 100)
    print(sum)
    
    print("---------------------------------")
}

[1] 1
# A tibble: 2 x 15
  asignatura conteo media varianza desvio minimo maximo   IQR rango mediana
  <chr>       <int> <dbl>    <dbl>  <dbl>  <dbl>  <dbl> <dbl> <dbl>   <dbl>
1 LENGUA        985  8.36     1.29   1.14      6     10  1.67     4    8.67
2 MATEMÁTICA   1010  8.47     1.25   1.12      6     10  1.67     4    8.67
# ... with 5 more variables: Q1 <dbl>, Q3 <dbl>, sup <dbl>, inf <dbl>, cv <dbl>
[1] "---------------------------------"
[1] 2
# A tibble: 2 x 15
  asignatura conteo media varianza desvio minimo maximo   IQR rango mediana
  <chr>       <int> <dbl>    <dbl>  <dbl>  <dbl>  <dbl> <dbl> <dbl>   <dbl>
1 LENGUA        862  8.50     1.30   1.14      6     10  1.67     4    8.67
2 MATEMÁTICA    830  8.49     1.35   1.16      6     10  1.67     4    8.67
# ... with 5 more variables: Q1 <dbl>, Q3 <dbl>, sup <dbl>, inf <dbl>, cv <dbl>
[1] "---------------------------------"
[1] 3
# A tibble: 2 x 15
  asignatura conteo media varianza desvio minimo maximo   IQR rango mediana
 

### Secundaria

In [92]:
for (i in 1:6)
{
    print(i)
    filtrado <- dplyr::filter(dataset_secundaria_2022_troncales, AñoCursado == i & asignatura %in% c("MATEMATICA", "LENGUA Y LITERATURA"))
    sum <- filtrado %>% group_by(asignatura) %>%
            summarise(conteo=n(),
                     media=mean(Promedio, na.rm=TRUE),
                     varianza=var(Promedio, na.rm=TRUE),
                     desvio=sd(Promedio, na.rm=TRUE),
                     minimo=min(Promedio, na.rm=TRUE),
                     maximo=max(Promedio, na.rm=TRUE),
                     IQR=IQR(Promedio, na.rm=TRUE),
                     rango=maximo-minimo,
                     mediana=median(Promedio, na.rm=TRUE),
                     Q1=quantile(Promedio, 0, 25, na.rm=TRUE),
                     Q3=quantile(Promedio, 0, 75, na.rm=TRUE),
                     sup=Q3 + 1.5 * IQR,
                     inf=Q1 - 1.5 * IQR,
                     cv=desvio / media * 100)
    print(print.data.frame(sum), width = Inf)
    
    print("---------------------------------")
}

[1] 1
           asignatura conteo    media varianza   desvio   minimo maximo
1 LENGUA Y LITERATURA    850 6.946996 2.588251 1.608804 2.333333     10
2          MATEMATICA    887 6.797888 2.984146 1.727468 1.000000     10
       IQR    rango  mediana       Q1       Q3      sup       inf       cv
1 2.333333 7.666667 7.000000 2.333333 2.333333 5.833333 -1.166667 23.15827
2 2.000000 9.000000 6.666667 1.000000 1.000000 4.000000 -2.000000 25.41183
# A tibble: 2 x 15
  asignatura          conteo media varianza desvio minimo maximo   IQR rango
  <chr>                <int> <dbl>    <dbl>  <dbl>  <dbl>  <dbl> <dbl> <dbl>
1 LENGUA Y LITERATURA    850  6.95     2.59   1.61   2.33     10  2.33  7.67
2 MATEMATICA             887  6.80     2.98   1.73   1        10  2     9   
  mediana    Q1    Q3   sup   inf    cv
    <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1    7     2.33  2.33  5.83 -1.17  23.2
2    6.67  1     1     4    -2     25.4
[1] "---------------------------------"
[1] 2
           asignatur

# Segunda parte

In [1]:
rm(list = ls())

library(readxl)
library(sjmisc)
library(fdth)
library(dplyr)

"package 'sjmisc' was built under R version 3.6.3"
Attaching package: 'fdth'

The following objects are masked from 'package:stats':

    sd, var


Attaching package: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union



In [2]:
options(warn=-1)

In [3]:
dataset <- read_excel("./lapaz_troncales_limpio.xlsx")
dim(dataset)

In [None]:
str(dataset)

In [None]:
ftable(dataset$turno )

In [None]:
ftable(dataset$AñoCursado)

In [None]:
ftable(dataset$NivelEnseñanza)

## Eliminamos la columna de Nivel, ya que NivelEnseñanza nos brinda más información que la anterior y están relacionadas.
## También eliminamos la columna de año ya que todos nuestros datos son del 2022, sería redundante dejarla.

In [None]:
dataset_mas_limpio <- dplyr::select(dataset, -c(año, Nivel))

In [None]:
head(dataset_mas_limpio)

In [None]:
names(dataset_mas_limpio)

In [None]:
dim(dataset_mas_limpio)

# Gráficos

In [None]:
ftable(dataset_mas_limpio$Modalidad)

### Graficos de sectores, primaria y secundaria, para analizar la distribución de estudiantes

### Primaria

In [None]:
dataset_mas_limpio_matricula <- dataset_mas_limpio %>% dplyr::distinct(Documento, .keep_all = TRUE)
sectores<-filter(dataset_mas_limpio_matricula, (AñoCursado == "1" |  AñoCursado == "2" |  AñoCursado == "3" |
                     AñoCursado == "4" |  AñoCursado == "5" |  AñoCursado == "6") & Modalidad == "Primaria")

In [None]:
library(ggplot2)
pie_commute <- round(100 * table(sectores$AñoCursado) / length(sectores$AñoCursado))
pie_commute
porc <- c(pie_commute)
frec<- c(table(sectores$AñoCursado))
D1<-data.frame(frec,porc)
D1
Años<-rownames(D1)

In [None]:
ggplot(D1, aes(x="", y=frec, fill=Años)) +
  geom_bar(stat="identity", width=1,color="white") +
  coord_polar("y", start=0)+
  theme_void()+
  geom_text(aes(label = paste0(frec,'\n', porc, ' %'),x = 1), color = "white", size=4,
            position = position_stack(vjust = 0.5))+
  scale_fill_brewer(palette="Set2")+
  labs(title="Distribucion Porcentual de la Matricula de Primaria de 2022 en
            el Departamento La Paz por Año de Cursado")

### Secundaria

In [None]:
sectores_secu<-filter(dataset_mas_limpio_matricula, (AñoCursado == "1" |  AñoCursado == "2" |  AñoCursado == "3" |
                     AñoCursado == "4" |  AñoCursado == "5" |  AñoCursado == "6") & Modalidad == "Secundaria")

In [None]:
pie <- round(100 * table(sectores_secu$AñoCursado) / length(sectores_secu$AñoCursado))
pie
porc <- c(pie)
frec<- c(table(sectores_secu$AñoCursado))
D1<-data.frame(frec,porc)
D1
Años<-rownames(D1)

In [None]:
ggplot(D1, aes(x="", y=frec, fill=Años)) +
  geom_bar(stat="identity", width=1,color="white") +
  coord_polar("y", start=0)+
  theme_void()+
  geom_text(aes(label = paste0(frec,'\n', porc, ' %'),x = 1), color = "white", size=4,
            position = position_stack(vjust = 0.5))+
  scale_fill_brewer(palette="Set2")+
  labs(title="Distribucion Porcentual de la Matricula de secundaria de 2022 en
            departamento La Paz por Año de Cursado")

### Distribución por turno 

### Primaria

In [None]:
sector_por_turno_p <- filter(dataset_mas_limpio_matricula, Modalidad == 'Primaria')

In [None]:
sector_por_turno_p$turno <- ifelse(sector_por_turno_p$turno %in% c("INTERMEDIO", "ROTATIVO", "COMPLETO"), "OTROS", sector_por_turno_p$turno)
ftable(sector_por_turno_p$turno)

In [None]:
pie <- round(100 * table(sector_por_turno_p$turno) / length(sector_por_turno_p$turno))
porc <- c(pie)
frec <- c(table(sector_por_turno_p$turno))
D1 <- data.frame(frec, porc)
rownames(D1) <- names(table(sector_por_turno_p$turno))
D1
turnos<-rownames(D1)

In [None]:
pie <- round(100 * table(sector_por_turno_p$turno) / length(sector_por_turno_p$turno))
pie
porc <- c(pie)
frec<- c(table(sector_por_turno_p$turno))
D1<-data.frame(frec,porc)
D1
turnos<-rownames(D1)

In [None]:
ggplot(D1, aes(x="", y=frec, fill=turnos)) +
  geom_bar(stat="identity", width=1,color="white") +
  coord_polar("y", start=0)+
  theme_void()+
  geom_text(aes(label = paste0(frec,'\n', porc, ' %'),x = 1), color = "white", size=4,
            position = position_stack(vjust = 0.50))+
  scale_fill_brewer(palette="Set2")+
  labs(title="Distribucion Porcentual de la Matricula de Primaria de 2022 en
            el Departamento La Paz por Turnos")

### Secundaria

In [None]:
sector_por_turno_s <- filter(dataset_mas_limpio_matricula, Modalidad == 'Secundaria')
ftable(sector_por_turno_s$turno)

In [None]:
sector_por_turno_s$turno <- ifelse(sector_por_turno_s$turno %in% c("DIURNO", "NOCHE", "ROTATIVO","VESPERTINO"), "OTROS", sector_por_turno_s$turno)
ftable(sector_por_turno_p$turno)
pie <- round(100 * table(sector_por_turno_s$turno) / length(sector_por_turno_s$turno))
pie
porc <- c(pie)
frec<- c(table(sector_por_turno_s$turno))
D1<-data.frame(frec,porc)
D1
Turnos<-rownames(D1)

In [None]:
ggplot(D1, aes(x="", y=frec, fill=Turnos)) +
  geom_bar(stat="identity", width=1,color="white") +
  coord_polar("y", start=0)+
  theme_void()+
  geom_text(aes(label = paste0(frec,'\n', porc, ' %'),x = 1), color = "white", size=4,
            position = position_stack(vjust = 0.5))+
  scale_fill_brewer(palette="Set2")+
  labs(title="Distribucion Porcentual de la Matricula de Secundaria de 2022 en
            el Departamento La Paz por Turnos")

# Distribucion por sector publico y privado

In [None]:
#Gráfico de barras de frecuencia absoluta
nombres <- c("Publica", "Privada")
escu_primaria <- filter(dataset_mas_limpio_matricula,Modalidad == "Primaria")
tabla <- table(escu_primaria$EsPrivada)
tabla
#barplot(tabla,main="Distribucion segmentado por publicas y privadas",col=rainbow(6),ylim=c(0,30000),las=2)
# Crear el gráfico de barras con nombres de columnas
barplot(tabla, 
        main = "Distribución de Notas Segmentada por Públicas y Privadas",
        col = rainbow(7), 
        ylim = c(0, 5000), 
        las = 1,
        names.arg = nombres)

In [None]:
sector_pp <- filter(dataset_mas_limpio_matricula, Modalidad == 'Primaria')
pie <- round(100 * table(sector_pp$EsPrivada) / length(sector_pp$EsPrivada))
pie
porc <- c(pie)
frec<- c(table(sector_pp$EsPrivada))
D1<-data.frame(frec,porc)
D1

Sector<-rownames(D1)

In [None]:
ggplot(D1, aes(x="", y=frec, fill=Sector)) +
  geom_bar(stat="identity", width=1,color="white") +
  coord_polar("y", start=0)+
  theme_void()+
  geom_text(aes(label = paste0(frec,'\n', porc, ' %'),x = 1), color = "white", size=4,
            position = position_stack(vjust = 0.5))+
    scale_fill_manual(values=c("#F8766D", "#7CAE00"), labels=c("Pública","Privada"))+
  #scale_fill_brewer(palette="Set2")+
  labs(title="Distribución Porcentual de Estudiantes de Primaria Segmentado por Sector")



In [None]:
escu_secu<- filter(dataset_mas_limpio_matricula, Modalidad == 'Secundaria')
pie <- round(100 * table(escu_secu$EsPrivada) / length(escu_secu$EsPrivada))
pie
porc <- c(pie)
frec<- c(table(escu_secu$EsPrivada))
D1_s<-data.frame(frec,porc)
D1_s

Sector<-rownames(D1_s)

In [None]:
ggplot(D1_s, aes(x="", y=frec, fill=Sector)) +
  geom_bar(stat="identity", width=1,color="white") +
  coord_polar("y", start=0)+
  theme_void()+
  geom_text(aes(label = paste0(frec,'\n', porc, ' %'),x = 1), color = "white", size=4,
            position = position_stack(vjust = 0.5))+
    scale_fill_manual(values=c("#F8766D", "#7CAE00"), labels=c("Pública","Privada"))+
  #scale_fill_brewer(palette="Set2")+
  labs(title="Distribución Porcentual de Estudiantes de Secundaria Segmentado por Sector")

# Segmentado por nivel, año y materia de la variable promedio

### Materia matemática, primer año - Primaria

In [None]:
primaria_Mat_1<-filter(dataset_mas_limpio, AñoCursado == "1" & asignatura=="MATEMÁTICA" & Modalidad == "Primaria")

boxplot(primaria_Mat_1[!is.na(primaria_Mat_1$Promedio),]$Promedio,
        whisklty = 2,       # Tipo línea bigotes
        whisklwd = 2,       # Ancho línea bigotes
        whiskcol = "red",   # Color bigotes
        staplelty = 3,      # Tipo línea barras
        staplelwd = 2,      # Ancho línea barras
        staplecol = "blue", # Color barras
        main ="Cajas y bigotes de Promedio para Matemáticas - Primaria", # Tìtulo
        horizontal = TRUE
       )

### Materia Lengua, primer año - Primaria

In [None]:
primaria_len_1<-filter(dataset_mas_limpio, AñoCursado == "1" & asignatura=="LENGUA" & Modalidad == "Primaria")

boxplot(primaria_len_1[!is.na(primaria_len_1$Promedio),]$Promedio,
        whisklty = 2,       # Tipo línea bigotes
        whisklwd = 2,       # Ancho línea bigotes
        whiskcol = "red",   # Color bigotes
        staplelty = 3,      # Tipo línea barras
        staplelwd = 2,      # Ancho línea barras
        staplecol = "blue", # Color barras
        main ="Cajas y Bigotes de Promedio para Lengua - Primaria", # Tìtulo
        horizontal = TRUE
       )

### Materia matemática, primer año - Secundaria



In [None]:
secundaria_Mat_1<-filter(dataset_mas_limpio, AñoCursado == 1 & asignatura=="MATEMATICA" & Modalidad == "Secundaria")

boxplot(secundaria_Mat_1[!is.na(secundaria_Mat_1$Promedio),]$Promedio,
        whisklty = 2,       # Tipo línea bigotes
        whisklwd = 2,       # Ancho línea bigotes
        whiskcol = "red",   # Color bigotes
        staplelty = 3,      # Tipo línea barras
        staplelwd = 2,      # Ancho línea barras
        staplecol = "blue", # Color barras
        main ="Cajas y Bigotes de Promedio para Matemática - Secundaria", # Tìtulo
        horizontal = TRUE
       )

### Materia Lengua y Literatura, primer año - Secundaria

In [None]:
secundaria_len_1<-filter(dataset_mas_limpio, AñoCursado == "1" & asignatura=="LENGUA Y LITERATURA" & Modalidad == "Secundaria")

boxplot(secundaria_len_1[!is.na(secundaria_len_1$Promedio),]$Promedio,
        whisklty = 2,       # Tipo línea bigotes
        whisklwd = 2,       # Ancho línea bigotes
        whiskcol = "red",   # Color bigotes
        staplelty = 3,      # Tipo línea barras
        staplelwd = 2,      # Ancho línea barras
        staplecol = "blue", # Color barras
        main ="Cajas y Bigotes de Promedio para Lengua y Literatura - Secundaria", # Tìtulo
        horizontal = TRUE
       )

## Histogramas segmentados por nivel, año y materia de la variable promedio para matemática y lengua

## Primaria
### Materia: matemática

In [None]:
for (i in 1:6)
{
    print(paste0("Año cursado: ", i))
    primaria_mat <- filter(dataset_mas_limpio, AñoCursado == i & asignatura == "MATEMÁTICA" & Modalidad == 'Primaria')
    histo_p_1 <- fdt(primaria_mat$Promedio,breaks="Sturges",na.rm=TRUE)
    histo_p <- ggplot(primaria_mat[!is.na(primaria_mat$Promedio),],aes(x= Promedio))+
        geom_histogram(fill="pink",colour="brown",name="matemática", bins=10)+
            scale_y_continuous(breaks = seq(0, 500,50), name = "Frecuencia Absoluta") +
      scale_x_continuous(breaks = seq(0,10,1), name = "Notas" ) + geom_vline(aes(xintercept = median(Promedio),
                      color = "mediana"),
                  linetype = "dashed",
                  size = 1) +
       geom_vline(aes(xintercept = mean(Promedio),
                      color = "media"),
                  linetype = "dashed",
                  size = 1) +
       geom_vline(
         aes(xintercept = quantile(Promedio, 0.25),
             color = "cuantil_25"),
         linetype = "dashed",
         size = 1
       ) +
       geom_vline(
         aes(xintercept = quantile(Promedio, 0.75),
             color = "cuantil_75"),
         linetype = "dashed",
         size = 1
       )  +
       scale_color_manual(
         name = "estadisticos",
         values = c(
           mediana = "blue",
           media = "red",
           cuantil_25 = "black",
           cuantil_75 = "orange"
         )
       ) +
       xlab("Longitud") + ylab("n") +
    ggtitle(paste0("Primaria - Histograma de promedio de Matemática - ", i, " año.")) +
   theme(plot.title = element_text(hjust = 0.5))
    print(histo_p)
}


### Materia: Lengua

In [None]:
for (i in 1:6)
{
    print(paste0("Año cursado: ", i))
    primaria_len <- filter(dataset_mas_limpio, AñoCursado == i & asignatura == "LENGUA" & Modalidad == 'Primaria')
    histo_p_1 <- fdt(primaria_len$Promedio,breaks="Sturges",na.rm=TRUE)
    histo_p <- ggplot(primaria_len[!is.na(primaria_len$Promedio),],aes(x= Promedio))+
        geom_histogram(fill="pink",colour="brown",name="lengua", bins=10)+
            scale_y_continuous(breaks = seq(0, 500,50), name = "Frecuencia Absoluta") +
      scale_x_continuous(breaks = seq(0,10,1), name = "Notas" ) + geom_vline(aes(xintercept = median(Promedio),
                      color = "mediana"),
                  linetype = "dashed",
                  size = 1) +
       geom_vline(aes(xintercept = mean(Promedio),
                      color = "media"),
                  linetype = "dashed",
                  size = 1) +
       geom_vline(
         aes(xintercept = quantile(Promedio, 0.25),
             color = "cuantil_25"),
         linetype = "dashed",
         size = 1
       ) +
       geom_vline(
         aes(xintercept = quantile(Promedio, 0.75),
             color = "cuantil_75"),
         linetype = "dashed",
         size = 1
       )  +
       scale_color_manual(
         name = "estadisticos",
         values = c(
           mediana = "blue",
           media = "red",
           cuantil_25 = "black",
           cuantil_75 = "orange"
         )
       ) +
       xlab("Longitud") + ylab("n") +
    ggtitle(paste0("Primaria - Histograma de promedio de Lengua - ", i, " año.")) +
   theme(plot.title = element_text(hjust = 0.5))
    print(histo_p)
}


## Secundaria
### Materia: matemática

In [None]:
for (i in 1:7)
{
    print(paste0("Año cursado: ", i))
    secundaria_mat<- filter(dataset_mas_limpio, AñoCursado == i & asignatura == "MATEMATICA" & Modalidad == 'Secundaria')
    histo_s_1 <- fdt(secundaria_mat$Promedio,breaks="Sturges",na.rm=TRUE)
    histo_s <- ggplot(secundaria_mat[!is.na(secundaria_mat$Promedio),],aes(x= Promedio))+
        geom_histogram(fill="pink",colour="brown",name="matematica", bins=10)+
            scale_y_continuous(breaks = seq(0, 500,50), name = "Frecuencia Absoluta") +
      scale_x_continuous(breaks = seq(0,10,1), name = "Notas" ) + geom_vline(aes(xintercept = median(Promedio),
                      color = "mediana"),
                  linetype = "dashed",
                  size = 1) +
       geom_vline(aes(xintercept = mean(Promedio),
                      color = "media"),
                  linetype = "dashed",
                  size = 1) +
       geom_vline(
         aes(xintercept = quantile(Promedio, 0.25),
             color = "cuantil_25"),
         linetype = "dashed",
         size = 1
       ) +
       geom_vline(
         aes(xintercept = quantile(Promedio, 0.75),
             color = "cuantil_75"),
         linetype = "dashed",
         size = 1
       )  +
       scale_color_manual(
         name = "estadisticos",
         values = c(
           mediana = "blue",
           media = "red",
           cuantil_25 = "black",
           cuantil_75 = "orange"
         )
       ) +
       xlab("Longitud") + ylab("n") +
        ggtitle(paste0("Secundaria - Histograma de promedio de Matemática - ", i, " año.")) +
       theme(plot.title = element_text(hjust = 0.5))
    print(histo_s)
}

### Materia: Lengua y literatura

In [None]:
for (i in 1:7)
{
    print(paste0("Año cursado: ", i))
    secundaria_len<- filter(dataset_mas_limpio, AñoCursado == i & asignatura == "LENGUA Y LITERATURA" & Modalidad == 'Secundaria')
    histo_s_1 <- fdt(secundaria_len$Promedio,breaks="Sturges",na.rm=TRUE)
    histo_s <- ggplot(secundaria_len[!is.na(secundaria_len$Promedio),],aes(x= Promedio))+
        geom_histogram(fill="pink",colour="brown",name="Lengua y literatura", bins=10)+
            scale_y_continuous(breaks = seq(0, 500,50), name = "Frecuencia Absoluta") +
      scale_x_continuous(breaks = seq(0,10,1), name = "Notas" ) + geom_vline(aes(xintercept = median(Promedio),
                      color = "mediana"),
                  linetype = "dashed",
                  size = 1) +
       geom_vline(aes(xintercept = mean(Promedio),
                      color = "media"),
                  linetype = "dashed",
                  size = 1) +
       geom_vline(
         aes(xintercept = quantile(Promedio, 0.25),
             color = "cuantil_25"),
         linetype = "dashed",
         size = 1
       ) +
       geom_vline(
         aes(xintercept = quantile(Promedio, 0.75),
             color = "cuantil_75"),
         linetype = "dashed",
         size = 1
       )  +
       scale_color_manual(
         name = "estadisticos",
         values = c(
           mediana = "blue",
           media = "red",
           cuantil_25 = "black",
           cuantil_75 = "orange"
         )
       ) +
       xlab("Longitud") + ylab("n") +
        ggtitle(paste0("Secundaria - Histograma de promedio de Lengua y Literatura - ", i, " año.")) +
       theme(plot.title = element_text(hjust = 0.5))
    print(histo_s)}


In [None]:
secundaria_len<- filter(dataset_mas_limpio, AñoCursado == 7 & asignatura == "LENGUA Y LITERATURA" & Modalidad == 'Secundaria')
ftable(secundaria_len$Promedio)

## Guía 4

### a. ¿Son las correlaciones iguales?
### b. A partir de lo que vimos en teoría, 
### ¿usted podría informar todas las correlaciones comocorrelaciones lineales fuertes?
### c. ¿Qué importancia tiene el graficar los datos?

In [None]:
library(dplyr)
library(gridExtra)
anscombe_data = read.delim(file="https://goo.gl/mVLz5L", header = T)
# Calcular la correlación
cor_1 = cor(anscombe_data$x1, anscombe_data$y1)
cor_2 = cor(anscombe_data$x2, anscombe_data$y2)
cor_3 = cor(anscombe_data$x3, anscombe_data$y3)
cor_4 = cor(anscombe_data$x4, anscombe_data$y4)
# Definir la función
plot_anscombe <- function(x, y, value, type)
{ # 'anscombe_data' es una variable global, esto es
# una mala práctica de programación ;)
p=ggplot(anscombe_data, aes_string(x,y)) +
geom_smooth(method='lm', fill=NA) +
geom_point(aes(colour=factor(1),
fill = factor(1)),
shape=21, size = 2
) +
ylim(2, 13) +
xlim(4, 19) +
theme_minimal() +
theme(legend.position="none") +
annotate("text",
x = 12,
y =4.5,
label =
sprintf("%s: %s",
type,
round(value,2)
)
)
return(p)
}
# Graficar en una cuadrícula de 2x2
grid.arrange(plot_anscombe("x1", "y1", cor_1, "Correlación"),
plot_anscombe("x2", "y2", cor_2, "Correlación"),
plot_anscombe("x3", "y3", cor_3, "Correlación"),
plot_anscombe("x4", "y4", cor_4, "Correlación"),
ncol=2, nrow=2)


## Punto 4
### Comparación mediante histograma

### Secundaria - primer año

In [None]:
secundaria_Mat_1<-filter(dataset_mas_limpio, AñoCursado == 1 & asignatura=="MATEMATICA" & Modalidad == "Secundaria")

### Comparación mediante Boxplot

In [None]:
g2 <- ggplot(secundaria_Mat_1, aes(factor(EsPrivada), Promedio))
g2 + geom_boxplot(aes(fill = factor(EsPrivada)))

## Punto 5

### Comparación de promedios de matemáticas de los diferentes años en distintos turnos

In [None]:
ftable(filter(dataset_mas_limpio, asignatura == "MATEMÁTICA" & Modalidad == "Primaria")$turno)

In [None]:
ftable(filter(dataset_mas_limpio, asignatura == "LENGUA" & Modalidad == "Primaria")$turno)

### Primaria

In [None]:
#g2 <- ggplot(filter(dataset_mas_limpio,asignatura=="MATEMÁTICA" & Modalidad=='Primaria'),aes(factor(turno),Promedio))
#g2 + geom_boxplot(aes(fill = factor(turno))
para_nombres<- filter(dataset_mas_limpio,asignatura=="MATEMÁTICA" & Modalidad=='Primaria')
Turnos <- factor(para_nombres$turno)

g2 <- ggplot(filter(dataset_mas_limpio,asignatura=="MATEMÁTICA" & Modalidad=='Primaria'),aes(Turnos,Promedio))
g2 + 
  geom_boxplot(aes(fill = Turnos)) +
  labs(title = "Distribución de Notas de Matemática por Turnos en Educación Primaria")


### Secundaria

In [None]:
ftable(filter(dataset_mas_limpio, asignatura == "MATEMATICA" & Modalidad == "Secundaria")$turno)

In [None]:
ftable(filter(dataset_mas_limpio, asignatura == "LENGUA Y LITERATURA" & Modalidad == "Secundaria")$turno)

In [None]:
#g2 <- ggplot(filter(dataset_mas_limpio,asignatura=="MATEMATICA" & Modalidad=='Secundaria'),aes(factor(turno),Promedio))
#g2 + geom_boxplot(aes(fill = factor(turno)))
v<- filter(dataset_mas_limpio,asignatura=="MATEMATICA" & Modalidad=='Secundaria')
Turnos <- factor(v$turno)

g2 <- ggplot(filter(dataset_mas_limpio,asignatura=="MATEMATICA" & Modalidad=='Secundaria'),aes(Turnos,Promedio))
g2 + 
  geom_boxplot(aes(fill = Turnos)) +
  labs(title = "Distribución de Notas de Matemática por Turnos en Educación Secundaria")

### Comparación de los promedios de lengua en distintos turnos

In [None]:
v<- filter(dataset_mas_limpio,asignatura=="LENGUA" & Modalidad=='Primaria')
Turnos <- factor(v$turno)

g2 <- ggplot(filter(dataset_mas_limpio,asignatura=="LENGUA" & Modalidad=='Primaria'),aes(Turnos,Promedio))
g2 + 
  geom_boxplot(aes(fill = Turnos)) +
  labs(title = "Distribución de Notas de Lengua por Turnos en Educación Primaria")

In [None]:
v<- filter(dataset_mas_limpio,asignatura=="LENGUA Y LITERATURA" & Modalidad=='Secundaria')
Turnos <- factor(v$turno)

g2 <- ggplot(filter(dataset_mas_limpio,asignatura=="LENGUA Y LITERATURA" & Modalidad=='Secundaria'),aes(Turnos,Promedio))
g2 + 
  geom_boxplot(aes(fill = Turnos)) +
  labs(title = "Distribución de Notas de Lengua y Literatura por Turnos en Secundaria")

## Punto 6

In [None]:
#diagrama de dispersión
#deben tener misma dimension
rm(df)
dim(dplyr::select(secundaria_Mat_1,"Documento","Promedio","EsPrivada"))
dim(dplyr::select(filter(dataset_mas_limpio,asignatura=="BIOLOGIA" & AñoCursado == 1),"Documento","Promedio","EsPrivada"))
df<- dplyr::select(secundaria_Mat_1,"Documento","Promedio","EsPrivada") %>% inner_join(dplyr::select(filter(dataset_mas_limpio,asignatura=="BIOLOGIA" & AñoCursado== 1),"Documento","Promedio","EsPrivada"),by="Documento")
df<-rename(df,Prom_Mat=Promedio.x, Prom_Bio=Promedio.y,EsPrivada=EsPrivada.x)
head(df)
plot(df$Prom_Mat, df$Prom_Bio)

In [None]:
ggplot(data=df, aes(x=Prom_Mat,y=Prom_Bio))+geom_point(aes(colour=EsPrivada)
)+xlab("Longitud")+ylab("ancho")

### Diagrama de dispersión para todos los años de secundaria de matematica vs biologia

In [None]:
#diagrama de dispersión
#deben tener misma dimension
rm(df2)

secundaria_mat_todos_no_7 <- dplyr::filter(dataset_mas_limpio, asignatura == "MATEMATICA" & Modalidad == "Secundaria" & AñoCursado %in% c(1, 2, 3, 4, 5, 6))
dim(dplyr::select(secundaria_mat_todos_no_7,"Documento","Promedio"))
dim(dplyr::select(filter(dataset_mas_limpio,asignatura=="BIOLOGIA"),"Documento","Promedio"))
df2<- dplyr::select(secundaria_mat_todos_no_7,"Documento","Promedio","AñoCursado") %>% inner_join(dplyr::select(filter(dataset_mas_limpio,asignatura=="BIOLOGIA"),"Documento","Promedio","AñoCursado"),by="Documento")
df2<-rename(df2,Prom_Mat=Promedio.x, Prom_Bio=Promedio.y, AñoCursado=AñoCursado.x)
df2$AñoCursado <- as.factor(df2$AñoCursado)
head(df2)
ggplot(data=df2, aes(x=Prom_Mat,y=Prom_Bio))+ geom_point(aes(colour=AñoCursado)
)+xlab("Promedio Biología")+ylab("Promedio Matemáticas")+scale_color_manual(values = c("red", "blue", "green", "purple", "pink", "yellow"))

### Como observamos claramente, el año más prometedor para una posible correlación es primero. Por lo que a partir de este momento centraremos el estudio en este año.

In [None]:
df2_primero <- dplyr::filter(df2, AñoCursado == "1")
head(df2_primero)

### Graficamos nuevamamente solamente primer año

In [None]:
ggplot(data=df2_primero, aes(x=Prom_Mat,y=Prom_Bio))+geom_point()+ 
       geom_smooth(method = "lm")+xlab("Promedio Biología")+ylab("Promedio Matemáticas")

### Matriz de Varianza

In [None]:
dataM <- na.omit(data.frame(df2_primero$Prom_Mat, df2_primero$Prom_Bio)) 
dataM <-rename(dataM,Prom_Mat=df2_primero.Prom_Mat, Prom_Bio=df2_primero.Prom_Bio)
var(dataM)

### Primero debemos verificar normalidad de las variables a utilizar, Prom_Mat y Prom_Bio
### Usamos Lilliefors (Kolmogorov-Smirnov) para realizarlo ya que nuestra muestra es mayor a 50

In [None]:
#conda install -c conda-forge r-nortest
library(nortest)
lillie.test(x = dataM$Prom_Mat)
lillie.test(x = dataM$Prom_Bio)

### El p-value para ambas variables es menor a 0.05, lo que significa que rechazamos H0 y podemos decir que las variables no presentan una distribución normal, por lo que usaremos el método de Spearman para comprobar linealidad entre las mismas

In [None]:
cor_spearman <- cor(dataM$Prom_Mat, dataM$Prom_Bio, method = "spearman")
cor_spearman

### Podemos ver gráficamente el resultado también

In [None]:
library("PerformanceAnalytics")
chart.Correlation(dataM, histogram = TRUE, method = "spearman")
mtext("Gráfico de Relación entre Promedios de Matemáticas y Biología", side=3, line=3)

### Podemos decir que las variables presentan una correlación buena, esto significa que si a un alumno le va bien en matemáticas, le irá bien en biología y lo mismo inversamente.

In [None]:
per <- cor(dataM$Prom_Mat, dataM$Prom_Bio, method = "pearson")
ken <- cor(dataM$Prom_Mat, dataM$Prom_Bio, method = "kendall")
spe <- cor(dataM$Prom_Mat, dataM$Prom_Bio, method = "spearman")

data <- data.frame(name=c("pearson","kendall","spearman") , value=c(per,ken,spe))

data

In [None]:
library(corrplot)
corrplot.mixed(cor(dataM, method = "spearman"),addshade="all")

### Añadimos lengua como tercera variable de estudio

In [None]:
rm(df3)
df3 <- dplyr::select(secundaria_len_1,"Documento","Promedio", "AñoCursado")

df2<- df2 %>% inner_join(df3,by="Documento")

In [None]:
dataN <-rename(df2,Prom_Len=Promedio)
dataN <- na.omit(dataN) 
dataN <-dplyr::select(dataN,Prom_Mat,Prom_Bio,Prom_Len)
dim(dataN)
head(dataN)

In [None]:
library(ppcor)
pcor(dataM, method = c("spearman"))

In [None]:
pcor(dataN, method = c("spearman"))

In [None]:
ggm::pcor(c("Prom_Mat","Prom_Bio","Prom_Len"), cov(dataN))
pcor1<-ggm::pcor(c("Prom_Mat","Prom_Bio","Prom_Len"), cov(dataN))

In [None]:
library("pwr")
pwr.r.test(n = length(row.names(dataN)), r = pcor1, sig.level = .05, power = NULL)
