In [41]:
from pyspark.sql import SparkSession
from pyspark.sql import Row
from functools import reduce
from pyspark.sql import DataFrame
from pyspark.sql.types import StringType,DoubleType,FloatType
from pyspark.sql.functions import udf
from pyspark.sql.functions import regexp_replace
from pyspark.sql.functions import lit
import locale
import sys
import os
import re

In [42]:
sc

In [43]:
spark

# Leyendo lista de Colegios y Estudiantes

In [44]:
base = '../Colegios'
base2 = '../SB'
colegios = os.listdir('../Colegios')
estudiantes = os.listdir('../SB')

In [45]:
estudiantes.sort()
colegios.sort()
estuDic = {}
coleDic = {}
for estu in estudiantes:
    estuDic[re.findall('\d+', estu)[1]] = estu

for colegio in colegios:
    coleDic[re.findall('\d+', colegio)[1]] = colegio

In [46]:
# Funciòn para unir cualquier nùmero de dataframes con la misma estructura 
def unionAll(*dfs):
    return reduce(DataFrame.unionAll, dfs)

In [47]:
print("Archivos de estudiantes: ", estuDic['20191'])

Archivos de estudiantes:  SB11_20191.txt


In [48]:
df1 = spark.read.load(base2 + '/' + estuDic['20191'],"com.databricks.spark.csv",header='true',inferSchema='true',sep='¬')

In [49]:
df1.columns

['ESTU_TIPODOCUMENTO',
 'ESTU_NACIONALIDAD',
 'ESTU_GENERO',
 'ESTU_FECHANACIMIENTO',
 'PERIODO',
 'ESTU_CONSECUTIVO',
 'ESTU_ESTUDIANTE',
 'ESTU_PAIS_RESIDE',
 'ESTU_TIENEETNIA',
 'ESTU_ETNIA',
 'ESTU_DEPTO_RESIDE',
 'ESTU_COD_RESIDE_DEPTO',
 'ESTU_MCPIO_RESIDE',
 'ESTU_COD_RESIDE_MCPIO',
 'FAMI_ESTRATOVIVIENDA',
 'FAMI_PERSONASHOGAR',
 'FAMI_CUARTOSHOGAR',
 'FAMI_EDUCACIONPADRE',
 'FAMI_EDUCACIONMADRE',
 'FAMI_TRABAJOLABORPADRE',
 'FAMI_TRABAJOLABORMADRE',
 'FAMI_TIENEINTERNET',
 'FAMI_TIENESERVICIOTV',
 'FAMI_TIENECOMPUTADOR',
 'FAMI_TIENELAVADORA',
 'FAMI_TIENEHORNOMICROOGAS',
 'FAMI_TIENEAUTOMOVIL',
 'FAMI_TIENEMOTOCICLETA',
 'FAMI_TIENECONSOLAVIDEOJUEGOS',
 'FAMI_NUMLIBROS',
 'FAMI_COMELECHEDERIVADOS',
 'FAMI_COMECARNEPESCADOHUEVO',
 'FAMI_COMECEREALFRUTOSLEGUMBRE',
 'FAMI_SITUACIONECONOMICA',
 'ESTU_DEDICACIONLECTURADIARIA',
 'ESTU_DEDICACIONINTERNET',
 'ESTU_HORASSEMANATRABAJA',
 'ESTU_TIPOREMUNERACION',
 'COLE_CODIGO_ICFES',
 'COLE_COD_DANE_ESTABLECIMIENTO',
 'COLE_NOMBRE_ESTA

In [50]:
columnasPuntos20191 = [
 'COLE_COD_DANE_ESTABLECIMIENTO',
 'COLE_NOMBRE_ESTABLECIMIENTO',
 'PUNT_LECTURA_CRITICA',
 'PUNT_MATEMATICAS',
 'PUNT_C_NATURALES',
 'PUNT_SOCIALES_CIUDADANAS',
 'PUNT_INGLES']

In [51]:
df1 = df1.select(columnasPuntos20191)

In [52]:
cols = df1.columns
cols.remove('COLE_COD_DANE_ESTABLECIMIENTO')
cols.remove('COLE_NOMBRE_ESTABLECIMIENTO')
cols

['PUNT_LECTURA_CRITICA',
 'PUNT_MATEMATICAS',
 'PUNT_C_NATURALES',
 'PUNT_SOCIALES_CIUDADANAS',
 'PUNT_INGLES']

In [53]:
for cp in cols:
    df1 = df1.withColumn(cp, regexp_replace(cp, ',', '.'))
    df1 = df1.withColumn(cp, df1[cp].cast("float"))
    df1 = df1.na.fill({cp:0})

In [54]:
df1 = df1.withColumn('COLE_COD_DANE_ESTABLECIMIENTO', df1['COLE_COD_DANE_ESTABLECIMIENTO'].cast("string"))

In [55]:
print("Numero de filas primero semestre ", df1.count())

Numero de filas primero semestre  21083


In [58]:
print(df1.printSchema())

root
 |-- COLE_COD_DANE_ESTABLECIMIENTO: string (nullable = true)
 |-- COLE_NOMBRE_ESTABLECIMIENTO: string (nullable = true)
 |-- PUNT_LECTURA_CRITICA: float (nullable = false)
 |-- PUNT_MATEMATICAS: float (nullable = false)
 |-- PUNT_C_NATURALES: float (nullable = false)
 |-- PUNT_SOCIALES_CIUDADANAS: float (nullable = false)
 |-- PUNT_INGLES: float (nullable = false)

None


In [59]:
# Contando el numero de estudiantes por instituciòn y mostrandola de forma descendente
dsCountEst1 = df1.groupBy('COLE_COD_DANE_ESTABLECIMIENTO').count().orderBy('count',ascending=
False)
dsCountEst1 = dsCountEst1.withColumnRenamed("count","num_est")
dsCountEst1.show(10,False)

+-----------------------------+-------+
|COLE_COD_DANE_ESTABLECIMIENTO|num_est|
+-----------------------------+-------+
|305001022682                 |226    |
|311001105863                 |226    |
|305001017361                 |195    |
|105088002918                 |168    |
|376001007670                 |166    |
|376001028219                 |157    |
|376001026925                 |155    |
|376001000314                 |150    |
|305001022631                 |136    |
|311848001011                 |131    |
+-----------------------------+-------+
only showing top 10 rows



In [60]:
dsCountEst1.count()

796

In [62]:
rowmax = dsCountEst1.agg({"num_est": "max"}).collect()[0]
rowmin = dsCountEst1.agg({"num_est": "min"}).collect()[0]

num_est_max = rowmax["max(num_est)"]
num_est_min = rowmin["min(num_est)"]

In [63]:
#Se crea una columna con el total de los puntajes 

df1= df1.withColumn("Suma",df1['PUNT_LECTURA_CRITICA']+df1['PUNT_MATEMATICAS']+df1['PUNT_C_NATURALES']+
                    df1['PUNT_SOCIALES_CIUDADANAS']+df1['PUNT_INGLES'])

## Resultados finales por instituciòn 1er semestre

In [64]:
from pyspark.sql.functions import *
from pyspark.sql.window import Window

df1 = df1.groupBy('COLE_COD_DANE_ESTABLECIMIENTO','COLE_NOMBRE_ESTABLECIMIENTO').mean()

rowprommax = df1.agg({"avg(Suma)": "max"}).collect()[0]
rowprommin = df1.agg({"avg(Suma)": "min"}).collect()[0]

prom_est_max = rowprommax["max(avg(Suma))"]
prom_est_min = rowprommin["min(avg(Suma))"]

print("Màxima calificaciòn en colegios: ", prom_est_max)
print("Mìxima calificaciòn en colegios: ", prom_est_min)

Màxima calificaciòn en colegios:  403.625
Mìxima calificaciòn en colegios:  153.0


In [67]:
dfjoin = df1.join(dsCountEst1,"COLE_COD_DANE_ESTABLECIMIENTO")
dfjoin= dfjoin.withColumn("Indice_Prom",round(dfjoin['avg(Suma)']/prom_est_max,3))
dfjoin= dfjoin.withColumn("Indice_Num",round(dfjoin['num_est']/num_est_max,3))
dfjoin= dfjoin.withColumn("Indice_Total",round(dfjoin['Indice_Prom']*dfjoin['Indice_Num'],3))

In [68]:
dfjoin = dfjoin.select('COLE_COD_DANE_ESTABLECIMIENTO','COLE_NOMBRE_ESTABLECIMIENTO','avg(Suma)','num_est','Indice_Prom','Indice_Num','Indice_Total')
dfjoin = dfjoin.withColumn("rankProm", dense_rank().over(Window.orderBy(desc("Indice_Prom"))))
dfjoin = dfjoin.withColumn("rankNum", dense_rank().over(Window.orderBy(desc("Indice_Num"))))
dfjoin = dfjoin.withColumn("rankTotal", dense_rank().over(Window.orderBy(desc("Indice_Total"))))
dfjoin = dfjoin.withColumn("Media",round(dfjoin['avg(Suma)'],2))
dfjoin.printSchema()

root
 |-- COLE_COD_DANE_ESTABLECIMIENTO: string (nullable = true)
 |-- COLE_NOMBRE_ESTABLECIMIENTO: string (nullable = true)
 |-- avg(Suma): double (nullable = true)
 |-- num_est: long (nullable = false)
 |-- Indice_Prom: double (nullable = true)
 |-- Indice_Num: double (nullable = true)
 |-- Indice_Total: double (nullable = true)
 |-- rankProm: integer (nullable = true)
 |-- rankNum: integer (nullable = true)
 |-- rankTotal: integer (nullable = true)
 |-- Media: double (nullable = true)



In [69]:
# Se ordena por Indice_Prom
dfjoin = dfjoin.orderBy('rankProm',ascending= True)
dfjoin.select('COLE_NOMBRE_ESTABLECIMIENTO','Media','Indice_Prom','num_est','rankProm','rankNum','rankTotal').show(10)

+---------------------------+------+-----------+-------+--------+-------+---------+
|COLE_NOMBRE_ESTABLECIMIENTO| Media|Indice_Prom|num_est|rankProm|rankNum|rankTotal|
+---------------------------+------+-----------+-------+--------+-------+---------+
|       COLEGIO BILINGUE ...|403.63|        1.0|     56|       1|     50|       45|
|        COL NUEVO CAMBRIDGE|400.69|      0.993|     51|       2|     55|       58|
|       COL LA QUINTA DEL...| 397.5|      0.985|     14|       3|     92|      177|
|       COL SAN CARLOS   ...|382.06|      0.947|     88|       4|     22|       17|
|       COL SAN JORGE DE ...|381.86|      0.946|     71|       5|     37|       29|
|            COL LOS NOGALES|380.51|      0.943|     55|       6|     51|       55|
|       COL  MONTESSORI B...|377.91|      0.936|     35|       7|     71|      105|
|       COL CAMPOALEGRE LTDA|375.68|      0.931|     19|       8|     87|      160|
|       COL SANTA FRANCIS...|375.39|       0.93|     64|       9|     43|   

In [70]:
# Se ordena por Indice_Num
dfjoin = dfjoin.orderBy('rankNum',ascending= True)
dfjoin.select('COLE_NOMBRE_ESTABLECIMIENTO','Media','Indice_Num','num_est','rankProm','rankNum','rankTotal').show(10)

+---------------------------+------+----------+-------+--------+-------+---------+
|COLE_NOMBRE_ESTABLECIMIENTO| Media|Indice_Num|num_est|rankProm|rankNum|rankTotal|
+---------------------------+------+----------+-------+--------+-------+---------+
|       CENT JOHANN KEPLE...|220.15|       1.0|    226|     285|      1|        2|
|       POLITÉCNICO MAYOR...|213.98|       1.0|    226|     299|      1|        3|
|       CENT DE DESARROLL...|204.61|     0.863|    195|     322|      2|       12|
|       IE FONTIDUEÑO JAI...|223.15|     0.743|    168|     277|      3|       16|
|       COLEGIO LEON DE G...|304.77|     0.735|    166|     127|      4|        1|
|       COLEGIO COMFANDI ...| 293.7|     0.695|    157|     148|      5|        5|
|        COMFANDI MIRAFLORES|297.27|     0.686|    155|     140|      6|        5|
|       COLEGIO PARROQIAL...|274.28|     0.664|    150|     176|      7|       10|
|       CORP ESC EMPRESAR...|196.97|     0.602|    136|     339|      8|       30|
|   

In [71]:
# Se ordena por Indice_Total
dfjoin = dfjoin.orderBy('rankTotal',ascending= True)
dfjoin.select('COLE_NOMBRE_ESTABLECIMIENTO','Media','Indice_Total','num_est','rankProm','rankNum','rankTotal').show(10)

+---------------------------+------+------------+-------+--------+-------+---------+
|COLE_NOMBRE_ESTABLECIMIENTO| Media|Indice_Total|num_est|rankProm|rankNum|rankTotal|
+---------------------------+------+------------+-------+--------+-------+---------+
|       COLEGIO LEON DE G...|304.77|       0.555|    166|     127|      4|        1|
|       CENT JOHANN KEPLE...|220.15|       0.545|    226|     285|      1|        2|
|       POLITÉCNICO MAYOR...|213.98|        0.53|    226|     299|      1|        3|
|       COL ANGLO COLOMBI...|356.93|       0.513|    131|      36|      9|        4|
|       COLEGIO COMFANDI ...| 293.7|       0.506|    157|     148|      5|        5|
|        COMFANDI MIRAFLORES|297.27|       0.506|    155|     140|      6|        5|
|              COL BERCHMANS|353.59|       0.496|    128|      42|     10|        6|
|       COL ANDINO       ...|356.01|       0.484|    124|      38|     12|        7|
|       LIC FRANCES LOUIS...|354.55|       0.466|    120|      41