In [47]:
from pyspark.sql import SparkSession
from pyspark.sql import Row
from functools import reduce
from pyspark.sql import DataFrame
from pyspark.sql.types import StringType,DoubleType,FloatType
from pyspark.sql.functions import udf
from pyspark.sql.functions import regexp_replace
from pyspark.sql.functions import lit
import locale
import sys
import os
import re

In [48]:
sc

In [49]:
spark

# Leyendo lista de Colegios y Estudiantes

In [50]:
base = '../Colegios'
base2 = '../SB'
colegios = os.listdir('../Colegios')
estudiantes = os.listdir('../SB')

In [51]:
estudiantes.sort()
colegios.sort()
estuDic = {}
coleDic = {}
for estu in estudiantes:
    estuDic[re.findall('\d+', estu)[1]] = estu

for colegio in colegios:
    coleDic[re.findall('\d+', colegio)[1]] = colegio

In [52]:
# Funciòn para unir cualquier nùmero de dataframes con la misma estructura 
def unionAll(*dfs):
    return reduce(DataFrame.unionAll, dfs)

In [53]:
print("Archivos de estudiantes: ", estuDic['20111'],estuDic['20112'])
print("Archivos de colegios: ",coleDic['2011'])

Archivos de estudiantes:  SB11_20111.txt SB11_20112.txt
Archivos de colegios:  SB11-CLASIFI-PLANTELES-2011.txt


In [54]:
# SE leen los dos archivos y se crean dos dataframes
df1 = spark.read.load(base2 + '/' + estuDic['20111'],"com.databricks.spark.csv",header='true',inferSchema='true',sep='¬')
df2 = spark.read.load(base2 + '/' + estuDic['20112'],"com.databricks.spark.csv",header='true',inferSchema='true',sep='¬')

In [55]:
columnasPuntos20111 = ['cole_cod_dane_institucion','cole_nombre_sede',
 'punt_lenguaje',
 'punt_matematicas',
 'punt_c_sociales',
 'punt_filosofia',
 'punt_biologia',
 'punt_quimica',
 'punt_fisica',
 'punt_ingles',
 'punt_comp_flexible']

columnasPuntos20112 = [
 'COLE_COD_DANE_ESTABLECIMIENTO',
 'COLE_NOMBRE_ESTABLECIMIENTO',
 'PUNT_MATEMATICAS',
 'PUNT_INGLES',
 'PUNT_CIENCIAS_SOCIALES',
 'PUNT_BIOLOGIA',
 'PUNT_FILOSOFIA',
 'PUNT_FISICA',
 'PUNT_QUIMICA',
 'PUNT_LENGUAJE',
 'PUNT_INTERDISC_MEDIOAMBIENTE',
 'PUNT_INTERDISC_VIOLENCIAYSOC',
 'PUNT_PROFUNDIZA_BIOLOGIA',
 'PUNT_PROFUNDIZA_CSOCIALES',
 'PUNT_PROFUNDIZA_LENGUAJE',
 'PUNT_PROFUNDIZA_MATEMATICA'    
]

In [56]:
# SE leen los dos archivos y se crean dos dataframes
df1 = df1.select(columnasPuntos20111)
df2 = df2.select(columnasPuntos20112)

In [57]:
#dft = df1.columns.remove('cole_cod_dane_institucion')
cols = df1.columns
cols.remove('cole_cod_dane_institucion')
cols.remove('cole_nombre_sede')
cols

['punt_lenguaje',
 'punt_matematicas',
 'punt_c_sociales',
 'punt_filosofia',
 'punt_biologia',
 'punt_quimica',
 'punt_fisica',
 'punt_ingles',
 'punt_comp_flexible']

In [58]:
# SE unen los dos dataframes
# df = unionAll(df1,df2)
for cp in cols:
    df1 = df1.withColumn(cp, regexp_replace(cp, ',', '.'))
    df1 = df1.withColumn(cp, df1[cp].cast("float"))
    df1 = df1.na.fill({cp:0})

In [59]:
cols2 = df2.columns
cols2.remove('COLE_COD_DANE_ESTABLECIMIENTO')
cols2.remove('COLE_NOMBRE_ESTABLECIMIENTO')
cols2

['PUNT_MATEMATICAS',
 'PUNT_INGLES',
 'PUNT_CIENCIAS_SOCIALES',
 'PUNT_BIOLOGIA',
 'PUNT_FILOSOFIA',
 'PUNT_FISICA',
 'PUNT_QUIMICA',
 'PUNT_LENGUAJE',
 'PUNT_INTERDISC_MEDIOAMBIENTE',
 'PUNT_INTERDISC_VIOLENCIAYSOC',
 'PUNT_PROFUNDIZA_BIOLOGIA',
 'PUNT_PROFUNDIZA_CSOCIALES',
 'PUNT_PROFUNDIZA_LENGUAJE',
 'PUNT_PROFUNDIZA_MATEMATICA']

In [60]:
for cp in cols2:
    df2 = df2.withColumn(cp, regexp_replace(cp, ',', '.'))
    df2 = df2.withColumn(cp, df2[cp].cast("float"))
    df2 = df2.na.fill({cp:0})
df2 = df2.withColumn('COLE_COD_DANE_ESTABLECIMIENTO', df2['COLE_COD_DANE_ESTABLECIMIENTO'].cast("string"))

In [61]:
print("Numero de filas primero semestre ", df1.count())
print("Numero de filas segundo semestre ", df2.count())

Numero de filas primero semestre  31712
Numero de filas segundo semestre  540707


In [62]:
print(df1.printSchema())

root
 |-- cole_cod_dane_institucion: string (nullable = true)
 |-- cole_nombre_sede: string (nullable = true)
 |-- punt_lenguaje: float (nullable = false)
 |-- punt_matematicas: float (nullable = false)
 |-- punt_c_sociales: float (nullable = false)
 |-- punt_filosofia: float (nullable = false)
 |-- punt_biologia: float (nullable = false)
 |-- punt_quimica: float (nullable = false)
 |-- punt_fisica: float (nullable = false)
 |-- punt_ingles: float (nullable = false)
 |-- punt_comp_flexible: float (nullable = false)

None


In [63]:
print(df2.printSchema())

root
 |-- COLE_COD_DANE_ESTABLECIMIENTO: string (nullable = true)
 |-- COLE_NOMBRE_ESTABLECIMIENTO: string (nullable = true)
 |-- PUNT_MATEMATICAS: float (nullable = false)
 |-- PUNT_INGLES: float (nullable = false)
 |-- PUNT_CIENCIAS_SOCIALES: float (nullable = false)
 |-- PUNT_BIOLOGIA: float (nullable = false)
 |-- PUNT_FILOSOFIA: float (nullable = false)
 |-- PUNT_FISICA: float (nullable = false)
 |-- PUNT_QUIMICA: float (nullable = false)
 |-- PUNT_LENGUAJE: float (nullable = false)
 |-- PUNT_INTERDISC_MEDIOAMBIENTE: float (nullable = false)
 |-- PUNT_INTERDISC_VIOLENCIAYSOC: float (nullable = false)
 |-- PUNT_PROFUNDIZA_BIOLOGIA: float (nullable = false)
 |-- PUNT_PROFUNDIZA_CSOCIALES: float (nullable = false)
 |-- PUNT_PROFUNDIZA_LENGUAJE: float (nullable = false)
 |-- PUNT_PROFUNDIZA_MATEMATICA: float (nullable = false)

None


In [64]:
# Contando el numero de estudiantes por instituciòn y mostrandola de forma descendente
dsCountEst1 = df1.groupBy('cole_cod_dane_institucion','cole_nombre_sede').count().orderBy('count',ascending=
False)
dsCountEst2 = df2.groupBy('COLE_COD_DANE_ESTABLECIMIENTO','COLE_NOMBRE_ESTABLECIMIENTO').count().orderBy('count',ascending=
False)

In [65]:
dsCountEst1 = dsCountEst1.withColumnRenamed("count","num_est")
dsCountEst1.show(10,False)
# Numero de estudiantes por instituciòn primer semestre

+-------------------------+----------------------------------------------------------------------------------------------------+-------+
|cole_cod_dane_institucion|cole_nombre_sede                                                                                    |num_est|
+-------------------------+----------------------------------------------------------------------------------------------------+-------+
|473024000490             |BACHILLERATO AGROPECUARIO SAT PROHACIENDO - SEDE PRINCIPAL                                          |378    |
|125286000123             |CONCENTRACION  URBANA MIGUEL ANTONIO CARO                                                           |278    |
|305001020558             |COL CREADORES DEL FUTURO                                                                            |247    |
|311001104786             |COL BRITANICO SEDE TUNJUELITO                                                                       |245    |
|105001024571             |COL VIDA Y PAZ

In [66]:
dsCountEst2 = dsCountEst2.withColumnRenamed("count","num_est")
dsCountEst2.show(10,False)
# Numero de estudiantes por instituciòn segundo semestre

+-----------------------------+-------------------------------------+-------+
|COLE_COD_DANE_ESTABLECIMIENTO|COLE_NOMBRE_ESTABLECIMIENTO          |num_est|
+-----------------------------+-------------------------------------+-------+
|105001000108                 |INST EDUC CEFA                       |1037   |
|311001105391                 |COLEGIO TECNISISTEMAS                |801    |
|105001013340                 |INST EDUC INEM JOSE FELIX DE RESTREPO|730    |
|325754005072                 |COLEGIO SAN JOSE F.E.S.S.J           |714    |
|105154000301                 |I. E. LICEO CAUCASIA                 |680    |
|115176000084                 |I.E. TEC IND JULIO FLOREZ            |675    |
|168001003591                 |IE TEC INEM CUSTODIO GARCÍA ROVIRA   |624    |
|305001017433                 |COL COLOMBIANO DE BACHILLERATO       |623    |
|305001003963                 |LIC SALAZAR Y HERRERA                |606    |
|111001019411                 |COLEGIO INEM SANTIAGO PEREZ (IED)

In [67]:
#Se crea una columna con el total de los puntajes   
df1= df1.withColumn("Suma",df1['punt_lenguaje']+df1['punt_matematicas']+df1['punt_c_sociales']+
                     df1['punt_filosofia']+df1['punt_biologia']+df1['punt_quimica']+df1['punt_fisica']+
                     df1['punt_ingles']+df1['punt_comp_flexible'])
    
df2= df2.withColumn("Suma",df2['PUNT_MATEMATICAS']+df2['PUNT_INGLES']+df2['PUNT_CIENCIAS_SOCIALES']+
                     df2['PUNT_BIOLOGIA']+df2['PUNT_FILOSOFIA']+df2['PUNT_FISICA']+df2['PUNT_QUIMICA']+
                     df2['PUNT_LENGUAJE']+df2['PUNT_INTERDISC_MEDIOAMBIENTE']+
                     df2['PUNT_INTERDISC_VIOLENCIAYSOC']+df2['PUNT_PROFUNDIZA_BIOLOGIA']+
                     df2['PUNT_PROFUNDIZA_CSOCIALES']+df2['PUNT_PROFUNDIZA_LENGUAJE']+df2['PUNT_PROFUNDIZA_MATEMATICA'])


## Resultados finales por instituciòn 1er semestre

In [68]:
# Còdigo para obtener la media de los resultados de las evaluaciones de todos los estudiantes por instituciòn 
# y posiciòn en orden descendente.
from pyspark.sql.functions import *
from pyspark.sql.window import Window

df1 = df1.groupBy('cole_cod_dane_institucion').mean()
df1 = df1.withColumn("rank", dense_rank().over(Window.orderBy(desc("avg(Suma)"))))

In [69]:
dfjoin1 = df1.join(dsCountEst1,"cole_cod_dane_institucion")
dfjoin1 = dfjoin1.withColumn("Media",round(dfjoin1['avg(Suma)'],2))
dfjoin1 = dfjoin1.orderBy('rank',ascending= True)

In [70]:
dfjoin1.columns

['cole_cod_dane_institucion',
 'avg(punt_lenguaje)',
 'avg(punt_matematicas)',
 'avg(punt_c_sociales)',
 'avg(punt_filosofia)',
 'avg(punt_biologia)',
 'avg(punt_quimica)',
 'avg(punt_fisica)',
 'avg(punt_ingles)',
 'avg(punt_comp_flexible)',
 'avg(Suma)',
 'rank',
 'cole_nombre_sede',
 'num_est',
 'Media']

In [71]:
dfjoin1.select('cole_cod_dane_institucion','cole_nombre_sede','Media','rank','num_est').show(10)

+-------------------------+--------------------+------+----+-------+
|cole_cod_dane_institucion|    cole_nombre_sede| Media|rank|num_est|
+-------------------------+--------------------+------+----+-------+
|             425126047909|COL DAVID EISENHO...|572.51|   1|      1|
|             368276000826|COL LA QUINTA DEL...|568.68|   2|     31|
|             376001013441|COLEGIO BILINGUE ...|566.25|   3|     11|
|             311848002351|COL SANTA FRANCIS...|561.38|   4|     57|
|             311769003342|COL LOS NOGALES  ...|554.29|   5|     56|
|             311769002818|COL. INTERNACIONA...| 548.4|   6|     22|
|             313836000348|GIMN. CARTAGENA D...| 548.3|   7|     25|
|             311769000165|COL SAN JORGE DE ...| 544.8|   8|     58|
|             311848000278|GIMN VERMONT     ...|542.78|   9|     84|
|             311769001781|COL ABRAHAM LINCO...|542.43|  10|     65|
+-------------------------+--------------------+------+----+-------+
only showing top 10 rows



## Resultados finales por instituciòn 2do semestre

In [75]:
df2 = df2.groupBy('COLE_COD_DANE_ESTABLECIMIENTO').mean()
df2 = df2.withColumn("rank", dense_rank().over(Window.orderBy(desc("avg(Suma)"))))

In [76]:
dfjoin2 = df2.join(dsCountEst2,"COLE_COD_DANE_ESTABLECIMIENTO")
dfjoin2 = dfjoin2.withColumn("Media",round(dfjoin2['avg(Suma)'],2))
dfjoin2 = dfjoin2.orderBy('rank',ascending= True)

In [78]:
dfjoin2.select('COLE_COD_DANE_ESTABLECIMIENTO','COLE_NOMBRE_ESTABLECIMIENTO','Media','rank','num_est').show(10)

+-----------------------------+---------------------------+------+----+-------+
|COLE_COD_DANE_ESTABLECIMIENTO|COLE_NOMBRE_ESTABLECIMIENTO| Media|rank|num_est|
+-----------------------------+---------------------------+------+----+-------+
|                 368001005861|       GLENN DOMAN ESCUE...| 580.0|   1|      3|
|                 315759002670|       LICEO COOPERATIVO...| 560.0|   2|      1|
|                 311001086320|       GIMNASIO COLOMBO ...|552.49|   3|     73|
|                 311848000308|       COL ANGLO AMERICA...|546.54|   4|    138|
|                 311001089221|       INST ALBERTO MERA...|540.53|   5|     17|
|                 305001006784|       COL DE LA COMPANI...|538.21|   6|     57|
|                 311001076634|       COL NUEVO COLOMBO...|535.78|   7|     51|
|                 308001005299|       FUNDACION EDUCATI...|535.73|   8|     11|
|                 311001005176|       LIC NAVARRA      ...|533.26|   9|     47|
|                 311001090921|        C

## Colegios

In [150]:
# SE crea Dataframe de colegios en este año desaparecio la columna COLE_CODMPIO_COLEGIO
dfc = spark.read.load(base + '/' + coleDic['2011'],"com.databricks.spark.csv",header='true',inferSchema='true',sep='\t')
dfc = dfc.withColumn('COLE_CODIGO_COLEGIO', dfc['COLE_CODIGO_COLEGIO'].cast("string"))

In [151]:
print(dfc.printSchema())

root
 |-- COLE_CODIGO_COLEGIO: string (nullable = true)
 |-- COLE_INST_NOMBRE: string (nullable = true)
 |-- COLE_CODMPIO_COLEGIO: integer (nullable = true)
 |-- COLE_MPIO_COLEGIO: string (nullable = true)
 |-- COLE_DEPTO_COLEGIO: string (nullable = true)
 |-- COLE_INST_JORNADA: string (nullable = true)
 |-- COLE_CALENDARIO_COLEGIO: string (nullable = true)
 |-- COLE_GENEROPOBLACION: string (nullable = true)
 |-- COLE_NATURALEZA: string (nullable = true)
 |-- COLE_CIENCIAS_SOCIALES: integer (nullable = true)
 |-- COLE_QUIMICA: integer (nullable = true)
 |-- COLE_FISICA: integer (nullable = true)
 |-- COLE_BIOLOGIA: integer (nullable = true)
 |-- COLE_FILOSOFIA: integer (nullable = true)
 |-- COLE_MATEMATICAS: integer (nullable = true)
 |-- COLE_LENGUAJE: integer (nullable = true)
 |-- COLE_INGLES: integer (nullable = true)
 |-- COLE_GEOGRAFIA: string (nullable = true)
 |-- COLE_HISTORIA: string (nullable = true)
 |-- COLE_CATEGORIA: string (nullable = true)
 |-- COLE_ESTUDIANTES_PRESEN

In [152]:
colsColegio = ['COLE_CODIGO_COLEGIO',
 'COLE_CIENCIAS_SOCIALES',
 'COLE_QUIMICA',
 'COLE_FISICA',
 'COLE_BIOLOGIA',
 'COLE_FILOSOFIA',
 'COLE_MATEMATICAS',
 'COLE_LENGUAJE',
 'COLE_INGLES',
 'COLE_GEOGRAFIA',
 'COLE_HISTORIA']

In [153]:
dfc = dfc.select(colsColegio)

In [154]:
dfc.show(5,False)

+-------------------+----------------------+------------+-----------+-------------+--------------+----------------+-------------+-----------+--------------+-------------+
|COLE_CODIGO_COLEGIO|COLE_CIENCIAS_SOCIALES|COLE_QUIMICA|COLE_FISICA|COLE_BIOLOGIA|COLE_FILOSOFIA|COLE_MATEMATICAS|COLE_LENGUAJE|COLE_INGLES|COLE_GEOGRAFIA|COLE_HISTORIA|
+-------------------+----------------------+------------+-----------+-------------+--------------+----------------+-------------+-----------+--------------+-------------+
|156588             |7                     |6           |7          |7            |6             |7               |7            |7          |null          |null         |
|156653             |5                     |5           |6          |4            |5             |5               |6            |5          |null          |null         |
|156687             |6                     |6           |6          |6            |6             |5               |6            |6          |null

In [155]:
print("El numero de colegios es: ", dfc.select('COLE_CODIGO_COLEGIO').count())

El numero de colegios es:  8586


## Anàlisis comparativo entre estudiantes y colegios

In [156]:
dfjoin = df1.join(dfc, df1.cole_cod_dane_institucion == dfc.COLE_CODIGO_COLEGIO)

In [157]:
print("Nùmero de colegios coincidentes entre el archivo de estudiantes 1er semestre y colegios:", dfjoin.count())

Nùmero de colegios coincidentes entre el archivo de estudiantes 1er semestre y colegios: 0


In [158]:
dfjoin = df2.join(dfc, df2.COLE_COD_DANE_ESTABLECIMIENTO == dfc.COLE_CODIGO_COLEGIO)

In [159]:
print("Nùmero de colegios coincidentes entre el archivo de estudiantes 2do semestre y colegios:", dfjoin.count())

Nùmero de colegios coincidentes entre el archivo de estudiantes 2do semestre y colegios: 0


La informaciòn de colegios no coincide con la informaciòn de estudiantes, no existe cole_cod_dane_institucion en el archivo de colegios.