In [57]:
from pyspark.sql import SparkSession
from pyspark.sql import Row
from functools import reduce
from pyspark.sql import DataFrame
from pyspark.sql.types import StringType,DoubleType,FloatType
from pyspark.sql.functions import udf
from pyspark.sql.functions import regexp_replace
from pyspark.sql.functions import lit
import locale
import sys
import os
import re

In [58]:
sc

In [59]:
spark

# Leyendo lista de Colegios y Estudiantes

In [60]:
base = '../Colegios'
base2 = '../SB'
colegios = os.listdir('../Colegios')
estudiantes = os.listdir('../SB')

In [61]:
estudiantes.sort()
colegios.sort()
estuDic = {}
coleDic = {}
for estu in estudiantes:
    estuDic[re.findall('\d+', estu)[1]] = estu

for colegio in colegios:
    coleDic[re.findall('\d+', colegio)[1]] = colegio

In [62]:
# Funciòn para unir cualquier nùmero de dataframes con la misma estructura 
def unionAll(*dfs):
    return reduce(DataFrame.unionAll, dfs)

In [63]:
print("Archivos de estudiantes: ", estuDic['20111'],estuDic['20112'])
print("Archivos de colegios: ",coleDic['2011'])

Archivos de estudiantes:  SB11_20111.txt SB11_20112.txt
Archivos de colegios:  SB11-CLASIFI-PLANTELES-2011.txt


In [64]:
# SE leen los dos archivos y se crean dos dataframes
df1 = spark.read.load(base2 + '/' + estuDic['20111'],"com.databricks.spark.csv",header='true',inferSchema='true',sep='¬')
df2 = spark.read.load(base2 + '/' + estuDic['20112'],"com.databricks.spark.csv",header='true',inferSchema='true',sep='¬')

In [65]:
columnasPuntos20111 = ['cole_cod_dane_institucion','cole_nombre_sede',
 'punt_lenguaje',
 'punt_matematicas',
 'punt_c_sociales',
 'punt_filosofia',
 'punt_biologia',
 'punt_quimica',
 'punt_fisica',
 'punt_ingles',
 'punt_comp_flexible']

columnasPuntos20112 = [
 'COLE_COD_DANE_ESTABLECIMIENTO',
 'COLE_NOMBRE_ESTABLECIMIENTO',
 'PUNT_MATEMATICAS',
 'PUNT_INGLES',
 'PUNT_CIENCIAS_SOCIALES',
 'PUNT_BIOLOGIA',
 'PUNT_FILOSOFIA',
 'PUNT_FISICA',
 'PUNT_QUIMICA',
 'PUNT_LENGUAJE',
 'PUNT_INTERDISC_MEDIOAMBIENTE',
 'PUNT_INTERDISC_VIOLENCIAYSOC',
 'PUNT_PROFUNDIZA_BIOLOGIA',
 'PUNT_PROFUNDIZA_CSOCIALES',
 'PUNT_PROFUNDIZA_LENGUAJE',
 'PUNT_PROFUNDIZA_MATEMATICA'    
]

In [66]:
# SE leen los dos archivos y se crean dos dataframes
df1 = df1.select(columnasPuntos20111)
df2 = df2.select(columnasPuntos20112)

In [67]:
#dft = df1.columns.remove('cole_cod_dane_institucion')
cols = df1.columns
cols.remove('cole_cod_dane_institucion')
cols.remove('cole_nombre_sede')
cols

['punt_lenguaje',
 'punt_matematicas',
 'punt_c_sociales',
 'punt_filosofia',
 'punt_biologia',
 'punt_quimica',
 'punt_fisica',
 'punt_ingles',
 'punt_comp_flexible']

In [68]:
# SE unen los dos dataframes
# df = unionAll(df1,df2)
for cp in cols:
    df1 = df1.withColumn(cp, regexp_replace(cp, ',', '.'))
    df1 = df1.withColumn(cp, df1[cp].cast("float"))
    df1 = df1.na.fill({cp:0})

df1 = df1.na.fill({'cole_cod_dane_institucion':'--'})
df1 = df1.na.fill({'cole_nombre_sede':'--'})

In [69]:
# SE evalua sí tiene valores nullos
print("Nùmero de filas con cole_cod_dane_institucion nulos: ", df1.filter("cole_cod_dane_institucion = '--'").count())
print("Nùmero de filas con cole_nombre_sede nulos: ", df1.filter("cole_nombre_sede = '--'").count())

Nùmero de filas con cole_cod_dane_institucion nulos:  565
Nùmero de filas con cole_nombre_sede nulos:  0


In [70]:
cols2 = df2.columns
cols2.remove('COLE_COD_DANE_ESTABLECIMIENTO')
cols2.remove('COLE_NOMBRE_ESTABLECIMIENTO')
cols2

['PUNT_MATEMATICAS',
 'PUNT_INGLES',
 'PUNT_CIENCIAS_SOCIALES',
 'PUNT_BIOLOGIA',
 'PUNT_FILOSOFIA',
 'PUNT_FISICA',
 'PUNT_QUIMICA',
 'PUNT_LENGUAJE',
 'PUNT_INTERDISC_MEDIOAMBIENTE',
 'PUNT_INTERDISC_VIOLENCIAYSOC',
 'PUNT_PROFUNDIZA_BIOLOGIA',
 'PUNT_PROFUNDIZA_CSOCIALES',
 'PUNT_PROFUNDIZA_LENGUAJE',
 'PUNT_PROFUNDIZA_MATEMATICA']

In [71]:
for cp in cols2:
    df2 = df2.withColumn(cp, regexp_replace(cp, ',', '.'))
    df2 = df2.withColumn(cp, df2[cp].cast("float"))
    df2 = df2.na.fill({cp:0})
df2 = df2.withColumn('COLE_COD_DANE_ESTABLECIMIENTO', df2['COLE_COD_DANE_ESTABLECIMIENTO'].cast("string"))

df2 = df2.na.fill({'COLE_COD_DANE_ESTABLECIMIENTO':'--'})
df2 = df2.na.fill({'COLE_NOMBRE_ESTABLECIMIENTO':'--'})

# SE evalua sí tiene valores nullos
print("Nùmero de filas con COLE_COD_DANE_ESTABLECIMIENTO nulos: ", df2.filter("COLE_COD_DANE_ESTABLECIMIENTO = '--'").count())
print("Nùmero de filas con cole_nombre_sede nulos: ", df2.filter("COLE_NOMBRE_ESTABLECIMIENTO = '--'").count())

Nùmero de filas con COLE_COD_DANE_ESTABLECIMIENTO nulos:  726
Nùmero de filas con cole_nombre_sede nulos:  21


In [72]:
print("Numero de filas primero semestre ", df1.count())
print("Numero de filas segundo semestre ", df2.count())

Numero de filas primero semestre  31712
Numero de filas segundo semestre  540707


In [73]:
print(df1.printSchema())

root
 |-- cole_cod_dane_institucion: string (nullable = false)
 |-- cole_nombre_sede: string (nullable = false)
 |-- punt_lenguaje: float (nullable = false)
 |-- punt_matematicas: float (nullable = false)
 |-- punt_c_sociales: float (nullable = false)
 |-- punt_filosofia: float (nullable = false)
 |-- punt_biologia: float (nullable = false)
 |-- punt_quimica: float (nullable = false)
 |-- punt_fisica: float (nullable = false)
 |-- punt_ingles: float (nullable = false)
 |-- punt_comp_flexible: float (nullable = false)

None


In [74]:
print(df2.printSchema())

root
 |-- COLE_COD_DANE_ESTABLECIMIENTO: string (nullable = false)
 |-- COLE_NOMBRE_ESTABLECIMIENTO: string (nullable = false)
 |-- PUNT_MATEMATICAS: float (nullable = false)
 |-- PUNT_INGLES: float (nullable = false)
 |-- PUNT_CIENCIAS_SOCIALES: float (nullable = false)
 |-- PUNT_BIOLOGIA: float (nullable = false)
 |-- PUNT_FILOSOFIA: float (nullable = false)
 |-- PUNT_FISICA: float (nullable = false)
 |-- PUNT_QUIMICA: float (nullable = false)
 |-- PUNT_LENGUAJE: float (nullable = false)
 |-- PUNT_INTERDISC_MEDIOAMBIENTE: float (nullable = false)
 |-- PUNT_INTERDISC_VIOLENCIAYSOC: float (nullable = false)
 |-- PUNT_PROFUNDIZA_BIOLOGIA: float (nullable = false)
 |-- PUNT_PROFUNDIZA_CSOCIALES: float (nullable = false)
 |-- PUNT_PROFUNDIZA_LENGUAJE: float (nullable = false)
 |-- PUNT_PROFUNDIZA_MATEMATICA: float (nullable = false)

None


In [75]:
# Contando el numero de estudiantes por instituciòn y mostrandola de forma descendente
dsCountEst1 = df1.groupBy('cole_nombre_sede').count().orderBy('count',ascending=
False)
dsCountEst2 = df2.groupBy('COLE_NOMBRE_ESTABLECIMIENTO').count().orderBy('count',ascending=
False)

In [76]:
dsCountEst1 = dsCountEst1.withColumnRenamed("count","num_est")
dsCountEst1.show(10,False)
# Numero de estudiantes por instituciòn primer semestre

+----------------------------------------------------------------------------------------------------+-------+
|cole_nombre_sede                                                                                    |num_est|
+----------------------------------------------------------------------------------------------------+-------+
|BACHILLERATO AGROPECUARIO SAT PROHACIENDO - SEDE PRINCIPAL                                          |378    |
|CONCENTRACION  URBANA MIGUEL ANTONIO CARO                                                           |278    |
|COL CREADORES DEL FUTURO                                                                            |247    |
|INSTITUTO REGIONAL COREDI                                                                           |246    |
|COL BRITANICO SEDE TUNJUELITO                                                                       |245    |
|COL VIDA Y PAZ SEDE CENTRO                                                                          |242    |
|

In [77]:
rowmax1 = dsCountEst1.agg({"num_est": "max"}).collect()[0]
rowmin1 = dsCountEst1.agg({"num_est": "min"}).collect()[0]

num_est_max1 = rowmax1["max(num_est)"]
num_est_min1 = rowmin1["min(num_est)"]

print("Numero màximo de estudiantes: ",num_est_max1)
print("Numero mìnimo de estudiantes: ",num_est_min1)

Numero màximo de estudiantes:  378
Numero mìnimo de estudiantes:  1


In [78]:
dsCountEst2 = dsCountEst2.withColumnRenamed("count","num_est")
dsCountEst2.show(10,False)
# Numero de estudiantes por instituciòn segundo semestre

+------------------------------------------------+-------+
|COLE_NOMBRE_ESTABLECIMIENTO                     |num_est|
+------------------------------------------------+-------+
|INST EDUC CEFA                                  |1037   |
|INSTITUCION EDUCATIVA FRANCISCO JOSE DE CALDAS  |935    |
|IE JORGE ELIECER GAITAN                         |836    |
|COLEGIO TECNISISTEMAS                           |817    |
|INST EDUC INEM JOSE FELIX DE RESTREPO           |730    |
|INSTITUTO TECNICO PARA EL DESARROLLO RURAL IDEAR|729    |
|COLEGIO SAN JOSE F.E.S.S.J                      |714    |
|INSTITUCION EDUCATIVA SIMON BOLIVAR             |714    |
|I. E. LICEO CAUCASIA                            |680    |
|I.E. TEC IND JULIO FLOREZ                       |675    |
+------------------------------------------------+-------+
only showing top 10 rows



In [79]:
rowmax2 = dsCountEst2.agg({"num_est": "max"}).collect()[0]
rowmin2 = dsCountEst2.agg({"num_est": "min"}).collect()[0]

num_est_max2 = rowmax2["max(num_est)"]
num_est_min2 = rowmin2["min(num_est)"]

print("Numero màximo de estudiantes: ",num_est_max2)
print("Numero mìnimo de estudiantes: ",num_est_min2)

Numero màximo de estudiantes:  1037
Numero mìnimo de estudiantes:  1


In [80]:
#Se crea una columna con el total de los puntajes   
df1= df1.withColumn("Suma",df1['punt_lenguaje']+df1['punt_matematicas']+df1['punt_c_sociales']+
                     df1['punt_filosofia']+df1['punt_biologia']+df1['punt_quimica']+df1['punt_fisica']+
                     df1['punt_ingles']+df1['punt_comp_flexible'])
    
df2= df2.withColumn("Suma",df2['PUNT_MATEMATICAS']+df2['PUNT_INGLES']+df2['PUNT_CIENCIAS_SOCIALES']+
                     df2['PUNT_BIOLOGIA']+df2['PUNT_FILOSOFIA']+df2['PUNT_FISICA']+df2['PUNT_QUIMICA']+
                     df2['PUNT_LENGUAJE']+df2['PUNT_INTERDISC_MEDIOAMBIENTE']+
                     df2['PUNT_INTERDISC_VIOLENCIAYSOC']+df2['PUNT_PROFUNDIZA_BIOLOGIA']+
                     df2['PUNT_PROFUNDIZA_CSOCIALES']+df2['PUNT_PROFUNDIZA_LENGUAJE']+df2['PUNT_PROFUNDIZA_MATEMATICA'])


## Resultados finales por instituciòn 1er semestre

In [81]:
# Còdigo para obtener la media de los resultados de las evaluaciones de todos los estudiantes por instituciòn 
# y posiciòn en orden descendente.
from pyspark.sql.functions import *
from pyspark.sql.window import Window

#df = df.groupBy('cole_cod_dane_institucion','cole_nombre_sede').mean()
df1 = df1.groupBy('cole_nombre_sede').mean()

rowprommax1 = df1.agg({"avg(Suma)": "max"}).collect()[0]
rowprommin1 = df1.agg({"avg(Suma)": "min"}).collect()[0]

prom_est_max1 = rowprommax1["max(avg(Suma))"]
prom_est_min1 = rowprommin1["min(avg(Suma))"]

print("Màxima calificaciòn en colegios: ", prom_est_max1)
print("Mìxima calificaciòn en colegios: ", prom_est_min1)

Màxima calificaciòn en colegios:  572.510009765625
Mìxima calificaciòn en colegios:  273.02001953125


In [83]:
dfjoin = df1.join(dsCountEst1,"cole_nombre_sede")
dfjoin= dfjoin.withColumn("Indice_Prom",round(dfjoin['avg(Suma)']/prom_est_max1,3))
dfjoin= dfjoin.withColumn("Indice_Num",round(dfjoin['num_est']/num_est_max1,3))
dfjoin= dfjoin.withColumn("Indice_Total",round(dfjoin['Indice_Prom']*dfjoin['Indice_Num'],3))

In [84]:
dfjoin = dfjoin.select('cole_nombre_sede','avg(Suma)','num_est','Indice_Prom','Indice_Num','Indice_Total')
dfjoin = dfjoin.withColumn("rankProm", dense_rank().over(Window.orderBy(desc("Indice_Prom"))))
dfjoin = dfjoin.withColumn("rankNum", dense_rank().over(Window.orderBy(desc("Indice_Num"))))
dfjoin = dfjoin.withColumn("rankTotal", dense_rank().over(Window.orderBy(desc("Indice_Total"))))
dfjoin = dfjoin.withColumn("Media",round(dfjoin['avg(Suma)'],2))

In [85]:
# Se ordena por Indice_Prom
dfjoin = dfjoin.orderBy('rankProm',ascending= True)
dfjoin.select('cole_nombre_sede','Media','Indice_Prom','num_est','rankProm','rankNum','rankTotal').show(10)

+--------------------+------+-----------+-------+--------+-------+---------+
|    cole_nombre_sede| Media|Indice_Prom|num_est|rankProm|rankNum|rankTotal|
+--------------------+------+-----------+-------+--------+-------+---------+
|COL DAVID EISENHO...|572.51|        1.0|      1|       1|    128|      211|
|COL LA QUINTA DEL...|568.68|      0.993|     31|       2|     98|      133|
|COLEGIO BILINGUE ...|566.25|      0.989|     11|       3|    118|      185|
|COL SANTA FRANCIS...|561.38|      0.981|     57|       4|     72|       72|
|COL LOS NOGALES  ...|554.29|      0.968|     56|       5|     73|       77|
|COL. INTERNACIONA...| 548.4|      0.958|     22|       6|    107|      158|
|GIMN. CARTAGENA D...| 548.3|      0.958|     25|       6|    104|      151|
|COL SAN JORGE DE ...| 544.8|      0.952|     58|       7|     71|       74|
|GIMN VERMONT     ...|542.78|      0.948|     84|       8|     49|       36|
|COL ABRAHAM LINCO...|542.43|      0.947|     65|       9|     64|       63|

In [86]:
dfjoin = dfjoin.orderBy('rankNum',ascending= True)
dfjoin.select('cole_nombre_sede','Media','Indice_Num','num_est','rankProm','rankNum','rankTotal').show(10)

+--------------------+------+----------+-------+--------+-------+---------+
|    cole_nombre_sede| Media|Indice_Num|num_est|rankProm|rankNum|rankTotal|
+--------------------+------+----------+-------+--------+-------+---------+
|BACHILLERATO AGRO...|355.96|       1.0|    378|     257|      1|        1|
|CONCENTRACION  UR...|361.01|     0.735|    278|     248|      2|        2|
|COL CREADORES DEL...|341.79|     0.653|    247|     279|      3|        6|
|INSTITUTO REGIONA...|353.59|     0.651|    246|     261|      4|        5|
|COL BRITANICO SED...|375.57|     0.648|    245|     223|      5|        3|
|COL VIDA Y PAZ SE...|370.96|      0.64|    242|     231|      6|        4|
|INSTITUTO GERWILL...|340.14|     0.632|    239|     282|      7|        8|
|COL TECNISISTEMAS...|380.53|     0.624|    236|     214|      8|        4|
|     COL COMPUSOCIAL|358.23|     0.577|    218|     253|      9|       10|
|INSTITUTO CODESAR...|370.06|      0.55|    208|     233|     10|       11|
+-----------

In [87]:
# Se ordena por Indice_Total
dfjoin = dfjoin.orderBy('rankTotal',ascending= True)
dfjoin.select('cole_nombre_sede','Media','Indice_Total','num_est','rankProm','rankNum','rankTotal').show(10)

+--------------------+------+------------+-------+--------+-------+---------+
|    cole_nombre_sede| Media|Indice_Total|num_est|rankProm|rankNum|rankTotal|
+--------------------+------+------------+-------+--------+-------+---------+
|BACHILLERATO AGRO...|355.96|       0.622|    378|     257|      1|        1|
|CONCENTRACION  UR...|361.01|       0.464|    278|     248|      2|        2|
|COL BRITANICO SED...|375.57|       0.425|    245|     223|      5|        3|
|COL VIDA Y PAZ SE...|370.96|       0.415|    242|     231|      6|        4|
|COL TECNISISTEMAS...|380.53|       0.415|    236|     214|      8|        4|
|INSTITUTO REGIONA...|353.59|       0.402|    246|     261|      4|        5|
|COL CREADORES DEL...|341.79|        0.39|    247|     279|      3|        6|
|COLEGIO SAN ANTON...|451.91|       0.386|    185|     108|     14|        7|
|INSTITUTO GERWILL...|340.14|       0.375|    239|     282|      7|        8|
|COLEGIO FRANCISCA...|436.16|       0.369|    183|     128|     

## Resultados finales por instituciòn 2do semestre

In [90]:
# Còdigo para obtener la media de los resultados de las evaluaciones de todos los estudiantes por instituciòn 
# y posiciòn en orden descendente.
from pyspark.sql.functions import *
from pyspark.sql.window import Window

#df = df.groupBy('cole_cod_dane_institucion','cole_nombre_sede').mean()
df2 = df2.groupBy('COLE_NOMBRE_ESTABLECIMIENTO').mean()

rowprommax2 = df2.agg({"avg(Suma)": "max"}).collect()[0]
rowprommin2 = df2.agg({"avg(Suma)": "min"}).collect()[0]

prom_est_max2 = rowprommax1["max(avg(Suma))"]
prom_est_min2 = rowprommin1["min(avg(Suma))"]

print("Màxima calificaciòn en colegios: ", prom_est_max2)
print("Mìxima calificaciòn en colegios: ", prom_est_min2)

Màxima calificaciòn en colegios:  572.510009765625
Mìxima calificaciòn en colegios:  273.02001953125


In [92]:
dfjoin = df2.join(dsCountEst2,"COLE_NOMBRE_ESTABLECIMIENTO")
dfjoin= dfjoin.withColumn("Indice_Prom",round(dfjoin['avg(Suma)']/prom_est_max2,3))
dfjoin= dfjoin.withColumn("Indice_Num",round(dfjoin['num_est']/num_est_max2,3))
dfjoin= dfjoin.withColumn("Indice_Total",round(dfjoin['Indice_Prom']*dfjoin['Indice_Num'],3))

In [93]:
dfjoin = dfjoin.select('COLE_NOMBRE_ESTABLECIMIENTO','avg(Suma)','num_est','Indice_Prom','Indice_Num','Indice_Total')
dfjoin = dfjoin.withColumn("rankProm", dense_rank().over(Window.orderBy(desc("Indice_Prom"))))
dfjoin = dfjoin.withColumn("rankNum", dense_rank().over(Window.orderBy(desc("Indice_Num"))))
dfjoin = dfjoin.withColumn("rankTotal", dense_rank().over(Window.orderBy(desc("Indice_Total"))))
dfjoin = dfjoin.withColumn("Media",round(dfjoin['avg(Suma)'],2))

In [94]:
# Se ordena por Indice_Prom
dfjoin = dfjoin.orderBy('rankProm',ascending= True)
dfjoin.select('COLE_NOMBRE_ESTABLECIMIENTO','Media','Indice_Prom','num_est','rankProm','rankNum','rankTotal').show(10)

+---------------------------+------+-----------+-------+--------+-------+---------+
|COLE_NOMBRE_ESTABLECIMIENTO| Media|Indice_Prom|num_est|rankProm|rankNum|rankTotal|
+---------------------------+------+-----------+-------+--------+-------+---------+
|       GLENN DOMAN ESCUE...| 580.0|      1.013|      3|       1|    378|      289|
|       LICEO COOPERATIVO...| 560.0|      0.978|      1|       2|    380|      291|
|       GIMNASIO COLOMBO ...|552.49|      0.965|     73|       3|    311|      224|
|       COL ANGLO AMERICA...|546.54|      0.955|    138|       4|    248|      165|
|       INST ALBERTO MERA...|540.53|      0.944|     17|       5|    365|      277|
|       COL DE LA COMPANI...|538.21|       0.94|     57|       6|    326|      240|
|       FUNDACION EDUCATI...|535.73|      0.936|     11|       7|    370|      282|
|       COL NUEVO COLOMBO...|535.78|      0.936|     51|       7|    332|      246|
|       LIC NAVARRA      ...|533.26|      0.931|     47|       8|    336|   

In [95]:
dfjoin = dfjoin.orderBy('rankNum',ascending= True)
dfjoin.select('COLE_NOMBRE_ESTABLECIMIENTO','Media','Indice_Num','num_est','rankProm','rankNum','rankTotal').show(10)

+---------------------------+------+----------+-------+--------+-------+---------+
|COLE_NOMBRE_ESTABLECIMIENTO| Media|Indice_Num|num_est|rankProm|rankNum|rankTotal|
+---------------------------+------+----------+-------+--------+-------+---------+
|             INST EDUC CEFA|427.45|       1.0|   1037|     162|      1|        1|
|       INSTITUCION EDUCA...|362.65|     0.902|    935|     276|      2|        2|
|       IE JORGE ELIECER ...|367.92|     0.806|    836|     266|      3|        4|
|       COLEGIO TECNISIST...|364.33|     0.788|    817|     273|      4|        5|
|       INST EDUC INEM JO...|422.65|     0.704|    730|     171|      5|        3|
|       INSTITUTO TECNICO...|345.48|     0.703|    729|     306|      6|       10|
|       COLEGIO SAN JOSE ...|337.57|     0.689|    714|     319|      7|       14|
|       INSTITUCION EDUCA...|367.46|     0.689|    714|     267|      7|        8|
|       I. E. LICEO CAUCASIA|363.15|     0.656|    680|     275|      8|       12|
|   

In [96]:
# Se ordena por Indice_Total
dfjoin = dfjoin.orderBy('rankTotal',ascending= True)
dfjoin.select('COLE_NOMBRE_ESTABLECIMIENTO','Media','Indice_Total','num_est','rankProm','rankNum','rankTotal').show(10)

+---------------------------+------+------------+-------+--------+-------+---------+
|COLE_NOMBRE_ESTABLECIMIENTO| Media|Indice_Total|num_est|rankProm|rankNum|rankTotal|
+---------------------------+------+------------+-------+--------+-------+---------+
|             INST EDUC CEFA|427.45|       0.747|   1037|     162|      1|        1|
|       INSTITUCION EDUCA...|362.65|       0.571|    935|     276|      2|        2|
|       INST EDUC INEM JO...|422.65|        0.52|    730|     171|      5|        3|
|       IE JORGE ELIECER ...|367.92|       0.518|    836|     266|      3|        4|
|       COLEGIO TECNISIST...|364.33|       0.501|    817|     273|      4|        5|
|               COL LA SALLE|441.61|       0.466|    626|     138|     11|        6|
|       LIC SALAZAR Y HER...|447.29|       0.456|    606|     128|     14|        7|
|       INSTITUCION EDUCA...|367.46|       0.442|    714|     267|      7|        8|
|       COLEGIO DE LA UNI...|480.88|       0.427|    527|      69

## Colegios

In [150]:
# SE crea Dataframe de colegios en este año desaparecio la columna COLE_CODMPIO_COLEGIO
dfc = spark.read.load(base + '/' + coleDic['2011'],"com.databricks.spark.csv",header='true',inferSchema='true',sep='\t')
dfc = dfc.withColumn('COLE_CODIGO_COLEGIO', dfc['COLE_CODIGO_COLEGIO'].cast("string"))

In [151]:
print(dfc.printSchema())

root
 |-- COLE_CODIGO_COLEGIO: string (nullable = true)
 |-- COLE_INST_NOMBRE: string (nullable = true)
 |-- COLE_CODMPIO_COLEGIO: integer (nullable = true)
 |-- COLE_MPIO_COLEGIO: string (nullable = true)
 |-- COLE_DEPTO_COLEGIO: string (nullable = true)
 |-- COLE_INST_JORNADA: string (nullable = true)
 |-- COLE_CALENDARIO_COLEGIO: string (nullable = true)
 |-- COLE_GENEROPOBLACION: string (nullable = true)
 |-- COLE_NATURALEZA: string (nullable = true)
 |-- COLE_CIENCIAS_SOCIALES: integer (nullable = true)
 |-- COLE_QUIMICA: integer (nullable = true)
 |-- COLE_FISICA: integer (nullable = true)
 |-- COLE_BIOLOGIA: integer (nullable = true)
 |-- COLE_FILOSOFIA: integer (nullable = true)
 |-- COLE_MATEMATICAS: integer (nullable = true)
 |-- COLE_LENGUAJE: integer (nullable = true)
 |-- COLE_INGLES: integer (nullable = true)
 |-- COLE_GEOGRAFIA: string (nullable = true)
 |-- COLE_HISTORIA: string (nullable = true)
 |-- COLE_CATEGORIA: string (nullable = true)
 |-- COLE_ESTUDIANTES_PRESEN

In [152]:
colsColegio = ['COLE_CODIGO_COLEGIO',
 'COLE_CIENCIAS_SOCIALES',
 'COLE_QUIMICA',
 'COLE_FISICA',
 'COLE_BIOLOGIA',
 'COLE_FILOSOFIA',
 'COLE_MATEMATICAS',
 'COLE_LENGUAJE',
 'COLE_INGLES',
 'COLE_GEOGRAFIA',
 'COLE_HISTORIA']

In [153]:
dfc = dfc.select(colsColegio)

In [154]:
dfc.show(5,False)

+-------------------+----------------------+------------+-----------+-------------+--------------+----------------+-------------+-----------+--------------+-------------+
|COLE_CODIGO_COLEGIO|COLE_CIENCIAS_SOCIALES|COLE_QUIMICA|COLE_FISICA|COLE_BIOLOGIA|COLE_FILOSOFIA|COLE_MATEMATICAS|COLE_LENGUAJE|COLE_INGLES|COLE_GEOGRAFIA|COLE_HISTORIA|
+-------------------+----------------------+------------+-----------+-------------+--------------+----------------+-------------+-----------+--------------+-------------+
|156588             |7                     |6           |7          |7            |6             |7               |7            |7          |null          |null         |
|156653             |5                     |5           |6          |4            |5             |5               |6            |5          |null          |null         |
|156687             |6                     |6           |6          |6            |6             |5               |6            |6          |null

In [155]:
print("El numero de colegios es: ", dfc.select('COLE_CODIGO_COLEGIO').count())

El numero de colegios es:  8586


## Anàlisis comparativo entre estudiantes y colegios

In [156]:
dfjoin = df1.join(dfc, df1.cole_cod_dane_institucion == dfc.COLE_CODIGO_COLEGIO)

In [157]:
print("Nùmero de colegios coincidentes entre el archivo de estudiantes 1er semestre y colegios:", dfjoin.count())

Nùmero de colegios coincidentes entre el archivo de estudiantes 1er semestre y colegios: 0


In [158]:
dfjoin = df2.join(dfc, df2.COLE_COD_DANE_ESTABLECIMIENTO == dfc.COLE_CODIGO_COLEGIO)

In [159]:
print("Nùmero de colegios coincidentes entre el archivo de estudiantes 2do semestre y colegios:", dfjoin.count())

Nùmero de colegios coincidentes entre el archivo de estudiantes 2do semestre y colegios: 0


La informaciòn de colegios no coincide con la informaciòn de estudiantes, no existe cole_cod_dane_institucion en el archivo de colegios.