# Datathon_Proyecto_Establecimientos_Educativos

Proyecto Análisis de datos.

* Titulo: Inclusión Educativa en Colombia: Análisis de la Capacidad Institucional para Atender a Estudiantes con Discapacidad en Contextos Rurales y Urbanos.

* Descripción del reto: Proyecto de análisis exploratorio cuyo proposito es aplicar todas las etapas del analisis de datos, desde la limpieza hasta la visualización de resultados, la aplicación de metodologías agiles, trabajo colaborativo y aplicación de modelos de aprendizaje automatico supervisado.

* Hipótesis: “Las instituciones educativas en zonas urbanas están mejor preparadas para atender a estudiantes con discapacidad que las rurales.”

* Hipótesis Nula (H₀):
No hay diferencia significativa en la preparación para atender a estudiantes con discapacidad entre instituciones educativas urbanas y rurales.

* Hipótesis Alternativa (H₁):
“Existe una diferencia significativa en la preparación para atender a estudiantes con discapacidad entre instituciones urbanas y rurales.”

In [None]:
from google.colab import drive
drive.mount('/content/drive')

import pandas as pd


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


---
# **Proceso ETL** (Extract, Transform and Load)

---
## 1. ***"E"*** (Extract)

Importar bibliotecas necesarias

In [None]:
# Importar librerías para análisis
import pandas as pd
import numpy as np

# Importar librerías de visualización
import matplotlib.pyplot as plt
import seaborn as sns

pd.set_option('display.max_columns', 200)

# Configuración de estilo
sns.set(style="darkgrid")

Validacion de ruta

In [None]:
import os

# Mostrar ruta actual
print("Directorio actual:", os.getcwd())

Directorio actual: /content


Cargar el archivo - Examinar Dataset

In [None]:
# Nombre del archivo (mismo directorio)
ruta = '/content/drive/MyDrive/DATASET_LIMPIO_DATATHON_1.0 - DISCAPACIDADES DEPURADAS_v1.xlsx'

# Ver hojas disponibles
excel_file = pd.ExcelFile(ruta)
print("Hojas disponibles:", excel_file.sheet_names)

# Cargar la primera hoja del archivo
df = pd.read_excel(excel_file, sheet_name=0)

# Mostrar primeras filas
df.head()

Hojas disponibles: ['DATA_PRINCIPAL', 'DISCAPACIDADES NO BORRAR', 'FORMULA NO BORRAR', 'SÍ APLICA', 'NOMBRE', 'CONCATENA']


Unnamed: 0,AÑO,SECRETARÍA,CODIGO_DEPARTAMENTO,NOMBRE_DEPARTAMENTO,CODIGO_MUNICIPIO,NOMBRE_MUNICIPIO,CODIGO_ESTABLECIMIENTO,NOMBRE_ESTABLECIMIENTO,ZONA,DIRECCIÓN,TELÉFONO,NOMBRE_RECTOR,TIPO_ESTABLECIMIENTO,ETNIAS,NIVELES,JORNADAS,ESPECIALIDAD,GRADOS,MODELOS_EDUCATIVOS,CAPACIDADES_EXCEPCIONALES,DISCAPACIDADES,IDIOMAS,NUMERO_DE_SEDES,PRESTADOR_DE_SERVICIO,PROPIEDAD_PLANTA_FISICA,RESGUARDO,MATRICULA_CONTRATADA,CALENDARIO,INTERNADO,ESTRATO_SOCIO_ECONÓMICO,CORREO_ELECTRÓNICO
0,2016,BUCARAMANGA,68,SANTANDER,68001,BUCARAMANGA,368001000290,FUND COL NUEVA GENERACION JUVENIL ...,URBANA,CLL 8 NO 22-57,6714515,JOSE LUIS CORTES PALOMINO,INSTITUCION EDUCATIVA,,"MEDIA,BÁSICA SECUNDARIA","MAÑANA,NOCTURNA",ACADÉMICA,67891011,EDUCACIÓN TRADICIONAL,,,INGLÉS,1,PERSONA NATURAL,PERSONA NATURAL,NO APLICA,NO,A,,,...
1,2016,BUCARAMANGA,68,SANTANDER,68001,BUCARAMANGA,368001006298,COL MUNDO CONSTRUCTIVO ...,URBANA,CLL 84 NO 24A - 60,6363107,EMILSE CARREÑO VASQUEZ,CENTRO EDUCATIVO,,PREESCOLAR,TARDE,,-3,EDUCACIÓN TRADICIONAL,,,INGLÉS,1,PERSONA NATURAL,PERSONA NATURAL,NO APLICA,NO,A,,,...
2,2016,BUCARAMANGA,68,SANTANDER,68001,BUCARAMANGA,368001000907,COL ATENAS ...,URBANA,CR 26 NO 33-73,64510926454952,NELLY RIVEROS LONDOÑO,INSTITUCION EDUCATIVA,,MEDIA,FIN DE SEMANA,ACADÉMICA,10.11,EDUCACIÓN TRADICIONAL,,,INGLÉS,1,PERSONA NATURAL,PERSONA NATURAL,NO APLICA,NO,A,,,...
3,2016,SANTANDER,68,SANTANDER,68077,BARBOSA,368077000264,COLEGIO EVANGÉLICO INTERAMERICANO ...,URBANA,CARRERA 10 # 9 - 12,748 12 55 ...,ELBA SERRANO DE TOVAR,CENTRO EDUCATIVO,,"PREESCOLAR,BÁSICA SECUNDARIA,BÁSICA PRIMARIA",COMPLETA,,"-2,-1,0,1,2,3,4,5,6,7",EDUCACIÓN TRADICIONAL,,"DI-COGNITIVO,SÍNDROME DE DOWN",INGLÉS,1,COMUNIDAD RELIGIOSA,COMUNIDAD RELIGIOSA,NO APLICA,NO,A,,,...
4,2016,NORTE SANTANDER,54,NORTE DE SANTANDER,54874,VILLA DEL ROSARIO,354874000619,COL NUESTRA SEÑORA DEL ROSARIO,URBANA,CLL 6 8-48 B.GRAMALOTE,5707048,FRANCISCO ANTONIO PANQUEVA,INSTITUCION EDUCATIVA,,"PREESCOLAR,MEDIA,BÁSICA SECUNDARIA,BÁSICA PRIM...",MAÑANA,ACADÉMICA,"-2,-1,0,1,2,3,4,5,6,7,8,9,10,11",EDUCACIÓN TRADICIONAL,,,,1,PERSONA NATURAL,PERSONA NATURAL,NO APLICA,NO,A,,,-


## Motivación del Análisis

El presente análisis tiene como objetivo identificar si las instituciones educativas en zonas urbanas están mejor preparadas para atender a estudiantes con discapacidad que las zonas rurales.

Este estudio se basa en preguntas como:

•	Hay mayor presencia de atención a discapacidad en zonas urbanas.
•	Las instituciones rurales carecen de infraestructura o programas para estudiantes con discapacidad.
•	Hay diferencias por tipo de prestador (gobierno, comunidad religiosa, etc.)

# Revision de  Dataset
Validaciòn de Contenido

In [None]:
# Cargar las hojas específicas
df_DATA_PRINCIPAL = pd.read_excel(ruta, sheet_name='DATA_PRINCIPAL')
df_CONCATENA = pd.read_excel(ruta, sheet_name='CONCATENA')

# Verificar contenido
print(df_DATA_PRINCIPAL.shape)
print(df_CONCATENA.shape)

# Primeras filas del Dataset
df_DATA_PRINCIPAL.head()
df_CONCATENA.head()

(22530, 31)
(22530, 22)


Unnamed: 0,CODIGO_ESTABLECIMIENTO,DI-COGNITIVO,ENANISMO,HIPOACUSIA O BAJA AUDICIÓN,LESIÓN NEUROMUSCULAR,LIMITACIÓN FISICA (MOVILIDAD),MÚLTIPLE DISCAPACIDAD,NO APLICA,OTRA DISCAPACIDAD,PARALISIS CEREBRAL,SA-USUARIO DE LSC,SÍNDROME DE DOWN,SISTÉMICA,SORDERA PROFUNDA,SORDOCEGUERA,SV-BAJA VISIÓN,SV-CEGUERA,TRANSTORNO DEL ESPECTRO AUTISTA,VOZ Y HABLA,PSICOSOCIAL,SA-USUARIO DE CASTELLANO,SUMA TOTAL POR INSTITUCION EDUCATIVA
0,368001000290,,,,,,,,,,,,,,,,,,,,,0
1,368001006298,,,,,,,,,,,,,,,,,,,,,0
2,368001000907,,,,,,,,,,,,,,,,,,,,,0
3,368077000264,1.0,,,,,,,,,,1.0,,,,,,,,,,2
4,354874000619,,,,,,,,,,,,,,,,,,,,,0


Union de DataFrames

In [None]:
# Union de DataFrames - Unión horizontal
df_unido = pd.concat([df_DATA_PRINCIPAL, df_CONCATENA], axis=1)

# Primeras filas y columnas
df_unido.head()
df_unido.columns
df_unido.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22530 entries, 0 to 22529
Data columns (total 53 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   AÑO                                   22530 non-null  int64  
 1   SECRETARÍA                            22530 non-null  object 
 2   CODIGO_DEPARTAMENTO                   22530 non-null  int64  
 3   NOMBRE_DEPARTAMENTO                   22530 non-null  object 
 4   CODIGO_MUNICIPIO                      22530 non-null  int64  
 5   NOMBRE_MUNICIPIO                      22530 non-null  object 
 6   CODIGO_ESTABLECIMIENTO                22530 non-null  int64  
 7   NOMBRE_ESTABLECIMIENTO                22530 non-null  object 
 8   ZONA                                  22528 non-null  object 
 9   DIRECCIÓN                             22530 non-null  object 
 10  TELÉFONO                              20298 non-null  object 
 11  NOMBRE_RECTOR  

---
## 2. ***"T"*** (Transform)

PROCESO LIMPIEZA DE DATOS

Durante el proceso de análisis, se realizaron las siguientes transformaciones y limpiezas sobre el conjunto de datos para garantizar la calidad y coherencia de la información:
### ✔ Identificaciòn y eliminacion de valores duplicados
### ✔ Identificaciòn valores nulos
### ✔ Creación o eliminacion de nuevas columnas
### ✔ Cambio de formato de variables

# Identificaciòn Valores Duplicados

In [None]:
# Revision valores duplicados
df_unido.duplicated().sum()

np.int64(0)

# Identificaciòn Valores NULL

In [None]:
# Conteo de valores nulos por columna
df_unido.isna().sum()

Unnamed: 0,0
AÑO,0
SECRETARÍA,0
CODIGO_DEPARTAMENTO,0
NOMBRE_DEPARTAMENTO,0
CODIGO_MUNICIPIO,0
NOMBRE_MUNICIPIO,0
CODIGO_ESTABLECIMIENTO,0
NOMBRE_ESTABLECIMIENTO,0
ZONA,0
DIRECCIÓN,0


# Manejo de Valores Nullos

In [None]:
# Rellenar nulos con un valor

# Columna Zona
print(df_unido['ZONA'].isna().sum())
df_unido['ZONA'].fillna( 'URBANA' ,inplace=True )
print(df_unido['ZONA'].isna().sum() )

# Columna Nombre Rector
print(df_unido['NOMBRE_RECTOR'].isna().sum())
df_unido['NOMBRE_RECTOR'].fillna( 'NO REPORTADO' ,inplace=True )
print(df_unido['NOMBRE_RECTOR'].isna().sum() )


# Columna Nombre Rector
print(df_unido['NOMBRE_RECTOR'].isna().sum())
df_unido['NOMBRE_RECTOR'].fillna( 'NO REPORTADO' ,inplace=True )
print(df_unido['NOMBRE_RECTOR'].isna().sum() )

2
0
20
0
0
0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_unido['ZONA'].fillna( 'URBANA' ,inplace=True )
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_unido['NOMBRE_RECTOR'].fillna( 'NO REPORTADO' ,inplace=True )


# Eliminaciòn de Columnas

In [None]:
# Eliminar columna innecesaria
df_unido.drop(columns=['CORREO_ELECTRÓNICO'], inplace=True)

explicacion de eliminacion

# Creaciòn de Columnas

In [None]:
# Renombrar columnas
# df_unido.columns = df_unido.columns.str.strip().str.lower().str.replace(" ", "_")
# df_unido = df_unido.rename(columns={'Nombre Completo': 'nombre_completo'})

In [None]:
# Nombre de las columnas
print(df_unido.columns.tolist())
df_unido.sample(5)

['AÑO', 'SECRETARÍA', 'CODIGO_DEPARTAMENTO', 'NOMBRE_DEPARTAMENTO', 'CODIGO_MUNICIPIO', 'NOMBRE_MUNICIPIO', 'CODIGO_ESTABLECIMIENTO', 'NOMBRE_ESTABLECIMIENTO', 'ZONA', 'DIRECCIÓN', 'TELÉFONO', 'NOMBRE_RECTOR', 'TIPO_ESTABLECIMIENTO', 'ETNIAS', 'NIVELES', 'JORNADAS', 'ESPECIALIDAD', 'GRADOS', 'MODELOS_EDUCATIVOS', 'CAPACIDADES_EXCEPCIONALES', 'DISCAPACIDADES', 'IDIOMAS', 'NUMERO_DE_SEDES', 'PRESTADOR_DE_SERVICIO', 'PROPIEDAD_PLANTA_FISICA', 'RESGUARDO', 'MATRICULA_CONTRATADA', 'CALENDARIO', 'INTERNADO', 'ESTRATO_SOCIO_ECONÓMICO', 'CODIGO_ESTABLECIMIENTO', 'DI-COGNITIVO', 'ENANISMO', 'HIPOACUSIA O BAJA AUDICIÓN', 'LESIÓN NEUROMUSCULAR', 'LIMITACIÓN FISICA (MOVILIDAD)', 'MÚLTIPLE DISCAPACIDAD', 'NO APLICA', 'OTRA DISCAPACIDAD', 'PARALISIS CEREBRAL', 'SA-USUARIO DE LSC', 'SÍNDROME DE DOWN', 'SISTÉMICA', 'SORDERA PROFUNDA', 'SORDOCEGUERA', 'SV-BAJA VISIÓN', 'SV-CEGUERA', 'TRANSTORNO DEL ESPECTRO AUTISTA', 'VOZ Y HABLA', 'PSICOSOCIAL', 'SA-USUARIO DE CASTELLANO', 'SUMA TOTAL POR INSTITUCION 

Unnamed: 0,AÑO,SECRETARÍA,CODIGO_DEPARTAMENTO,NOMBRE_DEPARTAMENTO,CODIGO_MUNICIPIO,NOMBRE_MUNICIPIO,CODIGO_ESTABLECIMIENTO,NOMBRE_ESTABLECIMIENTO,ZONA,DIRECCIÓN,TELÉFONO,NOMBRE_RECTOR,TIPO_ESTABLECIMIENTO,ETNIAS,NIVELES,JORNADAS,ESPECIALIDAD,GRADOS,MODELOS_EDUCATIVOS,CAPACIDADES_EXCEPCIONALES,DISCAPACIDADES,IDIOMAS,NUMERO_DE_SEDES,PRESTADOR_DE_SERVICIO,PROPIEDAD_PLANTA_FISICA,RESGUARDO,MATRICULA_CONTRATADA,CALENDARIO,INTERNADO,ESTRATO_SOCIO_ECONÓMICO,CODIGO_ESTABLECIMIENTO.1,DI-COGNITIVO,ENANISMO,HIPOACUSIA O BAJA AUDICIÓN,LESIÓN NEUROMUSCULAR,LIMITACIÓN FISICA (MOVILIDAD),MÚLTIPLE DISCAPACIDAD,NO APLICA,OTRA DISCAPACIDAD,PARALISIS CEREBRAL,SA-USUARIO DE LSC,SÍNDROME DE DOWN,SISTÉMICA,SORDERA PROFUNDA,SORDOCEGUERA,SV-BAJA VISIÓN,SV-CEGUERA,TRANSTORNO DEL ESPECTRO AUTISTA,VOZ Y HABLA,PSICOSOCIAL,SA-USUARIO DE CASTELLANO,SUMA TOTAL POR INSTITUCION EDUCATIVA
5789,2016,SINCELEJO,70,SUCRE,70001,SINCELEJO,170001000431,INSTITUCION EDUCATIVA MADRE AMALIA,URBANA,CL 25 9 B 423,2802876-2802337-3017487913,JAIDER ANDRES SUAREZ VERGARA,INSTITUCION EDUCATIVA,,"PREESCOLAR,MEDIA,BÁSICA SECUNDARIA,BÁSICA PRIM...","MAÑANA,TARDE",ACADÉMICA,01234567891011,EDUCACIÓN TRADICIONAL,,"DI-COGNITIVO,MÚLTIPLE DISCAPACIDAD",,1,OFICIAL,OFICIAL,NO APLICA,NO,A,,,170001000431,1.0,,,,,1.0,,,,,,,,,,,,,,,2
21324,2016,BARRANQUILLA,8,ATLÁNTICO,8001,BARRANQUILLA,308001075335,JARDIN INFANTIL HAPPY KIDS,URBANA,KR 47 98 10,3781469,RUBBY CECILIA VIZCAINO DE JUBIZ,CENTRO EDUCATIVO,,"PREESCOLAR,BÁSICA PRIMARIA",MAÑANA,,"-2,-1,0,1",EDUCACIÓN TRADICIONAL,,,,1,PERSONA NATURAL,PERSONA NATURAL,NO APLICA,NO,A,,ESTRATO 6,308001075335,,,,,,,,,,,,,,,,,,,,,0
17927,2016,SUCRE,70,SUCRE,70708,SAN MARCOS,270708000342,CENTRO EDUCATIVO LA QUEBRADA,RURAL,CORREG LA QUEBRADA,4-7598037,YADIRA MARIA FLOREZ ROJAS,CENTRO EDUCATIVO,,"PREESCOLAR,BÁSICA PRIMARIA","MAÑANA,TARDE,FIN DE SEMANA",,0123452122,"EDUCACIÓN TRADICIONAL,CAFAM",,"TRANSTORNO DEL ESPECTRO AUTISTA,SORDERA PROFUNDA",,3,OFICIAL,OFICIAL,NO APLICA,NO,A,,,270708000342,,,,,,,,,,,,,1.0,,,,1.0,,,,2
18387,2016,SUCRE,70,SUCRE,70523,PALMITO,270523000087,INSTITUCION EDUCATIVA INDÍGENA SAN MARTIN DE LOBA,RURAL,CORREG SAN MARTIN DE LOBA,,RUDY RUIZ MONTES,INSTITUCION EDUCATIVA,,"PREESCOLAR,BÁSICA SECUNDARIA,BÁSICA PRIMARIA","MAÑANA,TARDE",,0123456789202122,"POST PRIMARIA,ETNOEDUCACIÓN,CAFAM",,,,3,OFICIAL,OFICIAL,SAN ANDRES DE SOTAVENTO,NO,A,,,270523000087,,,,,,,,,,,,,,,,,,,,,0
8664,2016,CALDAS,17,CALDAS,17013,AGUADAS,117013000292,INSTITUCION EDUCATIVA LICEO CLAUDINA MUNERA,URBANA,CL 7 7 02,8514526 8514404,EDGAR ALBERTO HERNANDEZ BLANDÓN,INSTITUCION EDUCATIVA,,"PREESCOLAR,MEDIA,BÁSICA SECUNDARIA,BÁSICA PRIM...","MAÑANA,COMPLETA",COMERCIAL,01234567891011,EDUCACIÓN TRADICIONAL,,"TRANSTORNO DEL ESPECTRO AUTISTA,SV-BAJA VISIÓN...",,3,OFICIAL,OFICIAL,NO APLICA,NO,A,,,117013000292,1.0,,1.0,1.0,,1.0,,,1.0,,1.0,,,,1.0,1.0,1.0,,,,9


# Conversión de Tipos de Datos

# Cambio de formato de variables
Algunas columnas fueron transformadas a formatos adecuados para su análisis:

# Conversión de variables categóricas
# Se transformaron columnas como "", "", "Zona" al tipo category.
Justificación: Mejora el rendimiento en análisis y reduce el uso de memoria. Estas columnas contienen valores repetitivos y finitos.

In [None]:
df_unido.info()
df_unido['AÑO'] = pd.to_datetime(df_unido['AÑO'], errors='coerce')
df_unido['AÑO'].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22530 entries, 0 to 22529
Data columns (total 52 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   AÑO                                   22530 non-null  int64  
 1   SECRETARÍA                            22530 non-null  object 
 2   CODIGO_DEPARTAMENTO                   22530 non-null  int64  
 3   NOMBRE_DEPARTAMENTO                   22530 non-null  object 
 4   CODIGO_MUNICIPIO                      22530 non-null  int64  
 5   NOMBRE_MUNICIPIO                      22530 non-null  object 
 6   CODIGO_ESTABLECIMIENTO                22530 non-null  int64  
 7   NOMBRE_ESTABLECIMIENTO                22530 non-null  object 
 8   ZONA                                  22530 non-null  object 
 9   DIRECCIÓN                             22530 non-null  object 
 10  TELÉFONO                              20298 non-null  object 
 11  NOMBRE_RECTOR  

In [None]:
df_unido['NUMERO_DE_SEDES']

Unnamed: 0,NUMERO_DE_SEDES
0,1
1,1
2,1
3,1
4,1
...,...
22525,1
22526,1
22527,1
22528,1


In [None]:
print(df_unido['NUMERO_DE_SEDES'].min())
print(df_unido['NUMERO_DE_SEDES'].max())

0
68


In [None]:
# Categorizar por GRADOS, debemos cambiar tipo de variable

In [50]:
# Conteo por zona
Zona_counts = df_unido['ZONA'].value_counts()
print("Distribución por Zona:\n", Zona_counts, "\n")

Distribución por Zona:
 ZONA
URBANA          14545
RURAL            6798
URBANA,RURAL      618
RURAL,URBANA      569
Name: count, dtype: int64 



### ✔ Filtrado de registros relevantes

### ✔ Agrupación o agregación de datos

# EDA

# Estadística descriptiva de variables numéricas

In [None]:
# Estadística descriptiva de variables numéricas
df_unido.describe()

Unnamed: 0,AÑO,CODIGO_DEPARTAMENTO,CODIGO_MUNICIPIO,CODIGO_ESTABLECIMIENTO,NUMERO_DE_SEDES,CODIGO_ESTABLECIMIENTO.1,DI-COGNITIVO,ENANISMO,HIPOACUSIA O BAJA AUDICIÓN,LESIÓN NEUROMUSCULAR,LIMITACIÓN FISICA (MOVILIDAD),MÚLTIPLE DISCAPACIDAD,NO APLICA,OTRA DISCAPACIDAD,PARALISIS CEREBRAL,SA-USUARIO DE LSC,SÍNDROME DE DOWN,SISTÉMICA,SORDERA PROFUNDA,SORDOCEGUERA,SV-BAJA VISIÓN,SV-CEGUERA,TRANSTORNO DEL ESPECTRO AUTISTA,VOZ Y HABLA,PSICOSOCIAL,SA-USUARIO DE CASTELLANO,SUMA TOTAL POR INSTITUCION EDUCATIVA
count,22530,22530.0,22530.0,22530.0,22530.0,22530.0,1893.0,39.0,1011.0,1084.0,222.0,892.0,406.0,180.0,638.0,33.0,1227.0,15.0,838.0,30.0,1033.0,515.0,532.0,18.0,18.0,36.0,22530.0
mean,1970-01-01 00:00:00.000002016,37.865735,38129.373946,285190800000.0,2.683622,285190800000.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.473147
min,1970-01-01 00:00:00.000002016,5.0,5001.0,105001000000.0,0.0,105001000000.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
25%,1970-01-01 00:00:00.000002016,11.0,11001.0,223807000000.0,1.0,223807000000.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
50%,1970-01-01 00:00:00.000002016,25.0,25899.0,308001100000.0,1.0,308001100000.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
75%,1970-01-01 00:00:00.000002016,66.0,66001.0,347189000000.0,3.0,347189000000.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
max,1970-01-01 00:00:00.000002016,99.0,99773.0,866170000000.0,68.0,866170000000.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,19.0
std,,26.614388,26623.034552,91462410000.0,3.765797,91462410000.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.497957


In [None]:
# Estadísticas descriptivas de variables no  numéricas
df_unido.describe(exclude=['int64'], include='object')

Unnamed: 0,SECRETARÍA,NOMBRE_DEPARTAMENTO,NOMBRE_MUNICIPIO,NOMBRE_ESTABLECIMIENTO,ZONA,DIRECCIÓN,TELÉFONO,NOMBRE_RECTOR,TIPO_ESTABLECIMIENTO,ETNIAS,NIVELES,JORNADAS,ESPECIALIDAD,GRADOS,MODELOS_EDUCATIVOS,CAPACIDADES_EXCEPCIONALES,DISCAPACIDADES,IDIOMAS,PRESTADOR_DE_SERVICIO,PROPIEDAD_PLANTA_FISICA,RESGUARDO,MATRICULA_CONTRATADA,CALENDARIO,INTERNADO,ESTRATO_SOCIO_ECONÓMICO
count,22530,22530,22530,22530,22530,22530,20298,22530,22530,914,22313,22340,11854,22313,22254,378,3758,3186,22530,22530,22505,22530,22530,1551,4757
unique,95,33,1037,20692,4,21271,19107,21671,2,154,26,59,101,1121,2403,21,496,13,13,14,273,2,3,7,16
top,BOGOTA,VALLE DEL CAUCA,"BOGOTÁ, D.C.",INSTITUTO CORFERRINI,URBANA,CENTRO,NO TIENE,SIN INFORMACION,INSTITUCION EDUCATIVA,NO APLICA,"PREESCOLAR,MEDIA,BÁSICA SECUNDARIA,BÁSICA PRIM...",MAÑANA,ACADÉMICA,"-2,-1,0,1,2,3,4,5",EDUCACIÓN TRADICIONAL,NO APLICA,NO APLICA,INGLÉS,PERSONA NATURAL,PERSONA NATURAL,NO APLICA,NO,A,NINGUNO,ESTRATO 1
freq,2404,2485,2404,44,14545,34,349,77,11748,249,10380,4174,7453,2726,10516,238,402,2896,10606,10586,21528,20396,21338,1078,2507


Visualizaciones

## 3. ***"L"*** (Load)

# Análisis predictivo