# Datathon_Proyecto_Establecimientos_Educativos

**Proyecto Análisis de datos.**

*  **Titulo:** Inclusión Educativa en Colombia: Análisis de la Capacidad Institucional para Atender a Estudiantes con Discapacidad en Contextos Rurales y Urbanos.

* **Descripción del reto:** Proyecto de análisis exploratorio cuyo proposito es aplicar todas las etapas del analisis de datos, desde la limpieza hasta la visualización de resultados, la aplicación de metodologías agiles, trabajo colaborativo y aplicación de modelos de aprendizaje automatico supervisado.

* **Hipótesis:** “Las instituciones educativas en zonas urbanas están mejor preparadas para atender a estudiantes con discapacidad que las rurales.”

* **Hipótesis Nula (H₀):**
No hay diferencia significativa en la preparación para atender a estudiantes con discapacidad entre instituciones educativas urbanas y rurales.

* **Hipótesis Alternativa (H₁):**
“Existe una diferencia significativa en la preparación para atender a estudiantes con discapacidad entre instituciones urbanas y rurales.”

---
# **Proceso ETL** (Extract, Transform and Load)

---
## 1. ***"E"*** (Extract)

Importar bibliotecas necesarias

In [None]:
# Importar librerías para análisis
import pandas as pd
import numpy as np

# Importar librerías de visualización
import matplotlib.pyplot as plt
import seaborn as sns

pd.set_option('display.max_columns', 200)

# Configuración de estilo
sns.set(style="darkgrid")

Validacion de ruta

In [None]:
import os

# Mostrar ruta actual
print("Directorio actual:", os.getcwd())

Directorio actual: /content


Cargar el archivo - Examinar Dataset

In [None]:
# Nombre del archivo (mismo directorio)

from google.colab import drive
drive.mount('/content/drive',force_remount=True)

ruta = '/content/drive/MyDrive/DATASET_LIMPIO_DATATHON_1.0 - DISCAPACIDADES DEPURADAS_v1.xlsx'
#df = pd.read_excel(file_path)


# Verificar si el archivo existe
import os
if not os.path.exists(ruta):
    print(f"Error: File not found at {ruta}")
else:
    # Ver hojas disponibles
    excel_file = pd.ExcelFile(ruta)
    print("Hojas disponibles:", excel_file.sheet_names)

    # Cargar la primera hoja del archivo
    df = pd.read_excel(excel_file, sheet_name=0)

    # Mostrar primeras filas
    display(df.head())

Mounted at /content/drive
Hojas disponibles: ['DATA_PRINCIPAL', 'ESTRATO', 'CONCATENA', 'DISCAPACIDADES NO BORRAR', 'FORMULA NO BORRAR', 'ESTRATO FORMULA']


Unnamed: 0,AÑO,SECRETARÍA,CODIGO_DEPARTAMENTO,NOMBRE_DEPARTAMENTO,CODIGO_MUNICIPIO,NOMBRE_MUNICIPIO,CODIGO_ESTABLECIMIENTO,NOMBRE_ESTABLECIMIENTO,ZONA,DIRECCIÓN,TELÉFONO,NOMBRE_RECTOR,TIPO_ESTABLECIMIENTO,ETNIAS,NIVELES,JORNADAS,ESPECIALIDAD,GRADOS,MODELOS_EDUCATIVOS,CAPACIDADES_EXCEPCIONALES,DISCAPACIDADES,IDIOMAS,NUMERO_DE_SEDES,PRESTADOR_DE_SERVICIO,PROPIEDAD_PLANTA_FISICA,RESGUARDO,MATRICULA_CONTRATADA,CALENDARIO,INTERNADO,ESTRATO_SOCIO_ECONÓMICO,CORREO_ELECTRÓNICO
0,2016,BUCARAMANGA,68,SANTANDER,68001,BUCARAMANGA,368001000290,FUND COL NUEVA GENERACION JUVENIL ...,URBANA,CLL 8 NO 22-57,6714515,JOSE LUIS CORTES PALOMINO,INSTITUCION EDUCATIVA,,"MEDIA,BÁSICA SECUNDARIA","MAÑANA,NOCTURNA",ACADÉMICA,67891011,EDUCACIÓN TRADICIONAL,,,INGLÉS,1,PERSONA NATURAL,PERSONA NATURAL,NO APLICA,NO,A,,,...
1,2016,BUCARAMANGA,68,SANTANDER,68001,BUCARAMANGA,368001000907,COL ATENAS ...,URBANA,CR 26 NO 33-73,64510926454952,NELLY RIVEROS LONDOÑO,INSTITUCION EDUCATIVA,,MEDIA,FIN DE SEMANA,ACADÉMICA,10.11,EDUCACIÓN TRADICIONAL,,,INGLÉS,1,PERSONA NATURAL,PERSONA NATURAL,NO APLICA,NO,A,,,...
2,2016,NORTE SANTANDER,54,NORTE DE SANTANDER,54874,VILLA DEL ROSARIO,354874000619,COL NUESTRA SEÑORA DEL ROSARIO,URBANA,CLL 6 8-48 B.GRAMALOTE,5707048,FRANCISCO ANTONIO PANQUEVA,INSTITUCION EDUCATIVA,,"PREESCOLAR,MEDIA,BÁSICA SECUNDARIA,BÁSICA PRIM...",MAÑANA,ACADÉMICA,"-2,-1,0,1,2,3,4,5,6,7,8,9,10,11",EDUCACIÓN TRADICIONAL,,,,1,PERSONA NATURAL,PERSONA NATURAL,NO APLICA,NO,A,,,-
3,2016,NORTE SANTANDER,54,NORTE DE SANTANDER,54874,VILLA DEL ROSARIO,354874000830,COL MIXTO SANTISIMA TRINIDAD,URBANA,CR 6 5-32 CENTRO,5701060,ANA BEATRIZ DAZA VERA,INSTITUCION EDUCATIVA,,"PREESCOLAR,MEDIA,BÁSICA SECUNDARIA,BÁSICA PRIM...",MAÑANA,ACADÉMICA,"-2,-1,0,1,2,3,4,5,6,7,8,9,10,11",EDUCACIÓN TRADICIONAL,,,,1,PERSONA NATURAL,PERSONA NATURAL,NO APLICA,NO,A,,,-
4,2016,NORTE SANTANDER,54,NORTE DE SANTANDER,54405,LOS PATIOS,254405000409,COL DE BTO CIAL ISABEL LA CATOLICA,URBANA,AV 4 32 18 BARRIO CORDIALIDAD,5808460,ROSA STELLA LADINO,INSTITUCION EDUCATIVA,,"PREESCOLAR,MEDIA,BÁSICA SECUNDARIA,BÁSICA PRIM...","MAÑANA,TARDE",ACADÉMICA,01234567891011,EDUCACIÓN TRADICIONAL,,,,1,PERSONA NATURAL,PERSONA NATURAL,NO APLICA,NO,A,,,-


Motivación del Análisis

El presente análisis tiene como objetivo identificar si las instituciones educativas en zonas urbanas están mejor preparadas para atender a estudiantes con discapacidad que las zonas rurales.

Este estudio se basa en preguntas como:

•	Hay mayor presencia de atención a discapacidad en zonas urbanas.
•	Las instituciones rurales carecen de infraestructura o programas para estudiantes con discapacidad.
•	Hay diferencias por tipo de prestador (gobierno, comunidad religiosa, etc.)

Revision de  Dataset

Validaciòn de Contenido

In [None]:
# Cargar las hojas específicas
df_DATA_PRINCIPAL = pd.read_excel(ruta, sheet_name='DATA_PRINCIPAL')
df_CONCATENA = pd.read_excel(ruta, sheet_name='CONCATENA')
df_ESTRATO = pd.read_excel(ruta, sheet_name='ESTRATO')

# Verificar contenido
print(df_DATA_PRINCIPAL.shape)
print(df_CONCATENA.shape)
print(df_ESTRATO.shape)

# Primeras filas del Dataset
df_DATA_PRINCIPAL.head()
df_CONCATENA.head()
df_ESTRATO.head()


(22530, 31)
(22530, 22)
(22530, 7)


Unnamed: 0,CODIGO_ESTABLECIMIENTO,ESTRATO 1,ESTRATO 2,ESTRATO 3,ESTRATO 4,ESTRATO 5,ESTRATO 6
0,368001000290,0,0,0,0,0,0
1,368001006298,0,0,0,0,0,0
2,368001000907,0,0,0,0,0,0
3,368077000264,0,0,0,0,0,0
4,354874000619,0,0,0,0,0,0


**Carga de datos desde un archivo Excel con múltiples hojas:**

pd.read_excel() se usa para leer datos desde un archivo Excel.

El parámetro sheet_name permite especificar qué hoja leer.

En este caso, se están leyendo tres hojas diferentes:

DATA_PRINCIPAL: Contiene la base principal con las variables institucionales.

CONCATENA: Contiene los datos de las discapacidades.

ESTRATO: Contiene información sobre clasificación socioeconómica de los tipos de establecimientos educativos.

**Verificación de dimensiones:**

.shape muestra el número de filas y columnas de cada DataFrame.

Esto permite verificar rápidamente si se cargaron correctamente y cuántos registros hay en cada uno.

**Visualización inicial de los datos:**

.head() muestra las primeras 5 filas de cada DataFrame.

Sirve para explorar rápidamente cómo están estructurados los datos, qué columnas hay, si hay valores nulos o inconsistencias.

Union de DataFrames

In [None]:
# Union de DataFrames - Unión horizontal
df_unido = pd.concat([df_DATA_PRINCIPAL, df_CONCATENA,df_ESTRATO], axis=1)

# Primeras filas y columnas
df_unido.head()
df_unido.columns
df_unido.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22530 entries, 0 to 22529
Data columns (total 60 columns):
 #   Column                                Non-Null Count  Dtype 
---  ------                                --------------  ----- 
 0   AÑO                                   22530 non-null  int64 
 1   SECRETARÍA                            22530 non-null  object
 2   CODIGO_DEPARTAMENTO                   22530 non-null  int64 
 3   NOMBRE_DEPARTAMENTO                   22530 non-null  object
 4   CODIGO_MUNICIPIO                      22530 non-null  int64 
 5   NOMBRE_MUNICIPIO                      22530 non-null  object
 6   CODIGO_ESTABLECIMIENTO                22530 non-null  int64 
 7   NOMBRE_ESTABLECIMIENTO                22530 non-null  object
 8   ZONA                                  22528 non-null  object
 9   DIRECCIÓN                             22530 non-null  object
 10  TELÉFONO                              20298 non-null  object
 11  NOMBRE_RECTOR               

**Explicación y propósito:**
**Unión horizontal de DataFrames:**

pd.concat(..., axis=1) concatena varios DataFrames por columnas, es decir, une horizontalmente.

Esto se usa cuando cada DataFrame tiene la misma cantidad de filas (o están en el mismo orden) y se quiere combinarlos en uno solo para trabajar más fácilmente.

En este caso, se esta unificando los datos de las hojas: DATA_PRINCIPAL, CONCATENA y ESTRATO, ya que cada una contiene diferentes atributos de la misma institución educativa.

**Inspección inicial del DataFrame resultante (df_unido):**

df_unido.head() muestra las primeras filas del nuevo DataFrame combinado.

df_unido.columns muestra los nombres de todas las columnas unidas.

df_unido.info() da un resumen general: número de columnas, tipos de datos, cantidad de valores nulos, etc. Esto es clave antes de hacer limpieza o análisis.

---
## 2. ***"T"*** (Transform)

PROCESO LIMPIEZA DE DATOS

Durante el proceso de análisis, se realizaron las siguientes transformaciones y limpiezas sobre el conjunto de datos para garantizar la calidad y coherencia de la información:
### ✔ Identificaciòn y eliminacion de valores duplicados
### ✔ Identificaciòn valores nulos
### ✔ Creación o eliminacion de nuevas columnas
### ✔ Cambio de formato de variables

Identificaciòn Valores Duplicados

In [None]:
# Revisión de registros duplicados en el DataFrame combinado.
# Esto nos permite verificar si hay filas exactamente iguales que podrían distorsionar el análisis.
# Un valor distinto de cero indicaría que hay datos repetidos que deben ser tratados o eliminados.

df_unido.duplicated().sum()


np.int64(0)

Identificaciòn Valores NULL

In [None]:
# Conteo de valores nulos por columna
df_unido.isna().sum()

Unnamed: 0,0
AÑO,0
SECRETARÍA,0
CODIGO_DEPARTAMENTO,0
NOMBRE_DEPARTAMENTO,0
CODIGO_MUNICIPIO,0
NOMBRE_MUNICIPIO,0
CODIGO_ESTABLECIMIENTO,0
NOMBRE_ESTABLECIMIENTO,0
ZONA,2
DIRECCIÓN,0


Manejo de Valores Nullos

In [None]:
# Rellenar nulos con un valor

# Columna Zona
print(df_unido['ZONA'].isna().sum())
df_unido['ZONA'] = df_unido['ZONA'].fillna('URBANA')
print(df_unido['ZONA'].isna().sum())

# Columna Nombre Rector
print(df_unido['NOMBRE_RECTOR'].isna().sum())
df_unido['NOMBRE_RECTOR'] = df_unido['NOMBRE_RECTOR'].fillna('NO REPORTADO')
print(df_unido['NOMBRE_RECTOR'].isna().sum())

2
0
20
0


### Eliminación de columnas innecesarias

In [None]:
try:
    df_unido = pd.read_csv('your_dataset.csv')
except FileNotFoundError:
    print("Error: 'your_dataset.csv' not found. Please replace with the correct file path.")

    pass

# Eliminar columna innecesaria
columns_to_drop = ['CORREO_ELECTRÓNICO', 'TELÉFONO', 'GRADOS', 'NOMBRE_RECTOR']
existing_columns = [col for col in columns_to_drop if col in df_unido.columns]
df_unido.drop(columns=existing_columns, inplace=True)

Error: 'your_dataset.csv' not found. Please replace with the correct file path.


En este bloque se realiza la carga del conjunto de datos desde un archivo xlx hacia el DataFrame df_unido.

Para garantizar robustez en la ejecución, se incluye una estructura try-except que captura el error en caso de que el archivo no se encuentre en la ruta especificada, lo cual permite advertir al usuario sobre la necesidad de corregir la ubicación del archivo.

A continuación, se procede a eliminar columnas consideradas innecesarias para el análisis: 'CORREO_ELECTRÓNICO', 'TELÉFONO', 'GRADOS' y 'NOMBRE_RECTOR'. Estas variables, aunque informativas, no aportan valor significativo al enfoque analítico del proyecto o pueden representar datos sensibles que no se desean procesar.

Antes de eliminar, se verifica que dichas columnas existan en el DataFrame mediante una validación condicional para evitar errores en caso de que alguna no esté presente.

Esta depuración contribuye a mantener un conjunto de datos más limpio, enfocado y manejable para los análisis posteriores.



### Creación de Columnas

In [None]:
# Renombrar columnas
# df_unido.columns = df_unido.columns.str.strip().str.lower().str.replace(" ", "_")
# df_unido = df_unido.rename(columns={'Nombre Completo': 'nombre_completo'})

In [None]:
# Nombre de las columnas
print(df_unido.columns.tolist())
df_unido.sample(5)

['AÑO', 'SECRETARÍA', 'CODIGO_DEPARTAMENTO', 'NOMBRE_DEPARTAMENTO', 'CODIGO_MUNICIPIO', 'NOMBRE_MUNICIPIO', 'CODIGO_ESTABLECIMIENTO', 'NOMBRE_ESTABLECIMIENTO', 'ZONA', 'DIRECCIÓN', 'TIPO_ESTABLECIMIENTO', 'ETNIAS', 'NIVELES', 'JORNADAS', 'ESPECIALIDAD', 'MODELOS_EDUCATIVOS', 'CAPACIDADES_EXCEPCIONALES', 'DISCAPACIDADES', 'IDIOMAS', 'NUMERO_DE_SEDES', 'PRESTADOR_DE_SERVICIO', 'PROPIEDAD_PLANTA_FISICA', 'RESGUARDO', 'MATRICULA_CONTRATADA', 'CALENDARIO', 'INTERNADO', 'ESTRATO_SOCIO_ECONÓMICO', 'CODIGO_ESTABLECIMIENTO', 'DI-COGNITIVO', 'ENANISMO', 'HIPOACUSIA O BAJA AUDICIÓN', 'LESIÓN NEUROMUSCULAR', 'LIMITACIÓN FISICA (MOVILIDAD)', 'MÚLTIPLE DISCAPACIDAD', 'NO APLICA', 'OTRA DISCAPACIDAD', 'PARALISIS CEREBRAL', 'SA-USUARIO DE LSC', 'SÍNDROME DE DOWN', 'SISTÉMICA', 'SORDERA PROFUNDA', 'SORDOCEGUERA', 'SV-BAJA VISIÓN', 'SV-CEGUERA', 'TRANSTORNO DEL ESPECTRO AUTISTA', 'VOZ Y HABLA', 'PSICOSOCIAL', 'SA-USUARIO DE CASTELLANO', 'SUMA TOTAL POR INSTITUCION EDUCATIVA', 'CODIGO_ESTABLECIMIENTO', '

Unnamed: 0,AÑO,SECRETARÍA,CODIGO_DEPARTAMENTO,NOMBRE_DEPARTAMENTO,CODIGO_MUNICIPIO,NOMBRE_MUNICIPIO,CODIGO_ESTABLECIMIENTO,NOMBRE_ESTABLECIMIENTO,ZONA,DIRECCIÓN,TIPO_ESTABLECIMIENTO,ETNIAS,NIVELES,JORNADAS,ESPECIALIDAD,MODELOS_EDUCATIVOS,CAPACIDADES_EXCEPCIONALES,DISCAPACIDADES,IDIOMAS,NUMERO_DE_SEDES,PRESTADOR_DE_SERVICIO,PROPIEDAD_PLANTA_FISICA,RESGUARDO,MATRICULA_CONTRATADA,CALENDARIO,INTERNADO,ESTRATO_SOCIO_ECONÓMICO,CODIGO_ESTABLECIMIENTO.1,DI-COGNITIVO,ENANISMO,HIPOACUSIA O BAJA AUDICIÓN,LESIÓN NEUROMUSCULAR,LIMITACIÓN FISICA (MOVILIDAD),MÚLTIPLE DISCAPACIDAD,NO APLICA,OTRA DISCAPACIDAD,PARALISIS CEREBRAL,SA-USUARIO DE LSC,SÍNDROME DE DOWN,SISTÉMICA,SORDERA PROFUNDA,SORDOCEGUERA,SV-BAJA VISIÓN,SV-CEGUERA,TRANSTORNO DEL ESPECTRO AUTISTA,VOZ Y HABLA,PSICOSOCIAL,SA-USUARIO DE CASTELLANO,SUMA TOTAL POR INSTITUCION EDUCATIVA,CODIGO_ESTABLECIMIENTO.2,ESTRATO 1,ESTRATO 2,ESTRATO 3,ESTRATO 4,ESTRATO 5,ESTRATO 6
909,2016,POPAYAN,19,CAUCA,19001,POPAYÁN,319001004404,BTO FORMAL DE ADULTOS DEL CAUCA,URBANA,CL 34 12 25,CENTRO EDUCATIVO,NO APLICA,"MEDIA,BÁSICA SECUNDARIA","NOCTURNA,FIN DE SEMANA",ACADÉMICA,PROGRAMA PARA JÓVENES EN EXTRAEDAD Y ADULTOS,,NO APLICA,,1,PERSONA NATURAL,PERSONA NATURAL,NO APLICA,NO,OTRO,,,376111001928,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,376111001928,0,0,0,0,0,0
9801,2016,CHÍA,25,CUNDINAMARCA,25175,CHÍA,425175001183,FUND COL SAN JUAN DEL CAMINO ...,URBANA,CL 12 6 17,INSTITUCION EDUCATIVA,,"PREESCOLAR,MEDIA,BÁSICA SECUNDARIA,BÁSICA PRIM...",COMPLETA,"NO APLICA,ACADÉMICA",EDUCACIÓN TRADICIONAL,,,INGLÉS,1,FUNDACION O CORPORACIONES,FUNDACION O CORPORACIONES,NO APLICA,NO,B,,,308001078571,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,308001078571,0,0,0,0,0,0
11855,2016,SANTANDER,68,SANTANDER,68077,BARBOSA,368077000264,COLEGIO EVANGÉLICO INTERAMERICANO ...,URBANA,CARRERA 10 # 9 - 12,CENTRO EDUCATIVO,,"PREESCOLAR,BÁSICA SECUNDARIA,BÁSICA PRIMARIA",COMPLETA,,EDUCACIÓN TRADICIONAL,,"DI-COGNITIVO,SÍNDROME DE DOWN",INGLÉS,1,COMUNIDAD RELIGIOSA,COMUNIDAD RELIGIOSA,NO APLICA,NO,A,,,252079001189,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,252079001189,0,0,0,0,0,0
7696,2016,YOPAL,85,CASANARE,85001,YOPAL,285001002923,INSTITUCIÓN EDUCATIVA TÉCNICA AGROPECUARIA EL ...,RURAL,VDA EL TALADRO,INSTITUCION EDUCATIVA,NO APLICA,"PREESCOLAR,MEDIA,BÁSICA SECUNDARIA,BÁSICA PRIM...","MAÑANA,ÚNICA,FIN DE SEMANA",AGROPECUARIO,"PROGRAMA PARA JÓVENES EN EXTRAEDAD Y ADULTOS,E...",,DI-COGNITIVO,,5,OFICIAL,OFICIAL,NO APLICA,NO,A,INTERNADO,,252250000307,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,252250000307,0,0,0,0,0,0
9946,2016,MONTERIA,23,CÓRDOBA,23001,MONTERÍA,323001009633,COLEGIO HUMANISTA EDGAR HERNANDO SANCHEZ DUARTE,URBANA,CL 25 5 18,CENTRO EDUCATIVO,,"MEDIA,BÁSICA SECUNDARIA,BÁSICA PRIMARIA",FIN DE SEMANA,"NO APLICA,ACADÉMICA",PROGRAMA PARA JÓVENES EN EXTRAEDAD Y ADULTOS,,,,1,PERSONA NATURAL,PERSONA NATURAL,NO APLICA,NO,A,,ESTRATO 3,311001017841,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,2,311001017841,0,0,1,0,0,0


### Conversión de Tipos de Datos

Cambio de formato de variables:
Algunas columnas fueron transformadas a formatos adecuados para su análisis:

Conversión de variables categóricas:
Se transformaron columnas como "", "", "Zona" al tipo category.


**Justificación:** Mejora el rendimiento en análisis y reduce el uso de memoria. Estas columnas contienen valores repetitivos y finitos.

In [None]:
# Esta línea convierte la columna 'AÑO' a un formato de fecha y hora (datetime64[ns]).


df_unido.info()
df_unido['AÑO'] = pd.to_datetime(df_unido['AÑO'], errors='coerce')
df_unido['AÑO'].info()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22530 entries, 0 to 22529
Data columns (total 56 columns):
 #   Column                                Non-Null Count  Dtype 
---  ------                                --------------  ----- 
 0   AÑO                                   22530 non-null  int64 
 1   SECRETARÍA                            22530 non-null  object
 2   CODIGO_DEPARTAMENTO                   22530 non-null  int64 
 3   NOMBRE_DEPARTAMENTO                   22530 non-null  object
 4   CODIGO_MUNICIPIO                      22530 non-null  int64 
 5   NOMBRE_MUNICIPIO                      22530 non-null  object
 6   CODIGO_ESTABLECIMIENTO                22530 non-null  int64 
 7   NOMBRE_ESTABLECIMIENTO                22530 non-null  object
 8   ZONA                                  22530 non-null  object
 9   DIRECCIÓN                             22530 non-null  object
 10  TIPO_ESTABLECIMIENTO                  22530 non-null  object
 11  ETNIAS                      

In [None]:
# Lista de columnas a convertir a categoría
columnas_categoricas = [
    'SECRETARÍA', 'NOMBRE_DEPARTAMENTO', 'NOMBRE_MUNICIPIO',
    'NOMBRE_ESTABLECIMIENTO', 'DIRECCIÓN',
    'TIPO_ESTABLECIMIENTO', 'ETNIAS', 'NIVELES',
    'JORNADAS', 'ESPECIALIDAD', 'MODELOS_EDUCATIVOS', 'CAPACIDADES_EXCEPCIONALES',
    'PRESTADOR_DE_SERVICIO', 'PROPIEDAD_PLANTA_FISICA', 'PROPIEDAD_PLANTA_FISICA',
    'RESGUARDO', 'MATRICULA_CONTRATADA', 'CALENDARIO', 'INTERNADO', 'ESTRATO_SOCIO_ECONÓMICO', 'IDIOMAS',
    'ZONA','DISCAPACIDADES' ]

# Conversión a tipo category
for col in columnas_categoricas:
    df_unido[col] = df_unido[col].astype('category')

# Verificar los nuevos tipos de datos
print("\nTipos de datos después de la conversión:")
print(df_unido.dtypes)


Tipos de datos después de la conversión:
AÑO                                     datetime64[ns]
SECRETARÍA                                    category
CODIGO_DEPARTAMENTO                              int64
NOMBRE_DEPARTAMENTO                           category
CODIGO_MUNICIPIO                                 int64
NOMBRE_MUNICIPIO                              category
CODIGO_ESTABLECIMIENTO                           int64
NOMBRE_ESTABLECIMIENTO                        category
ZONA                                          category
DIRECCIÓN                                     category
TIPO_ESTABLECIMIENTO                          category
ETNIAS                                        category
NIVELES                                       category
JORNADAS                                      category
ESPECIALIDAD                                  category
MODELOS_EDUCATIVOS                            category
CAPACIDADES_EXCEPCIONALES                     category
DISCAPACIDADES         



Conversión de columnas seleccionadas a tipo 'category' para optimizar el uso de memoria y mejorar el rendimiento, al trabajar con variables categóricas en el DataFrame 'df_unido'.

Esto es especialmente útil cuando las columnas contienen un número limitado de valores únicos.

Se realiza la conversión para las columnas listadas en 'columnas_categoricas'.

Luego se imprime el tipo de dato de cada columna para verificar que la conversión se haya aplicado correctamente.






In [None]:
#Conteo del numero de sedes por institucion, donde se identifica una institucion con hasta 68 sedes
print(df_unido['NUMERO_DE_SEDES'].min())
print(df_unido['NUMERO_DE_SEDES'].max())

0
68


In [None]:
# Se crea un DataFrame con el conteo de instituciones por número de sedes, se identificaron dos instituciones sin otras sedes.
conteo_sedes = df_unido['NUMERO_DE_SEDES'].value_counts().reset_index()

# Renombrar las columnas
conteo_sedes.columns = ['NUMERO_DE_SEDES', 'NUMERO_DE_INSTITUCIONES']

# Ordenar por número de sedes de forma ascendente (opcional)
conteo_sedes = conteo_sedes.sort_values(by='NUMERO_DE_SEDES')

# Mostrar resultado con mensaje
print("Conteo de Instituciones según su número de sedes:")
print(conteo_sedes)

Conteo de Instituciones según su número de sedes:
    NUMERO_DE_SEDES  NUMERO_DE_INSTITUCIONES
36                0                        2
0                 1                    15682
1                 2                     1174
2                 3                     1063
3                 4                      865
4                 5                      669
5                 6                      583
6                 7                      414
7                 8                      376
8                 9                      297
9                10                      243
10               11                      210
11               12                      195
12               13                      143
13               14                       93
15               15                       82
14               16                       85
16               17                       74
17               18                       60
18               19                       52
19   

### Reemplazo de variables en la columna Zona

In [None]:
# Reemplazo de combinaciones específicas en la columna 'ZONA' por un valor único 'MIXTO'.
# Se detectaron entradas donde la zona aparece combinada como 'URBANA,RURAL' o 'RURAL,URBANA',
# y se unifican bajo la categoría 'MIXTO' para simplificar el análisis y evitar duplicados semánticos.

df_unido['ZONA'] = df_unido['ZONA'].replace(['URBANA,RURAL', 'RURAL,URBANA'], 'MIXTO')

# Conteo actualizado de la frecuencia de cada categoría en la columna 'ZONA'
# para verificar que el reemplazo se aplicó correctamente y observar la distribución resultante.


Zona_counts_actualizado = df_unido['ZONA'].value_counts()
print("Distribución actualizada por Zona:\n", Zona_counts_actualizado)



Distribución actualizada por Zona:
 ZONA
URBANA    14545
RURAL      6798
MIXTO      1187
Name: count, dtype: int64


  df_unido['ZONA'] = df_unido['ZONA'].replace(['URBANA,RURAL', 'RURAL,URBANA'], 'MIXTO')


In [None]:
# Conteo por zona
Zona_counts = df_unido['ZONA'].value_counts()
print("Distribución por Zona:\n", Zona_counts, "\n")

Distribución por Zona:
 ZONA
URBANA    14545
RURAL      6798
MIXTO      1187
Name: count, dtype: int64 



✔ Filtrado de registros relevantes

✔ Agrupación o agregación de datos

Estadísticas descriptivas de variables numéricas, corresponde a todas las variables numéricas que tenemos en el Dataset
1.	count: Número de valores no nulos en esa columna (todos tienen 22,530).
2.	mean: Promedio o media de los valores.
3.	std: Desviación estándar (qué tanto varían los datos respecto a la media).
4.	min: Valor mínimo.
5.	25%: Primer cuartil (el 25% de los datos está por debajo de este valor).
6.	50% (mediana): El 50% de los datos está por debajo de este valor.
7.	75%: Tercer cuartil (el 75% de los datos está por debajo de este valor).
8.	max: Valor máximo.

**Detalle:**

AÑO: Todos los valores son 2016 (no hay variación, por eso std = 0.0).
CODIGO_DEPARTAMENTO / CODIGO_MUNICIPIO / CODIGO_ESTABLECIMIENTO: Son identificadores numéricos, no tienen un análisis estadístico útil por sí solos, pero: Puedes ver su rango (min a max) y cómo están distribuidos.
Promedio: 2.68 sedes por establecimiento.
Máximo: 68 sedes (valor muy alto que podría ser un outlier).
Mediana (50%): 1 sede (la mayoría tienen pocas sedes).


Condiciones especiales
-	1 significa presencia de la condición.
-	0 significa ausencia.

Análisis de Inclusión – Prevalencia por Tipo de Discapacidad
Tipo de discapacidad o condición	% de inclusión (media)

DI-COGNITIVO	8.4%

SÍNDROME DE DOWN	5.4%

LESIÓN NEUROMUSCULAR	4.8%

SV-BAJA VISIÓN	4.6%

HIPOACUSIA O BAJA AUDICIÓN	4.4%

MÚLTIPLE DISCAPACIDAD	4.0%

SORDERA PROFUNDA	3.7%

PARÁLISIS CEREBRAL	2.8%

TRASTORNO DEL ESPECTRO AUTISTA (TEA)	2.4%

SV-CEGUERA	2.3%

NO APLICA (registro sin condición o desconocida)	1.8%

LIMITACIÓN FÍSICA (MOVILIDAD)	0.98%

OTRA DISCAPACIDAD	0.79%

ENANISMO	0.17%

SA-USUARIO DE CASTELLANO	0.16%

SA-USUARIO DE LSC (lengua de señas colombiana)	0.15%

SORDOCEGUERA	0.13%

VOZ Y HABLA	0.08%

PSICOSOCIAL	0.08%

SISTÉMICA	0.07%




