### Graduados

En este apartado se realiza la carga de diferentes archivos excel correspondientes a los graduados entre los años 2018 y 2023. El proceso incluye:

Limpieza de Datos:
- Se implementa un proceso para estandarizar y limpiar los datos para cada archico de esxcel con los distintos años
- Selección de columnas relevantes: Cada conjunto de datos conserva solo las columnas necesarias.
- Filtrado por metodología: Se seleccionan únicamente los registros donde la metodología es "Presencial", eliminando los registros que no tengan esta metodología.
- Eliminación de columnas innecesarias

Agrupación de datos
- Los datos son agrupados para sumar el número de graduados por combinaciones de año, programa académico, y códigos de departamento y municipio. Esto permite consolidar la información y eliminar duplicados o registros innecesarios.

Estandarización de columnas
- Se utiliza la función mismos_nombres_columnas para unificar los nombres de columnas en todos los conjuntos de datos, facilitando su posterior concatenación.

Integración de datos
- Los conjuntos de datos de todos los años se combinan en un único DataFrame llamado Graduados_total, creando una base de datos consolidada con toda la infromación necesaria.

Procesamiento natural del lenguaje
- Clasificación por áreas de conocimiento
Se introduce un análisis basado en similitudes de texto para clasificar los programas académicos en áreas de conocimiento específicas:

- Limpieza y normalización del texto eliminando caracteres no alfabéticos y palabras irrelevantes.
- Clasificación automática: Asignar a cada programa el área de conocimiento con mayor similitud.

Agrupación Final 
- Se eliminan columnas innecesarias como PROGRAMA ACADÉMICO tras la clasificación.
- Los datos se reagrupan y suman en función de combinaciones únicas de variables relevantes como año, códigos y áreas de conocimiento.
- Se ordenan cronológicamente los datos, convirtiendo los valores de año a enteros para un orden ascendente.

- Renombramiento de Columnas
Finalmente, las columnas se renombraron para mejorar la legibilidad y coherencia, como, "CÓDIGO DEL DEPARTAMENTO (PROGRAMA)" ahora es "CÓDIGO DEL DEPARTAMENTO IES".

El DataFrame final (Graduados_total) contiene los siguientes elementos:
- Año: Representa el año de graduación.
- Códigos del Departamento: Identificador único para el departamento y el municipio segun Divipola 
- Municipio IES: Identificadores únicos de las instituciones educativas según su ubicación.
- Área de Conocimiento: Clasificación del programa académico.
- Graduados: Número total de graduados en cada combinación de las variables anteriores.


In [1]:
import pandas as pd

# Cargar la base de datos de Graduados 2018 eliminando las primeras filas que no sirven
Graduados_2018 = pd.read_excel("Graduados 2018.xlsx", skiprows = 6)

# Asignar los nombres de columnas desde la fila correcta
Graduados_2018.columns = Graduados_2018.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Graduados_2018 = Graduados_2018.drop([0]).reset_index(drop = True)

# Dejar las columnas que se necesitan
Graduados_2018 = Graduados_2018[['Código del Departamento (Programa)',
                                'Metodología','Programa Académico','Código del Municipio (Programa)', 'Año',
                                'Semestre', 'Graduados' ]]

# Filtrar las filas donde la metodología sea 'Presencial' para que las variables si sirvan
Graduados_2018 = Graduados_2018[Graduados_2018['Metodología'] == 'Presencial']

# Eliminar variable metodologia
Graduados_2018 = Graduados_2018.drop(columns=['Metodología'])

# Agrupamos para sumar los graduados por semestre
Graduados_2018 = Graduados_2018.groupby(['Año', 'Programa Académico', 'Código del Departamento (Programa)', 'Código del Municipio (Programa)'], as_index=False).agg({'Graduados': 'sum'})

Graduados_2018




Unnamed: 0,Año,Programa Académico,Código del Departamento (Programa),Código del Municipio (Programa),Graduados
0,2018,DOCTORADO EN INGENIERIA - INGENIERIA MECANICA...,11,11001,1
1,2018,LICENCIATURA EN HUMANIDADES Y LENGUA CASTELLANA,08,08001,1
2,2018,ACTIVIDAD FISICA Y DEPORTE,05,05001,29
3,2018,ACUICULTURA,23,23001,13
4,2018,ADMINISTRACION,13,13001,14
...,...,...,...,...,...
9239,2018,ZOOTECNIA,66,66682,59
9240,2018,ZOOTECNIA,68,68432,8
9241,2018,ZOOTECNIA,68,68755,10
9242,2018,ZOOTECNIA,70,70001,24


In [2]:
# Cargar la base de datos de Graduados 2019 eliminando las primeras filas que no sirven
Graduados_2019 = pd.read_excel("Graduados 2019.xlsx", skiprows = 7)

# Asignar los nombres de columnas desde la fila correcta
Graduados_2019.columns = Graduados_2019.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Graduados_2019 = Graduados_2019.drop([0]).reset_index(drop = True)

# Dejar las columnas que se necesitan
Graduados_2019 = Graduados_2019[['CÓDIGO DEL DEPARTAMENTO (PROGRAMA)',
                                  'METODOLOGÍA', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)', 'AÑO',
                                  'SEMESTRE', 'GRADUADOS']]

# Filtrar las filas donde la metodología sea 'Presencial' para que las variables sí sirvan
Graduados_2019 = Graduados_2019[Graduados_2019['METODOLOGÍA'] == 'PRESENCIAL']

# Eliminar variable metodología
Graduados_2019 = Graduados_2019.drop(columns=['METODOLOGÍA'])

# Agrupamos para sumar los graduados por semestre
Graduados_2019 = Graduados_2019.groupby(['AÑO', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL DEPARTAMENTO (PROGRAMA)', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)'], as_index=False).agg({'GRADUADOS': 'sum'})

Graduados_2019


Unnamed: 0,AÑO,PROGRAMA ACADÉMICO,CÓDIGO DEL DEPARTAMENTO (PROGRAMA),CÓDIGO DEL MUNICIPIO (PROGRAMA),GRADUADOS
0,2019,ACTIVIDAD FISICA Y DEPORTE,5,5001,30
1,2019,ACUICULTURA,23,23001,24
2,2019,ADMINISTRACION,13,13001,36
3,2019,ADMINISTRACION FINANCIERA,20,20001,27
4,2019,ADMINISTRACION AERONAUTICA,76,76001,48
...,...,...,...,...,...
9754,2019,ZOOTECNIA,66,66682,53
9755,2019,ZOOTECNIA,68,68432,16
9756,2019,ZOOTECNIA,68,68755,20
9757,2019,ZOOTECNIA,70,70001,32


In [3]:
# Cargar la base de datos de Graduados 2020 eliminando las primeras filas que no sirven
Graduados_2020 = pd.read_excel("Graduados 2020.xlsx", skiprows=8)

# Asignar los nombres de columnas desde la fila correcta
Graduados_2020.columns = Graduados_2020.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Graduados_2020 = Graduados_2020.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
Graduados_2020 = Graduados_2020[['CÓDIGO DEL DEPARTAMENTO (PROGRAMA)',
                                  'METODOLOGÍA', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)', 'AÑO',
                                  'SEMESTRE', 'GRADUADOS']]

# Filtrar las filas donde la metodología sea 'Presencial' para que las variables sí sirvan
Graduados_2020 = Graduados_2020[Graduados_2020['METODOLOGÍA'].str.strip().str.upper() == 'PRESENCIAL']

# Eliminar variable metodología
Graduados_2020 = Graduados_2020.drop(columns=['METODOLOGÍA'])

# Agrupamos para sumar los graduados por semestre
Graduados_2020 = Graduados_2020.groupby(['AÑO', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL DEPARTAMENTO (PROGRAMA)', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)'], as_index=False).agg({'GRADUADOS': 'sum'})

Graduados_2020


Unnamed: 0,AÑO,PROGRAMA ACADÉMICO,CÓDIGO DEL DEPARTAMENTO (PROGRAMA),CÓDIGO DEL MUNICIPIO (PROGRAMA),GRADUADOS
0,2020,ACTIVIDAD FISICA Y DEPORTE,05,05001,66
1,2020,ACUICULTURA,23,23001,13
2,2020,ADMINISTRACION,13,13001,33
3,2020,ADMINISTRACION FINANCIERA,20,20001,32
4,2020,ADMINISTRACION & SERVICIO,25,25175,11
...,...,...,...,...,...
9570,2020,ZOOTECNIA,66,66682,77
9571,2020,ZOOTECNIA,68,68432,1
9572,2020,ZOOTECNIA,68,68755,18
9573,2020,ZOOTECNIA,70,70001,6


In [4]:
# Cargar la base de datos de Graduados 2021 eliminando las primeras filas que no sirven
Graduados_2021 = pd.read_excel("Graduados 2021.xlsx", skiprows=9)

# Asignar los nombres de columnas desde la fila correcta
Graduados_2021.columns = Graduados_2021.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Graduados_2021 = Graduados_2021.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
Graduados_2021 = Graduados_2021[['CÓDIGO DEL DEPARTAMENTO (PROGRAMA)',
                                  'METODOLOGÍA', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)', 'AÑO',
                                  'SEMESTRE', 'GRADUADOS']]

# Filtrar las filas donde la metodología sea 'Presencial' para que las variables sí sirvan
Graduados_2021 = Graduados_2021[Graduados_2021['METODOLOGÍA'].str.strip().str.upper() == 'PRESENCIAL']

# Eliminar variable metodología
Graduados_2021 = Graduados_2021.drop(columns=['METODOLOGÍA'])

# Agrupamos para sumar los graduados por semestre
Graduados_2021 = Graduados_2021.groupby(['AÑO', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL DEPARTAMENTO (PROGRAMA)', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)'], as_index=False).agg({'GRADUADOS': 'sum'})

Graduados_2021


Unnamed: 0,AÑO,PROGRAMA ACADÉMICO,CÓDIGO DEL DEPARTAMENTO (PROGRAMA),CÓDIGO DEL MUNICIPIO (PROGRAMA),GRADUADOS
0,2021,ACTIVIDAD FISICA Y DEPORTE,05,05001,91
1,2021,ACUICULTURA,23,23001,69
2,2021,ADMINISTRACION,20,20011,1
3,2021,ADMINISTRACION FINANCIERA,20,20001,18
4,2021,ADMINISTRACION & SERVICIO,25,25175,39
...,...,...,...,...,...
9984,2021,ZOOTECNIA,70,70001,42
9985,2021,ZOOTECNIA,76,76520,39
9986,2021,ZOOTECNIA,05,05001,45
9987,2021,ZOOTECNIA,05,05129,20


In [5]:
# Cargar la base de datos de Graduados 2022 eliminando las primeras filas que no sirven
Graduados_2022 = pd.read_excel("Graduados 2022.xlsx", skiprows=7)

# Asignar los nombres de columnas desde la fila correcta
Graduados_2022.columns = Graduados_2022.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Graduados_2022 = Graduados_2022.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
Graduados_2022 = Graduados_2022[['CÓDIGO DEL DEPARTAMENTO (PROGRAMA)',
                                  'METODOLOGÍA', 'PROGRAMA ACADÉMICO', 'CDIGO DEL MUNICIPIO (PROGRAMA)', 'AÑO',
                                  'SEMESTRE', 'GRADUADOS']]

# Filtrar las filas donde la metodología sea 'Presencial' para que las variables sí sirvan
Graduados_2022 = Graduados_2022[Graduados_2022['METODOLOGÍA'].str.strip().str.upper() == 'PRESENCIAL']

# Eliminar variable metodología
Graduados_2022 = Graduados_2022.drop(columns=['METODOLOGÍA'])

# Agrupamos para sumar los graduados por semestre
Graduados_2022 = Graduados_2022.groupby(['AÑO', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL DEPARTAMENTO (PROGRAMA)', 'CDIGO DEL MUNICIPIO (PROGRAMA)'], as_index=False).agg({'GRADUADOS': 'sum'})

Graduados_2022

Unnamed: 0,AÑO,PROGRAMA ACADÉMICO,CÓDIGO DEL DEPARTAMENTO (PROGRAMA),CDIGO DEL MUNICIPIO (PROGRAMA),GRADUADOS
0,2022,ACTIVIDAD FISICA Y DEPORTE,05,05001,72
1,2022,ACUICULTURA,23,23001,10
2,2022,ADMINISTRACION,13,13001,10
3,2022,ADMINISTRACION FINANCIERA,20,20001,35
4,2022,ADMINISTRACION & SERVICIO,25,25175,36
...,...,...,...,...,...
10225,2022,ZOOTECNIA,66,66682,26
10226,2022,ZOOTECNIA,68,68432,16
10227,2022,ZOOTECNIA,68,68755,12
10228,2022,ZOOTECNIA,70,70001,49


In [6]:
# Cargar la base de datos de Graduados 2023 eliminando las primeras filas que no sirven
Graduados_2023 = pd.read_excel("Graduados 2023.xlsx",sheet_name = "1.", skiprows = 4)

# Asignar los nombres de columnas desde la fila correcta
Graduados_2023.columns = Graduados_2023.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Graduados_2023 = Graduados_2023.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
Graduados_2023 = Graduados_2023[['CÓDIGO DEL DEPARTAMENTO (PROGRAMA)',
                                  'MODALIDAD', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)', 'AÑO',
                                  'SEMESTRE', 'GRADUADOS']]

# Filtrar las filas donde la metodología sea 'Presencial' para que las variables sí sirvan
Graduados_2023 = Graduados_2023[Graduados_2023['MODALIDAD'].str.strip().str.upper() == 'PRESENCIAL']

# Eliminar variable metodología
Graduados_2023 = Graduados_2023.drop(columns=['MODALIDAD'])

# Agrupamos para sumar los graduados por semestre
Graduados_2023 = Graduados_2023.groupby(['AÑO', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL DEPARTAMENTO (PROGRAMA)', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)'], as_index=False).agg({'GRADUADOS': 'sum'})

Graduados_2023

Unnamed: 0,AÑO,PROGRAMA ACADÉMICO,CÓDIGO DEL DEPARTAMENTO (PROGRAMA),CÓDIGO DEL MUNICIPIO (PROGRAMA),GRADUADOS
0,2023,ACTIVIDAD FISICA Y DEPORTE,05,05001,80
1,2023,ACUICULTURA,23,23001,31
2,2023,ADMINISTRACION,13,13001,49
3,2023,ADMINISTRACION SERVICIO,25,25175,35
4,2023,ADMINISTRACION AERONAUTICA,76,76001,12
...,...,...,...,...,...
10004,2023,ZOOTECNIA,70,70001,42
10005,2023,ZOOTECNIA,76,76520,43
10006,2023,ZOOTECNIA,05,05001,59
10007,2023,ZOOTECNIA,05,05129,23


In [7]:
def mismos_nombres_columnas(datos):
    datos.columns = ['AÑO',	'PROGRAMA ACADÉMICO', 'CÓDIGO DEL DEPARTAMENTO (PROGRAMA)', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)',	'GRADUADOS']
    return datos

Graduados_2018a = mismos_nombres_columnas(Graduados_2018)
Graduados_2019a = mismos_nombres_columnas(Graduados_2019)
Graduados_2020a = mismos_nombres_columnas(Graduados_2020)
Graduados_2021a = mismos_nombres_columnas(Graduados_2021)
Graduados_2022a = mismos_nombres_columnas(Graduados_2022)
Graduados_2023a = mismos_nombres_columnas(Graduados_2023)

# Volverlo una sola base de datos
Graduados_total = pd.concat([Graduados_2018a, Graduados_2019a, Graduados_2020a,
                             Graduados_2021a, Graduados_2022a, Graduados_2023a], ignore_index=True)

# Ver si sirvio
Graduados_total

Unnamed: 0,AÑO,PROGRAMA ACADÉMICO,CÓDIGO DEL DEPARTAMENTO (PROGRAMA),CÓDIGO DEL MUNICIPIO (PROGRAMA),GRADUADOS
0,2018,DOCTORADO EN INGENIERIA - INGENIERIA MECANICA...,11,11001,1
1,2018,LICENCIATURA EN HUMANIDADES Y LENGUA CASTELLANA,08,08001,1
2,2018,ACTIVIDAD FISICA Y DEPORTE,05,05001,29
3,2018,ACUICULTURA,23,23001,13
4,2018,ADMINISTRACION,13,13001,14
...,...,...,...,...,...
58801,2023,ZOOTECNIA,70,70001,42
58802,2023,ZOOTECNIA,76,76520,43
58803,2023,ZOOTECNIA,05,05001,59
58804,2023,ZOOTECNIA,05,05129,23


In [8]:
# Vamos a agrupar los programas academicos por areas de educacion
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Definir las tres áreas de conocimiento y sus descripciones
areas_conocimiento_final = [
    "Ciencias Exactas y Naturales", "Ciencias Sociales y Humanas", "Artes"
]
    
descripciones_areas_final = {
  "Ciencias Exactas y Naturales": """
Este campo abarca disciplinas que buscan comprender los fenómenos naturales a través de la observación, la experimentación y la formulación de leyes y teorías. Las Ciencias Exactas y Naturales se basan en métodos cuantitativos y analíticos para explorar el universo desde sus componentes fundamentales hasta los sistemas más complejos. Esta área incluye tanto la investigación pura, orientada a descubrir principios básicos, como la investigación aplicada, que utiliza esos principios para innovar y resolver problemas prácticos en sectores como la salud, la tecnología, la ingeniería y el medio ambiente.

- Matemáticas: Las matemáticas son el lenguaje de las ciencias, proporcionando una base para el razonamiento lógico y la formulación de modelos. Esta disciplina incluye ramas como el álgebra, que estudia estructuras y relaciones abstractas; la geometría, que examina propiedades de formas y espacios; el cálculo, que se centra en el cambio y movimiento; y la estadística, que analiza datos y probabilidades. También cubre campos avanzados como la teoría de números, la topología y la lógica matemática. Los matemáticos desarrollan métodos para resolver problemas complejos y modelar fenómenos en diversas áreas, desde la física y la informática hasta las ciencias sociales y la biomedicina.

- Física: La física es la ciencia que investiga los principios fundamentales que gobiernan la materia, la energía y sus interacciones. Comprende subdisciplinas como la mecánica clásica, que estudia el movimiento de objetos; la óptica, que analiza la luz y su comportamiento; la termodinámica, que examina el calor y la energía; el electromagnetismo, que investiga los campos eléctricos y magnéticos; y la mecánica cuántica, que describe el comportamiento de partículas subatómicas. Los físicos crean teorías y llevan a cabo experimentos para entender desde el nivel atómico hasta la estructura del universo, con aplicaciones en tecnologías como los semiconductores, los reactores nucleares y los sistemas de energía renovable.

- Química: La química estudia la composición, estructura, propiedades y reacciones de la materia. Entre sus ramas se incluyen la química orgánica, que se enfoca en compuestos de carbono; la química inorgánica, que investiga los minerales y metales; la química analítica, que identifica y cuantifica los componentes de sustancias; y la bioquímica, que examina las reacciones químicas en organismos vivos. Esta ciencia es fundamental para la fabricación de medicamentos, el desarrollo de materiales, la producción de energía y la protección del medio ambiente. Los químicos aplican sus conocimientos para innovar en industrias como la farmacéutica, la alimentaria, la cosmética y la de materiales avanzados.

- Biología: La biología se dedica al estudio de los seres vivos y su interacción con el entorno. Abarca áreas como la genética, que investiga la herencia y la variación; la microbiología, que estudia microorganismos como bacterias y virus; la ecología, que analiza los ecosistemas y las interacciones entre organismos y su ambiente; y la biología evolutiva, que explora los procesos de cambio en las especies a lo largo del tiempo. La biología es clave en áreas como la medicina, la biotecnología, la agricultura y la conservación ambiental, y se aplica en el desarrollo de tratamientos médicos, la producción de alimentos y la preservación de especies.

- Geología, Astronomía y Ciencias Ambientales: Estas disciplinas estudian el planeta Tierra y el universo. La geología examina la composición, estructura y procesos de la Tierra, incluyendo el estudio de minerales, rocas y procesos tectónicos. La astronomía investiga el espacio, los cuerpos celestes y fenómenos cósmicos, desde planetas y estrellas hasta galaxias y agujeros negros. Las ciencias ambientales exploran la relación entre el ser humano y el medio ambiente, abordando temas como la biodiversidad, el cambio climático y la gestión de recursos naturales. Estas ciencias son esenciales para el desarrollo sostenible, la gestión de recursos y la exploración espacial.

- Ingeniería (como parte de Ciencias Exactas y Naturales): La ingeniería es la aplicación de principios científicos y matemáticos para diseñar, construir y optimizar productos, sistemas y procesos. Incluye la ingeniería mecánica, que se enfoca en el diseño de máquinas y sistemas de energía; la ingeniería eléctrica, que estudia circuitos, energía y comunicaciones; la ingeniería civil, que se centra en infraestructura y estructuras; y la ingeniería química, que aplica la química para transformar materiales y desarrollar productos. La ingeniería permite innovar en tecnología y resolver problemas en sectores como la industria, la construcción, la energía y las telecomunicaciones.
    """,

    "Ciencias Sociales y Humanas": """
Las Ciencias Sociales y Humanas examinan la interacción humana, la organización social, las estructuras culturales y las normas que rigen la convivencia en sociedad. A través de métodos cualitativos y cuantitativos, estas disciplinas analizan cómo las personas se relacionan entre sí y con su entorno, en contextos históricos, políticos, económicos y culturales. Los programas en esta área forman a profesionales que entienden y abordan las complejidades de la vida en sociedad, desde los aspectos económicos y jurídicos hasta los culturales y psicológicos. Los egresados pueden aplicar este conocimiento en educación, políticas públicas, desarrollo comunitario, y estudios interculturales.

- Sociología: La sociología es el estudio de las sociedades humanas y sus estructuras. Analiza temas como la desigualdad social, la urbanización, la familia, el cambio social y los movimientos sociales. Los sociólogos utilizan herramientas como encuestas, entrevistas y análisis estadístico para estudiar patrones de comportamiento y abordar problemas sociales, colaborando en políticas públicas y desarrollo comunitario.

- Derecho: El derecho se centra en el estudio de las normas jurídicas que regulan la vida en sociedad. Incluye ramas como el derecho civil, penal, laboral, administrativo y constitucional, y áreas especializadas como el derecho ambiental y el derecho internacional. Los programas de derecho preparan a los estudiantes para interpretar leyes, litigar y formular políticas, promoviendo la justicia y el bienestar social. Los juristas contribuyen a la elaboración de leyes, la defensa de los derechos humanos y la resolución de conflictos legales.

- Psicología: La psicología estudia los procesos mentales y el comportamiento humano, abarcando campos como la psicología clínica, educativa, social, organizacional y experimental. Los psicólogos aplican sus conocimientos para mejorar la salud mental, optimizar el rendimiento en el trabajo, facilitar el aprendizaje y comprender las interacciones sociales. Mediante experimentos, observaciones y terapias, los psicólogos contribuyen al bienestar personal y al desarrollo de políticas de salud pública.

- Antropología: La antropología investiga la diversidad cultural, social y biológica de los seres humanos. Sus áreas incluyen la antropología cultural, que estudia costumbres, lenguas y creencias; la antropología física, que examina la evolución humana; la arqueología, que explora culturas antiguas; y la lingüística, que investiga la relación entre el lenguaje y la cultura. La antropología facilita la comprensión de la diversidad y la adaptación humana, ayudando a resolver problemas interculturales y a conservar el patrimonio cultural.

- Ciencia Política: La ciencia política estudia el poder, el gobierno y los sistemas de organización política. Incluye subcampos como la teoría política, la política comparada, las relaciones internacionales y la administración pública. Los politólogos investigan la toma de decisiones, las políticas públicas y las relaciones de poder a nivel local, nacional e internacional, aportando a la creación de políticas efectivas y a la construcción de instituciones democráticas.
    """,

    "Artes": """
El área de Artes engloba disciplinas centradas en la expresión y creatividad humanas. Los programas en esta área permiten a los estudiantes explorar y desarrollar habilidades en medios visuales, sonoros, dramáticos y audiovisuales, cultivando una comprensión profunda de los procesos de creación, interpretación y apreciación artística. Las artes se manifiestan en formas tradicionales y contemporáneas, y tienen un papel esencial en la cultura, la comunicación y la innovación estética. Los egresados en artes aplican sus conocimientos en diversos campos como el diseño, el entretenimiento, la educación y la preservación cultural.

- Artes Visuales: Las artes visuales abarcan disciplinas como la pintura, la escultura y la fotografía, enfocadas en la creación de obras que expresan ideas, emociones y conceptos estéticos. La pintura y la escultura permiten explorar técnicas tradicionales y contemporáneas, desde el uso de óleo y arcilla hasta la instalación y el arte digital. La fotografía captura momentos y perspectivas únicas, permitiendo la interpretación de la realidad y la creación de narrativas visuales. Los programas en artes visuales desarrollan habilidades en técnicas artísticas, teoría estética y crítica de arte.

- Diseño: El diseño combina creatividad y funcionalidad en la creación de productos y soluciones visuales. Incluye especialidades como el diseño gráfico, que utiliza imágenes y tipografía para comunicar; el diseño industrial, que se enfoca en la creación de productos; el diseño de moda, que explora la estética y la funcionalidad en la vestimenta; y el diseño de interacción, que se centra en la experiencia de usuario en productos digitales. Los diseñadores aplican conocimientos en teoría del color, tipografía, ergonomía y tecnología para desarrollar soluciones innovadoras.

- Música: La música es el estudio de la teoría, composición e interpretación musical. Los programas de música abarcan una variedad de géneros y estilos, desde la música clásica y el jazz hasta la música contemporánea y experimental. Los estudiantes aprenden a leer partituras, componer, interpretar y dirigir. La música es tanto una forma de expresión personal como un medio de comunicación cultural y emocional, con aplicaciones en la enseñanza, la producción de espectáculos y la creación de contenido audiovisual.

- Teatro y Danza: Estas disciplinas exploran la expresión dramática y corporal. El teatro abarca el guionismo, la actuación y la dirección escénica, permitiendo la representación de historias y conflictos humanos. La danza, por su parte, utiliza el movimiento como forma de expresión, combinando técnica, coreografía e interpretación. Los programas en teatro y danza desarrollan habilidades en interpretación, análisis de textos, expresión corporal y puesta en escena, contribuyendo al desarrollo cultural y a la innovación en las artes escénicas.

- Cine y Medios Audiovisuales: El cine es el arte de narrar historias a través de imágenes en movimiento. Los programas en cine y audiovisuales abarcan desde la teoría y análisis cinematográfico hasta la producción, dirección y edición. Los estudiantes aprenden técnicas de guion, manejo de cámara, edición y postproducción, así como aspectos técnicos y estéticos del lenguaje audiovisual. El cine y los medios audiovisuales son fundamentales para la comunicación cultural y la industria del entretenimiento, ofreciendo una plataforma para contar historias y explorar temas de relevancia social y cultural.
    """
  }

import re
import nltk
from nltk.corpus import stopwords

stop_words = set(stopwords.words('spanish'))

def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'[\d\W]+', ' ', text)
    words = text.split()
    words = [word for word in words if word not in stop_words]
    return ' '.join(words)


descripciones_list_final = [preprocess_text(desc) for desc in descripciones_areas_final.values()]
programas_list = areas_conocimiento_final


# Actualizar el corpus
corpus = descripciones_list_final + programas_list

# Re-entrenar el vectorizador
vectorizer = TfidfVectorizer()
vectorizer.fit(corpus)

# Vectorizar las descripciones de las áreas
tfidf_descripciones_final = vectorizer.transform(descripciones_list_final)

# Actualizar la función para usar el texto preprocesado
def asignar_area_conocimiento(programa):
    programa_preprocesado = preprocess_text(programa)
    tfidf_programa = vectorizer.transform([programa_preprocesado])
    similitudes = cosine_similarity(tfidf_programa, tfidf_descripciones_final)
    indice_max_similitud = np.argmax(similitudes)
    return areas_conocimiento_final[indice_max_similitud]

# Aplicar la función actualizada
Graduados_total['Área de Conocimiento'] = Graduados_total['PROGRAMA ACADÉMICO'].apply(asignar_area_conocimiento)

# Eliminar la variable 'PROGRAMA ACADÉMICO' del DataFrame
Graduados_total = Graduados_total.drop(columns=['PROGRAMA ACADÉMICO'])

# Agrupar filas con las mismas combinaciones de 'AÑO', 'CÓDIGO DEL DEPARTAMENTO (PROGRAMA)', 
# 'CÓDIGO DEL MUNICIPIO (PROGRAMA)', y sumar la columna 'GRADUADOS'
Graduados_total = Graduados_total.groupby(
    ['AÑO', 'CÓDIGO DEL DEPARTAMENTO (PROGRAMA)', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)', 'Área de Conocimiento'],
    as_index=False
).agg({'GRADUADOS': 'sum'})

# Ordenar por 'AÑO' de manera ascendente, aunque sean cadenas
Graduados_total = Graduados_total.sort_values(by='AÑO', key=lambda col: col.astype(int), ascending=True).reset_index(drop=True)

Graduados_total.rename(columns={
    "CÓDIGO DEL DEPARTAMENTO (PROGRAMA)": "CÓDIGO DEL DEPARTAMENTO IES",
    "CÓDIGO DEL MUNICIPIO (PROGRAMA)": "CÓDIGO DEL MUNICIPIO IES",
    "Área de Conocimiento": "ÁREA DE CONOCIMIENTO"
}, inplace=True)

# Ver los resultados
Graduados_total

Unnamed: 0,AÑO,CÓDIGO DEL DEPARTAMENTO IES,CÓDIGO DEL MUNICIPIO IES,ÁREA DE CONOCIMIENTO,GRADUADOS
0,2018,05,05001,Artes,4190
1,2018,63,63111,Ciencias Sociales y Humanas,12
2,2018,63,63001,Ciencias Sociales y Humanas,966
3,2018,63,63001,Ciencias Exactas y Naturales,2527
4,2018,63,63001,Artes,399
...,...,...,...,...,...
2419,2023,76,76233,Ciencias Exactas y Naturales,36
2420,2023,76,76248,Ciencias Exactas y Naturales,1
2421,2023,76,76250,Ciencias Exactas y Naturales,29
2422,2023,76,76275,Ciencias Exactas y Naturales,2


### Docentes 

El código realiza la integración de datos sobre docentes desde distintos archivos Excel correspondientes a los años 2018-2023. :

Se importan los datos, y se identifican los nombres de columnas relevantes desde una fila específica del archivo.

Limpieza y selección de datos
- Renombramiento de columnas: Las columnas relevantes son seleccionadas y renombradas según lo que se necesita.
- Eliminación de filas innecesarias: Se descartan las filas que no contienen datos útiles y se reinician los índices para garantizar una estructura limpia.
- Selección de columnas: Solo se conservan las columnas relacionadas con el código del municipio, el año, el semestre y el número de docentes.

Agrupación y consolidación de datos
- Los datos son agrupados por año y código de municipio y se suman los valores de la columna No. de Docentes para consolidar información por semestre. Este proceso elimina redundancias y crea una representación más compacta de los datos.

Estandarización de Nombres de Columnas
- Se asignan nombres estandarizados a las columnas en todos los DataFrames. Esto es esencial para la correcta integración de los datos en una sola base consolidada.

Integración de los Conjuntos de Datos
- Los datos de todos los años se concatenan en un único DataFrame Docentes_total utilizando.
Se utiliza ignore_index=True para evitar conflictos en los índices y asegurar una continuidad en los datos.

El DataFrame Docentes_total contiene:
- AÑO: El año correspondiente a los registros.
- CÓDIGO DEL MUNICIPIO (PROGRAMA): Identificador único del municipio asociado a cada institución educativa.
- DOCENTES: Número total de docentes por municipio y año, agrupado y sumado.

In [9]:
import pandas as pd

# Cargar la base de datos 
Docentes_2018 = pd.read_excel("Docentes 2018.xlsx", skiprows = 5)

# Asignar los nombres de columnas desde la fila correcta
Docentes_2018.columns = Docentes_2018.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Docentes_2018 = Docentes_2018.drop([0]).reset_index(drop = True)

# Dejar las columnas que se necesitan
Docentes_2018 = Docentes_2018[['Código del \nMunicipio\n(IES)', 'AÑO',
                                'Semestre', 'No. de Docentes' ]]

# Agrupamos para sumar por semestre
Docentes_2018 = Docentes_2018.groupby(['AÑO', 'Código del \nMunicipio\n(IES)'], as_index=False).agg({'No. de Docentes': 'sum'})

Docentes_2018

Unnamed: 0,AÑO,Código del \nMunicipio\n(IES),No. de Docentes
0,2018,5001,45042
1,2018,5034,383
2,2018,5042,147
3,2018,5045,67
4,2018,5088,510
...,...,...,...
67,2018,81001,19
68,2018,85001,352
69,2018,86001,312
70,2018,88001,52


In [10]:
# Cargar la base de datos 
Docentes_2019 = pd.read_excel("Docentes 2019.xlsx", skiprows = 5)

# Asignar los nombres de columnas desde la fila correcta
Docentes_2019.columns = Docentes_2019.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Docentes_2019 = Docentes_2019.drop([0]).reset_index(drop = True)

# Dejar las columnas que se necesitan
Docentes_2019 = Docentes_2019[['Código del \nMunicipio\n(IES)', 'AÑO',
                                'Semestre', 'No. de Docentes' ]]

# Agrupamos para sumar por semestre
Docentes_2019 = Docentes_2019.groupby(['AÑO', 'Código del \nMunicipio\n(IES)'], as_index=False).agg({'No. de Docentes': 'sum'})

Docentes_2019

Unnamed: 0,AÑO,Código del \nMunicipio\n(IES),No. de Docentes
0,2019,5001,45973
1,2019,5034,345
2,2019,5042,113
3,2019,5088,436
4,2019,5129,351
...,...,...,...
69,2019,85001,328
70,2019,86001,259
71,2019,88001,50
72,2019,91001,37


In [11]:
# Cargar la base de datos 
Docentes_2020 = pd.read_excel("Docentes 2020.xlsx", skiprows = 5)

# Asignar los nombres de columnas desde la fila correcta
Docentes_2020.columns = Docentes_2020.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Docentes_2020 = Docentes_2020.drop([0]).reset_index(drop = True)

# Dejar las columnas que se necesitan
Docentes_2020 = Docentes_2020[['Código del \nMunicipio\n(IES)', 'AÑO',
                                'Semestre', 'No. de Docentes' ]]

# Agrupamos para sumar por semestre
Docentes_2020 = Docentes_2020.groupby(['AÑO', 'Código del \nMunicipio\n(IES)'], as_index=False).agg({'No. de Docentes': 'sum'})

Docentes_2020

Unnamed: 0,AÑO,Código del \nMunicipio\n(IES),No. de Docentes
0,2020,11001,122527
1,2020,13001,6860
2,2020,15001,5191
3,2020,15176,113
4,2020,15238,364
...,...,...,...
69,2020,05615,651
70,2020,05631,346
71,2020,05686,217
72,2020,05837,671


In [12]:
# Cargar la base de datos 
Docentes_2021 = pd.read_excel("Docentes 2021.xlsx", skiprows = 5)

# Asignar los nombres de columnas desde la fila correcta
Docentes_2021.columns = Docentes_2021.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Docentes_2021 = Docentes_2021.drop([0]).reset_index(drop = True)

# Dejar las columnas que se necesitan
Docentes_2021 = Docentes_2021[['Código del \nMunicipio\n(IES)', 'AÑO',
                                'Semestre', 'No. de Docentes' ]]

# Agrupamos para sumar por semestre
Docentes_2021 = Docentes_2021.groupby(['AÑO', 'Código del \nMunicipio\n(IES)'], as_index=False).agg({'No. de Docentes': 'sum'})

Docentes_2021

Unnamed: 0,AÑO,Código del \nMunicipio\n(IES),No. de Docentes
0,2021,5001,44942
1,2021,5034,228
2,2021,5042,121
3,2021,5045,41
4,2021,5088,427
...,...,...,...
69,2021,81001,25
70,2021,85001,281
71,2021,86001,447
72,2021,88001,86


In [13]:
# Cargar la base de datos 
Docentes_2022 = pd.read_excel("Docentes 2022.xlsx", skiprows = 6)

# Asignar los nombres de columnas desde la fila correcta
Docentes_2022.columns = Docentes_2022.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Docentes_2022 = Docentes_2022.drop([0]).reset_index(drop = True)

# Dejar las columnas que se necesitan
Docentes_2022 = Docentes_2022[['Código del \nMunicipio\n(IES)', 'Año',
                                'Semestre', 'No. de Docentes' ]]

# Agrupamos para sumar por semestre
Docentes_2022 = Docentes_2022.groupby(['Año', 'Código del \nMunicipio\n(IES)'], as_index=False).agg({'No. de Docentes': 'sum'})

Docentes_2022

Unnamed: 0,Año,Código del \nMunicipio\n(IES),No. de Docentes
0,2022,5001,45980
1,2022,5034,296
2,2022,5042,139
3,2022,5045,42
4,2022,5088,446
...,...,...,...
69,2022,81001,27
70,2022,85001,385
71,2022,86001,407
72,2022,88001,149


In [14]:
# Cargar la base de datos 
Docentes_2023 = pd.read_excel("Docentes 2023.xlsx",sheet_name = "1.", skiprows = 4)

# Asignar los nombres de columnas desde la fila correcta
Docentes_2023.columns = Docentes_2023.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Docentes_2023 = Docentes_2023.drop([0]).reset_index(drop = True)

# Dejar las columnas que se necesitan
Docentes_2023 = Docentes_2023[['CÓDIGO DEL MUNICIPIO IES', 'AÑO',
                                'SEMESTRE', 'DOCENTES' ]]

# Agrupamos para sumar por semestre
Docentes_2023 = Docentes_2023.groupby(['AÑO', 'CÓDIGO DEL MUNICIPIO IES'], as_index=False).agg({'DOCENTES': 'sum'})

Docentes_2023

Unnamed: 0,AÑO,CÓDIGO DEL MUNICIPIO IES,DOCENTES
0,2023,11001,137779
1,2023,13001,7703
2,2023,15001,5438
3,2023,15176,120
4,2023,15238,378
...,...,...,...
69,2023,05631,428
70,2023,05686,294
71,2023,05837,785
72,2023,08001,12390


In [15]:
def mismos_nombres_columnas(datos):
    datos.columns = ['AÑO',	'CÓDIGO DEL MUNICIPIO (PROGRAMA)',	'DOCENTES']
    return datos

Docentes_2018a = mismos_nombres_columnas(Docentes_2018)
Docentes_2019a = mismos_nombres_columnas(Docentes_2019)
Docentes_2020a = mismos_nombres_columnas(Docentes_2020)
Docentes_2021a = mismos_nombres_columnas(Docentes_2021)
Docentes_2022a = mismos_nombres_columnas(Docentes_2022)
Docentes_2023a = mismos_nombres_columnas(Docentes_2023)

# Volverlo una sola base de datos
Docentes_total = pd.concat([Docentes_2018a, Docentes_2019a, Docentes_2020a,
                             Docentes_2021a, Docentes_2022a, Docentes_2023a], ignore_index=True)

# Ver si sirvio
Docentes_total

Unnamed: 0,AÑO,CÓDIGO DEL MUNICIPIO (PROGRAMA),DOCENTES
0,2018,5001,45042
1,2018,5034,383
2,2018,5042,147
3,2018,5045,67
4,2018,5088,510
...,...,...,...
437,2023,05631,428
438,2023,05686,294
439,2023,05837,785
440,2023,08001,12390


### Matriculados

El objetivo del código es consolidar y procesar datos de estudiantes matriculados en programas académicos de educación superior en modalidad presencial, abarcando los años 2018-2023.

Carga de Datos
Se importan los datos desde archivos Excel, uno para cada año entre 2018 y 2023. 
- Eliminación de filas irrelevantes
- Renombramiento de columnas: Los nombres de columnas se asignan basándose en una fila específica del archivo.

Limpieza de Datos
- Se seleccionan únicamente las columnas necesarias para el análisis: programa académico, metodología, código del municipio, año, semestre y número de matriculados.
- Filtrado por modalidad: Se filtran registros con la metodología "Presencial" (normalizando mayúsculas y espacios).
- Eliminación de columnas innecesarias: Después del filtrado, la columna 'Metodología' se elimina porque ya no aporta información relevante.

Agrupación y Consolidación
- Los datos se agrupan por año, programa académico y código del municipio, y se suma el total de matriculados por combinación de variables.

Estandarización de Columnas
- Se utiliza la función mismos_nombres_columnas() para homogeneizar los nombres de columnas en todos los DataFrames, independientemente de las inconsistencias en los archivos fuente.

Integración de Conjuntos de Datos
- Los DataFrames de cada año se combinan en un único DataFrame Matriculados_total.

Clasificación por Áreas de Conocimiento
- El código introduce un sistema para categorizar programas académicos en tres áreas: Ciencias Exactas y Naturales, Ciencias Sociales y Humanas, y Artes. Los pasos incluyen:

Preprocesamiento natural del lenguaje
- Normalización de descripciones y nombres de programas (eliminación de caracteres especiales y stopwords).
- Similitud: Comparación de programas académicos con las descripciones de las áreas para asignar la categoría con mayor similitud.

Agrupación Final
- Los datos se reagrupan por año, código del municipio y área de conocimiento, sumando los valores de la columna MATRICULADOS. Se ordenan cronológicamente por año para facilitar su interpretación.

El DataFrame final Matriculados_total contiene:
- AÑO: Año de la matrícula.
- CÓDIGO DEL MUNICIPIO IES: Identificador único del municipio asociado al programa.
- ÁREA DE CONOCIMIENTO: Clasificación del programa académico.
- MATRICULADOS: Número total de estudiantes matriculados para cada combinación de variables.

In [16]:
import pandas as pd

# Cargar la base de datos
Matriculados_2018 = pd.read_excel("Matriculados 2018.xlsx", skiprows=6)

# Asignar los nombres de columnas desde la fila correcta
Matriculados_2018.columns = Matriculados_2018.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Matriculados_2018 = Matriculados_2018.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
Matriculados_2018 = Matriculados_2018[[
    'Programa Académico', 
    'Metodología',
    'Código del \nMunicipio\n(Programa)',  
    'Año',
    'Semestre',
    'Matriculados 2018'
]]

# Filtrar las filas donde la metodología sea 'Presencial' (insensible a mayúsculas/minúsculas)
Matriculados_2018 = Matriculados_2018[
    Matriculados_2018['Metodología'].str.strip().str.upper() == 'PRESENCIAL'
]

# Eliminar la columna 'Metodología' ya que ya no es necesaria
Matriculados_2018 = Matriculados_2018.drop(columns=['Metodología'])


# Agrupar para sumar los matriculados por año, programa académico y código del municipio
Matriculados_2018 = Matriculados_2018.groupby(['Año', 'Programa Académico', 'Código del \nMunicipio\n(Programa)'], as_index=False).agg({'Matriculados 2018': 'sum'})

# Mostrar el DataFrame resultante
Matriculados_2018


Unnamed: 0,Año,Programa Académico,Código del \nMunicipio\n(Programa),Matriculados 2018
0,2018,DOCTORADO EN INGENIERIA - INGENIERIA MECANICA...,11001,57
1,2018,LICENCIATURA EN HUMANIDADES Y LENGUA CASTELLANA,08001,496
2,2018,ACTIVIDAD FISICA Y DEPORTE,05001,1355
3,2018,ACUICULTURA,23001,563
4,2018,ADMINISTRACION,13001,337
...,...,...,...,...
10751,2018,ZOOTECNIA,70001,711
10752,2018,ZOOTECNIA,76520,669
10753,2018,ZOOTECNIA,05001,1409
10754,2018,ZOOTECNIA,05129,270


In [17]:
# Cargar la base de datos
Matriculados_2019 = pd.read_excel("Matriculados 2019.xlsx", skiprows=7)

# Asignar los nombres de columnas desde la fila correcta
Matriculados_2019.columns = Matriculados_2019.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Matriculados_2019 = Matriculados_2019.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
Matriculados_2019 = Matriculados_2019[[
    'PROGRAMA ACADÉMICO', 
    'METODOLOGÍA',
    'CÓDIGO DEL MUNICIPIO (PROGRAMA)',  
    'AÑO', 
    'SEMESTRE', 
    'MATRICULADOS '
]]

# Filtrar las filas donde la metodología sea 'Presencial' (insensible a mayúsculas/minúsculas)
Matriculados_2019 = Matriculados_2019[
    Matriculados_2019['METODOLOGÍA'].str.strip().str.upper() == 'PRESENCIAL'
]

# Eliminar la columna 'Metodología' ya que ya no es necesaria
Matriculados_2019 = Matriculados_2019.drop(columns=['METODOLOGÍA'])


# Agrupar para sumar los matriculados por año, programa académico y código del municipio
Matriculados_2019 = Matriculados_2019.groupby(['AÑO', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)'], as_index=False).agg({'MATRICULADOS ': 'sum'})

# Mostrar el DataFrame resultante
Matriculados_2019

Unnamed: 0,AÑO,PROGRAMA ACADÉMICO,CÓDIGO DEL MUNICIPIO (PROGRAMA),MATRICULADOS
0,2019,ACTIVIDAD FISICA Y DEPORTE,5001,1527
1,2019,ACUICULTURA,23001,545
2,2019,ADMINISTRACION,13001,419
3,2019,ADMINISTRACION FINANCIERA,20001,316
4,2019,ADMINISTRACION & SERVICIO,25175,311
...,...,...,...,...
11823,2019,ZOOTECNIA,66682,472
11824,2019,ZOOTECNIA,68432,190
11825,2019,ZOOTECNIA,68755,185
11826,2019,ZOOTECNIA,70001,804


In [18]:
# Cargar la base de datos
Matriculados_2020 = pd.read_excel("Matriculados 2020.xlsx", skiprows=8)

# Asignar los nombres de columnas desde la fila correcta
Matriculados_2020.columns = Matriculados_2020.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Matriculados_2020 = Matriculados_2020.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
Matriculados_2020 = Matriculados_2020[[
    'PROGRAMA ACADÉMICO', 
    'METODOLOGÍA',
    'CÓDIGO DEL MUNICIPIO (PROGRAMA)',  
    'AÑO', 
    'SEMESTRE', 
    'MATRICULADOS'
]]

# Filtrar las filas donde la metodología sea 'Presencial' (insensible a mayúsculas/minúsculas)
Matriculados_2020 = Matriculados_2020[
    Matriculados_2020['METODOLOGÍA'].str.strip().str.upper() == 'PRESENCIAL'
]

# Eliminar la columna 'Metodología' ya que ya no es necesaria
Matriculados_2020 = Matriculados_2020.drop(columns=['METODOLOGÍA'])


# Agrupar para sumar los matriculados por año, programa académico y código del municipio
Matriculados_2020 = Matriculados_2020.groupby(['AÑO', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)'], as_index=False).agg({'MATRICULADOS': 'sum'})

# Mostrar el DataFrame resultante
Matriculados_2020

Unnamed: 0,AÑO,PROGRAMA ACADÉMICO,CÓDIGO DEL MUNICIPIO (PROGRAMA),MATRICULADOS
0,2020,ESPECIALIZACIÓN EN GERENCIA LOGÍSTICA,47001,1
1,2020,INGENIERIA DE SISTEMAS,18001,1
2,2020,INGENIERIA FINANCIERA Y DE NEGOCIOS,05001,1
3,2020,TECNOLOGIA EN ATENCION PREHOSPITALARIA,13001,1
4,2020,TECNOLOGIA EN PRODUCCION AGRICOLA,20001,1
...,...,...,...,...
11598,2020,ZOOTECNIA,66682,352
11599,2020,ZOOTECNIA,68432,214
11600,2020,ZOOTECNIA,68755,125
11601,2020,ZOOTECNIA,70001,852


In [19]:
# Cargar la base de datos
Matriculados_2021 = pd.read_excel("Matriculados 2021.xlsx", skiprows=9)

# Asignar los nombres de columnas desde la fila correcta
Matriculados_2021.columns = Matriculados_2021.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Matriculados_2021 = Matriculados_2021.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
Matriculados_2021 = Matriculados_2021[[
    'PROGRAMA ACADÉMICO', 
    'METODOLOGÍA',
    'CÓDIGO DEL MUNICIPIO (PROGRAMA)',  
    'AÑO', 
    'SEMESTRE', 
    'MATRICULADOS'
]]

# Filtrar las filas donde la metodología sea 'Presencial' (insensible a mayúsculas/minúsculas)
Matriculados_2021 = Matriculados_2021[
    Matriculados_2021['METODOLOGÍA'].str.strip().str.upper() == 'PRESENCIAL'
]

# Eliminar la columna 'Metodología' ya que ya no es necesaria
Matriculados_2021 = Matriculados_2021.drop(columns=['METODOLOGÍA'])


# Agrupar para sumar los matriculados por año, programa académico y código del municipio
Matriculados_2021 = Matriculados_2021.groupby(['AÑO', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)'], as_index=False).agg({'MATRICULADOS': 'sum'})

# Mostrar el DataFrame resultante
Matriculados_2021

Unnamed: 0,AÑO,PROGRAMA ACADÉMICO,CÓDIGO DEL MUNICIPIO (PROGRAMA),MATRICULADOS
0,2021,ACTIVIDAD FISICA Y DEPORTE,05001,1346
1,2021,ACUICULTURA,23001,641
2,2021,ADMINISTRACION,13001,508
3,2021,ADMINISTRACION FINANCIERA,20001,303
4,2021,ADMINISTRACION & SERVICIO,25175,388
...,...,...,...,...
11530,2021,ZOOTECNIA,70001,874
11531,2021,ZOOTECNIA,76520,818
11532,2021,ZOOTECNIA,05001,1579
11533,2021,ZOOTECNIA,05129,262


In [20]:
# Cargar la base de datos
Matriculados_2022 = pd.read_excel("Matriculados 2022.xlsx", skiprows=7)

# Asignar los nombres de columnas desde la fila correcta
Matriculados_2022.columns = Matriculados_2022.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Matriculados_2022 = Matriculados_2022.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
Matriculados_2022 = Matriculados_2022[[
    'PROGRAMA ACADÉMICO', 
    'METODOLOGÍA',
    'CÓDIGO DEL MUNICIPIO (PROGRAMA)',  
    'AÑO', 
    'SEMESTRE', 
    'MATRICULADOS'
]]

# Filtrar las filas donde la metodología sea 'Presencial' (insensible a mayúsculas/minúsculas)
Matriculados_2022 = Matriculados_2022[
    Matriculados_2022['METODOLOGÍA'].str.strip().str.upper() == 'PRESENCIAL'
]

# Eliminar la columna 'Metodología' ya que ya no es necesaria
Matriculados_2022 = Matriculados_2022.drop(columns=['METODOLOGÍA'])


# Agrupar para sumar los matriculados por año, programa académico y código del municipio
Matriculados_2022 = Matriculados_2022.groupby(['AÑO', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)'], as_index=False).agg({'MATRICULADOS': 'sum'})

# Mostrar el DataFrame resultante
Matriculados_2022

Unnamed: 0,AÑO,PROGRAMA ACADÉMICO,CÓDIGO DEL MUNICIPIO (PROGRAMA),MATRICULADOS
0,2022,ACTIVIDAD FISICA Y DEPORTE,05001,1206
1,2022,ACUICULTURA,23001,633
2,2022,ACUICULTURA,23189,1
3,2022,ADMINISTRACION,13001,517
4,2022,ADMINISTRACION FINANCIERA,20001,323
...,...,...,...,...
11058,2022,ZOOTECNIA,66682,321
11059,2022,ZOOTECNIA,68432,311
11060,2022,ZOOTECNIA,68755,79
11061,2022,ZOOTECNIA,70001,827


In [21]:
# Cargar la base de datos
Matriculados_2023 = pd.read_excel("Matriculados 2023.xlsx", sheet_name = "1.", skiprows = 4)

# Asignar los nombres de columnas desde la fila correcta
Matriculados_2023.columns = Matriculados_2023.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
Matriculados_2023 = Matriculados_2023.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
Matriculados_2023 = Matriculados_2023[[
    'PROGRAMA ACADÉMICO', 
    'MODALIDAD',
    'CÓDIGO DEL MUNICIPIO (PROGRAMA)',  
    'AÑO', 
    'SEMESTRE', 
    'MATRICULADOS'
]]

# Filtrar las filas donde la metodología sea 'Presencial' (insensible a mayúsculas/minúsculas)
Matriculados_2023 = Matriculados_2023[
    Matriculados_2023['MODALIDAD'].str.strip().str.upper() == 'PRESENCIAL'
]

# Eliminar la columna 'Metodología' ya que ya no es necesaria
Matriculados_2023 = Matriculados_2023.drop(columns=['MODALIDAD'])


# Agrupar para sumar los matriculados por año, programa académico y código del municipio
Matriculados_2023 = Matriculados_2023.groupby(['AÑO', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)'], as_index=False).agg({'MATRICULADOS': 'sum'})

# Mostrar el DataFrame resultante
Matriculados_2023

Unnamed: 0,AÑO,PROGRAMA ACADÉMICO,CÓDIGO DEL MUNICIPIO (PROGRAMA),MATRICULADOS
0,2023,ACTIVIDAD FISICA Y DEPORTE,05001,921
1,2023,ACUICULTURA,23001,656
2,2023,ACUICULTURA,23162,3
3,2023,ACUICULTURA,23189,1
4,2023,ACUICULTURA,23500,1
...,...,...,...,...
10982,2023,ZOOTECNIA,70001,850
10983,2023,ZOOTECNIA,76520,791
10984,2023,ZOOTECNIA,05001,1508
10985,2023,ZOOTECNIA,05129,254


In [22]:
def mismos_nombres_columnas(datos):
    datos.columns = ['AÑO',	'PROGRAMA ACADÉMICO', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)', 'MATRICULADOS']
    return datos

Matriculados_2018a = mismos_nombres_columnas(Matriculados_2018)
Matriculados_2019a = mismos_nombres_columnas(Matriculados_2019)
Matriculados_2020a = mismos_nombres_columnas(Matriculados_2020)
Matriculados_2021a = mismos_nombres_columnas(Matriculados_2021)
Matriculados_2022a = mismos_nombres_columnas(Matriculados_2022)
Matriculados_2023a = mismos_nombres_columnas(Matriculados_2023)

# Volverlo una sola base de datos
Matriculados_total = pd.concat([Matriculados_2018a, Matriculados_2019a, Matriculados_2020a,
                             Matriculados_2021a, Matriculados_2022a, Matriculados_2023a], ignore_index=True)

# Ver si sirvio
Matriculados_total

Unnamed: 0,AÑO,PROGRAMA ACADÉMICO,CÓDIGO DEL MUNICIPIO (PROGRAMA),MATRICULADOS
0,2018,DOCTORADO EN INGENIERIA - INGENIERIA MECANICA...,11001,57
1,2018,LICENCIATURA EN HUMANIDADES Y LENGUA CASTELLANA,08001,496
2,2018,ACTIVIDAD FISICA Y DEPORTE,05001,1355
3,2018,ACUICULTURA,23001,563
4,2018,ADMINISTRACION,13001,337
...,...,...,...,...
67767,2023,ZOOTECNIA,70001,850
67768,2023,ZOOTECNIA,76520,791
67769,2023,ZOOTECNIA,05001,1508
67770,2023,ZOOTECNIA,05129,254


In [23]:
# Vamos a agrupar los programas academicos por areas de educacion
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Definir las tres áreas de conocimiento y sus descripciones
areas_conocimiento_final = [
    "Ciencias Exactas y Naturales", "Ciencias Sociales y Humanas", "Artes"
]
    
descripciones_areas_final = {
  "Ciencias Exactas y Naturales": """
Este campo abarca disciplinas que buscan comprender los fenómenos naturales a través de la observación, la experimentación y la formulación de leyes y teorías. Las Ciencias Exactas y Naturales se basan en métodos cuantitativos y analíticos para explorar el universo desde sus componentes fundamentales hasta los sistemas más complejos. Esta área incluye tanto la investigación pura, orientada a descubrir principios básicos, como la investigación aplicada, que utiliza esos principios para innovar y resolver problemas prácticos en sectores como la salud, la tecnología, la ingeniería y el medio ambiente.

- Matemáticas: Las matemáticas son el lenguaje de las ciencias, proporcionando una base para el razonamiento lógico y la formulación de modelos. Esta disciplina incluye ramas como el álgebra, que estudia estructuras y relaciones abstractas; la geometría, que examina propiedades de formas y espacios; el cálculo, que se centra en el cambio y movimiento; y la estadística, que analiza datos y probabilidades. También cubre campos avanzados como la teoría de números, la topología y la lógica matemática. Los matemáticos desarrollan métodos para resolver problemas complejos y modelar fenómenos en diversas áreas, desde la física y la informática hasta las ciencias sociales y la biomedicina.

- Física: La física es la ciencia que investiga los principios fundamentales que gobiernan la materia, la energía y sus interacciones. Comprende subdisciplinas como la mecánica clásica, que estudia el movimiento de objetos; la óptica, que analiza la luz y su comportamiento; la termodinámica, que examina el calor y la energía; el electromagnetismo, que investiga los campos eléctricos y magnéticos; y la mecánica cuántica, que describe el comportamiento de partículas subatómicas. Los físicos crean teorías y llevan a cabo experimentos para entender desde el nivel atómico hasta la estructura del universo, con aplicaciones en tecnologías como los semiconductores, los reactores nucleares y los sistemas de energía renovable.

- Química: La química estudia la composición, estructura, propiedades y reacciones de la materia. Entre sus ramas se incluyen la química orgánica, que se enfoca en compuestos de carbono; la química inorgánica, que investiga los minerales y metales; la química analítica, que identifica y cuantifica los componentes de sustancias; y la bioquímica, que examina las reacciones químicas en organismos vivos. Esta ciencia es fundamental para la fabricación de medicamentos, el desarrollo de materiales, la producción de energía y la protección del medio ambiente. Los químicos aplican sus conocimientos para innovar en industrias como la farmacéutica, la alimentaria, la cosmética y la de materiales avanzados.

- Biología: La biología se dedica al estudio de los seres vivos y su interacción con el entorno. Abarca áreas como la genética, que investiga la herencia y la variación; la microbiología, que estudia microorganismos como bacterias y virus; la ecología, que analiza los ecosistemas y las interacciones entre organismos y su ambiente; y la biología evolutiva, que explora los procesos de cambio en las especies a lo largo del tiempo. La biología es clave en áreas como la medicina, la biotecnología, la agricultura y la conservación ambiental, y se aplica en el desarrollo de tratamientos médicos, la producción de alimentos y la preservación de especies.

- Geología, Astronomía y Ciencias Ambientales: Estas disciplinas estudian el planeta Tierra y el universo. La geología examina la composición, estructura y procesos de la Tierra, incluyendo el estudio de minerales, rocas y procesos tectónicos. La astronomía investiga el espacio, los cuerpos celestes y fenómenos cósmicos, desde planetas y estrellas hasta galaxias y agujeros negros. Las ciencias ambientales exploran la relación entre el ser humano y el medio ambiente, abordando temas como la biodiversidad, el cambio climático y la gestión de recursos naturales. Estas ciencias son esenciales para el desarrollo sostenible, la gestión de recursos y la exploración espacial.

- Ingeniería (como parte de Ciencias Exactas y Naturales): La ingeniería es la aplicación de principios científicos y matemáticos para diseñar, construir y optimizar productos, sistemas y procesos. Incluye la ingeniería mecánica, que se enfoca en el diseño de máquinas y sistemas de energía; la ingeniería eléctrica, que estudia circuitos, energía y comunicaciones; la ingeniería civil, que se centra en infraestructura y estructuras; y la ingeniería química, que aplica la química para transformar materiales y desarrollar productos. La ingeniería permite innovar en tecnología y resolver problemas en sectores como la industria, la construcción, la energía y las telecomunicaciones.
    """,

    "Ciencias Sociales y Humanas": """
Las Ciencias Sociales y Humanas examinan la interacción humana, la organización social, las estructuras culturales y las normas que rigen la convivencia en sociedad. A través de métodos cualitativos y cuantitativos, estas disciplinas analizan cómo las personas se relacionan entre sí y con su entorno, en contextos históricos, políticos, económicos y culturales. Los programas en esta área forman a profesionales que entienden y abordan las complejidades de la vida en sociedad, desde los aspectos económicos y jurídicos hasta los culturales y psicológicos. Los egresados pueden aplicar este conocimiento en educación, políticas públicas, desarrollo comunitario, y estudios interculturales.

- Sociología: La sociología es el estudio de las sociedades humanas y sus estructuras. Analiza temas como la desigualdad social, la urbanización, la familia, el cambio social y los movimientos sociales. Los sociólogos utilizan herramientas como encuestas, entrevistas y análisis estadístico para estudiar patrones de comportamiento y abordar problemas sociales, colaborando en políticas públicas y desarrollo comunitario.

- Derecho: El derecho se centra en el estudio de las normas jurídicas que regulan la vida en sociedad. Incluye ramas como el derecho civil, penal, laboral, administrativo y constitucional, y áreas especializadas como el derecho ambiental y el derecho internacional. Los programas de derecho preparan a los estudiantes para interpretar leyes, litigar y formular políticas, promoviendo la justicia y el bienestar social. Los juristas contribuyen a la elaboración de leyes, la defensa de los derechos humanos y la resolución de conflictos legales.

- Psicología: La psicología estudia los procesos mentales y el comportamiento humano, abarcando campos como la psicología clínica, educativa, social, organizacional y experimental. Los psicólogos aplican sus conocimientos para mejorar la salud mental, optimizar el rendimiento en el trabajo, facilitar el aprendizaje y comprender las interacciones sociales. Mediante experimentos, observaciones y terapias, los psicólogos contribuyen al bienestar personal y al desarrollo de políticas de salud pública.

- Antropología: La antropología investiga la diversidad cultural, social y biológica de los seres humanos. Sus áreas incluyen la antropología cultural, que estudia costumbres, lenguas y creencias; la antropología física, que examina la evolución humana; la arqueología, que explora culturas antiguas; y la lingüística, que investiga la relación entre el lenguaje y la cultura. La antropología facilita la comprensión de la diversidad y la adaptación humana, ayudando a resolver problemas interculturales y a conservar el patrimonio cultural.

- Ciencia Política: La ciencia política estudia el poder, el gobierno y los sistemas de organización política. Incluye subcampos como la teoría política, la política comparada, las relaciones internacionales y la administración pública. Los politólogos investigan la toma de decisiones, las políticas públicas y las relaciones de poder a nivel local, nacional e internacional, aportando a la creación de políticas efectivas y a la construcción de instituciones democráticas.
    """,

    "Artes": """
El área de Artes engloba disciplinas centradas en la expresión y creatividad humanas. Los programas en esta área permiten a los estudiantes explorar y desarrollar habilidades en medios visuales, sonoros, dramáticos y audiovisuales, cultivando una comprensión profunda de los procesos de creación, interpretación y apreciación artística. Las artes se manifiestan en formas tradicionales y contemporáneas, y tienen un papel esencial en la cultura, la comunicación y la innovación estética. Los egresados en artes aplican sus conocimientos en diversos campos como el diseño, el entretenimiento, la educación y la preservación cultural.

- Artes Visuales: Las artes visuales abarcan disciplinas como la pintura, la escultura y la fotografía, enfocadas en la creación de obras que expresan ideas, emociones y conceptos estéticos. La pintura y la escultura permiten explorar técnicas tradicionales y contemporáneas, desde el uso de óleo y arcilla hasta la instalación y el arte digital. La fotografía captura momentos y perspectivas únicas, permitiendo la interpretación de la realidad y la creación de narrativas visuales. Los programas en artes visuales desarrollan habilidades en técnicas artísticas, teoría estética y crítica de arte.

- Diseño: El diseño combina creatividad y funcionalidad en la creación de productos y soluciones visuales. Incluye especialidades como el diseño gráfico, que utiliza imágenes y tipografía para comunicar; el diseño industrial, que se enfoca en la creación de productos; el diseño de moda, que explora la estética y la funcionalidad en la vestimenta; y el diseño de interacción, que se centra en la experiencia de usuario en productos digitales. Los diseñadores aplican conocimientos en teoría del color, tipografía, ergonomía y tecnología para desarrollar soluciones innovadoras.

- Música: La música es el estudio de la teoría, composición e interpretación musical. Los programas de música abarcan una variedad de géneros y estilos, desde la música clásica y el jazz hasta la música contemporánea y experimental. Los estudiantes aprenden a leer partituras, componer, interpretar y dirigir. La música es tanto una forma de expresión personal como un medio de comunicación cultural y emocional, con aplicaciones en la enseñanza, la producción de espectáculos y la creación de contenido audiovisual.

- Teatro y Danza: Estas disciplinas exploran la expresión dramática y corporal. El teatro abarca el guionismo, la actuación y la dirección escénica, permitiendo la representación de historias y conflictos humanos. La danza, por su parte, utiliza el movimiento como forma de expresión, combinando técnica, coreografía e interpretación. Los programas en teatro y danza desarrollan habilidades en interpretación, análisis de textos, expresión corporal y puesta en escena, contribuyendo al desarrollo cultural y a la innovación en las artes escénicas.

- Cine y Medios Audiovisuales: El cine es el arte de narrar historias a través de imágenes en movimiento. Los programas en cine y audiovisuales abarcan desde la teoría y análisis cinematográfico hasta la producción, dirección y edición. Los estudiantes aprenden técnicas de guion, manejo de cámara, edición y postproducción, así como aspectos técnicos y estéticos del lenguaje audiovisual. El cine y los medios audiovisuales son fundamentales para la comunicación cultural y la industria del entretenimiento, ofreciendo una plataforma para contar historias y explorar temas de relevancia social y cultural.
    """
  }

import re
import nltk
from nltk.corpus import stopwords

stop_words = set(stopwords.words('spanish'))

def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'[\d\W]+', ' ', text)
    words = text.split()
    words = [word for word in words if word not in stop_words]
    return ' '.join(words)


descripciones_list_final = [preprocess_text(desc) for desc in descripciones_areas_final.values()]
programas_list = areas_conocimiento_final


# Actualizar el corpus
corpus = descripciones_list_final + programas_list

# Re-entrenar el vectorizador
vectorizer = TfidfVectorizer()
vectorizer.fit(corpus)

# Vectorizar las descripciones de las áreas
tfidf_descripciones_final = vectorizer.transform(descripciones_list_final)

# Actualizar la función para usar el texto preprocesado
def asignar_area_conocimiento(programa):
    programa_preprocesado = preprocess_text(programa)
    tfidf_programa = vectorizer.transform([programa_preprocesado])
    similitudes = cosine_similarity(tfidf_programa, tfidf_descripciones_final)
    indice_max_similitud = np.argmax(similitudes)
    return areas_conocimiento_final[indice_max_similitud]

# Aplicar la función actualizada
Matriculados_total['Área de Conocimiento'] = Matriculados_total['PROGRAMA ACADÉMICO'].apply(asignar_area_conocimiento)

# Eliminar la variable 'PROGRAMA ACADÉMICO' del DataFrame
Matriculados_total = Matriculados_total.drop(columns=['PROGRAMA ACADÉMICO'])

# Agrupar filas con las mismas combinaciones de 'AÑO', 'CÓDIGO DEL DEPARTAMENTO (PROGRAMA)', 
# 'CÓDIGO DEL MUNICIPIO (PROGRAMA)', y sumar la columna 'GRADUADOS'
Matriculados_total = Matriculados_total.groupby(
    ['AÑO', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)', 'Área de Conocimiento'],
    as_index=False
).agg({'MATRICULADOS': 'sum'})

# Ordenar por 'AÑO' de manera ascendente, aunque sean cadenas
Matriculados_total = Matriculados_total.sort_values(by='AÑO', key=lambda col: col.astype(int), ascending=True).reset_index(drop=True)

Matriculados_total.rename(columns={
    "CÓDIGO DEL MUNICIPIO (PROGRAMA)": "CÓDIGO DEL MUNICIPIO IES",
    "Área de Conocimiento": "ÁREA DE CONOCIMIENTO"
}, inplace=True)

# Ver los resultados
Matriculados_total

Unnamed: 0,AÑO,CÓDIGO DEL MUNICIPIO IES,ÁREA DE CONOCIMIENTO,MATRICULADOS
0,2018,11001,Artes,138546
1,2018,85440,Ciencias Exactas y Naturales,8
2,2018,85250,Ciencias Sociales y Humanas,8
3,2018,85250,Ciencias Exactas y Naturales,4
4,2018,85001,Ciencias Sociales y Humanas,4861
...,...,...,...,...
3551,2023,23660,Ciencias Exactas y Naturales,2
3552,2023,23580,Ciencias Exactas y Naturales,1
3553,2023,23500,Ciencias Exactas y Naturales,1
3554,2023,23466,Ciencias Exactas y Naturales,187


### Matriculados Primer Curso cuatro años antes


El código tiene como propósito procesar y consolidar datos de estudiantes matriculados en primer curso en programas académicos de modalidad presencial desde 2014 hasta 2019.

Carga de Datos
Se cargan los archivos de datos correspondientes a cada año (2014-2019).
- Eliminación de filas inecesarias: Se especifica un número de filas iniciales a omitir.
- Asignación de nombres de columnas: Los nombres de columnas se extraen directamente desde una fila del archivo cargado.

Limpieza y Transformación
- Selección de columnas clave: Solo se conservan las columnas relacionadas con el programa académico, metodología, código del municipio, año, semestre y número de matriculados en primer curso.
- Filtrado por metodología: Los registros se filtran para incluir únicamente aquellos con modalidad "Presencial"

Agrupación de Datos
- Los datos se agrupan por año, programa académico y código del municipio. Se calcula la suma de matriculados por combinación de estas variables.

Estandarización de Columnas
- Para asegurar la coherencia entre los conjuntos de datos de diferentes años, se renombran las columnas, facilitando su posterior integración.

Integración de los Conjuntos de Datos
- Los DataFrames correspondientes a cada año se combinan en un único DataFrame MatriculadosP_total

Clasificación por Áreas de Conocimiento
- Se implementa un modelo de aprendizaje automático para categorizar programas académicos en tres áreas de conocimiento: Ciencias Exactas y Naturales, Ciencias Sociales y Humanas, y Artes. 

Preprocesamiento natural del lenguaje
- Normalización y limpieza de los nombres de programas y descripciones mediante eliminación de caracteres no alfabéticos y stopwords.
Cálculo de similitudes: Comparación entre programas y descripciones mediante similitud de coseno para asignar la categoría más relevante.

Agrupación Final
- Después de clasificar los programas en áreas de conocimiento, se elimina la columna 'PROGRAMA ACADÉMICO'.
- Los datos se agrupan nuevamente por año, código del municipio y área de conocimiento, sumando el total de matriculados en primer curso. Se ordenan cronológicamente por año para facilitar el análisis.

El DataFrame MatriculadosP_total contiene:
- AÑO: Año de matriculación.
- CÓDIGO DEL MUNICIPIO IES: Identificador único del municipio donde se ofrece el programa.
- ÁREA DE CONOCIMIENTO: Clasificación del programa académico según su temática.
- MATRICULADOS_P: Número total de estudiantes matriculados en primer curso para cada combinación de variables.

In [24]:
# Cargar la base de datos
MatriculadosP_2014 = pd.read_excel("Matriculados Primer Curso 2014.xlsx", skiprows=5)

# Asignar los nombres de columnas desde la fila correcta
MatriculadosP_2014.columns = MatriculadosP_2014.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
MatriculadosP_2014 = MatriculadosP_2014.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
MatriculadosP_2014 = MatriculadosP_2014[[
    'Programa Académico', 
    'Metodología',
    'Código del \nMunicipio\n(Programa)',  
    'Año',
    'Semestre',
    'Primer Curso 2014'
]]

# Filtrar las filas donde la metodología sea 'Presencial' (insensible a mayúsculas/minúsculas)
MatriculadosP_2014 = MatriculadosP_2014[
    MatriculadosP_2014['Metodología'].str.strip().str.upper() == 'PRESENCIAL'
]

# Eliminar la columna 'Metodología' ya que ya no es necesaria
MatriculadosP_2014 = MatriculadosP_2014.drop(columns=['Metodología'])


# Agrupar para sumar los matriculados por año, programa académico y código del municipio
MatriculadosP_2014 = MatriculadosP_2014.groupby(['Año', 'Programa Académico', 'Código del \nMunicipio\n(Programa)'], as_index=False).agg({'Primer Curso 2014': 'sum'})

# Mostrar el DataFrame resultante
MatriculadosP_2014

Unnamed: 0,Año,Programa Académico,Código del \nMunicipio\n(Programa),Primer Curso 2014
0,2014,ACTIVIDAD FISICA Y DEPORTE,5001,111
1,2014,ACUICULTURA,23001,97
2,2014,ADMINISTRACION,13001,45
3,2014,ADMINISTRACION FINANCIERA,20001,42
4,2014,ADMINISTRACION FINANCIERA,66001,23
...,...,...,...,...
7409,2014,ZOOTECNIA,66682,113
7410,2014,ZOOTECNIA,68432,12
7411,2014,ZOOTECNIA,68755,44
7412,2014,ZOOTECNIA,70001,88


In [25]:
# Cargar la base de datos
MatriculadosP_2015 = pd.read_excel("Matriculados Primer Curso 2015.xlsx", skiprows=5)

# Asignar los nombres de columnas desde la fila correcta
MatriculadosP_2015.columns = MatriculadosP_2015.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
MatriculadosP_2015 = MatriculadosP_2015.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
MatriculadosP_2015 = MatriculadosP_2015[[
    'Programa Académico', 
    'Metodología',
    'Código del \nMunicipio\n(Programa)',  
    'Año', 
    'Semestre', 
    'Primer_Curso 2015'
]]

# Filtrar las filas donde la metodología sea 'Presencial' (insensible a mayúsculas/minúsculas)
MatriculadosP_2015 = MatriculadosP_2015[
    MatriculadosP_2015['Metodología'].str.strip().str.upper() == 'PRESENCIAL'
]

# Eliminar la columna 'Metodología' ya que ya no es necesaria
MatriculadosP_2015 = MatriculadosP_2015.drop(columns=['Metodología'])


# Agrupar para sumar los matriculados por año, programa académico y código del municipio
MatriculadosP_2015 = MatriculadosP_2015.groupby(['Año', 'Programa Académico', 'Código del \nMunicipio\n(Programa)'], as_index=False).agg({'Primer_Curso 2015': 'sum'})

# Mostrar el DataFrame resultante
MatriculadosP_2015

Unnamed: 0,Año,Programa Académico,Código del \nMunicipio\n(Programa),Primer_Curso 2015
0,2015,ACTIVIDAD FISICA Y DEPORTE,5001,184
1,2015,ACUICULTURA,23001,97
2,2015,ADMINISTRACION FINANCIERA,20001,43
3,2015,ADMINISTRACION FINANCIERA,66001,11
4,2015,ADMINISTRACION & SERVICIO,25175,15
...,...,...,...,...
7011,2015,ZOOTECNIA,66682,87
7012,2015,ZOOTECNIA,68432,16
7013,2015,ZOOTECNIA,68755,30
7014,2015,ZOOTECNIA,70001,76


In [26]:
# Cargar la base de datos
MatriculadosP_2016 = pd.read_excel("Matriculados Primer Curso 2016.xlsx", skiprows=5)

# Asignar los nombres de columnas desde la fila correcta
MatriculadosP_2016.columns = MatriculadosP_2016.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
MatriculadosP_2016 = MatriculadosP_2016.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
MatriculadosP_2016 = MatriculadosP_2016[[
    'Programa Académico', 
    'Metodología',
    'Código del \nMunicipio\n(Programa)',  
    'Año', 
    'Semestre', 
    'Primer Curso 2016'
]]

# Filtrar las filas donde la metodología sea 'Presencial' (insensible a mayúsculas/minúsculas)
MatriculadosP_2016 = MatriculadosP_2016[
    MatriculadosP_2016['Metodología'].str.strip().str.upper() == 'PRESENCIAL'
]

# Eliminar la columna 'Metodología' ya que ya no es necesaria
MatriculadosP_2016 = MatriculadosP_2016.drop(columns=['Metodología'])


# Agrupar para sumar los matriculados por año, programa académico y código del municipio
MatriculadosP_2016 = MatriculadosP_2016.groupby(['Año', 'Programa Académico', 'Código del \nMunicipio\n(Programa)'], as_index=False).agg({'Primer Curso 2016': 'sum'})

# Mostrar el DataFrame resultante
MatriculadosP_2016

Unnamed: 0,Año,Programa Académico,Código del \nMunicipio\n(Programa),Primer Curso 2016
0,2016,ACTIVIDAD FISICA Y DEPORTE,5001,216
1,2016,ACUICULTURA,23001,54
2,2016,ADMINISTRACION,13001,7
3,2016,ADMINISTRACION FINANCIERA,20001,29
4,2016,ADMINISTRACION & SERVICIO,25175,53
...,...,...,...,...
9325,2016,ZOOTECNIA,66682,75
9326,2016,ZOOTECNIA,68432,30
9327,2016,ZOOTECNIA,68755,23
9328,2016,ZOOTECNIA,70001,82


In [27]:
# Cargar la base de datos
MatriculadosP_2017 = pd.read_excel("Matriculados Primer Curso 2017.xlsx", skiprows=5)

# Asignar los nombres de columnas desde la fila correcta
MatriculadosP_2017.columns = MatriculadosP_2017.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
MatriculadosP_2017 = MatriculadosP_2017.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
MatriculadosP_2017 = MatriculadosP_2017[[
    'Programa Académico', 
    'Metodología',
    'Código del \nMunicipio\n(Programa)',  
    'Año', 
    'Semestre', 
    'Primer Curso 2017'
]]

# Filtrar las filas donde la metodología sea 'Presencial' (insensible a mayúsculas/minúsculas)
MatriculadosP_2017 = MatriculadosP_2017[
    MatriculadosP_2017['Metodología'].str.strip().str.upper() == 'PRESENCIAL'
]

# Eliminar la columna 'Metodología' ya que ya no es necesaria
MatriculadosP_2017 = MatriculadosP_2017.drop(columns=['Metodología'])


# Agrupar para sumar los matriculados por año, programa académico y código del municipio
MatriculadosP_2017 = MatriculadosP_2017.groupby(['Año', 'Programa Académico', 'Código del \nMunicipio\n(Programa)'], as_index=False).agg({'Primer Curso 2017': 'sum'})

# Mostrar el DataFrame resultante
MatriculadosP_2017

Unnamed: 0,Año,Programa Académico,Código del \nMunicipio\n(Programa),Primer Curso 2017
0,2017,ACTIVIDAD FISICA Y DEPORTE,5001,205
1,2017,ACUICULTURA,23001,76
2,2017,ADMINISTRACION,13001,53
3,2017,ADMINISTRACION FINANCIERA,20001,41
4,2017,ADMINISTRACION & SERVICIO,25175,40
...,...,...,...,...
10263,2017,ZOOTECNIA,66682,72
10264,2017,ZOOTECNIA,68432,26
10265,2017,ZOOTECNIA,68755,16
10266,2017,ZOOTECNIA,70001,93


In [28]:
# Cargar la base de datos
MatriculadosP_2018 = pd.read_excel("Matriculados Primer Curso 2018.xlsx", skiprows=8)

# Asignar los nombres de columnas desde la fila correcta
MatriculadosP_2018.columns = MatriculadosP_2018.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
MatriculadosP_2018 = MatriculadosP_2018.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
MatriculadosP_2018 = MatriculadosP_2018[[
    'Programa Académico', 
    'Metodología',
    'Código del Municipio (Programa)',  
    'Año', 
    'Semestre', 
    'Primer Curso 2018'
]]

# Filtrar las filas donde la metodología sea 'Presencial' (insensible a mayúsculas/minúsculas)
MatriculadosP_2018 = MatriculadosP_2018[
    MatriculadosP_2018['Metodología'].str.strip().str.upper() == 'PRESENCIAL'
]

# Eliminar la columna 'Metodología' ya que ya no es necesaria
MatriculadosP_2018 = MatriculadosP_2018.drop(columns=['Metodología'])


# Agrupar para sumar los matriculados por año, programa académico y código del municipio
MatriculadosP_2018 = MatriculadosP_2018.groupby(['Año', 'Programa Académico', 'Código del Municipio (Programa)'], as_index=False).agg({'Primer Curso 2018': 'sum'})

# Mostrar el DataFrame resultante
MatriculadosP_2018

Unnamed: 0,Año,Programa Académico,Código del Municipio (Programa),Primer Curso 2018
0,2018,DOCTORADO EN INGENIERIA - INGENIERIA MECANICA...,11001,8
1,2018,LICENCIATURA EN HUMANIDADES Y LENGUA CASTELLANA,08001,248
2,2018,ACTIVIDAD FISICA Y DEPORTE,05001,199
3,2018,ACUICULTURA,23001,110
4,2018,ADMINISTRACION,13001,47
...,...,...,...,...
8477,2018,ZOOTECNIA,66682,37
8478,2018,ZOOTECNIA,68432,23
8479,2018,ZOOTECNIA,68755,12
8480,2018,ZOOTECNIA,70001,90


In [29]:
# Cargar la base de datos
MatriculadosP_2019 = pd.read_excel("Matriculados Primer Curso 2019.xlsx", skiprows=7)

# Asignar los nombres de columnas desde la fila correcta
MatriculadosP_2019.columns = MatriculadosP_2019.iloc[0]

# Eliminar las filas innecesarias y reiniciar el índice
MatriculadosP_2019 = MatriculadosP_2019.drop([0]).reset_index(drop=True)

# Dejar las columnas que se necesitan
MatriculadosP_2019 = MatriculadosP_2019[[
    'PROGRAMA ACADÉMICO', 
    'METODOLOGÍA',
    'CÓDIGO DEL MUNICIPIO (PROGRAMA)',  
    'AÑO', 
    'SEMESTRE', 
    'PRIMER CURSO 2019'
]]

# Filtrar las filas donde la metodología sea 'Presencial' (insensible a mayúsculas/minúsculas)
MatriculadosP_2019 = MatriculadosP_2019[
    MatriculadosP_2019['METODOLOGÍA'].str.strip().str.upper() == 'PRESENCIAL'
]

# Eliminar la columna 'Metodología' ya que ya no es necesaria
MatriculadosP_2019 = MatriculadosP_2019.drop(columns=['METODOLOGÍA'])


# Agrupar para sumar los matriculados por año, programa académico y código del municipio
MatriculadosP_2019 = MatriculadosP_2019.groupby(['AÑO', 'PROGRAMA ACADÉMICO', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)'], as_index=False).agg({'PRIMER CURSO 2019': 'sum'})

# Mostrar el DataFrame resultante
MatriculadosP_2019

Unnamed: 0,AÑO,PROGRAMA ACADÉMICO,CÓDIGO DEL MUNICIPIO (PROGRAMA),PRIMER CURSO 2019
0,2019,DOCTORADO EN INGENIERIA - INGENIERIA MECANICA...,11001,1
1,2019,LICENCIATURA EN HUMANIDADES Y LENGUA CASTELLANA,8001,197
2,2019,ACTIVIDAD FISICA Y DEPORTE,5001,210
3,2019,ACUICULTURA,23001,113
4,2019,ADMINISTRACION,13001,66
...,...,...,...,...
9015,2019,ZOOTECNIA,66682,44
9016,2019,ZOOTECNIA,68432,43
9017,2019,ZOOTECNIA,68755,11
9018,2019,ZOOTECNIA,70001,88


In [30]:
def mismos_nombres_columnas(datos):
    datos.columns = ['AÑO',	'PROGRAMA ACADÉMICO', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)', 'MATRICULADOS_P']
    return datos

MatriculadosP_2014a = mismos_nombres_columnas(MatriculadosP_2014)
MatriculadosP_2015a = mismos_nombres_columnas(MatriculadosP_2015)
MatriculadosP_2016a = mismos_nombres_columnas(MatriculadosP_2016)
MatriculadosP_2017a = mismos_nombres_columnas(MatriculadosP_2017)
MatriculadosP_2018a = mismos_nombres_columnas(MatriculadosP_2018)
MatriculadosP_2019a = mismos_nombres_columnas(MatriculadosP_2019)

# Volverlo una sola base de datos
MatriculadosP_total = pd.concat([MatriculadosP_2014a, MatriculadosP_2015a, MatriculadosP_2016a,
                             MatriculadosP_2017a, MatriculadosP_2018a, MatriculadosP_2019a], ignore_index=True)

# Ver si sirvio
MatriculadosP_total

Unnamed: 0,AÑO,PROGRAMA ACADÉMICO,CÓDIGO DEL MUNICIPIO (PROGRAMA),MATRICULADOS_P
0,2014,ACTIVIDAD FISICA Y DEPORTE,5001,111
1,2014,ACUICULTURA,23001,97
2,2014,ADMINISTRACION,13001,45
3,2014,ADMINISTRACION FINANCIERA,20001,42
4,2014,ADMINISTRACION FINANCIERA,66001,23
...,...,...,...,...
51525,2019,ZOOTECNIA,66682,44
51526,2019,ZOOTECNIA,68432,43
51527,2019,ZOOTECNIA,68755,11
51528,2019,ZOOTECNIA,70001,88


In [31]:
# Vamos a agrupar los programas academicos por areas de educacion
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Definir las tres áreas de conocimiento y sus descripciones
areas_conocimiento_final = [
    "Ciencias Exactas y Naturales", "Ciencias Sociales y Humanas", "Artes"
]
    
descripciones_areas_final = {
  "Ciencias Exactas y Naturales": """
Este campo abarca disciplinas que buscan comprender los fenómenos naturales a través de la observación, la experimentación y la formulación de leyes y teorías. Las Ciencias Exactas y Naturales se basan en métodos cuantitativos y analíticos para explorar el universo desde sus componentes fundamentales hasta los sistemas más complejos. Esta área incluye tanto la investigación pura, orientada a descubrir principios básicos, como la investigación aplicada, que utiliza esos principios para innovar y resolver problemas prácticos en sectores como la salud, la tecnología, la ingeniería y el medio ambiente.

- Matemáticas: Las matemáticas son el lenguaje de las ciencias, proporcionando una base para el razonamiento lógico y la formulación de modelos. Esta disciplina incluye ramas como el álgebra, que estudia estructuras y relaciones abstractas; la geometría, que examina propiedades de formas y espacios; el cálculo, que se centra en el cambio y movimiento; y la estadística, que analiza datos y probabilidades. También cubre campos avanzados como la teoría de números, la topología y la lógica matemática. Los matemáticos desarrollan métodos para resolver problemas complejos y modelar fenómenos en diversas áreas, desde la física y la informática hasta las ciencias sociales y la biomedicina.

- Física: La física es la ciencia que investiga los principios fundamentales que gobiernan la materia, la energía y sus interacciones. Comprende subdisciplinas como la mecánica clásica, que estudia el movimiento de objetos; la óptica, que analiza la luz y su comportamiento; la termodinámica, que examina el calor y la energía; el electromagnetismo, que investiga los campos eléctricos y magnéticos; y la mecánica cuántica, que describe el comportamiento de partículas subatómicas. Los físicos crean teorías y llevan a cabo experimentos para entender desde el nivel atómico hasta la estructura del universo, con aplicaciones en tecnologías como los semiconductores, los reactores nucleares y los sistemas de energía renovable.

- Química: La química estudia la composición, estructura, propiedades y reacciones de la materia. Entre sus ramas se incluyen la química orgánica, que se enfoca en compuestos de carbono; la química inorgánica, que investiga los minerales y metales; la química analítica, que identifica y cuantifica los componentes de sustancias; y la bioquímica, que examina las reacciones químicas en organismos vivos. Esta ciencia es fundamental para la fabricación de medicamentos, el desarrollo de materiales, la producción de energía y la protección del medio ambiente. Los químicos aplican sus conocimientos para innovar en industrias como la farmacéutica, la alimentaria, la cosmética y la de materiales avanzados.

- Biología: La biología se dedica al estudio de los seres vivos y su interacción con el entorno. Abarca áreas como la genética, que investiga la herencia y la variación; la microbiología, que estudia microorganismos como bacterias y virus; la ecología, que analiza los ecosistemas y las interacciones entre organismos y su ambiente; y la biología evolutiva, que explora los procesos de cambio en las especies a lo largo del tiempo. La biología es clave en áreas como la medicina, la biotecnología, la agricultura y la conservación ambiental, y se aplica en el desarrollo de tratamientos médicos, la producción de alimentos y la preservación de especies.

- Geología, Astronomía y Ciencias Ambientales: Estas disciplinas estudian el planeta Tierra y el universo. La geología examina la composición, estructura y procesos de la Tierra, incluyendo el estudio de minerales, rocas y procesos tectónicos. La astronomía investiga el espacio, los cuerpos celestes y fenómenos cósmicos, desde planetas y estrellas hasta galaxias y agujeros negros. Las ciencias ambientales exploran la relación entre el ser humano y el medio ambiente, abordando temas como la biodiversidad, el cambio climático y la gestión de recursos naturales. Estas ciencias son esenciales para el desarrollo sostenible, la gestión de recursos y la exploración espacial.

- Ingeniería (como parte de Ciencias Exactas y Naturales): La ingeniería es la aplicación de principios científicos y matemáticos para diseñar, construir y optimizar productos, sistemas y procesos. Incluye la ingeniería mecánica, que se enfoca en el diseño de máquinas y sistemas de energía; la ingeniería eléctrica, que estudia circuitos, energía y comunicaciones; la ingeniería civil, que se centra en infraestructura y estructuras; y la ingeniería química, que aplica la química para transformar materiales y desarrollar productos. La ingeniería permite innovar en tecnología y resolver problemas en sectores como la industria, la construcción, la energía y las telecomunicaciones.
    """,

    "Ciencias Sociales y Humanas": """
Las Ciencias Sociales y Humanas examinan la interacción humana, la organización social, las estructuras culturales y las normas que rigen la convivencia en sociedad. A través de métodos cualitativos y cuantitativos, estas disciplinas analizan cómo las personas se relacionan entre sí y con su entorno, en contextos históricos, políticos, económicos y culturales. Los programas en esta área forman a profesionales que entienden y abordan las complejidades de la vida en sociedad, desde los aspectos económicos y jurídicos hasta los culturales y psicológicos. Los egresados pueden aplicar este conocimiento en educación, políticas públicas, desarrollo comunitario, y estudios interculturales.

- Sociología: La sociología es el estudio de las sociedades humanas y sus estructuras. Analiza temas como la desigualdad social, la urbanización, la familia, el cambio social y los movimientos sociales. Los sociólogos utilizan herramientas como encuestas, entrevistas y análisis estadístico para estudiar patrones de comportamiento y abordar problemas sociales, colaborando en políticas públicas y desarrollo comunitario.

- Derecho: El derecho se centra en el estudio de las normas jurídicas que regulan la vida en sociedad. Incluye ramas como el derecho civil, penal, laboral, administrativo y constitucional, y áreas especializadas como el derecho ambiental y el derecho internacional. Los programas de derecho preparan a los estudiantes para interpretar leyes, litigar y formular políticas, promoviendo la justicia y el bienestar social. Los juristas contribuyen a la elaboración de leyes, la defensa de los derechos humanos y la resolución de conflictos legales.

- Psicología: La psicología estudia los procesos mentales y el comportamiento humano, abarcando campos como la psicología clínica, educativa, social, organizacional y experimental. Los psicólogos aplican sus conocimientos para mejorar la salud mental, optimizar el rendimiento en el trabajo, facilitar el aprendizaje y comprender las interacciones sociales. Mediante experimentos, observaciones y terapias, los psicólogos contribuyen al bienestar personal y al desarrollo de políticas de salud pública.

- Antropología: La antropología investiga la diversidad cultural, social y biológica de los seres humanos. Sus áreas incluyen la antropología cultural, que estudia costumbres, lenguas y creencias; la antropología física, que examina la evolución humana; la arqueología, que explora culturas antiguas; y la lingüística, que investiga la relación entre el lenguaje y la cultura. La antropología facilita la comprensión de la diversidad y la adaptación humana, ayudando a resolver problemas interculturales y a conservar el patrimonio cultural.

- Ciencia Política: La ciencia política estudia el poder, el gobierno y los sistemas de organización política. Incluye subcampos como la teoría política, la política comparada, las relaciones internacionales y la administración pública. Los politólogos investigan la toma de decisiones, las políticas públicas y las relaciones de poder a nivel local, nacional e internacional, aportando a la creación de políticas efectivas y a la construcción de instituciones democráticas.
    """,

    "Artes": """
El área de Artes engloba disciplinas centradas en la expresión y creatividad humanas. Los programas en esta área permiten a los estudiantes explorar y desarrollar habilidades en medios visuales, sonoros, dramáticos y audiovisuales, cultivando una comprensión profunda de los procesos de creación, interpretación y apreciación artística. Las artes se manifiestan en formas tradicionales y contemporáneas, y tienen un papel esencial en la cultura, la comunicación y la innovación estética. Los egresados en artes aplican sus conocimientos en diversos campos como el diseño, el entretenimiento, la educación y la preservación cultural.

- Artes Visuales: Las artes visuales abarcan disciplinas como la pintura, la escultura y la fotografía, enfocadas en la creación de obras que expresan ideas, emociones y conceptos estéticos. La pintura y la escultura permiten explorar técnicas tradicionales y contemporáneas, desde el uso de óleo y arcilla hasta la instalación y el arte digital. La fotografía captura momentos y perspectivas únicas, permitiendo la interpretación de la realidad y la creación de narrativas visuales. Los programas en artes visuales desarrollan habilidades en técnicas artísticas, teoría estética y crítica de arte.

- Diseño: El diseño combina creatividad y funcionalidad en la creación de productos y soluciones visuales. Incluye especialidades como el diseño gráfico, que utiliza imágenes y tipografía para comunicar; el diseño industrial, que se enfoca en la creación de productos; el diseño de moda, que explora la estética y la funcionalidad en la vestimenta; y el diseño de interacción, que se centra en la experiencia de usuario en productos digitales. Los diseñadores aplican conocimientos en teoría del color, tipografía, ergonomía y tecnología para desarrollar soluciones innovadoras.

- Música: La música es el estudio de la teoría, composición e interpretación musical. Los programas de música abarcan una variedad de géneros y estilos, desde la música clásica y el jazz hasta la música contemporánea y experimental. Los estudiantes aprenden a leer partituras, componer, interpretar y dirigir. La música es tanto una forma de expresión personal como un medio de comunicación cultural y emocional, con aplicaciones en la enseñanza, la producción de espectáculos y la creación de contenido audiovisual.

- Teatro y Danza: Estas disciplinas exploran la expresión dramática y corporal. El teatro abarca el guionismo, la actuación y la dirección escénica, permitiendo la representación de historias y conflictos humanos. La danza, por su parte, utiliza el movimiento como forma de expresión, combinando técnica, coreografía e interpretación. Los programas en teatro y danza desarrollan habilidades en interpretación, análisis de textos, expresión corporal y puesta en escena, contribuyendo al desarrollo cultural y a la innovación en las artes escénicas.

- Cine y Medios Audiovisuales: El cine es el arte de narrar historias a través de imágenes en movimiento. Los programas en cine y audiovisuales abarcan desde la teoría y análisis cinematográfico hasta la producción, dirección y edición. Los estudiantes aprenden técnicas de guion, manejo de cámara, edición y postproducción, así como aspectos técnicos y estéticos del lenguaje audiovisual. El cine y los medios audiovisuales son fundamentales para la comunicación cultural y la industria del entretenimiento, ofreciendo una plataforma para contar historias y explorar temas de relevancia social y cultural.
    """
  }

import re
import nltk
from nltk.corpus import stopwords

stop_words = set(stopwords.words('spanish'))

def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'[\d\W]+', ' ', text)
    words = text.split()
    words = [word for word in words if word not in stop_words]
    return ' '.join(words)


descripciones_list_final = [preprocess_text(desc) for desc in descripciones_areas_final.values()]
programas_list = areas_conocimiento_final


# Actualizar el corpus
corpus = descripciones_list_final + programas_list

# Re-entrenar el vectorizador
vectorizer = TfidfVectorizer()
vectorizer.fit(corpus)

# Vectorizar las descripciones de las áreas
tfidf_descripciones_final = vectorizer.transform(descripciones_list_final)

# Actualizar la función para usar el texto preprocesado
def asignar_area_conocimiento(programa):
    programa_preprocesado = preprocess_text(programa)
    tfidf_programa = vectorizer.transform([programa_preprocesado])
    similitudes = cosine_similarity(tfidf_programa, tfidf_descripciones_final)
    indice_max_similitud = np.argmax(similitudes)
    return areas_conocimiento_final[indice_max_similitud]

# Aplicar la función actualizada
MatriculadosP_total['Área de Conocimiento'] = MatriculadosP_total['PROGRAMA ACADÉMICO'].apply(asignar_area_conocimiento)

# Eliminar la variable 'PROGRAMA ACADÉMICO' del DataFrame
MatriculadosP_total = MatriculadosP_total.drop(columns=['PROGRAMA ACADÉMICO'])

# Agrupar filas con las mismas combinaciones de 'AÑO', 'CÓDIGO DEL DEPARTAMENTO (PROGRAMA)', 
# 'CÓDIGO DEL MUNICIPIO (PROGRAMA)', y sumar la columna 'GRADUADOS'
MatriculadosP_total = MatriculadosP_total.groupby(
    ['AÑO', 'CÓDIGO DEL MUNICIPIO (PROGRAMA)', 'Área de Conocimiento'],
    as_index=False
).agg({'MATRICULADOS_P': 'sum'})

# Ordenar por 'AÑO' de manera ascendente, aunque sean cadenas
MatriculadosP_total = MatriculadosP_total.sort_values(by='AÑO', key=lambda col: col.astype(int), ascending=True).reset_index(drop=True)

MatriculadosP_total.rename(columns={
    "CÓDIGO DEL MUNICIPIO (PROGRAMA)": "CÓDIGO DEL MUNICIPIO IES",
    "Área de Conocimiento": "ÁREA DE CONOCIMIENTO"
}, inplace=True)

# Ver los resultados
MatriculadosP_total

Unnamed: 0,AÑO,CÓDIGO DEL MUNICIPIO IES,ÁREA DE CONOCIMIENTO,MATRICULADOS_P
0,2014,5001,Artes,7488
1,2014,54003,Ciencias Exactas y Naturales,1
2,2014,54099,Ciencias Sociales y Humanas,1
3,2014,54174,Ciencias Exactas y Naturales,1
4,2014,54223,Ciencias Exactas y Naturales,1
...,...,...,...,...
3241,2019,52835,Ciencias Exactas y Naturales,359
3242,2019,52835,Ciencias Sociales y Humanas,61
3243,2019,52838,Artes,10
3244,2019,52838,Ciencias Sociales y Humanas,58


### Poblacion

El objetivo principal del código es transformar una base de datos de población, originalmente estructurada con columnas correspondientes a años, en un formato más adecuado para análisis y manipulación, utilizando una estructura tabular estándar. Este proceso permite posteriormente combinar los datos con otros conjuntos relacionados, como matriculados o graduados, basándose en el código del municipio

Carga de Datos
- El archivo Excel Poblacion.xlsx se carga en un DataFrame y se especifica un número de filas a omitir.

Transformación de Datos
- Cada fila representa un año y un valor asociado de población.
- Las columnas DP, DPMP, y MPIO permanecen como identificadores estáticos.

Renombramiento de Columnas
- Las columnas se renombran para estandarizar los nombres y facilitar la combinación con otros conjuntos de datos:
- DP se convierte en CÓDIGO DEPARTAMENTO IES.
- DPMP se convierte en DEPARTAMENTO.
- MPIO se convierte en CÓDIGO DEL MUNICIPIO IES.
- Año se mantiene como AÑO.
- Población se transforma a POBLACION.

El DataFrame resultante contiene las siguientes columnas:
- CÓDIGO DEPARTAMENTO IES: Código que identifica el departamento.
- DEPARTAMENTO: Nombre del departamento correspondiente.
- CÓDIGO DEL MUNICIPIO IES: Código que identifica el municipio.
- AÑO: Año correspondiente al registro de población.
- POBLACION: Número total de personas en ese municipio y año

In [32]:
# Cargar la base de datos de Poblacion
Poblacion = pd.read_excel("Poblacion.xlsx")

# Volver las columnas Años una sola columna 
Poblacion = Poblacion.melt(id_vars=['DP', 'DPMP', 'MPIO'], var_name='Año', value_name='Población')

# Renombrar las columnas para poder unir despues
Poblacion.rename(columns={
    'DP': 'CÓDIGO DEPARTAMENTO IES',
    'DPMP': 'DEPARTAMENTO',
    'MPIO': 'CÓDIGO DEL MUNICIPIO IES',
    'Año': 'AÑO',
    'Población': 'POBLACION'
}, inplace=True)

# Ver si sirve
Poblacion

Unnamed: 0,CÓDIGO DEPARTAMENTO IES,DEPARTAMENTO,CÓDIGO DEL MUNICIPIO IES,AÑO,POBLACION
0,5,Medellín,5001,2018,2427129
1,5,Abejorral,5002,2018,20367
2,5,Abriaquí,5004,2018,2695
3,5,Alejandría,5021,2018,4657
4,5,Amagá,5030,2018,30227
...,...,...,...,...,...
6727,97,Yavaraté (ANM),97889,2023,1200
6728,99,Puerto Carreño,99001,2023,22218
6729,99,La Primavera,99524,2023,10992
6730,99,Santa Rosalía,99624,2023,4555


### Defuncion

El código procesa datos históricos de defunciones a nivel municipal y realiza una proyección para el año 2023 utilizando un modelo de regresión lineal.

Carga de datos
- Se carga un archivo Excel llamado Defuncion.xlsx que contiene datos de defunciones por municipio en diferentes años.
- Se conservan las columnas relevantes: código del municipio, nombre del municipio y las defunciones para los años 2018-2022.
- Eliminación de valores nulos: Se eliminan las filas con valores NaN, asegurando que los cálculos y proyecciones no sean afectados por datos faltantes.

Modelo de Proyección
- Definición del rango temporal: Los años disponibles (2018-2022) se convierten en una matriz de características años_1 para el modelo.
- Modelo de regresión lineal: Para cada municipio, se entrena un modelo de regresión lineal utilizando los años como variable independiente y las defunciones como variable dependiente.
- Predicción para 2023: El modelo calcula la proyección de defunciones para 2023. 

Transformación de Datos
- Las columnas de años se transforman en una única columna llamada Año, y las defunciones correspondientes se colocan en una nueva columna llamada Defuncion. Esto permite convertir el formato de datos ancho en uno largo, más adecuado para análisis.
- Renombramiento de columnas: Se renombran las columnas para estandarizar nombres

El DataFrame resultante contiene las siguientes columnas:
- CÓDIGO DEL MUNICIPIO IES: Código único que identifica al municipio.
- MUNICIPIO DE OFERTA DEL PROGRAMA: Nombre del municipio.
- AÑO: Año correspondiente (2018-2023).
- DEFUNCIONES: Número de defunciones registradas o proyectadas para cada municipio y año.

In [33]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

# Cargar la base de datos de Defuncion desde el archivo proporcionado
Defuncion = pd.read_excel("Defuncion.xlsx")

# Seleccionar solo las columnas necesarias
Columnas_quedan_1 = ['Código', 'Nombre de Municipio', 'Año 2018', 'Año 2019', 'Año 2020', 'Año 2021', 'Año 2022']
Defuncion = Defuncion[Columnas_quedan_1]

# Eliminar las filas que contienen valores NaN
Defuncion = Defuncion.dropna()

# Definir los años
años_1 = np.array([2018, 2019, 2020, 2021, 2022]).reshape(-1, 1)

# Crear la lista donde se guardarán las proyecciones
proyecciones_1 = []

# Iterar sobre las filas del DataFrame Defuncion para calcular las proyecciones
for indice, fila in Defuncion.iterrows():
    defuncion_1 = fila[['Año 2018', 'Año 2019', 'Año 2020', 'Año 2021', 'Año 2022']].values.reshape(-1, 1)
    modelo_1 = LinearRegression().fit(años_1, defuncion_1)  # Entrenar el modelo
    proyeccion_2023_1 = modelo_1.predict(np.array([[2023]]))[0][0]  # Predicción para 2023
    proyecciones_1.append(proyeccion_2023_1)  # Guardar la proyección

# Agregar la columna de proyección de 2023 al DataFrame
Defuncion['Año 2023'] = proyecciones_1

# Pasar las columnas de años a una columna
Defuncion = Defuncion.melt(id_vars=['Código', 'Nombre de Municipio'], var_name='Año', value_name='Defuncion')

# Renombrar las columnas para poder unir después
Defuncion.rename(columns={
    'Código': 'CÓDIGO DEL MUNICIPIO IES',
    'Nombre de Municipio': 'MUNICIPIO DE OFERTA DEL PROGRAMA',
    'Año': 'AÑO',
    'Defuncion': 'DEFUNCIONES'
}, inplace=True)

# Dejar Años en números, eliminando el texto "Año "
Defuncion['AÑO'] = Defuncion['AÑO'].str.replace('Año ', '').astype(int)

Defuncion

Unnamed: 0,CÓDIGO DEL MUNICIPIO IES,MUNICIPIO DE OFERTA DEL PROGRAMA,AÑO,DEFUNCIONES
0,5001,Medellín,2018,18903.0
1,5002,Abejorral,2018,66.0
2,5004,Abriaquí,2018,2.0
3,5021,Alejandría,2018,12.0
4,5030,Amagá,2018,77.0
...,...,...,...,...
6739,97889,Yavaraté,2023,7.5
6740,99001,Puerto Carreño,2023,127.8
6741,99524,La Primavera,2023,33.7
6742,99624,Santa Rosalía,2023,14.1


### PIB

El código procesa datos históricos de Producto Interno Bruto (PIB) a nivel municipal, proyecta los valores para el año 2023 mediante un modelo de regresión lineal, y organiza los datos para facilitar su análisis y combinación con otras bases de datos.


Carga de datos
Los datos se cragan desde un archivo Excel
- Se elimina la primera fila redundante, ya que contiene encabezados duplicados.
- Se eliminan dos columnas vacías para limpiar el DataFrame.

Renombramiento y Selección de Columnas
- Las columnas se renombraron de manera más comprensible y uniforme, asignando nombres explícitos como "Código Municipio" y "Municipio" a los identificadores geográficos.
- Se descartaron los datos correspondientes a los años 2011-2017, conservando solo los datos de 2018-2022, más pertinentes para la proyección.

Limpieza de Datos
- Se descartaron las filas que contenían valores faltantes (NaN) para garantizar la integridad del análisis.
- Se conservaron únicamente las columnas esenciales para el análisis: código y nombre del municipio, y los valores de PIB para 2018-2022.

Proyección de Datos para 2023
- Los años 2018-2022 se definieron como la variable independiente años_2 para el modelo de regresión lineal.
- Para cada fila (municipio), se ajustó un modelo de regresión lineal utilizando los años como variable independiente y el PIB como variable dependiente.
Se predijo el valor del PIB para 2023, y las proyecciones se almacenaron en una lista (proyecciones_2). Las proyecciones para 2023 se agregaron al DataFrame como una nueva columna.

Transformación 
- Las columnas correspondientes a los años (2018-2023) se convirtieron en una única columna Año, mientras que los valores del PIB se colocaron en una columna separada llamada PIB.
- Se estandarizaron los nombres de las columnas para facilitar su integración con otros conjuntos de datos

El DataFrame resultante tiene la siguiente estructura:
- CÓDIGO DEL MUNICIPIO IES: Identificador único del municipio.
- MUNICIPIO DE OFERTA DEL PROGRAMA: Nombre del municipio.
- AÑO: Año (2018-2023).
- PIB: Valor del Producto Interno Bruto (real o proyectado) en el municipio correspondiente para ese año.




In [34]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

# Cargar la base de datos de PIB desde el archivo proporcionado
PIB = pd.read_excel("PIB.xlsx", sheet_name="Cuadro 1", skiprows=9)

# La primera fila ya tiene nombre, para que no se repita
PIB = PIB.drop(index=0).reset_index(drop=True)

# Borrar dos columnas que estaban vacías
PIB = PIB.drop(columns=["Unnamed: 16", "Unnamed: 17"])

# Renombrar las columnas adecuadamente
PIB.columns = [
    "Código Municipio", "Municipio", "Código Departamento", "Departamento",
    "2011", "2012", "2013", "2014", "2015", "2016", "2017", "2018", 
    "2019", "2020", "2021p", "2022p"]

# Quitar las columnas de 2011 a 2017
PIB = PIB.drop(columns=["2011", "2012", "2013", "2014", "2015", "2016", "2017"])

# Arreglar los nombres de las columnas para eliminar las "p" (provisional)
PIB = PIB.rename(columns={"2021p": "2021", "2022p": "2022"})

# Eliminar las filas que contienen valores NA
PIB = PIB.dropna()

# Seleccionar solo las columnas necesarias
Columnas_quedan = ['Código Municipio', 'Municipio', '2018', '2019', '2020', '2021', '2022']
PIB = PIB[Columnas_quedan]

# Definir los años de manera similar al ejemplo anterior
años_2 = np.array([2018, 2019, 2020, 2021, 2022]).reshape(-1, 1)

# Crear la lista donde se guardarán las proyecciones
proyecciones_2 = []

# Iterar sobre las filas del DataFrame PIB para calcular las proyecciones
for indice, fila in PIB.iterrows():
    Pib = fila[['2018', '2019', '2020', '2021', '2022']].values.reshape(-1, 1)
    modelo_2 = LinearRegression().fit(años_2, Pib)  # Entrenar el modelo
    proyeccion_2023_2 = modelo_2.predict(np.array([[2023]]))[0][0]  # Predicción para 2023
    proyecciones_2.append(proyeccion_2023_2)  # Guardar la proyección

# Agregar la columna de proyección de 2023 al DataFrame
PIB['2023'] = proyecciones_2

# Pasar las columnas de años a una columna
PIB = PIB.melt(id_vars=['Código Municipio', 'Municipio'], var_name='Año', value_name='PIB')

# Renombrar las columnas para poder unir después
PIB.rename(columns={
    'Código Municipio': 'CÓDIGO DEL MUNICIPIO IES',
    'Municipio': 'MUNICIPIO DE OFERTA DEL PROGRAMA',
    'Año': 'AÑO',
    'PIB': 'PIB'
}, inplace=True)

# Dejar Años en números
PIB['AÑO'] = PIB['AÑO'].str.replace('Año ', '').astype(int)

PIB



Unnamed: 0,CÓDIGO DEL MUNICIPIO IES,MUNICIPIO DE OFERTA DEL PROGRAMA,AÑO,PIB
0,05001,Medellín,2018,55082.30118
1,05002,Abejorral,2018,231.172055
2,05004,Abriaquí,2018,28.562662
3,05021,Alejandría,2018,52.334339
4,05030,Amagá,2018,492.098704
...,...,...,...,...
6727,97889,Yavaraté,2023,3.485885
6728,99001,Puerto Carreño,2023,182.165838
6729,99524,La Primavera,2023,247.095169
6730,99624,Santa Rosalía,2023,140.288979


### Hogares

El objetivo del código es procesar datos de proyecciones de hogares por municipio, organizarlos en un formato estandarizado para facilitar su análisis y combinación con otros conjuntos de datos relacionados.

Carga de Datos
- Se carga la hoja "Proyecciones Hogares mpio" del archivo Hogares
- Se eliminan las filas que contienen valores NaN para garantizar la consistencia del conjunto de datos.

Renombramiento y Selección de Columnas
- Las columnas se renombran para asignar nombres explícitos y comprensibles a las variables.
- Se descartan los años 2024-2035, conservando solo los datos de 2018-2023, alineados con las necesidades del análisis actual.

Transformación de Datos
- Las columnas correspondientes a los años se convierten en una única columna Año, y los valores de proyecciones de hogares se organizan en una columna llamada Proyecciones.
- Se reorganizar los datos por tipo de área (Cabecera, Centros Poblados y Rural Disperso, Total), generando nuevas columnas específicas para cada categoría.

Renombramiento y Estandarización
- Se renombran las columnas para estandarizarlas y facilitar su integración con otros conjuntos de datos
- Se eliminan las columnas de departamento (Código Departamento, Nombre Departamento) para enfocar el análisis en los datos municipales.
- Los códigos de municipio se convierten a tipo str para mantener la compatibilidad con otros conjuntos de datos que compartan esta clave.

El DataFrame procesado contiene las siguientes columnas:
- CÓDIGO DEL MUNICIPIO IES: Identificador único del municipio.
- MUNICIPIO DE OFERTA DEL PROGRAMA: Nombre del municipio.
- AÑO: Año correspondiente (2018-2023).
- HOG_CABECERA: Proyección de hogares en la cabecera municipal.
- HOG_CPRD: Proyección de hogares en centros poblados y rural disperso.
- HOG_TOTAL: Proyección total de hogares en el municipio.

In [35]:
# Subir la base
Hogares = pd.read_excel('Hogares.xlsx', sheet_name="Proyecciones Hogares mpio", skiprows=8)

# Eliminar las filas que contienen valores NaN
Hogares = Hogares.dropna()

# Que columnas hay
Hogares.columns = ['Código Departamento', 'Nombre Departamento', 'Código Municipio',
       'Nombre Municipio', 'Área', '2018', '2019', '2020', '2021', '2022',
       '2023', '2024', '2025', '2026', '2027', '2028', '2029', '2030', '2031',
       '2032', '2033', '2034', '2035']
# Quiar las columnas de 2011 a 2017
Hogares = Hogares.drop(columns=['2024', '2025', '2026', '2027', '2028', '2029', '2030', '2031',
       '2032', '2033', '2034', '2035'])

# Eliminando las filas que contienen valores NA
Hogares = Hogares.dropna()

# Pase los años a filas
Hogares = pd.melt(Hogares, 
                         id_vars=['Código Departamento', 'Nombre Departamento', 'Código Municipio', 'Nombre Municipio', 'Área'],
                         var_name='Año', 
                         value_name='Proyecciones')

# Pase las areas a columnas
Hogares = Hogares.pivot_table(index=['Código Departamento', 'Nombre Departamento', 'Código Municipio', 'Nombre Municipio', 'Año'],
                                             columns='Área',
                                             values='Proyecciones').reset_index()

# Para que la primera columna no se llame Área
Hogares.columns.name = None

# Renombrar las columnas parapoder unir despues
Hogares.rename(columns={
    'Código Municipio': 'CÓDIGO DEL MUNICIPIO IES',
    'Nombre Municipio' : 'MUNICIPIO DE OFERTA DEL PROGRAMA',
    'Año': 'AÑO',
    'Cabecera': 'HOG_CABECERA',
    'Centros Poblados y Rural Disperso': 'HOG_CPRD',
    'Total': 'HOG_TOTAL',
}, inplace=True)

# Eliminar esas columna que nada que ver
Hogares = Hogares.drop(columns=['Código Departamento', 'Nombre Departamento'])

# Deja el codigo de municipio igual al de las demas bases
Hogares['CÓDIGO DEL MUNICIPIO IES'] = Hogares['CÓDIGO DEL MUNICIPIO IES'].astype(int).astype(str)

Hogares

Unnamed: 0,CÓDIGO DEL MUNICIPIO IES,MUNICIPIO DE OFERTA DEL PROGRAMA,AÑO,HOG_CABECERA,HOG_CPRD,HOG_TOTAL
0,5001,Medellín,2018,799118.0,14651.0,813769.0
1,5001,Medellín,2019,831905.0,14617.0,846522.0
2,5001,Medellín,2020,863947.0,14533.0,878480.0
3,5001,Medellín,2021,894228.0,14547.0,908775.0
4,5001,Medellín,2022,925280.0,14686.0,939966.0
...,...,...,...,...,...,...
6727,99773,Cumaribo,2019,1029.0,16888.0,17917.0
6728,99773,Cumaribo,2020,1119.0,17868.0,18987.0
6729,99773,Cumaribo,2021,1126.0,18529.0,19655.0
6730,99773,Cumaribo,2022,1088.0,19186.0,20274.0


### IPC

El código procesa datos de Índice de Precios al Consumidor (IPC) para calcular una medida anual consolidada de inflación a partir de datos mensuales.

Carga de Datos
- Los datos se cargan desde IPC.xlsx
- Se eliminan filas que contienen valores NaN utilizando dropna() para asegurar que solo se procesen datos completos.

Selección y Limpieza de Columnas
- Solo se seleccionan las columnas correspondientes al año y a la inflación anual.
- Las columnas se renombran para mayor claridad:
- Se elimina la primera fila redundante que repite los nombres de las columnas.

Estandarización de la columna de años
- Dado que los datos incluyen valores mensuales, se extraen solo los primeros cuatro caracteres de la columna año para identificar el año correspondiente.
- La columna AÑO se convierte a tipo cadena para facilitar su manipulación.

Cálculo de la inflación anual
- Dado que el IPC original incluye valores mensuales, se utiliza la mediana de la inflación mensual como valor representativo del año. 
- Se agrupan los datos por AÑO y se calcula la mediana de INFLACION ANUAL% para cada año, creando un resumen anual consolidado.

El DataFrame procesado contiene:
- AÑO: Año correspondiente al registro.
- INFLACION ANUAL%: Tasa de inflación anual calculada como la mediana de los valores mensuales del IPC.

In [36]:
# Subir la base
IPC = pd.read_excel('IPC.xlsx',  skiprows=10)

# Eliminar las filas que contienen valores NaN
IPC = IPC.dropna()

# Filtrar solo las columnas de año e inflación anual
IPC = IPC.iloc[:, [0, 2]]

# Nombres
IPC.columns = ['AÑO', 'INFLACION ANUAL%']

# La primera fila repite los nombres de las columnas toca mocharla
IPC = IPC.iloc[1:].reset_index(drop=True)

# Como venia mensual toca dejarla solo en años
IPC['AÑO'] = IPC['AÑO'].astype(str).str[:4]

# Como el IPC se calcula mensual, con la mediana se volvera anual, para evitar sesgo
IPC = IPC.groupby('AÑO')['INFLACION ANUAL%'].median().reset_index()

IPC

Unnamed: 0,AÑO,INFLACION ANUAL%
0,2018,3.19
1,2019,3.59
2,2020,2.08
3,2021,3.8
4,2022,9.94
5,2023,11.955


### Inflación

El código procesa datos de Índice de Precios al Consumidor (IPC) para calcular una medida anual consolidada de inflación a partir de datos mensuales.

Carga de datos
- Los datos se leen desde el archivo Inflacion.
- Se eliminan filas con valores NaN utilizando dropna(), asegurando la integridad de los datos procesados.

Selección y Renombramiento de Columnas
- Solo se seleccionan las columnas correspondientes al año y a la inflación total.
- Las columnas se renombran para mayor claridad

Limpieza y estandarización de datos
- La primera fila, que contiene un duplicado de los nombres de columnas.
- Dado que los datos incluyen valores mensuales, se extraen solo los primeros cuatro caracteres de la columna año para identificar el año correspondiente.
- La columna AñO se convierte a tipo cadena (str) para garantizar una manipulación uniforme.

Consolidación de datos
- Para cada año, se calcula la mediana de los valores mensuales en la columna INFLACION TOTAL.
- Los datos se agrupan por año, y la mediana se almacena en un nuevo DataFrame consolidado.

El DataFrame procesado contiene:
- AÑO: Año correspondiente (formato estándar).
- INFLACION TOTAL: Tasa de inflación anual calculada como la mediana de los valores mensuales.

In [37]:
# Subir la base
Inflacion = pd.read_excel('Inflacion.xlsx',  skiprows=6)

# Eliminar las filas que contienen valores NaN
Inflacion = Inflacion.dropna()

# Filtrar solo las columnas de año e inflación anual
Inflacion = Inflacion.iloc[:, [0, 1]]

# Nombres
Inflacion.columns = ['AÑO', 'INFLACION TOTAL']

# La primera fila repite los nombres de las columnas toca mocharla
Inflacion = Inflacion.iloc[1:].reset_index(drop=True)

# Como venia mensual toca dejarla solo en años
Inflacion['AÑO'] = Inflacion['AÑO'].astype(str).str[:4]

# Como la inflacion se calcula mensual, con la mediana se volvera anual para evitar sesgo
Inflacion = Inflacion.groupby('AÑO')['INFLACION TOTAL'].median().reset_index()

Inflacion

Unnamed: 0,AÑO,INFLACION TOTAL
0,2018,3.19
1,2019,3.59
2,2020,2.08
3,2021,3.8
4,2022,9.94
5,2023,11.955


### Violencia Intrafamiliar

El objetivo del código es procesar datos de casos de violencia intrafamiliar, organizarlos por año y municipio, y calcular el total de casos.

Carga de Datos
Los datos se cargan desde el archivo Violencia Intrafamiliar
- La columna FECHA HECHO, que contiene fechas completas, se convierte a cadena y se extraen los primeros cuatro caracteres para conservar únicamente el año. Esto permite agrupar los datos por año y simplifica el análisis temporal.

Selección y Renombramiento de Columnas
- Solo se conservan las columnas esenciales: FECHA HECHO (ahora como AÑO), COD_MUNI, MUNICIPIO, y CANTIDAD.
- Las columnas se renombran con nombres consistentes y claros para s
- Los datos se agrupan por las columnas AÑO, CÓDIGO DEL MUNICIPIO IES, y MUNICIPIO DE OFERTA DEL PROGRAMA. 
- Para cada grupo, se calcula la suma de los casos de violencia. Esto muestra el total de casos de violencia intrafamiliar por municipio y año.

El DataFrame procesado contiene las siguientes columnas:
- AÑO: Año del incidente de violencia intrafamiliar.
- CÓDIGO DEL MUNICIPIO IES: Código único que identifica el municipio.
- MUNICIPIO DE OFERTA DEL PROGRAMA: Nombre del municipio.
- CASOS_V: Total de casos de violencia intrafamiliar reportados en el municipio durante el año.

In [38]:
import pandas as pd
# Subir la base
Violencia = pd.read_excel('Violencia Intrafamiliar.xlsx')

# Dejar solo los años en lo que hubo violencia
Violencia['FECHA HECHO'] = Violencia['FECHA HECHO'].astype(str).str[:4]

# Dejar las que voy a usar despues
Violencia = Violencia[['FECHA HECHO', 'COD_MUNI', 'MUNICIPIO', 'CANTIDAD']]

# Renombrar las columnas parapoder unir despues
Violencia = Violencia.rename(columns={
    'COD_MUNI': 'CÓDIGO DEL MUNICIPIO IES',
    'MUNICIPIO' : 'MUNICIPIO DE OFERTA DEL PROGRAMA',
    'FECHA HECHO': 'AÑO',
    'CANTIDAD' : 'CASOS_V'
})

# Agrupar para ver el total de casos de violencia y mantener la columna del municipio
Violencia = Violencia.groupby(['AÑO', 'CÓDIGO DEL MUNICIPIO IES', 
                               'MUNICIPIO DE OFERTA DEL PROGRAMA'], as_index=False)['CASOS_V'].sum()

Violencia


Unnamed: 0,AÑO,CÓDIGO DEL MUNICIPIO IES,MUNICIPIO DE OFERTA DEL PROGRAMA,CASOS_V
0,2018,5001,MEDELLIN,8264
1,2018,5002,ABEJORRAL,11
2,2018,5021,ALEJANDRIA,4
3,2018,5030,AMAGA,27
4,2018,5031,AMALFI,17
...,...,...,...,...
6347,2023,97666,TARAIRA,6
6348,2023,99001,PUERTO CARREÑO,51
6349,2023,99524,LA PRIMAVERA,32
6350,2023,99624,SANTA ROSALIA,9


### Nacimientos 13 años antes

El código procesa datos de nacimientos registrados en diferentes municipios, para los distintos años (2005-2010)

Carga de Datos
Los datos se cargan desde un archivo Nacimientos.
- Se ignoran las primeras filas (skiprows=1), ya que contienen encabezados o información irrelevante.

Limpieza Inicial
- La primera columna del archivo, posiblemente un índice o columna vacía.
- Se eliminan todas las filas con valores NaN, garantizando que los datos procesados sean completos.

Transformación de Datos
- Las columnas correspondientes a los años se convierten en una única columna llamada Año.
- Los valores de nacimientos se reorganizan en una nueva columna llamada Nacimientos.
- Las columnas estáticas, como Código (código del municipio) y Nombre de Municipio, permanecen intactas para mantener los identificadores.

El DataFrame procesado contiene las siguientes columnas:
- Código: Identificador único del municipio.
- Nombre de Municipio: Nombre del municipio asociado al código.
- Año: Año correspondiente al registro.
- Nacimientos: Número de nacimientos registrados en ese municipio durante el año.

In [39]:
import pandas as pd

# Cargar el archivo de Excel ignorando la primera fila y columna
Nacimientos = pd.read_excel('Nacimientos.xlsx', sheet_name=0, skiprows=1)  # Omitimos la primera fila

# Eliminar la primera columna
Nacimientos = Nacimientos.iloc[:, 1:]

# Eliminar filas con valores NA
Nacimientos = Nacimientos.dropna()

# Volver las columnas Años una sola columna 
Nacimientos = Nacimientos.melt(id_vars=['Código', 'Nombre de Municipio'], var_name='Año', value_name='Nacimientos')

# Mostrar las primeras filas del DataFrame para verificar
Nacimientos


Unnamed: 0,Código,Nombre de Municipio,Año,Nacimientos
0,5001,Medellín,2005,43201.0
1,5002,Abejorral,2005,273.0
2,5004,Abriaquí,2005,16.0
3,5021,Alejandría,2005,41.0
4,5030,Amagá,2005,222.0
...,...,...,...,...
6721,97889,Yavaraté,2010,26.0
6722,99001,Puerto Carreño,2010,350.0
6723,99524,La Primavera,2010,132.0
6724,99624,Santa Rosalía,2010,29.0


### Base Final

El código integra múltiples bases de datos mencionadas anteriormente, graduados, docentes, población, PIB, violencia, inflación, IPC, defunciones, nacimientos, hogares, matriculados, con el fin de tener estos estos datos en un único DataFrame.

Unificación de nombres
- Se renombraron las columnas de cada DataFrame para utilizar una nomenclatura uniforme, facilitando los posteriores cruces de datos. Esto asegura consistencia y evita errores durante las operaciones de merge.

Conversión y Ajuste de Formatos
- Se estandarizó el tipo de dato en las columnas COD_MUN y AÑO, convirtiéndolas a tipo str. Esto garantiza compatibilidad al realizar el merge.

Corrección de códigos municipales:
- Los códigos de municipios de longitud 4 se ajustaron añadiendo un prefijo 0, asegurando compatibilidad con otros conjuntos de datos donde los códigos tienen 5 caracteres.

Ajuste de valores en columnas de años
- En bases específicas como MatriculadosP_total y Nacimientos, los años se ajustaron sumando valores constantes para alinearlos temporalmente con las otras bases de datos.

Integración de Bases de Datos
- Se realizó un merge para incorporar todas las bases de datos en un único DataFrame principal Graduados_total.
- Las uniones se realizaron principalmente sobre las claves AÑO y COD_MUN. En algunos casos, se añadió AREA_CON como clave adicional.
- Las uniones se hicieron para mantener todos los registros de la base principal (Graduados_total) y agregar información de las bases secundarias cuando existiera correspondencia.
- Para columnas específicas como DOCENTES, MATRICULADOS, MATRICULADOS_P, y CASOS_V, los valores faltantes (NaN) se reemplazaron por 0, asumiendo que la ausencia de datos corresponde a un valor nulo.

El DataFrame final Graduados_totalT11 incluye las siguientes columnas:
Graduados 
- Docentes
- Matriculados
- Población
- Nacimientos
- PIB
- INFLACION ANUAL%
- INFLACION TOTAL
- CASOS_V
- Hogares:
- AÑO
- COD_MUN
- AREA_CON



In [40]:
# Renombramos todas las variables
Graduados_total.rename(columns={
    'CÓDIGO DEL DEPARTAMENTO IES': 'COD_DEP', 
    'CÓDIGO DEL MUNICIPIO IES': 'COD_MUN',
    'ÁREA DE CONOCIMIENTO' : 'AREA_CON', 
}, inplace=True)

Docentes_total.rename(columns={
    'CÓDIGO DEL MUNICIPIO (PROGRAMA)' : 'COD_MUN'
}, inplace=True)

Matriculados_total.rename(columns={
    'CÓDIGO DEL MUNICIPIO IES' : 'COD_MUN',
    'ÁREA DE CONOCIMIENTO' : 'AREA_CON'
}, inplace=True)

MatriculadosP_total.rename(columns={
    'CÓDIGO DEL MUNICIPIO IES' : 'COD_MUN', 
    'ÁREA DE CONOCIMIENTO' : 'AREA_CON'
}, inplace=True)

Poblacion.rename(columns={
    'CÓDIGO DEL MUNICIPIO IES' : 'COD_MUN', 
}, inplace=True)

Defuncion.rename(columns={
    'CÓDIGO DEL MUNICIPIO IES' : 'COD_MUN', 
}, inplace=True)

PIB.rename(columns={
    'CÓDIGO DEL MUNICIPIO IES' : 'COD_MUN', 
}, inplace=True)

Hogares.rename(columns={
    'CÓDIGO DEL MUNICIPIO IES' : 'COD_MUN', 
}, inplace=True)

Violencia.rename(columns={
    'CÓDIGO DEL MUNICIPIO IES' : 'COD_MUN', 
}, inplace=True)

Nacimientos.rename(columns={
    'Código' : 'COD_MUN', 
    'Año' : 'AÑO', 
    'Nacimientos' : 'NACIMIENTOS'
}, inplace=True)

In [41]:
import pandas as pd

def convertir_codigo_a_str(*dataframes, columna='COD_MUN'):
   
    for df in dataframes:
        if columna in df.columns:
            df[columna] = df[columna].astype(str)
            print(f"Columna '{columna}' convertida a string en el DataFrame {df.__class__.__name__}.")
        else:
            print(f"Columna '{columna}' no encontrada en el DataFrame {df.__class__.__name__}.")

# Lista de tus DataFrames
dataframes = [Graduados_total, Docentes_total, Matriculados_total, MatriculadosP_total, Poblacion, Defuncion, PIB, Hogares, IPC, Inflacion, Violencia, Nacimientos]

# Llamar a la función
convertir_codigo_a_str(*dataframes)


Columna 'COD_MUN' convertida a string en el DataFrame DataFrame.
Columna 'COD_MUN' convertida a string en el DataFrame DataFrame.
Columna 'COD_MUN' convertida a string en el DataFrame DataFrame.
Columna 'COD_MUN' convertida a string en el DataFrame DataFrame.
Columna 'COD_MUN' convertida a string en el DataFrame DataFrame.
Columna 'COD_MUN' convertida a string en el DataFrame DataFrame.
Columna 'COD_MUN' convertida a string en el DataFrame DataFrame.
Columna 'COD_MUN' convertida a string en el DataFrame DataFrame.
Columna 'COD_MUN' no encontrada en el DataFrame DataFrame.
Columna 'COD_MUN' no encontrada en el DataFrame DataFrame.
Columna 'COD_MUN' convertida a string en el DataFrame DataFrame.
Columna 'COD_MUN' convertida a string en el DataFrame DataFrame.


In [42]:
def convertir_codigo_a_str(*dataframes, columna='AÑO'):
   
    for df in dataframes:
        if columna in df.columns:
            df[columna] = df[columna].astype(str)
            print(f"Columna '{columna}' convertida a string en el DataFrame {df.__class__.__name__}.")
        else:
            print(f"Columna '{columna}' no encontrada en el DataFrame {df.__class__.__name__}.")

# Lista de tus DataFrames
dataframes = [Graduados_total, Docentes_total, Matriculados_total, MatriculadosP_total, Poblacion, Defuncion, PIB, Hogares, IPC, Inflacion, Violencia, Nacimientos]

# Llamar a la función
convertir_codigo_a_str(*dataframes)

Columna 'AÑO' convertida a string en el DataFrame DataFrame.
Columna 'AÑO' convertida a string en el DataFrame DataFrame.
Columna 'AÑO' convertida a string en el DataFrame DataFrame.
Columna 'AÑO' convertida a string en el DataFrame DataFrame.
Columna 'AÑO' convertida a string en el DataFrame DataFrame.
Columna 'AÑO' convertida a string en el DataFrame DataFrame.
Columna 'AÑO' convertida a string en el DataFrame DataFrame.
Columna 'AÑO' convertida a string en el DataFrame DataFrame.
Columna 'AÑO' convertida a string en el DataFrame DataFrame.
Columna 'AÑO' convertida a string en el DataFrame DataFrame.
Columna 'AÑO' convertida a string en el DataFrame DataFrame.
Columna 'AÑO' convertida a string en el DataFrame DataFrame.


In [43]:
import pandas as pd

def arreglar_codigos(df):
   
    if 'COD_MUN' in df.columns:
        # Asegurarse de que 'COD_MUN' sea de tipo string
        df['COD_MUN'] = df['COD_MUN'].astype(str)
        
        # Identificar los 'COD_MUN' que tienen exactamente 4 caracteres
        mask = df['COD_MUN'].str.len() == 4
        
        # Agregar '0' al inicio de los 'COD_MUN' que cumplen la condición
        df.loc[mask, 'COD_MUN'] = '0' + df.loc[mask, 'COD_MUN']
        
        print(f"Se han corregido {mask.sum()} códigos en el DataFrame '{df.__class__.__name__}'.")
    else:
        print("La columna 'COD_MUN' no se encuentra en el DataFrame.")
    
    return df

Graduados_total = arreglar_codigos(Graduados_total)
Docentes_total = arreglar_codigos(Docentes_total)
Matriculados_total = arreglar_codigos(Matriculados_total)
MatriculadosP_total = arreglar_codigos(MatriculadosP_total) 
Poblacion = arreglar_codigos(Poblacion) 
Defuncion = arreglar_codigos(Defuncion) 
PIB = arreglar_codigos(PIB) 
Hogares = arreglar_codigos(Hogares) 
Violencia = arreglar_codigos(Violencia)
Nacimientos = arreglar_codigos(Nacimientos)

Se han corregido 90 códigos en el DataFrame 'DataFrame'.
Se han corregido 64 códigos en el DataFrame 'DataFrame'.
Se han corregido 86 códigos en el DataFrame 'DataFrame'.
Se han corregido 457 códigos en el DataFrame 'DataFrame'.
Se han corregido 888 códigos en el DataFrame 'DataFrame'.
Se han corregido 894 códigos en el DataFrame 'DataFrame'.
Se han corregido 0 códigos en el DataFrame 'DataFrame'.
Se han corregido 888 códigos en el DataFrame 'DataFrame'.
Se han corregido 871 códigos en el DataFrame 'DataFrame'.
Se han corregido 888 códigos en el DataFrame 'DataFrame'.


In [44]:
# Merge de las bases de datos
Graduados_totalT1 = Graduados_total.merge(Docentes_total[['AÑO', 'COD_MUN', 'DOCENTES']],
                                        on = ['AÑO', 'COD_MUN'], how = 'left')

# Reemplazar NaN en la columna 'DOCENTES' con 0
Graduados_totalT1['DOCENTES'] = Graduados_totalT1['DOCENTES'].fillna(0)

Graduados_totalT1

  Graduados_totalT1['DOCENTES'] = Graduados_totalT1['DOCENTES'].fillna(0)


Unnamed: 0,AÑO,COD_DEP,COD_MUN,AREA_CON,GRADUADOS,DOCENTES
0,2018,05,05001,Artes,4190,45042
1,2018,63,63111,Ciencias Sociales y Humanas,12,0
2,2018,63,63001,Ciencias Sociales y Humanas,966,3255
3,2018,63,63001,Ciencias Exactas y Naturales,2527,3255
4,2018,63,63001,Artes,399,3255
...,...,...,...,...,...,...
2419,2023,76,76233,Ciencias Exactas y Naturales,36,0
2420,2023,76,76248,Ciencias Exactas y Naturales,1,0
2421,2023,76,76250,Ciencias Exactas y Naturales,29,0
2422,2023,76,76275,Ciencias Exactas y Naturales,2,0


In [45]:
# Merge de las bases de datos
Graduados_totalT2 = Graduados_totalT1.merge(Matriculados_total[['AÑO', 'COD_MUN', 'AREA_CON', 'MATRICULADOS']],
                                        on = ['AÑO', 'COD_MUN', 'AREA_CON'], how = 'left')

# Reemplazar NaN en la columna 'DOCENTES' con 0
Graduados_totalT2['MATRICULADOS'] = Graduados_totalT2['MATRICULADOS'].fillna(0)

Graduados_totalT2

  Graduados_totalT2['MATRICULADOS'] = Graduados_totalT2['MATRICULADOS'].fillna(0)


Unnamed: 0,AÑO,COD_DEP,COD_MUN,AREA_CON,GRADUADOS,DOCENTES,MATRICULADOS
0,2018,05,05001,Artes,4190,45042,46279
1,2018,63,63111,Ciencias Sociales y Humanas,12,0,18
2,2018,63,63001,Ciencias Sociales y Humanas,966,3255,10012
3,2018,63,63001,Ciencias Exactas y Naturales,2527,3255,30893
4,2018,63,63001,Artes,399,3255,3278
...,...,...,...,...,...,...,...
2427,2023,76,76233,Ciencias Exactas y Naturales,36,0,0
2428,2023,76,76248,Ciencias Exactas y Naturales,1,0,0
2429,2023,76,76250,Ciencias Exactas y Naturales,29,0,90
2430,2023,76,76275,Ciencias Exactas y Naturales,2,0,8


In [46]:
MatriculadosP_total['AÑO'] = (MatriculadosP_total['AÑO'].astype(int) + 4).astype(str)

# Merge de las bases de datos
Graduados_totalT3 = Graduados_totalT2.merge(MatriculadosP_total[['AÑO', 'COD_MUN', 'AREA_CON', 'MATRICULADOS_P']],
                                        on = ['AÑO', 'COD_MUN', 'AREA_CON'], how = 'left')

# Reemplazar NaN en la columna 'DOCENTES' con 0
Graduados_totalT3['MATRICULADOS_P'] = Graduados_totalT3['MATRICULADOS_P'].fillna(0)

Graduados_totalT3

  Graduados_totalT3['MATRICULADOS_P'] = Graduados_totalT3['MATRICULADOS_P'].fillna(0)


Unnamed: 0,AÑO,COD_DEP,COD_MUN,AREA_CON,GRADUADOS,DOCENTES,MATRICULADOS,MATRICULADOS_P
0,2018,05,05001,Artes,4190,45042,46279,7488
1,2018,63,63111,Ciencias Sociales y Humanas,12,0,18,0
2,2018,63,63001,Ciencias Sociales y Humanas,966,3255,10012,1581
3,2018,63,63001,Ciencias Exactas y Naturales,2527,3255,30893,6163
4,2018,63,63001,Artes,399,3255,3278,683
...,...,...,...,...,...,...,...,...
2427,2023,76,76233,Ciencias Exactas y Naturales,36,0,0,97
2428,2023,76,76248,Ciencias Exactas y Naturales,1,0,0,35
2429,2023,76,76250,Ciencias Exactas y Naturales,29,0,90,64
2430,2023,76,76275,Ciencias Exactas y Naturales,2,0,8,73


In [48]:
# Merge de las bases de datos
Graduados_totalT4 = Graduados_totalT3.merge(Poblacion[['AÑO', 'COD_MUN', 'POBLACION']],
                                        on = ['AÑO', 'COD_MUN'], how = 'left')

Graduados_totalT4

Unnamed: 0,AÑO,COD_DEP,COD_MUN,AREA_CON,GRADUADOS,DOCENTES,MATRICULADOS,MATRICULADOS_P,POBLACION
0,2018,05,05001,Artes,4190,45042,46279,7488,2427129
1,2018,63,63111,Ciencias Sociales y Humanas,12,0,18,0,3095
2,2018,63,63001,Ciencias Sociales y Humanas,966,3255,10012,1581,295208
3,2018,63,63001,Ciencias Exactas y Naturales,2527,3255,30893,6163,295208
4,2018,63,63001,Artes,399,3255,3278,683,295208
...,...,...,...,...,...,...,...,...,...
2427,2023,76,76233,Ciencias Exactas y Naturales,36,0,0,97,49658
2428,2023,76,76248,Ciencias Exactas y Naturales,1,0,0,35,57849
2429,2023,76,76250,Ciencias Exactas y Naturales,29,0,90,64,9177
2430,2023,76,76275,Ciencias Exactas y Naturales,2,0,8,73,58399


In [51]:
# Merge de las bases de datos
Graduados_totalT5 = Graduados_totalT4.merge(Defuncion[['AÑO', 'COD_MUN', 'DEFUNCIONES']],
                                        on = ['AÑO', 'COD_MUN'], how = 'left')

Graduados_totalT5

Unnamed: 0,AÑO,COD_DEP,COD_MUN,AREA_CON,GRADUADOS,DOCENTES,MATRICULADOS,MATRICULADOS_P,POBLACION,DEFUNCIONES
0,2018,05,05001,Artes,4190,45042,46279,7488,2427129,18903.0
1,2018,63,63111,Ciencias Sociales y Humanas,12,0,18,0,3095,5.0
2,2018,63,63001,Ciencias Sociales y Humanas,966,3255,10012,1581,295208,3024.0
3,2018,63,63001,Ciencias Exactas y Naturales,2527,3255,30893,6163,295208,3024.0
4,2018,63,63001,Artes,399,3255,3278,683,295208,3024.0
...,...,...,...,...,...,...,...,...,...,...
2427,2023,76,76233,Ciencias Exactas y Naturales,36,0,0,97,49658,205.8
2428,2023,76,76248,Ciencias Exactas y Naturales,1,0,0,35,57849,277.2
2429,2023,76,76250,Ciencias Exactas y Naturales,29,0,90,64,9177,53.3
2430,2023,76,76275,Ciencias Exactas y Naturales,2,0,8,73,58399,296.3


In [53]:
# Merge de las bases de datos
Graduados_totalT6 = Graduados_totalT5.merge(PIB[['AÑO', 'COD_MUN', 'PIB']],
                                        on = ['AÑO', 'COD_MUN'], how = 'left')

Graduados_totalT6

Unnamed: 0,AÑO,COD_DEP,COD_MUN,AREA_CON,GRADUADOS,DOCENTES,MATRICULADOS,MATRICULADOS_P,POBLACION,DEFUNCIONES,PIB
0,2018,05,05001,Artes,4190,45042,46279,7488,2427129,18903.0,55082.30118
1,2018,63,63111,Ciencias Sociales y Humanas,12,0,18,0,3095,5.0,64.850041
2,2018,63,63001,Ciencias Sociales y Humanas,966,3255,10012,1581,295208,3024.0,4066.695193
3,2018,63,63001,Ciencias Exactas y Naturales,2527,3255,30893,6163,295208,3024.0,4066.695193
4,2018,63,63001,Artes,399,3255,3278,683,295208,3024.0,4066.695193
...,...,...,...,...,...,...,...,...,...,...,...
2427,2023,76,76233,Ciencias Exactas y Naturales,36,0,0,97,49658,205.8,1421.394856
2428,2023,76,76248,Ciencias Exactas y Naturales,1,0,0,35,57849,277.2,1930.188684
2429,2023,76,76250,Ciencias Exactas y Naturales,29,0,90,64,9177,53.3,279.726253
2430,2023,76,76275,Ciencias Exactas y Naturales,2,0,8,73,58399,296.3,1089.249109


In [58]:
# Merge de las bases de datos
Graduados_totalT7 = Graduados_totalT6.merge(Hogares[['AÑO', 'COD_MUN', 'HOG_CABECERA',
       'HOG_CPRD', 'HOG_TOTAL']],
                                        on = ['AÑO', 'COD_MUN'], how = 'left')

Graduados_totalT7

Unnamed: 0,AÑO,COD_DEP,COD_MUN,AREA_CON,GRADUADOS,DOCENTES,MATRICULADOS,MATRICULADOS_P,POBLACION,DEFUNCIONES,PIB,HOG_CABECERA,HOG_CPRD,HOG_TOTAL
0,2018,05,05001,Artes,4190,45042,46279,7488,2427129,18903.0,55082.30118,799118.0,14651.0,813769.0
1,2018,63,63111,Ciencias Sociales y Humanas,12,0,18,0,3095,5.0,64.850041,466.0,546.0,1012.0
2,2018,63,63001,Ciencias Sociales y Humanas,966,3255,10012,1581,295208,3024.0,4066.695193,98425.0,3446.0,101871.0
3,2018,63,63001,Ciencias Exactas y Naturales,2527,3255,30893,6163,295208,3024.0,4066.695193,98425.0,3446.0,101871.0
4,2018,63,63001,Artes,399,3255,3278,683,295208,3024.0,4066.695193,98425.0,3446.0,101871.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2427,2023,76,76233,Ciencias Exactas y Naturales,36,0,0,97,49658,205.8,1421.394856,4242.0,13887.0,18129.0
2428,2023,76,76248,Ciencias Exactas y Naturales,1,0,0,35,57849,277.2,1930.188684,12222.0,7058.0,19280.0
2429,2023,76,76250,Ciencias Exactas y Naturales,29,0,90,64,9177,53.3,279.726253,2061.0,988.0,3049.0
2430,2023,76,76275,Ciencias Exactas y Naturales,2,0,8,73,58399,296.3,1089.249109,13348.0,5636.0,18984.0


In [61]:
# Merge de las bases de datos
Graduados_totalT8 = Graduados_totalT7.merge(IPC[['AÑO','INFLACION ANUAL%']],
                                        on = ['AÑO'], how = 'left')

Graduados_totalT8

Unnamed: 0,AÑO,COD_DEP,COD_MUN,AREA_CON,GRADUADOS,DOCENTES,MATRICULADOS,MATRICULADOS_P,POBLACION,DEFUNCIONES,PIB,HOG_CABECERA,HOG_CPRD,HOG_TOTAL,INFLACION ANUAL%
0,2018,05,05001,Artes,4190,45042,46279,7488,2427129,18903.0,55082.30118,799118.0,14651.0,813769.0,3.19
1,2018,63,63111,Ciencias Sociales y Humanas,12,0,18,0,3095,5.0,64.850041,466.0,546.0,1012.0,3.19
2,2018,63,63001,Ciencias Sociales y Humanas,966,3255,10012,1581,295208,3024.0,4066.695193,98425.0,3446.0,101871.0,3.19
3,2018,63,63001,Ciencias Exactas y Naturales,2527,3255,30893,6163,295208,3024.0,4066.695193,98425.0,3446.0,101871.0,3.19
4,2018,63,63001,Artes,399,3255,3278,683,295208,3024.0,4066.695193,98425.0,3446.0,101871.0,3.19
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2427,2023,76,76233,Ciencias Exactas y Naturales,36,0,0,97,49658,205.8,1421.394856,4242.0,13887.0,18129.0,11.955
2428,2023,76,76248,Ciencias Exactas y Naturales,1,0,0,35,57849,277.2,1930.188684,12222.0,7058.0,19280.0,11.955
2429,2023,76,76250,Ciencias Exactas y Naturales,29,0,90,64,9177,53.3,279.726253,2061.0,988.0,3049.0,11.955
2430,2023,76,76275,Ciencias Exactas y Naturales,2,0,8,73,58399,296.3,1089.249109,13348.0,5636.0,18984.0,11.955


In [64]:
# Merge de las bases de datos
Graduados_totalT9 = Graduados_totalT8.merge(Inflacion[['AÑO','INFLACION TOTAL']],
                                        on = ['AÑO'], how = 'left')

Graduados_totalT9

Unnamed: 0,AÑO,COD_DEP,COD_MUN,AREA_CON,GRADUADOS,DOCENTES,MATRICULADOS,MATRICULADOS_P,POBLACION,DEFUNCIONES,PIB,HOG_CABECERA,HOG_CPRD,HOG_TOTAL,INFLACION ANUAL%,INFLACION TOTAL
0,2018,05,05001,Artes,4190,45042,46279,7488,2427129,18903.0,55082.30118,799118.0,14651.0,813769.0,3.19,3.19
1,2018,63,63111,Ciencias Sociales y Humanas,12,0,18,0,3095,5.0,64.850041,466.0,546.0,1012.0,3.19,3.19
2,2018,63,63001,Ciencias Sociales y Humanas,966,3255,10012,1581,295208,3024.0,4066.695193,98425.0,3446.0,101871.0,3.19,3.19
3,2018,63,63001,Ciencias Exactas y Naturales,2527,3255,30893,6163,295208,3024.0,4066.695193,98425.0,3446.0,101871.0,3.19,3.19
4,2018,63,63001,Artes,399,3255,3278,683,295208,3024.0,4066.695193,98425.0,3446.0,101871.0,3.19,3.19
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2427,2023,76,76233,Ciencias Exactas y Naturales,36,0,0,97,49658,205.8,1421.394856,4242.0,13887.0,18129.0,11.955,11.955
2428,2023,76,76248,Ciencias Exactas y Naturales,1,0,0,35,57849,277.2,1930.188684,12222.0,7058.0,19280.0,11.955,11.955
2429,2023,76,76250,Ciencias Exactas y Naturales,29,0,90,64,9177,53.3,279.726253,2061.0,988.0,3049.0,11.955,11.955
2430,2023,76,76275,Ciencias Exactas y Naturales,2,0,8,73,58399,296.3,1089.249109,13348.0,5636.0,18984.0,11.955,11.955


In [69]:
# Merge de las bases de datos
Graduados_totalT10 = Graduados_totalT9.merge(Violencia[['AÑO', 'COD_MUN', 'CASOS_V']],
                                        on = ['AÑO', 'COD_MUN'], how = 'left')

# Reemplazar NaN en la columna 'DOCENTES' con 0
Graduados_totalT10['CASOS_V'] = Graduados_totalT10['CASOS_V'].fillna(0)

Graduados_totalT10

Unnamed: 0,AÑO,COD_DEP,COD_MUN,AREA_CON,GRADUADOS,DOCENTES,MATRICULADOS,MATRICULADOS_P,POBLACION,DEFUNCIONES,PIB,HOG_CABECERA,HOG_CPRD,HOG_TOTAL,INFLACION ANUAL%,INFLACION TOTAL,CASOS_V
0,2018,05,05001,Artes,4190,45042,46279,7488,2427129,18903.0,55082.30118,799118.0,14651.0,813769.0,3.19,3.19,8264.0
1,2018,63,63111,Ciencias Sociales y Humanas,12,0,18,0,3095,5.0,64.850041,466.0,546.0,1012.0,3.19,3.19,6.0
2,2018,63,63001,Ciencias Sociales y Humanas,966,3255,10012,1581,295208,3024.0,4066.695193,98425.0,3446.0,101871.0,3.19,3.19,349.0
3,2018,63,63001,Ciencias Exactas y Naturales,2527,3255,30893,6163,295208,3024.0,4066.695193,98425.0,3446.0,101871.0,3.19,3.19,349.0
4,2018,63,63001,Artes,399,3255,3278,683,295208,3024.0,4066.695193,98425.0,3446.0,101871.0,3.19,3.19,349.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2427,2023,76,76233,Ciencias Exactas y Naturales,36,0,0,97,49658,205.8,1421.394856,4242.0,13887.0,18129.0,11.955,11.955,55.0
2428,2023,76,76248,Ciencias Exactas y Naturales,1,0,0,35,57849,277.2,1930.188684,12222.0,7058.0,19280.0,11.955,11.955,89.0
2429,2023,76,76250,Ciencias Exactas y Naturales,29,0,90,64,9177,53.3,279.726253,2061.0,988.0,3049.0,11.955,11.955,28.0
2430,2023,76,76275,Ciencias Exactas y Naturales,2,0,8,73,58399,296.3,1089.249109,13348.0,5636.0,18984.0,11.955,11.955,31.0


In [72]:
Nacimientos['AÑO'] = (Nacimientos['AÑO'].astype(int) + 13).astype(str)

# Merge de las bases de datos
Graduados_totalT11 = Graduados_totalT10.merge(Nacimientos[['AÑO', 'COD_MUN', 'NACIMIENTOS']],
                                        on = ['AÑO', 'COD_MUN'], how = 'left')

Graduados_totalT11

Unnamed: 0,AÑO,COD_DEP,COD_MUN,AREA_CON,GRADUADOS,DOCENTES,MATRICULADOS,MATRICULADOS_P,POBLACION,DEFUNCIONES,PIB,HOG_CABECERA,HOG_CPRD,HOG_TOTAL,INFLACION ANUAL%,INFLACION TOTAL,CASOS_V,NACIMIENTOS
0,2018,05,05001,Artes,4190,45042,46279,7488,2427129,18903.0,55082.30118,799118.0,14651.0,813769.0,3.19,3.19,8264.0,43201.0
1,2018,63,63111,Ciencias Sociales y Humanas,12,0,18,0,3095,5.0,64.850041,466.0,546.0,1012.0,3.19,3.19,6.0,12.0
2,2018,63,63001,Ciencias Sociales y Humanas,966,3255,10012,1581,295208,3024.0,4066.695193,98425.0,3446.0,101871.0,3.19,3.19,349.0,5481.0
3,2018,63,63001,Ciencias Exactas y Naturales,2527,3255,30893,6163,295208,3024.0,4066.695193,98425.0,3446.0,101871.0,3.19,3.19,349.0,5481.0
4,2018,63,63001,Artes,399,3255,3278,683,295208,3024.0,4066.695193,98425.0,3446.0,101871.0,3.19,3.19,349.0,5481.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2427,2023,76,76233,Ciencias Exactas y Naturales,36,0,0,97,49658,205.8,1421.394856,4242.0,13887.0,18129.0,11.955,11.955,55.0,172.0
2428,2023,76,76248,Ciencias Exactas y Naturales,1,0,0,35,57849,277.2,1930.188684,12222.0,7058.0,19280.0,11.955,11.955,89.0,134.0
2429,2023,76,76250,Ciencias Exactas y Naturales,29,0,90,64,9177,53.3,279.726253,2061.0,988.0,3049.0,11.955,11.955,28.0,60.0
2430,2023,76,76275,Ciencias Exactas y Naturales,2,0,8,73,58399,296.3,1089.249109,13348.0,5636.0,18984.0,11.955,11.955,31.0,394.0


## Exportar la base de datos

In [75]:
import pandas as pd

Graduados_totalT11.to_excel('Graduados_total.xlsx', index=False)

# Autor: Juan Esteban Londoño Guatibonza, Universidad Externado de Colombia

# Dirigido por: Daniel Godoy