# **Next Gen Solutions**

El notebook `main.ipynb` está diseñado para procesar y preparar datos académicos de diferentes programas de ingeniería para su análisis y manejo en bases de datos SQL. Este proceso incluye la carga de datos desde archivos Excel, limpieza, preparación, y finalmente, la extracción de datos relevantes para su uso en sistemas de gestión de bases de datos.

## **Limpiado y Preparación de Base de Datos**

La preparación de datos abarca la carga de múltiples fuentes de datos, cada una correspondiente a asignaturas de distintos programas de ingeniería y otros datos académicos. Se utilizan técnicas de limpieza y manipulación de datos para asegurar la integridad y la estructura adecuada de los datos para su análisis posterior.

### **Operaciones de Datos**

Se emplea la biblioteca Pandas para realizar operaciones complejas de manipulación de datos, incluyendo la fusión, limpieza, y transformación de conjuntos de datos para cumplir con los requisitos específicos de análisis y almacenamiento en bases de datos.

In [48]:
import pandas as pd
import unicodedata

def remover_tildes(texto):
    return ''.join((c for c in unicodedata.normalize('NFD', texto) if unicodedata.category(c) != 'Mn'))

In [83]:
energeticos = pd.read_excel('data\Asignaturas Ingeniería de Sistemas Energéticos.xlsx', header = 1)
energeticos = energeticos.loc[:, ~energeticos.columns.str.contains('Unnamed')]
energeticos = energeticos.drop(columns=['Cod_materia'])
energeticos = energeticos.applymap(lambda x: remover_tildes(str(x)) if isinstance(x, str) else x)
energeticos = energeticos.applymap(lambda x: remover_tildes(str(x)) if isinstance(x, str) else x)
energeticos.columns = [remover_tildes(columna) for columna in energeticos.columns]
energeticos.to_csv('data_limpia\energeticos.csv', index=False)
energeticos.head()

Unnamed: 0,Cod_asigna,Desc_asign,Tipologia,Credi.Teo.,Cred.Pra.,Curso
0,17210004,ETICA,T,2.0,0.0,1.0
1,11310044,PRECALCULO,T,3.0,0.0,1.0
2,11310002,PROGRAMACION DE COMPUTADORES,T,2.0,1.0,1.0
3,11010003,QUIMICA I,T,2.0,1.0,1.0
4,18610031,ANALISIS DE TEXTOS,T,2.0,0.0,1.0


In [84]:
electronica = pd.read_excel('data\Asignaturas Ingeniería Electrónica.xlsx', header = 2)
electronica = electronica.loc[:, ~electronica.columns.str.contains('Unnamed')]
electronica = electronica.drop(columns=['Cod_materia'])
electronica = electronica.applymap(lambda x: remover_tildes(str(x)) if isinstance(x, str) else x)
electronica.columns = [remover_tildes(columna) for columna in electronica.columns]
electronica.to_csv('data_limpia\electronica.csv', index=False)
electronica.head()

Unnamed: 0,Cod_asigna,Desc_asign,Tipologia,Credi.Teo.,Cred.Pra.,Curso
0,11310044,PRECALCULO,T,3,0,1
1,11310002,PROGRAMACION DE COMPUTADORES,T,2,1,1
2,11010003,QUIMICA I,T,2,1,1
3,17210004,ETICA,T,2,0,1
4,18610031,ANALISIS DE TEXTOS,T,2,0,1


In [106]:
industrial = pd.read_excel('data\Asignaturas Ingeniería Industrial.xlsx', header = 1)
industrial = industrial.loc[:, ~industrial.columns.str.contains('Unnamed')]
industrial = industrial.applymap(lambda x: remover_tildes(str(x)) if isinstance(x, str) else x)
industrial = industrial.drop(columns=['Cod_materia'])
industrial.columns = [remover_tildes(columna) for columna in industrial.columns]
industrial.to_csv('data_limpia\industrial.csv', index=False)
industrial.head()

Unnamed: 0,Cod_asigna,Desc_asign,Tipologia,Credi.Teo.,Cred.Pra.,Curso
0,11310044,PRECALCULO,T,3,0,1
1,11310002,PROGRAMACION DE COMPUTADORES,T,2,1,1
2,11010003,QUIMICA I,T,2,1,1
3,17210004,ETICA,T,2,0,1
4,18610031,ANALISIS DE TEXTOS,T,2,0,1


In [86]:
ma02 = pd.read_excel('data\Asignaturas Matemáticas Aplicadas y Ciencias de la Computación MA02.xlsx', header = 1)
ma02 = ma02.loc[:, ~ma02.columns.str.contains('Unnamed')]
ma02 = ma02.drop(columns=['Cod_materia'])
ma02 = ma02.applymap(lambda x: remover_tildes(str(x)) if isinstance(x, str) else x)
ma02.columns = [remover_tildes(columna) for columna in ma02.columns]
ma02.to_csv('data_limpia\ma02.csv', index=False)
ma02.head()

Unnamed: 0,Cod_asigna,Desc_asign,Tipologia,Credi.Teo.,Cred.Pra.,Curso
0,11310001,"LOGICA, TEORIA DE NUMEROS Y CONJUNTOS",T,3,0,1
1,11310002,PROGRAMACION DE COMPUTADORES,T,2,1,1
2,11310025,PENSAMIENTO MATEMATICO,T,2,0,1
3,60110260,"CATEDRA ROSARISTA, HISTORIA Y ACTUALIDAD",T,2,0,1
4,17210004,ETICA,T,2,0,1


In [87]:
ma03 = pd.read_excel('data\Asignaturas Matemáticas Aplicadas y Ciencias de la Computación MA03.xlsx', header = 1)
ma03 = ma03.loc[:, ~ma03.columns.str.contains('Unnamed')]
ma03 = ma03.drop(columns=['Cod_materia'])
ma03 = ma03.applymap(lambda x: remover_tildes(str(x)) if isinstance(x, str) else x)
ma03.columns = [remover_tildes(columna) for columna in ma03.columns]
ma03.to_csv('data_limpia\ma03.csv', index=False)
ma03.head()

Unnamed: 0,Cod_asigna,Desc_asign,Tipologia,Credi.Teo.,Cred.Pra.,Curso
0,11310001,"LOGICA, TEORIA DE NUMEROS Y CONJUNTOS",T,3,0,1
1,11310002,PROGRAMACION DE COMPUTADORES,T,2,1,1
2,11310025,PENSAMIENTO MATEMATICO,T,2,0,1
3,11310044,PRECALCULO,T,3,0,1
4,17210004,ETICA,T,2,0,1


In [88]:
prereq = pd.read_excel('data/Prerrequisitos y correquisitos por plan_Prerrequisitos y correquisitos por plan EICT.xlsx', header = 2)
prereq = prereq.loc[:, ~prereq.columns.str.contains('Unnamed')]
prereq = prereq.drop(columns=['# Prerreq.', 'Tipo Prerreq.', '#Cumplir'])
prereq = prereq.applymap(lambda x: remover_tildes(str(x)) if isinstance(x, str) else x)
prereq.columns = [remover_tildes(columna) for columna in prereq.columns]
prereq.to_csv('data_limpia\prereq.csv', index=False)
prereq.head()

Unnamed: 0,Cod.Programa,Nombre Programa,Asignatura,Nombre Asignatura,Cod.Asig. Prerreq.,Nombre Asignatura Prerreq.
0,MA01,MATEMATICAS APLICADAS Y CIENCIAS DE LA COMPUTA...,11010040.0,MATHEMATICAL MODELING OF SYSTEMS IN NATURAL SC...,11310002.0,PROGRAMACION DE COMPUTADORES
1,MA02,MATEMATICAS APLICADAS Y CIENCIAS DE LA COMPUTA...,11010040.0,MATHEMATICAL MODELING OF SYSTEMS IN NATURAL SC...,11310002.0,PROGRAMACION DE COMPUTADORES
2,MA01,MATEMATICAS APLICADAS Y CIENCIAS DE LA COMPUTA...,11010040.0,MATHEMATICAL MODELING OF SYSTEMS IN NATURAL SC...,11310005.0,ALGEBRA LINEAL
3,MA01,MATEMATICAS APLICADAS Y CIENCIAS DE LA COMPUTA...,11010040.0,MATHEMATICAL MODELING OF SYSTEMS IN NATURAL SC...,11310040.0,MODELING OF DYNAMICAL SYSTEMS
4,MA02,MATEMATICAS APLICADAS Y CIENCIAS DE LA COMPUTA...,11010040.0,MATHEMATICAL MODELING OF SYSTEMS IN NATURAL SC...,11310040.0,MODELING OF DYNAMICAL SYSTEMS


In [94]:
matriculados = pd.read_excel('data\Matriculados_Inscritos por Asignatura.xlsx')
matriculados = matriculados.applymap(lambda x: remover_tildes(str(x)) if isinstance(x, str) else x)
matriculados.columns = [remover_tildes(columna) for columna in matriculados.columns]
matriculados = matriculados.groupby('Asignatura').agg({
  'Periodo': 'first',
  'Facultad': 'first',
  'Nombre Asignatura': 'first',
  'Matriculados 2024-1s': 'sum', 
}).reset_index()
matriculados.to_csv('data_limpia\matriculados.csv', index=False)
matriculados.head()

Unnamed: 0,Asignatura,Periodo,Facultad,Nombre Asignatura,Matriculados 2024-1s
0,11310001,2024-1S,"DEPARTAMENTO DE INGENIERIA, CIENCIA Y TECNOLOGIA","LOGICA, TEORIA DE NUMEROS Y CONJUNTOS",81
1,11310002,2024-1S,"DEPARTAMENTO DE INGENIERIA, CIENCIA Y TECNOLOGIA",PROGRAMACION DE COMPUTADORES,152
2,11310003,2024-1S,"DEPARTAMENTO DE INGENIERIA, CIENCIA Y TECNOLOGIA",CALCULO 1,77
3,11310004,2024-1S,"DEPARTAMENTO DE INGENIERIA, CIENCIA Y TECNOLOGIA",CALCULO 2,53
4,11310005,2024-1S,"DEPARTAMENTO DE INGENIERIA, CIENCIA Y TECNOLOGIA",ALGEBRA LINEAL,7


In [105]:
combinadas = pd.read_excel('data\Asignaturas combinadas.xlsx')
combinadas = combinadas.dropna()
combinadas = combinadas.applymap(lambda x: remover_tildes(str(x)) if isinstance(x, str) else x)
combinadas.columns = [remover_tildes(columna) for columna in combinadas.columns]
combinadas.to_csv('data_limpia\combinadas.csv', index=False)
combinadas.head()

Unnamed: 0,PROGRAMA,CODIGO PRINCIPAL,CODIGO COMPARTIDO,NOMBRE ASIGNATURA
1,"MA01, MA02, MA03",11310018.0,11320009,ALGEBRA ABSTRACTA Y CODIFICACION
2,"MA01, MA02, MA03, ISE1, IIN1, IET1, ADM1",11310030.0,11310005,ALGEBRA LINEAL
3,"MA01, MA02, MA03, ISE1, IIN1, IET1, ADM1",11310030.0,11310005,ALGEBRA LINEAL
4,"MA01, MA02, MA03, ISE1, IIN1, IET1, ADM1",11310030.0,11310005,ALGEBRA LINEAL
5,"MA01, MA02, MA03, IIN1, ADM1",11320018.0,11310063,APRENDIZAJE AUTOMATICO DE MAQUINA I


### **Extracción de Datos para Tablas SQL**

Preparar los datos para su integración en sistemas de gestión de bases de datos SQL, lo que implica seleccionar los datos relevantes, estructurarlos adecuadamente, y posiblemente realizar conversiones de formato o codificaciones específicas para su compatibilidad con sistemas de bases de datos.