In [16]:
%pip install pandas openpyxl

import pandas as pd
import openpyxl as px
import os

Note: you may need to restart the kernel to use updated packages.


In [17]:
# Specify the path to the Excel file
excel_file_path = 'Graduados de la UPSA.xlsx'

# Read all sheets and merge them
def merge_excel_sheets(file_path):
    # Read the Excel file with all sheets
    xls = pd.ExcelFile(file_path)
    
    # List to store DataFrames from each sheet
    dfs = []
    
    # Iterate through all sheets
    for sheet_name in xls.sheet_names:
        # Read each sheet, selecting only the first 4 columns
        df = pd.read_excel(file_path, sheet_name=sheet_name, usecols=['Nombre', 'Carrera', 'Fecha Defensa', 'Año'])
        
        # Add a column to track the original sheet name if needed
        df['Sheet_Origin'] = sheet_name
        
        # Append to the list of DataFrames
        dfs.append(df)
    
    # Concatenate all DataFrames vertically
    merged_df = pd.concat(dfs, ignore_index=True)
    
    return merged_df

# Merge the sheets
merged_dataframe = merge_excel_sheets(excel_file_path)

# Optional: Display basic information about the merged DataFrame
print(f"Total number of records: {len(merged_dataframe)}")
print("\nFirst few rows:")
print(merged_dataframe.head())

# Optional: Save the merged DataFrame to a new Excel file
# merged_dataframe.to_excel('Merged_Graduados.xlsx', index=False)

Total number of records: 10257

First few rows:
                          Nombre                                 Carrera  \
0           ANTELO SCOTT ROBERTO  COMUNICACION ESTRATEGICA Y CORPORATIVA   
1     ARIAS MEDINA SUSANA ESTHER  COMUNICACION ESTRATEGICA Y CORPORATIVA   
2      ROCA URIOSTE VANYA MÓNICA  COMUNICACION ESTRATEGICA Y CORPORATIVA   
3  SANJINÉS ZACONETA PEGGY ERIKA  COMUNICACION ESTRATEGICA Y CORPORATIVA   
4     CORTEZ UZEDA MARCO ANTONIO              ADMINISTRACION DE EMPRESAS   

  Fecha Defensa   Año Sheet_Origin  
0    1988-12-15  1988    Table 163  
1    1988-12-15  1988    Table 163  
2    1988-12-14  1988    Table 163  
3    1988-12-14  1988    Table 163  
4    1988-12-14  1988    Table 162  


In [33]:
# Use the new Excel with the merged data for further analysis
merged_dataframe = pd.read_excel('Merged_Graduados.xlsx')
print(merged_dataframe.head())

# Print all values in the 'Carrera' column
print(merged_dataframe['Carrera'].unique())

                          Nombre                                 Carrera  \
0           ANTELO SCOTT ROBERTO  COMUNICACION ESTRATEGICA Y CORPORATIVA   
1     ARIAS MEDINA SUSANA ESTHER  COMUNICACION ESTRATEGICA Y CORPORATIVA   
2      ROCA URIOSTE VANYA MÓNICA  COMUNICACION ESTRATEGICA Y CORPORATIVA   
3  SANJINÉS ZACONETA PEGGY ERIKA  COMUNICACION ESTRATEGICA Y CORPORATIVA   
4     CORTEZ UZEDA MARCO ANTONIO              ADMINISTRACION DE EMPRESAS   

  Fecha Defensa   Año Sheet_Origin  
0    1988-12-15  1988    Table 163  
1    1988-12-15  1988    Table 163  
2    1988-12-14  1988    Table 163  
3    1988-12-14  1988    Table 163  
4    1988-12-14  1988    Table 162  
['COMUNICACION ESTRATEGICA Y CORPORATIVA' 'ADMINISTRACION DE EMPRESAS'
 'INGENIERIA DE SISTEMAS' 'DECORACION DE INTERIORES Y PAISAJISMO'
 'ANALISIS Y PROGRAMACION DE SISTEMAS' 'DISENO GRAFICO Y PUBLICITARIO'
 'CONTADURIA GENERAL' 'PERIODISMO' 'ARQUITECTURA' 'INGENIERIA COMERCIAL'
 'DERECHO' 'CONSTRUCCIONES' 'AUDITORIA Y

In [35]:
print("Unique values before cleaning:")
unique_careers = merged_dataframe["Carrera"].unique()

# Careers sorted alphabetically
print("\n".join(sorted(unique_careers)))


def clean_career_names(df):
    df["Carrera"] = df["Carrera"].replace(
        {
            "COMUNICACION ESTRATEGICA Y CORPORATIVA": "Comunicación Estratégica Y Corporativa",
            "ADMINISTRACION DE EMPRESAS": "Administración De Empresas",
            "INGENIERIA DE SISTEMAS": "Ingeniería De Sistemas",
            "DECORACION DE INTERIORES Y PAISAJISMO": "Decoración De Interiores Y Paisajismo",
            "ANALISIS Y PROGRAMACION DE SISTEMAS": "Análisis Y Programación De Sistemas",
            "DISENO GRAFICO Y PUBLICITARIO": "Diseño Gráfico Y Publicitario",
            "CONTADURIA GENERAL": "Contaduría General",
            "PERIODISMO": "Periodismo",
            "ARQUITECTURA": "Arquitectura",
            "INGENIERIA COMERCIAL": "Ingeniería Comercial",
            "DERECHO": "Derecho",
            "CONSTRUCCIONES": "Construcciones",
            "AUDITORIA Y FINANZAS": "Auditoría Y Finanzas",
            "INGENIERIA ECONOMICA": "Ingeniería Económica",
            "INGENIERIA INFORMATICA ADMINISTRATIVA": "Ingeniería Informática Y Administrativa",
            "INGENIERIA INDUSTRIAL Y DE SISTEMAS": "Ingeniería Industrial Y De Sistemas",
            "INGENIERIA CIVIL": "Ingeniería Civil",
            "PSICOLOGIA": "Psicología",
            "DISENO GRAFICO": "Diseño Gráfico",
            "COMERCIO INTERNACIONAL": "Comercio Internacional",
            "INGENIERIA FINANCIERA": "Ingeniería Financiera",
            "INGENIERIA ELECTRONICA": "Ingeniería Electrónica",
            "MARKETING Y PUBLICIDAD": "Marketing Y Publicidad",
            "DISENO DE INTERIORES": "Diseño De Interiores",
            "DISENO Y GESTION DE LA MODA": "Diseño Y Gestión De La Moda",
            "INGENIERIA DE PETROLEO Y GAS NATURAL": "Ingeniería De Petróleo Y Gas Natural",
            "INGENIERIA DE REDES Y TELECOMUNICACIONES": "Ingeniería De Redes Y Telecomunicaciones",
            "DISENO INDUSTRIAL": "Diseño Industrial",
            "INGENIERIA INDUSTRIAL EN MADERA": "Ingeniería Industrial En Madera",
            "INGENIERÍA CIVIL": "Ingeniería Civil",
            "INGENIERÍA DE PETR—LEO Y GAS NATURAL": "Ingeniería De Petróleo Y Gas Natural",
            "INGENIERÍA DE SISTEMAS": "Ingeniería De Sistemas",
            "INGENIERÍA ELECTR—NICA": "Ingeniería Electrónica",
            "INGENIERÍA EN REDES Y TELECOMUNICACIONES": "Ingeniería En Redes Y Telecomunicaciones",
            "INGENIERÍA INDUSTRIAL Y DE SISTEMAS": "Ingeniería Industrial Y De Sistemas",
            "COMUNICACIÓN ESTRATÉGICA Y CORPORATIVA": "Comunicación Estratégica Y Corporativa",
            "DISEÑO GRÁFICO": "Diseño Gráfico",
            "DISEÑO Y GESTIÓN DE LA MODA": "Diseño Y Gestión De La Moda",
            "PSICOLOGÍA": "Psicología",
            "ADMINISTRACIÓN DE EMPRESAS": "Administración De Empresas",
            "INGENIERÍA COMERCIAL": "Ingeniería Comercial",
            "INGENIERÍA ECON—MICA": "Ingeniería Económica",
            "INGENIERÍA FINANCIERA": "Ingeniería Financiera",
            "DISEÑO INDUSTRIAL": "Diseño Industrial",
            "INGENIERÍA DE INDUSTRIAL Y DE SISTEMAS": "Ingeniería Industrial Y De Sistemas",
            "INGENIERÍA DE PETRÓLEO Y GAS NATURAL": "Ingeniería De Petróleo Y Gas Natural",
            "INGENIERÍA DE REDES Y TELECOMUNICACIONES": "Ingeniería De Redes Y Telecomunicaciones",
            "INGENIERIA E ELECTRîNICA": "Ingeniería Electrónica",
            "INGENIERÍA ELECTRÓNICA": "Ingeniería Electrónica",
            "INGENIERÍA INDUSTRIAL EN MADERA": "Ingeniería Industrial En Madera",
            "INGENIERIA INFORMATICA Y ADMINISTRATIVA": "Ingeniería Informática Administrativa",
            "PSICOLOGêA": "Psicología",
            "AUDITORÍA Y FINANZAS": "Auditoría Y Finanzas",
            "INGENIERÍA ECONÓMICA": "Ingeniería Económica",
            "INGENIERIA EN MADERA": "Ingeniería En Madera",
            "INGENIERIA EN PETROLEO  Y GAS NATURAL": "Ingeniería De Petróleo Y Gas Natural",
            "DISEÑO GRAFICO": "Diseño Gráfico",
            "DISEÑO Y GESTIîN DE LA MODA": "Diseño Y Gestión De La Moda",
            "INGENIERIA ECONîMICA": "Ingeniería Económica",
            "Ingeniería Informática y Administrativa": "Ingeniería Informática Administrativa",
            "Ingeniería Civil": "Ingeniería Civil",
            "Ingenieria Civil": "Ingeniería Civil",
            "Ingenieria De Petróleo Y Gas Natural": "Ingeniería De Petróleo Y Gas Natural",
            "Ingeniería De Petróleo Y Gas Natural": "Ingeniería De Petróleo Y Gas Natural",
            "Ingeniería De Redes Y Telecomunicaciones": "Ingeniería De Redes Y Telecomunicaciones",
            "Ingenieria De Sistemas": "Ingeniería De Sistemas",
            "Ingeniería Electrónica": "Ingeniería Electrónica",
            "Ingenieria Electrónica": "Ingeniería Electrónica",
            "Ingenieria Industrial Y De Sistemas": "Ingeniería Industrial Y De Sistemas",
            "Ingeniería Industrial Y De Sistemas": "Ingeniería Industrial Y De Sistemas",
            "Ingeniería Informática Administrativa": "Ingeniería Informática Administrativa",
            "Comunicación Estratégica Y Corporativa": "Comunicación Estratégica Y Corporativa",
            "Diseño Grafico": "Diseño Gráfico",
            "Diseño Y Gestión De La Moda": "Diseño Y Gestión De La Moda",
            "Psicología": "Psicología",
            "Derecho": "Derecho",
            "Administración De Empresas": "Administración De Empresas",
            "Auditoria Y Finanzas": "Auditoría Y Finanzas",
            "Comercio Internacional": "Comercio Internacional",
            "Ingeniería Comercial": "Ingeniería Comercial",
            "Ingenieria Comercial": "Ingeniería Comercial",
            "Ingeniería Económica": "Ingeniería Económica",
            "Ingenieria Económica": "Ingeniería Económica",
            "Ingenieria Financiera": "Ingeniería Financiera",
            "Ingeniería Financiera": "Ingeniería Financiera",
            "Marketing Y Publicidad": "Marketing Y Publicidad",
            "Arquitectura": "Arquitectura",
            "Diseño Industrial": "Diseño Industrial",
            "ingeniería Civil": "Ingeniería Civil",
            "INGENIERIA INFORMÁTICA ADMINISTRATIVA": "Ingeniería Informática Administrativa",
            "INGENIERÍA INFORMÁTICA ADMINISTRATIVA": "Ingeniería Informática Administrativa",
            "Ingeniería Informática Y Administrativa": "Ingeniería Informática Administrativa",
        }
    )

    return df


merged_dataframe = clean_career_names(merged_dataframe)

print("\n\nUnique values after cleaning:")
after_cleaning = merged_dataframe["Carrera"].unique()
print("\n".join(sorted(after_cleaning)))

# Save the cleaned data to a new Excel file
merged_dataframe.to_excel('Cleaned_Graduados.xlsx', index=False)

Unique values before cleaning:
Administración De Empresas
Análisis Y Programación De Sistemas
Arquitectura
Auditoría Y Finanzas
Comercio Internacional
Comunicación Estratégica Y Corporativa
Construcciones
Contaduría General
Decoración De Interiores Y Paisajismo
Derecho
Diseño De Interiores
Diseño Gráfico
Diseño Gráfico Y Publicitario
Diseño Industrial
Diseño Y Gestión De La Moda
Ingeniería Civil
Ingeniería Comercial
Ingeniería De Petróleo Y Gas Natural
Ingeniería De Redes Y Telecomunicaciones
Ingeniería De Sistemas
Ingeniería Económica
Ingeniería Electrónica
Ingeniería En Madera
Ingeniería En Redes Y Telecomunicaciones
Ingeniería Financiera
Ingeniería Industrial En Madera
Ingeniería Industrial Y De Sistemas
Ingeniería Informática Administrativa
Ingeniería Informática Y Administrativa
Marketing Y Publicidad
Periodismo
Psicología


Unique values after cleaning:
Administración De Empresas
Análisis Y Programación De Sistemas
Arquitectura
Auditoría Y Finanzas
Comercio Internacional
Comunica

In [37]:
faculties_mapping = {
    "Administración De Empresas": "Ciencias Empresariales",
    "Análisis Y Programación De Sistemas": "Ingeniería",
    "Arquitectura": "Arquitectura, Diseño Y Urbanismo",
    "Auditoría Y Finanzas": "Ciencias Empresariales",
    "Comercio Internacional": "Ciencias Empresariales",
    "Comunicación Estratégica Y Corporativa": "Humanidades, Comunicaciones Y Artes",
    "Construcciones": "Ingeniería",
    "Contaduría General": "Ciencias Empresariales",
    "Decoración De Interiores Y Paisajismo": "Arquitectura, Diseño Y Urbanismo",
    "Derecho": "Ciencias Jurídicas Y Sociales",
    "Diseño De Interiores": "Arquitectura, Diseño Y Urbanismo",
    "Diseño Gráfico": "Humanidades, Comunicaciones Y Artes",
    "Diseño Gráfico Y Publicitario": "Humanidades, Comunicaciones Y Artes",
    "Diseño Industrial": "Arquitectura, Diseño Y Urbanismo",
    "Diseño Y Gestión De La Moda": "Humanidades, Comunicaciones Y Artes",
    "Ingeniería Civil": "Ingeniería",
    "Ingeniería Comercial": "Ciencias Empresariales",
    "Ingeniería De Petróleo Y Gas Natural": "Ingeniería",
    "Ingeniería De Redes Y Telecomunicaciones": "Ingeniería",
    "Ingeniería De Sistemas": "Ingeniería",
    "Ingeniería Económica": "Ciencias Empresariales",
    "Ingeniería Electrónica": "Ingeniería",
    "Ingeniería En Madera": "Ingeniería",
    "Ingeniería En Redes Y Telecomunicaciones": "Ingeniería",
    "Ingeniería Financiera": "Ciencias Empresariales",
    "Ingeniería Industrial En Madera": "Ingeniería",
    "Ingeniería Industrial Y De Sistemas": "Ingeniería",
    "Ingeniería Informática Administrativa": "Ingeniería",
    "Marketing Y Publicidad": "Ciencias Empresariales",
    "Periodismo": "Humanidades, Comunicaciones Y Artes",
    "Psicología": "Humanidades, Comunicaciones Y Artes"
}

merged_dataframe["Facultad"]=merged_dataframe["Carrera"].map(faculties_mapping)

# Display unique values after cleaning
print("\n\nUnique values after cleaning:")
after_cleaning = merged_dataframe["Carrera"].unique()
print("\n".join(sorted(after_cleaning)))

# Display the first few rows of the updated DataFrame
print("\nFirst few rows of the updated DataFrame:")
print(merged_dataframe.head())

# Save the cleaned data to a new Excel file
merged_dataframe.to_excel('Cleaned_Graduados_with_Faculties.xlsx', index=False)



Unique values after cleaning:
Administración De Empresas
Análisis Y Programación De Sistemas
Arquitectura
Auditoría Y Finanzas
Comercio Internacional
Comunicación Estratégica Y Corporativa
Construcciones
Contaduría General
Decoración De Interiores Y Paisajismo
Derecho
Diseño De Interiores
Diseño Gráfico
Diseño Gráfico Y Publicitario
Diseño Industrial
Diseño Y Gestión De La Moda
Ingeniería Civil
Ingeniería Comercial
Ingeniería De Petróleo Y Gas Natural
Ingeniería De Redes Y Telecomunicaciones
Ingeniería De Sistemas
Ingeniería Económica
Ingeniería Electrónica
Ingeniería En Madera
Ingeniería En Redes Y Telecomunicaciones
Ingeniería Financiera
Ingeniería Industrial En Madera
Ingeniería Industrial Y De Sistemas
Ingeniería Informática Administrativa
Marketing Y Publicidad
Periodismo
Psicología

First few rows of the updated DataFrame:
                          Nombre                                 Carrera  \
0           ANTELO SCOTT ROBERTO  Comunicación Estratégica Y Corporativa   
1    