## Cargar Datos

Inicialmente esta parte el código importa varias bibliotecas esenciales para el procesamiento de datos y modelado en Python. Pandas se utiliza para trabajar con datos tabulares, NumPy proporciona estructuras de datos para cálculos numéricos eficientes, y scikit-learn ofrece herramientas para el preprocesamiento de datos, como la imputación de valores faltantes y la codificación de variables categóricas. El módulo os facilita la interacción con el sistema operativo, mientras que re permite trabajar con expresiones regulares para manipular cadenas de texto. Estas bibliotecas son fundamentales para la preparación de datos y la construcción de modelos de aprendizaje automático en Python.

In [None]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
import os
import re

In [None]:
os.environ['KAGGLE_CONFIG_DIR'] = "."

In [None]:
!kaggle competitions download -c udea-ai4eng-20241


Downloading udea-ai4eng-20241.zip to /content
 24% 5.00M/21.2M [00:00<00:00, 43.2MB/s]
100% 21.2M/21.2M [00:00<00:00, 129MB/s] 


In [None]:
!unzip udea-ai4eng-20241.zip

Archive:  udea-ai4eng-20241.zip
  inflating: submission_example.csv  
  inflating: test.csv                
  inflating: train.csv               


In [None]:
df = pd.read_csv("train.csv")

In [None]:
df.describe(include='all')

Unnamed: 0,ID,PERIODO,ESTU_PRGM_ACADEMICO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_TIENELAVADORA,FAMI_TIENEAUTOMOVIL,ESTU_PRIVADO_LIBERTAD,ESTU_PAGOMATRICULAPROPIO,FAMI_TIENECOMPUTADOR,FAMI_TIENEINTERNET.1,FAMI_EDUCACIONMADRE,RENDIMIENTO_GLOBAL
count,692500.0,692500.0,692500,692500,686213,661643,660363,665871,669322,652727,648877,692500,686002,654397,665871,668836,692500
unique,,,948,31,8,5,7,2,12,2,2,2,2,2,2,12,4
top,,,DERECHO,BOGOTÁ,Entre 1 millón y menos de 2.5 millones,Más de 30 horas,Estrato 2,Si,Secundaria (Bachillerato) completa,Si,No,N,No,Si,Si,Secundaria (Bachillerato) completa,alto
freq,,,53244,282159,204048,249352,232671,592514,128289,563390,412606,692466,382201,597670,592514,141744,175619
mean,494606.130576,20198.366679,,,,,,,,,,,,,,,
std,285585.209455,10.535037,,,,,,,,,,,,,,,
min,1.0,20183.0,,,,,,,,,,,,,,,
25%,247324.75,20195.0,,,,,,,,,,,,,,,
50%,494564.5,20195.0,,,,,,,,,,,,,,,
75%,741782.5,20203.0,,,,,,,,,,,,,,,


In [None]:
df.set_index('ID', inplace=True)

In [None]:
df

Unnamed: 0_level_0,PERIODO,ESTU_PRGM_ACADEMICO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_TIENELAVADORA,FAMI_TIENEAUTOMOVIL,ESTU_PRIVADO_LIBERTAD,ESTU_PAGOMATRICULAPROPIO,FAMI_TIENECOMPUTADOR,FAMI_TIENEINTERNET.1,FAMI_EDUCACIONMADRE,RENDIMIENTO_GLOBAL
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
904256,20212,ENFERMERIA,BOGOTÁ,Entre 5.5 millones y menos de 7 millones,Menos de 10 horas,Estrato 3,Si,Técnica o tecnológica incompleta,Si,Si,N,No,Si,Si,Postgrado,medio-alto
645256,20212,DERECHO,ATLANTICO,Entre 2.5 millones y menos de 4 millones,0,Estrato 3,No,Técnica o tecnológica completa,Si,No,N,No,Si,No,Técnica o tecnológica incompleta,bajo
308367,20203,MERCADEO Y PUBLICIDAD,BOGOTÁ,Entre 2.5 millones y menos de 4 millones,Más de 30 horas,Estrato 3,Si,Secundaria (Bachillerato) completa,Si,No,N,No,No,Si,Secundaria (Bachillerato) completa,bajo
470353,20195,ADMINISTRACION DE EMPRESAS,SANTANDER,Entre 4 millones y menos de 5.5 millones,0,Estrato 4,Si,No sabe,Si,No,N,No,Si,Si,Secundaria (Bachillerato) completa,alto
989032,20212,PSICOLOGIA,ANTIOQUIA,Entre 2.5 millones y menos de 4 millones,Entre 21 y 30 horas,Estrato 3,Si,Primaria completa,Si,Si,N,No,Si,Si,Primaria completa,medio-bajo
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25096,20195,BIOLOGIA,LA GUAJIRA,Entre 500 mil y menos de 1 millón,Entre 11 y 20 horas,Estrato 2,Si,Secundaria (Bachillerato) completa,Si,No,N,Si,Si,Si,Secundaria (Bachillerato) incompleta,medio-alto
754213,20212,PSICOLOGIA,NORTE SANTANDER,Entre 2.5 millones y menos de 4 millones,Más de 30 horas,Estrato 3,Si,Primaria incompleta,Si,No,N,No,Si,Si,Secundaria (Bachillerato) incompleta,bajo
504185,20183,ADMINISTRACIÓN EN SALUD OCUPACIONAL,BOGOTÁ,Entre 1 millón y menos de 2.5 millones,Menos de 10 horas,Estrato 3,Si,Secundaria (Bachillerato) completa,Si,No,N,Si,Si,Si,Secundaria (Bachillerato) incompleta,medio-bajo
986620,20195,PSICOLOGIA,TOLIMA,Entre 2.5 millones y menos de 4 millones,Menos de 10 horas,Estrato 1,No,Primaria completa,No,No,N,Si,Si,No,Primaria completa,bajo


# Pre-Procesamiento de la Información:

En esta parte del preprocesamiento de datos se prepara el conjunto de datos para el análisis y modelado predictivo, mediante varias transformaciones y limpieza:

**Limpieza de Datos (clean_data):**

 * Se eliminan columnas irrelevantes ('FAMI_TIENEINTERNET.1', 'ESTU_PRIVADO_LIBERTAD') utilizando el método drop().
 * Se eliminan los prefijos y se reemplazan los valores de la columna "FAMI_ESTRATOVIVIENDA" que indican el estrato de la vivienda.
Se convierte la columna a tipo numérico.


**One Hot Encoding de la Columna "PERIODO":**

* Se realiza la codificación one-hot de la columna "PERIODO" para convertirla en variables dummy.
* Las nuevas variables dummy se concatenan al DataFrame original y luego se elimina la columna original "PERIODO".

**Creación de Variables Dummy:**
* Se crean variables dummy para las columnas "FAMI_EDUCACIONPADRE" y "FAMI_EDUCACIONMADRE", que representan los niveles de educación de los padres,para la columna  "ESTU_PRGM_DEPARTAMENTO"  que representa el departamento del programa de estudio y para para la columna "FAMI_ESTRATOVIVIENDA", que representa el estrato de la vivienda.


**Categorización de Programas de Estudio en Áreas de Estudio:**

Se agrupan los programas de estudio en áreas de estudio más amplias, como "Ciencias de la Salud" o "Ciencias Sociales y Humanidades".

**Normalización:**

* Se normalizan los nombres de los programas de estudio para agruparlos en categorías más generales, como "Medicina y afines" o "Ciencias de la Salud".

* Se normalizan nombres de carreras que no pertenecen a áreas de estudio específicas, agrupándolos en categorías más generales.

* Se agrupan los programas de ingeniería en categorías más generales, como "Ingeniería Mecánica" o "Ingeniería Industrial".


También se realizó una **Conversión de Valores Categóricos a Booleanos** e **Imputación de Valores Faltantes** utilizando la moda como estrategia.



In [None]:
def clean_data(data):
  # Dropear Columnas Innecesarias
  data = data.drop(['FAMI_TIENEINTERNET.1'], axis=1)
  data = data.drop('ESTU_PRIVADO_LIBERTAD', axis=1)
  #data = data.drop('PERIODO', axis=1)

  # Convertir Si y No a Booleanos
  columnas_booleanas = ['FAMI_TIENEINTERNET', 'FAMI_TIENELAVADORA', 'FAMI_TIENEAUTOMOVIL',
                      'ESTU_PAGOMATRICULAPROPIO', 'FAMI_TIENECOMPUTADOR']

  for columna in columnas_booleanas:
    moda = data[columna].mode()[0]
    data[columna].fillna(moda, inplace=True)
    data[columna] = data[columna].map({'Si': 1, 'No': 0}).astype(int)

  # Borrar Strings de ESTRATO VIVIENDA
  data['FAMI_ESTRATOVIVIENDA'] = data['FAMI_ESTRATOVIVIENDA'].str.replace('Estrato', '').str.strip()
  data['FAMI_ESTRATOVIVIENDA'].replace('Sin', '0', inplace=True)

  # Convertir la columna a tipo numérico
  data['FAMI_ESTRATOVIVIENDA'] = pd.to_numeric(data['FAMI_ESTRATOVIVIENDA'])

  # One Hot Coding a Periodo
  encoded_df = pd.get_dummies(data['PERIODO']).astype(int)
  data = pd.concat([data, encoded_df], axis=1)
  data.drop('PERIODO', axis=1, inplace=True)


  #Imputar Datos Faltantes:
  moda_estrato = data['FAMI_ESTRATOVIVIENDA'].mode()[0]  # Obtener la moda
  data['FAMI_ESTRATOVIVIENDA'].fillna(moda_estrato, inplace=True)
  data['FAMI_ESTRATOVIVIENDA'] = data['FAMI_ESTRATOVIVIENDA'].astype(int)

  #Rangos de Madre y Padre
  moda_padre = data['FAMI_EDUCACIONPADRE'].mode()[0]
  data['FAMI_EDUCACIONPADRE'].fillna(moda_padre, inplace=True)

  moda_madre = data['FAMI_EDUCACIONMADRE'].mode()[0]
  data['FAMI_EDUCACIONMADRE'].fillna(moda_madre, inplace=True)

  padre_dummies = pd.get_dummies(data['FAMI_EDUCACIONPADRE'], prefix='Padre')

# Obtener variables dummy para 'FAMI_EDUCACIONMADRE'
  madre_dummies = pd.get_dummies(data['FAMI_EDUCACIONMADRE'], prefix='Madre')

  # Unir las variables dummy al DataFrame original
  data = pd.concat([data, padre_dummies, madre_dummies], axis=1)

  # Eliminar las columnas originales de educación padre y madre
  data.drop(['FAMI_EDUCACIONPADRE', 'FAMI_EDUCACIONMADRE'], axis=1, inplace=True)
  #data.drop(['FAMI_TIENELAVADORA'], axis=1, inplace=True)
  #data.drop(['FAMI_TIENEAUTOMOVIL'], axis=1, inplace=True)

  moda_programa = data['ESTU_PRGM_DEPARTAMENTO'].mode()[0]
  data['ESTU_PRGM_DEPARTAMENTO'].fillna(moda_programa, inplace=True)

  # hot para los departamentos
  encoded_df = pd.get_dummies(data['ESTU_PRGM_DEPARTAMENTO'].astype(str), prefix='DEPARTAMENTO_').astype(int)
  data = pd.concat([data, encoded_df], axis=1)
  data.drop('ESTU_PRGM_DEPARTAMENTO', axis=1, inplace=True)

  # Hot Estrato
  encoded_df = pd.get_dummies(data['FAMI_ESTRATOVIVIENDA'].astype(str), prefix='ESTRATO_').astype(int)
  data = pd.concat([data, encoded_df], axis=1)
  data.drop('FAMI_ESTRATOVIVIENDA', axis=1, inplace=True)

  pattern = re.compile(r'^LICENCIATURA', flags=re.IGNORECASE)
  mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
  data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Licenciatura'

  pattern = re.compile(r'^ADMINISTRACI\s*N', flags=re.IGNORECASE)
  mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
  data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Administración'

  pattern = re.compile(r'^ADMINISTRACI\s*N', flags=re.IGNORECASE)
  mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
  data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Administración'

  pattern = re.compile(r'^COMUNICACI\s*N', flags=re.IGNORECASE)
  mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
  data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Comunicación'

  pattern = re.compile(r'^CIENCIAS', flags=re.IGNORECASE)
  mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
  data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Ciencias'

  pattern = re.compile(r'DISE\s*O', flags=re.IGNORECASE)
  mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
  data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Diseño'

  pattern = re.compile(r'NEGOCIOS', flags=re.IGNORECASE)
  mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
  data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Negocios'

  pattern = re.compile(r'PROFESIONAL', flags=re.IGNORECASE)
  mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
  data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Profesional'

  pattern = re.compile(r'ESTUDIOS', flags=re.IGNORECASE)
  mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
  data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Estudios'

  carreras = [
      'enfermeria', 'medicina veterinaria', 'seguridad y salud en el trabajo', 'medicina',
      'odontologia', 'medicina veterinaria y zootecnia', 'fisioterapia', 'farmacia',
      'nutricion y dietetica', 'terapia respiratoria', 'enfermer a', 'terapia ocupacional',
      'intrumentacion quirurgica', 'bacteriologia', 'bacteriologia y laboratorio clinico',
      'fonoaudiologia', 'microbiologia y bioanalisis', 'salud ocupacional', 'nutrici n y diet tica',
      'microbiologia', 'microbiologia industrial y ambiental', 'odontolog a', 'terapia cardiorrespiratoria',
      'microbiolog a', 'biotecnologia', 'nutrici n y dietetica', 'microbiolog a industrial y ambiental',
      'microbiolog a y bioan lisis', 'quimica farmaceutica', 'qu mica farmac utica', 'optometr a',
      'instrumentacion quirurgica', 'gerontologia', 'optometria', 'gerencia en sistemas de informacion en salud'
  ]

  # Definir grupos
  grupos = {
      'Medicina y afines': ['medicina', 'medicina veterinaria', 'medicina veterinaria y zootecnia', ],
      'Ciencias de la Salud': [ 'farmacia',
                              'fonoaudiologia' , 'gerontologia',
                               ],
      'Enfermeria':['enfermeria','enfermer a'],
      'Optometría':['optometr a', 'optometria'],
      'Instrumentación':['instrumentacion quirurgica','intrumentacion quirurgica'],
      'Terapia':['terapia respiratoria','terapia cardiorrespiratoria', 'fisioterapia'],
      'Odontología':['odontologia', 'odontolog a'],
      'Seguridad ocupacional':[ 'seguridad y salud en el trabajo', 'terapia ocupacional','salud ocupacional'],
      'Nutrición':[ 'nutricion y dietetica', 'nutrici n y diet tica','nutrici n y dietetica'],
      'Biotecnología y Microbiología': ['bacteriologia', 'bacteriologia y laboratorio clinico', 'microbiologia y bioanalisis',
                                        'microbiologia', 'microbiologia industrial y ambiental', 'microbiolog a',
                                        'biotecnologia', 'microbiolog a industrial y ambiental', 'microbiolog a y bioan lisis'],
      'Química Farmacéutica y afines': ['quimica farmaceutica', 'qu mica farmac utica'],
      'Gestión en Salud': ['gerencia en sistemas de informacion en salud']
  }

  # Categorizar carreras
  for grupo, carreras_grupo in grupos.items():
      pattern = '|'.join(carreras_grupo)
      regex = re.compile(pattern, flags=re.IGNORECASE)
      mask = data['ESTU_PRGM_ACADEMICO'].str.contains(regex)
      data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = grupo

  carreras = [
    'zootecnia', 'biologia', 'geologia', 'quimica', 'ecologia de zonas costeras', 'arqueologia',
    'biolog a', 'geografia aplicada a la organizacion del espacio y planificacion regional', 'fisica',
    'quimica industrial', 'produccion agroindustrial', 'geografia', 'biologia aplicada', 'ecologia',
    'geociencias', 'geolog a', 'f sica', 'agronomia del tropico humedo', 'biologia marina',
    'oceanografia fisica', 'biolog a ambiental', 'qu mica industrial', 'acuicultura', 'astronomia',
    'bioquimica', 'quimica ambiental', 'ecolog a', 'biologia ambiental', 'oceanograf a', 'qu mica', 'agronomia',
    'computaci n cient fica'
]

  # Definir grupos
  grupos = {
      'Biología y afines': ['biologia', 'biologia marina', 'biologia ambiental', 'biologia aplicada', 'biolog a'],
      'Geología y Geociencias': ['geologia', 'geolog a', 'geociencias', 'oceanograf a',  'arqueologia', 'geografia aplicada a la organizacion del espacio y planificacion regional', 'geografia'],
      'Química y Bioquímica': ['quimica', 'quimica industrial', 'qu mica industrial', 'bioquimica', 'quimica ambiental', 'qu mica'],
      'Física y Astronomía': ['fisica', 'f sica', 'astronomia'],
      'Agronomía y Acuicultura': ['zootecnia', 'agronomia', 'agronomia del tropico humedo', 'acuicultura'],
      'Ecología y Medio Ambiente': ['ecologia', 'ecologia de zonas costeras', 'ecolog a', 'biologia ambiental'],
      'Ciencias de la Computación Científica': ['computaci n cient fica']
  }

  # Categorizar carreras
  for grupo, carreras_grupo in grupos.items():
      pattern = '|'.join(carreras_grupo)
      regex = re.compile(pattern, flags=re.IGNORECASE)
      mask = data['ESTU_PRGM_ACADEMICO'].str.contains(regex)
      data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = grupo


  carreras = [
      'maestro en m sica', 'arte danzario', 'artes plasticas', 'artes pl sticas y visuales', 'cine',
      'artes esc nicas', 'musica', 'cine y comunicaci n digital', 'cine y television',
      'direccion y produccion de cine y television', 'artes musicales', 'fotograf a y comunicaci n visual',
      'arte dramatico', 'direccion y produccion de radio y television', 'musica instrumental',
      'artes escenicas', 'm sica', 'artes audiovisuales', 'arte', 'cine y televisi n', 'cine y audiovisuales',
      'artes plasticas y visuales', 'realizaci n en animaci n', 'musica instrumento', 'maestro en musica',
      'creacion literaria', 'musica canto', 'fotograf a', 'artes plasticas con enfasis en procesos bidimensionales y tridimensionales',
      'historia del arte', 'narrativas digitales', 'direccion de banda', 'teatro musical', 'artes pl sticas',
      'animaci n', 'bellas artes', 'diseno grafico', 'direccion y produccion de medios audiovisuales', 'danza'
  ]

  # Definir grupos
  grupos = {
      'Música y Artes Escénicas': ['maestro en m sica', 'artes musicales', 'musica instrumental', 'musica canto', 'direccion de banda', 'teatro musical', 'formacion musical', 'musica',  'm sica',  'arte', 'musica instrumento',  'maestro en musica',  'interpretacion musical'],
      'Danza y Artes Danzarias': ['arte danzario', 'danza'],
      'Artes Plásticas y Visuales': ['artes plasticas', 'artes pl sticas y visuales', 'artes plasticas y visuales', 'bellas artes', 'diseno grafico', 'artes plasticas con enfasis en procesos bidimensionales y tridimensionales', 'artes visuales',  'artes pl sticas' ],
      'Cine y Audiovisuales': ['cine', 'cine y comunicaci n digital', 'cine y television', 'direccion y produccion de cine y television', 'realizaci n en animaci n', 'cine y televisi n', 'cine y audiovisuales', 'animaci n', 'direccion y produccion de medios audiovisuales',
                               'artes de la grabacion y produccion musical',  'artes audiovisuales'],
      'Fotografía y Medios Visuales': ['fotograf a y comunicaci n visual', 'fotograf a'],
      'Literatura y Creación Literaria': ['creacion literaria'],
      'Artes Escénicas y Audiovisuales': ['artes esc nicas', 'arte dramatico', 'direccion y produccion de radio y television', 'narrativas digitales', 'artes escenicas', 'artes de la escena'],
      'Historia y Crítica de las Artes': ['historia del arte']
  }

  # Categorizar carreras
  for grupo, carreras_grupo in grupos.items():
      pattern = '|'.join(carreras_grupo)
      regex = re.compile(pattern, flags=re.IGNORECASE)
      mask = data['ESTU_PRGM_ACADEMICO'].str.contains(regex)
      data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = grupo



  carreras_finanzas = [
      'contaduria p blica', 'estadistica', 'contaduria publica', 'contadur a p blica',
      'finanzas y comercio internacional', 'finanzas y comercio exterior', 'comercio exterior',
      'comercio internacional y finanzas', 'finanzas y relaciones internacionales', 'finanzas',
      'contaduria publica y finanzas internacionales', 'mercadeo publicidad y ventas', 'contaduria',
      'mercadologia', 'contadur a publica', 'matematicas con enfasis en estadistica', 'estad stica',
      'matem ticas', 'contaduria publica enfasis en sistemas y economia solidaria',
      'matem ticas aplicadas y ciencias de la computaci n', 'mercadeo y ventas',
      'matematicas aplicadas', 'comercio y finanzas internacionales', 'banca y finanzas internacionales',
      'matem tica aplicada', 'contadur a internacional', 'matematicas'
  ]

  # Definir grupos
  grupos_finanzas = {
      'Contabilidad y Auditoría': ['contaduria p blica', 'contaduria publica', 'contadur a p blica',
                                    'contadur a publica', 'contaduria publica enfasis en sistemas y economia solidaria',
                                    'contadur a internacional', 'contaduria'],
      'Finanzas y Comercio Internacional': ['finanzas y comercio internacional', 'finanzas y comercio exterior',
                                            'comercio exterior', 'comercio internacional y finanzas', 'comercio y finanzas internacionales', 'finanzas', 'banca y finanzas'],
      'Estadística y Matemáticas Aplicadas': ['estadistica', 'matematicas con enfasis en estadistica', 'matem ticas',
                                                'matematicas aplicadas', 'matem ticas aplicadas y ciencias de la computaci n',
                                                'matem tica aplicada',  'matematicas', 'estad stica' ],
      'Mercadeo y Ventas': ['mercadeo publicidad y ventas', 'mercadologia', 'mercadeo y ventas'],
      'Banca y Finanzas Internacionales': ['finanzas y relaciones internacionales', 'contaduria publica y finanzas internacionales',
                                            'banca y finanzas internacionales'],
  }

  # Categorizar carreras
  for grupo, carreras_grupo in grupos_finanzas.items():
      pattern = '|'.join(carreras_grupo)
      regex = re.compile(pattern, flags=re.IGNORECASE)
      mask = data['ESTU_PRGM_ACADEMICO'].str.contains(regex)
      data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = grupo

  carreras_sociales = [
      'trabajo social', 'ciencia politica', 'sociologia', 'filosofia', 'filologia e idiomas',
      'economia', 'planeacion y desarrollo social', 'ciencia politica y gobierno', 'mercadeo',
      'antropologia', 'relaciones economicas internacionales', 'historia', 'teologia', 'ciencia politica y gobierno',
      'derecho y ciencias politicas', 'gestion empresarial', 'teologia', 'ciencia politica',
      'gestion cultural y comunicativa', 'ciencia politica y relaciones internacionales', 'desarrollo familiar',
      'sociologia', 'politica y relaciones internacionales', 'derecho y ciencias sociales', 'adminsitraci n de empresas',
      'gobierno y asuntos publicos', 'mercadeo internacional y publicidad', 'derecho y ciencias politicas',
      'ciencia politica gobierno y relaciones internacionales', 'psic loga', 'terapias psicosociales', 'antropolog a',
      'pedagog a', 'gesti n cultural', 'psicolog a', 'ciencia pol tica y gobierno', 'relaciones internacionales',
      'derecho y ciencias pol ticas', 'ciencia pol tica y gobierno', 'gerencia de la seguridad y analisis socio politico',
      'gobierno y relaciones internacionales', 'econom a', 'jurisprudencia', 'ciencia pol tica','sociolog a', 'teolog a',
      'derecho', 'desarrollo territorial', 'comercio internacional', 'psicologia', 'periodismo'
  ]

# Definir grupos
  grupos_sociales = {
      'Ciencias Sociales y Humanidades': ['trabajo social',
                                           'historia','pedagog a'
                                           ],

      'Derecho':['jurisprudencia','derecho'],
      'Filosofía':['filosofia' , 'filologia e idiomas'],
      'Teología':['teolog a','teologia'],
      'Sociología y antropología':[ 'sociologia','antropologia','sociolog a','antropolog a'],
      'Economía y Administración': ['economia', 'adminsitraci n de empresas', 'gestion empresarial', 'econom a'],
      'Relaciones Internacionales ': ['relaciones economicas internacionales',
                                                'ciencia politica y relaciones internacionales', 'politica y relaciones internacionales',
                                                'gobierno y asuntos publicos', 'ciencia politica gobierno y relaciones internacionales',
                                                'gobierno y relaciones internacionales', 'comercio internacional', 'relaciones internacionales' ],
      'Ciencia Política':['ciencia pol tica y gobierno','ciencia pol tica','ciencia politica','ciencia pol tica y gobierno','ciencia politica y gobierno'],
      'Psicología':['psicolog a','psicologia','psic loga' ],
      'Gestión Cultural y Comunicativa': ['gestion cultural y comunicativa', 'gesti n cultural','periodismo'],
      'Mercadeo y Publicidad': ['mercadeo', 'mercadeo internacional y publicidad'],
      'Desarrollo Social y Familiar': ['planeacion y desarrollo social', 'desarrollo familiar', 'desarrollo territorial'],
      'Otras Áreas Sociales': ['terapias psicosociales', 'gerencia de la seguridad y analisis socio politico']
  }

  # Categorizar carreras
  for grupo, carreras_grupo in grupos_sociales.items():
      pattern = '|'.join(carreras_grupo)
      regex = re.compile(pattern, flags=re.IGNORECASE)
      mask = data['ESTU_PRGM_ACADEMICO'].str.contains(regex)
      data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = grupo

  carreras_letras = [
      'traduccion ingles frances espa ol', 'linguistica y literatura', 'linguistica', 'lenguas modernas',
      'letras filologia hispanica', 'espa ol y filologia clasica', 'filosof a', 'literatura', 'filosof a',
      'literatura', 'lenguas y cultura', 'periodismo y opinion publica', 'filosof a y humanidades', 'filologia hispanica',
      'lenguas modernas y cultura'
  ]

  # Definir grupos
  grupo_letras = 'Letras y Humanidades'

  # Categorizar carreras
  for carrera in carreras_letras:
      pattern = re.compile(r'\b' + carrera + r'\b', flags=re.IGNORECASE)
      mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
      data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = grupo_letras


  carreras_construccion = [
      'construccion', 'construccion y gestion en arquitectura', 'construcciones civiles', 'arquitectura',
      'gestion y desarrollo urbanos', 'construcciones civiles', 'urbanismo', 'conservacion y restauracion de bienes muebles']

  for carrera in carreras_construccion:
      pattern = re.compile(r'\b' + carrera + r'\b', flags=re.IGNORECASE)
      mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
      data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Construcción'

  carreras_deportes = [
      'deporte', 'entrenamiento deportivo', 'recreacion', 'gesti n deportiva']

  for carrera in carreras_deportes:
      pattern = re.compile(r'\b' + carrera + r'\b', flags=re.IGNORECASE)
      mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
      data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Deportes'

  carreras_documentacion = [
      'historia y archivistica', 'archivistica', 'sistemas de informacion y documentacion',
      'investigaci n criminal', 'investigacion criminal', 'gesti n de sistemas de informaci n', 'criminalistica']

  for carrera in carreras_documentacion:
      pattern = re.compile(r'\b' + carrera + r'\b', flags=re.IGNORECASE)
      mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
      data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Documentación'

  carreras_hotelerias = [
      'hoteleria y turismo', 'culinaria y gastronom a', 'turismo', 'hoteleria y turismo ecologico',
      'gastronom a', 'adminsitracion turistica y hotelera']

  for carrera in carreras_hotelerias:
      pattern = re.compile(r'\b' + carrera + r'\b', flags=re.IGNORECASE)
      mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
      data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Hotelerías'

  carreras_publicidad = [
      'publicidad', 'marketing y logistica', 'publicidad y marketing creativo',
      'logistica empresarial', 'publicidad internacional', 'publicidad y marketing digital', 'marketing']

  for carrera in carreras_publicidad:
      pattern = re.compile(r'\b' + carrera + r'\b', flags=re.IGNORECASE)
      mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
      data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Publicidad'

  pattern = re.compile(r'^COMUNICACION', flags=re.IGNORECASE)
  mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
  data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Comunicación'

  pattern = re.compile(r'^ADMINISTRACION', flags=re.IGNORECASE)
  mask = data['ESTU_PRGM_ACADEMICO'].str.contains(pattern)
  data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = 'Administración'

  grupos_ingenierias = {
    'Ingeniería Mecánica': ['ingenieria mecanica', 'ingenieria mecatronica', 'ingenieria electromecanica',
                            'ingenieria en automatizacion industrial', 'ingenier a mecatr nica', 'ingenier a mec nica',  'ingenieria en mecatronica',  'ingenieria mecatronico', 'ingenieria mecanica', 'ingenieria mecatronica', 'ingenier a mecatr nica', 'ingenieria mecatr nica', 'ingenieria de mantenimiento', 'ingenieria en automatizaci n',  'ingenieria mec nica' ],
    'Ingeniería Industrial': ['ingenieria industrial', 'ingenieria de procesos industriales',
                               'ingenieria administrativa', 'ingenieria en logistica y operaciones', 'ingenier a industrial',  'ingenieria en seguridad industrial e higiene ocupacional', 'ingenier a en procesos industriales', 'ingenier a en logistica y operaciones'],
    'Ingeniería Eléctrica': ['ingenieria electronica', 'ingenieria electrica', 'ingenier a electr nica', 'ingenier a electr nica y telecomunicaciones', 'ingenier a electromec nica',
                              'ingenier a el ctrica',  'ingenier a en energ a', 'ingenier a de petr leos', 'ingenieria telematica', 'ingenier a telem tica', 'ingenieria el ctrica'],
    'Ingeniería Civil': ['ingenieria civil', 'ingenieria de telecomunicaciones', 'ingenieria en telecomunicaciones',
                         'ingenieria oceanografica', 'ingenier a de telecomunicaciones', 'ingenier a civil',  'ingenieria en topografia',  'ingenier a geogr fica y ambiental',
                          'ingenieria geografica y ambiental',  'ingenieria de transporte y vias', 'ingenieria en telematica', 'ingenieria sanitaria',  'ingenieria catastral y geodesia', 'ingenier a oceanogr fica', 'ingenier a sanitaria', 'ingenier a en telem tica', 'ingenier a urbana', 'ingenier a de petr leo y gas',  'ingenieria telem tica'],
    'Ingeniería de Sistemas y Computación': ['ingenieria de sistemas', 'ingenieria en sistemas', 'ingenieria de sistemas y computacion',
                                             'ingenieria multimedia', 'ingenieria en sistemas de informacion',
                                             'ingenieria en nanotecnologia', 'ingenieria en informatica',
                                             'ingenieria de sistemas informaticos', 'ingenieria de minas',
                                             'ingenieria en automatica industrial', 'ingenier a de software', 'ingenier a de sistemas',
                                             'ingenier a en software', 'ingenieria informatica', 'ingenier a en inform tica',  'ingenieria en software',  'ingenier a inform tica',  'ingenieria de software', 'ingenieria en instrumentacion y control', 'ingenier a en tecnolog as de la informaci n y las comunicaciones', 'ingenier a de minas', 'Ciencias de la Computación Científica', 'ingenier a telem tica', 'ingeniieria de software'],
    'Ingeniería Ambiental': ['ingenieria ambiental', 'ingenieria ambiental y sanitaria', 'ingenieria forestal',
                             'ingenieria en energia', 'ingenieria agropecuaria', 'ingenieria agroecologica',
                             'ingenieria agroindustrial', 'ingenieria en procesos agroindustriales', 'ingenieria agroforestal',
                             'ingenieria agricola', 'ingenieria agronomica', 'ingenier a ambiental', 'ingenier a ambiental y sanitaria', 'ingenieria pesquera',
                              'ingenieria geologica', 'ingenier a agron mica',  'ingenier a forestal',  'ingenieria topografica', 'ingenier a agroindustrial', 'ingenieria textil', 'ingenier a agr cola', 'ingenieria de produccion agroindustrial', 'ingenieria agroecol gica', 'ingenier a agropecuaria', 'ingenieria en produccion acuicola', 'produccion agroindustrial', 'ingenier a geol gica', 'ingenieria biologica', 'ingenieria pecuaria',
                             'ingenieria agron mica',  'ingenier a en procesos agroindustriales', 'ingenier a agronomica',  'ingenier a agroecol gica'],
    'Ingeniería Química': ['ingenieria de alimentos', 'ingenieria de materiales', 'ingenieria de plastico',
                            'ingenieria de minas y metalurgia', 'ingenieria de petroleos', 'ingenier a bioqu mica', 'ingenieria de procesos',  'ingenier a de producci n', 'ingenieria qu mica', 'ingenier a de alimentos', 'ingenier a qu mica', 'ingenier a petroqu mica', 'ingenier a de materiales',
                           'ingenieria de produccion'],
    'Ingeniería Biomédica': ['ingenieria biomedica', 'ingenieria biotecnologica',  'bioingenier a', 'ingenieria biom dica', 'ingenier a biom dica'],
    'Otras Ingenierías': ['ingenieria financiera', 'ingenier a multimedia', 'ingenieria en multimedia', 'ingenieria de sonido', 'ingenieria en higiene y seguridad ocupacional',
      'ingenieria sanitaria y ambiental', 'ingenieria de productividad y calidad', 'ingenieria de mercados', 'ingenieria en automatizaci n',  'bioingenieria',  'ingenieria en higiene y seguridad industrial',
      'ingenieria aeronautica',  'ingenieria de la calidad', 'ingenier a aeron utica',  'ingenieria en seguridad y salud para el trabajo',  'ingenieria metalurgica', 'ingenieria en control',  'ingenier a de las artes digitales',
       'ingenieria comercial', 'ingenieria de control', 'ingenieria naval', 'ingenier a naval', 'ingenier a en automatizaci n',  'ingenier a en seguridad y salud para el trabajo', 'ingenieria matematica' ]
}

  # Categorizar carreras
  for grupo, carreras_grupo in grupos_ingenierias.items():
      pattern = '|'.join(carreras_grupo)
      regex = re.compile(pattern, flags=re.IGNORECASE)
      mask = data['ESTU_PRGM_ACADEMICO'].str.contains(regex)
      data.loc[mask, 'ESTU_PRGM_ACADEMICO'] = grupo

  return data

def normalize_program(text):
      text = text.lower()
      text = re.sub(r'[^a-z]+', ' ', text)
      return text.strip()

In [None]:
unique_programs = df['ESTU_PRGM_ACADEMICO'].unique()
print(unique_programs)

['ENFERMERIA' 'DERECHO' 'MERCADEO Y PUBLICIDAD'
 'ADMINISTRACION DE EMPRESAS' 'PSICOLOGIA' 'MEDICINA VETERINARIA'
 'INGENIERIA MECANICA' 'ADMINISTRACIÓN EN SALUD OCUPACIONAL'
 'INGENIERIA INDUSTRIAL' 'ADMINISTRACIÓN FINANCIERA' 'HOTELERIA Y TURISMO'
 'LICENCIATURA EN CIENCIAS SOCIALES' 'LICENCIATURA EN PEDAGOGIA INFANTIL'
 'COMUNICACION SOCIAL' 'CIENCIA POLITICA'
 'PROFESIONAL EN GESTIÓN DE LA SEGURIDAD Y LA SALUD LABORAL'
 'MAESTRO EN MÚSICA' 'INGENIERIA MECATRONICA' 'TRABAJO SOCIAL'
 'LICENCIATURA EN BIOLOGIA Y EDUCACION AMBIENTAL' 'INGENIERIA CIVIL'
 'CONTADURIA PÚBLICA' 'ADMINISTRACION EN SALUD'
 'ADMINISTRACIÓN DE EMPRESAS' 'ESTADISTICA' 'LICENCIATURA EN BIOLOGIA'
 'INGENIERIA AGROINDUSTRIAL' 'ZOOTECNIA' 'COMUNICACION AUDIOVISUAL'
 'LICENCIATURA EN EDUCACION BASICA CON ENFASIS EN HUMANIDADES-INGLES'
 'COMUNICACION SOCIAL  - PERIODISMO' 'SEGURIDAD Y SALUD EN EL TRABAJO'
 'MEDICINA' 'ADMINISTRACION DE LA SEGURIDAD SOCIAL' 'CONTADURIA PUBLICA'
 'ODONTOLOGIA' 'DISEÑO INDUSTRIAL' 'ECON

Este código realiza dos funciones de conversión de datos y luego rellena los valores faltantes con la media calculada:

**Función convertir_a_numerico:** Esta función toma como entrada una cadena que representa el costo de la matrícula universitaria y la convierte en un valor numérico. Para cada cadena de entrada, asigna un valor numérico específico según la descripción de la matrícula.

**Función convertir_a_numerico_horas**: Similar a la función anterior, esta función convierte las cadenas que representan la cantidad de horas trabajadas por semana en valores numéricos. Para cada cadena de entrada, asigna un valor numérico específico según la descripción de las horas de trabajo.

Una vez aplicadas estas funciones de conversión, se calcula la media de la columna 'ESTU_VALORMATRICULAUNIVERSIDAD' y se rellenan los valores faltantes con esta media. De manera similar, se calcula la media de la columna 'ESTU_HORASSEMANATRABAJA' y se rellenan los valores faltantes con esta media. Esto asegura que los datos estén limpios y listos para su posterior análisis y modelado predictivo.

In [None]:
def convertir_a_numerico(cadena):
    if cadena == 'Menos de 500 mil':
        return 250000
    elif cadena == 'Entre 500 mil y menos de 1 millón':
        return 750000
    elif cadena == 'Entre 1 millón y menos de 2.5 millones':
        return 1750000
    elif cadena == 'Entre 2.5 millones y menos de 4 millones':
        return 3250000
    elif cadena == 'Entre 4 millones y menos de 5.5 millones':
        return 4750000
    elif cadena == 'Entre 5.5 millones y menos de 7 millones':
        return 6250000
    elif cadena == 'Más de 7 millones':
        return 8000000
    elif cadena == 'No pagó matrícula':
        return None  # O el valor que desees asignar para representar "No pagó matrícula"
    else:
        return None  # O el valor que desees asignar para otros casos

df['ESTU_VALORMATRICULAUNIVERSIDAD'] = df['ESTU_VALORMATRICULAUNIVERSIDAD'].apply(convertir_a_numerico)

media = df['ESTU_VALORMATRICULAUNIVERSIDAD'].mean()

# Rellenar los datos faltantes con la media
df['ESTU_VALORMATRICULAUNIVERSIDAD'] = df['ESTU_VALORMATRICULAUNIVERSIDAD'].fillna(media)

def convertir_a_numerico_horas(cadena):
    if cadena == 'Menos de 10 horas':
        return 5  # Tomamos 5 horas como valor representativo para "Menos de 10 horas"
    elif cadena == 'Entre 11 y 20 horas':
        return 15  # Tomamos 15 horas como valor representativo para "Entre 11 y 20 horas"
    elif cadena == 'Entre 21 y 30 horas':
        return 25  # Tomamos 25 horas como valor representativo para "Entre 21 y 30 horas"
    elif cadena == 'Más de 30 horas':
        return 35  # Tomamos 35 horas como valor representativo para "Más de 30 horas"
    elif cadena == '0':  # Presumiblemente esto significa que no trabaja
        return None  # O el valor que desees asignar para representar "No trabajó"
    else:
        return None  # O el valor que desees asignar para otros casos

# Aplicar la función a la columna
df['ESTU_HORASSEMANATRABAJA'] = df['ESTU_HORASSEMANATRABAJA'].apply(convertir_a_numerico_horas)

# Calcular la media
media_horas_trabajo = df['ESTU_HORASSEMANATRABAJA'].mean()

# Rellenar los datos faltantes con la media
df['ESTU_HORASSEMANATRABAJA'] = df['ESTU_HORASSEMANATRABAJA'].fillna(media_horas_trabajo)

def normalize_program(text):
      text = text.lower()
      text = re.sub(r'[^a-z]+', ' ', text)
      return text.strip()


In [None]:
unique_programs = df['ESTU_PRGM_ACADEMICO'].unique()
print(unique_programs)

['ENFERMERIA' 'DERECHO' 'MERCADEO Y PUBLICIDAD'
 'ADMINISTRACION DE EMPRESAS' 'PSICOLOGIA' 'MEDICINA VETERINARIA'
 'INGENIERIA MECANICA' 'ADMINISTRACIÓN EN SALUD OCUPACIONAL'
 'INGENIERIA INDUSTRIAL' 'ADMINISTRACIÓN FINANCIERA' 'HOTELERIA Y TURISMO'
 'LICENCIATURA EN CIENCIAS SOCIALES' 'LICENCIATURA EN PEDAGOGIA INFANTIL'
 'COMUNICACION SOCIAL' 'CIENCIA POLITICA'
 'PROFESIONAL EN GESTIÓN DE LA SEGURIDAD Y LA SALUD LABORAL'
 'MAESTRO EN MÚSICA' 'INGENIERIA MECATRONICA' 'TRABAJO SOCIAL'
 'LICENCIATURA EN BIOLOGIA Y EDUCACION AMBIENTAL' 'INGENIERIA CIVIL'
 'CONTADURIA PÚBLICA' 'ADMINISTRACION EN SALUD'
 'ADMINISTRACIÓN DE EMPRESAS' 'ESTADISTICA' 'LICENCIATURA EN BIOLOGIA'
 'INGENIERIA AGROINDUSTRIAL' 'ZOOTECNIA' 'COMUNICACION AUDIOVISUAL'
 'LICENCIATURA EN EDUCACION BASICA CON ENFASIS EN HUMANIDADES-INGLES'
 'COMUNICACION SOCIAL  - PERIODISMO' 'SEGURIDAD Y SALUD EN EL TRABAJO'
 'MEDICINA' 'ADMINISTRACION DE LA SEGURIDAD SOCIAL' 'CONTADURIA PUBLICA'
 'ODONTOLOGIA' 'DISEÑO INDUSTRIAL' 'ECON

# Resultados :

In [None]:
df['ESTU_PRGM_ACADEMICO'] = df['ESTU_PRGM_ACADEMICO'].apply(normalize_program)

In [None]:
df = clean_data(df)

In [None]:
print(df.dtypes)

ESTU_PRGM_ACADEMICO                object
ESTU_VALORMATRICULAUNIVERSIDAD    float64
ESTU_HORASSEMANATRABAJA           float64
FAMI_TIENEINTERNET                  int64
FAMI_TIENELAVADORA                  int64
                                   ...   
ESTRATO__2                          int64
ESTRATO__3                          int64
ESTRATO__4                          int64
ESTRATO__5                          int64
ESTRATO__6                          int64
Length: 80, dtype: object


In [None]:
print(df.dtypes['RENDIMIENTO_GLOBAL'])

object


In [None]:
df

Unnamed: 0_level_0,ESTU_PRGM_ACADEMICO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_TIENEINTERNET,FAMI_TIENELAVADORA,FAMI_TIENEAUTOMOVIL,ESTU_PAGOMATRICULAPROPIO,FAMI_TIENECOMPUTADOR,RENDIMIENTO_GLOBAL,20183,...,DEPARTAMENTO__TOLIMA,DEPARTAMENTO__VALLE,DEPARTAMENTO__VAUPES,ESTRATO__0,ESTRATO__1,ESTRATO__2,ESTRATO__3,ESTRATO__4,ESTRATO__5,ESTRATO__6
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
904256,Enfermeria,6250000.0,5.000000,1,1,1,0,1,medio-alto,0,...,0,0,0,0,0,0,1,0,0,0
645256,Derecho,3250000.0,24.249908,0,1,0,0,1,bajo,0,...,0,0,0,0,0,0,1,0,0,0
308367,Publicidad,3250000.0,35.000000,1,1,0,0,0,bajo,0,...,0,0,0,0,0,0,1,0,0,0
470353,Administración,4750000.0,24.249908,1,1,0,0,1,alto,0,...,0,0,0,0,0,0,0,1,0,0
989032,Psicología,3250000.0,25.000000,1,1,1,0,1,medio-bajo,0,...,0,0,0,0,0,0,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25096,Biología y afines,750000.0,15.000000,1,1,0,1,1,medio-alto,0,...,0,0,0,0,0,1,0,0,0,0
754213,Psicología,3250000.0,35.000000,1,1,0,0,1,bajo,0,...,0,0,0,0,0,0,1,0,0,0
504185,Administración,1750000.0,5.000000,1,1,0,1,1,medio-bajo,1,...,0,0,0,0,0,0,1,0,0,0
986620,Psicología,3250000.0,5.000000,0,0,0,1,1,bajo,0,...,1,0,0,0,1,0,0,0,0,0


In [None]:
mapeo_rangos = {'bajo': 0, 'medio-bajo': 1, 'medio-alto': 2, 'alto': 3}
df['RENDIMIENTO_GLOBAL'] = df['RENDIMIENTO_GLOBAL'].map(mapeo_rangos)

In [None]:
# DATOS FALTANTES

print(df.isnull().sum())


ESTU_PRGM_ACADEMICO               0
ESTU_VALORMATRICULAUNIVERSIDAD    0
ESTU_HORASSEMANATRABAJA           0
FAMI_TIENEINTERNET                0
FAMI_TIENELAVADORA                0
                                 ..
ESTRATO__2                        0
ESTRATO__3                        0
ESTRATO__4                        0
ESTRATO__5                        0
ESTRATO__6                        0
Length: 80, dtype: int64


In [None]:
print(df.columns)

num_columnas = len(df.columns)
print("Número de columnas:", num_columnas)


Index([                       'ESTU_PRGM_ACADEMICO',
                   'ESTU_VALORMATRICULAUNIVERSIDAD',
                          'ESTU_HORASSEMANATRABAJA',
                               'FAMI_TIENEINTERNET',
                               'FAMI_TIENELAVADORA',
                              'FAMI_TIENEAUTOMOVIL',
                         'ESTU_PAGOMATRICULAPROPIO',
                             'FAMI_TIENECOMPUTADOR',
                               'RENDIMIENTO_GLOBAL',
                                              20183,
                                              20184,
                                              20194,
                                              20195,
                                              20196,
                                              20202,
                                              20203,
                                              20212,
                                              20213,
             'Padre_Educación profesional comp

# Predicción

**Importación de bibliotecas:**

Importa las bibliotecas necesarias, como pandas para el manejo de datos, XGBClassifier de XGBoost para el modelo de clasificación y train_test_split de sklearn.model_selection para dividir los datos en conjuntos de entrenamiento y prueba.


**División de los datos:**

Divide el DataFrame df en características (X) y variable objetivo (y). La característica "RENDIMIENTO_GLOBAL" se asigna a y, mientras que el resto de las características se asignan a X. Luego, utiliza train_test_split para dividir los datos en conjuntos de entrenamiento (X_train, y_train) y prueba (X_test, y_test). En este caso, el 80% de los datos se utiliza para entrenamiento y el 20% para pruebas.


**Creación del modelo XGBoost:**

Se crea un modelo XGBoost utilizando XGBClassifier con ciertos hiperparámetros como el número de árboles (n_estimators), la tasa de aprendizaje (learning_rate), la profundidad máxima del árbol (max_depth), y el objetivo de la clasificación (objective='multi:softmax').

**Entrenamiento del modelo:**

 Se entrena el modelo XGBoost utilizando los datos de entrenamiento (X_train, y_train) con el método fit.

**Evaluación del modelo:**

 Se evalúa la precisión del modelo utilizando los datos de prueba (X_test, y_test) con el método score. La precisión calculada se imprime en la consola.

In [None]:
pip install xgboost



In [None]:
encoded_df_programa = pd.get_dummies(df['ESTU_PRGM_ACADEMICO'].astype(str), prefix='PROGRAMA_').astype(int)
df = pd.concat([df, encoded_df_programa], axis=1)
df.drop('ESTU_PRGM_ACADEMICO', axis=1, inplace=True)

In [None]:
import pandas as pd
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split

# Asumiendo que df ya está definido y cargado
# df.set_index('ID', inplace=True)

X = df.drop("RENDIMIENTO_GLOBAL", axis=1)  # Características
y = df["RENDIMIENTO_GLOBAL"]  # Variable objetivo

# Dividir los datos en conjunto de entrenamiento y conjunto de prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo XGBoost
xgb_model = XGBClassifier(n_estimators=2000, learning_rate=0.1, max_depth=6, objective='multi:softmax')

# Entrenar el modelo
xgb_model.fit(X_train, y_train)

# Evaluar el modelo
accuracy = xgb_model.score(X_test, y_test)
print("Accuracy:", accuracy)


Accuracy: 0.42943682310469317


# Limpiar Test.CSV

 Esta parte del código limpia y transforma el conjunto de datos de prueba (test_data), está siguiendo los mismos pasos que se aplicaron previamente al conjunto de datos de entrenamiento (df), asegurando así que ambos conjuntos de datos estén preparados de manera consistente para su posterior uso en el modelo predictivo.

In [None]:
test_data = pd.read_csv("test.csv")
test_data['ESTU_PRGM_ACADEMICO'] = test_data['ESTU_PRGM_ACADEMICO'].apply(normalize_program)
test_data = clean_data(test_data)

In [None]:
def convertir_a_numerico_horas(cadena):
    if cadena == 'Menos de 10 horas':
        return 5  # Tomamos 5 horas como valor representativo para "Menos de 10 horas"
    elif cadena == 'Entre 11 y 20 horas':
        return 15  # Tomamos 15 horas como valor representativo para "Entre 11 y 20 horas"
    elif cadena == 'Entre 21 y 30 horas':
        return 25  # Tomamos 25 horas como valor representativo para "Entre 21 y 30 horas"
    elif cadena == 'Más de 30 horas':
        return 35  # Tomamos 35 horas como valor representativo para "Más de 30 horas"
    elif cadena == '0':  # NO trabaja
        return None
    else:
        return None

# Aplicar la función a la columna
test_data['ESTU_HORASSEMANATRABAJA'] = test_data['ESTU_HORASSEMANATRABAJA'].apply(convertir_a_numerico_horas)

# Calcular la media
media_horas_trabajo = test_data['ESTU_HORASSEMANATRABAJA'].mean()

# Rellenar los datos faltantes con la media
test_data['ESTU_HORASSEMANATRABAJA'] = test_data['ESTU_HORASSEMANATRABAJA'].fillna(media_horas_trabajo)

def convertir_a_numerico(cadena):
    if cadena == 'Menos de 500 mil':
        return 250000
    elif cadena == 'Entre 500 mil y menos de 1 millón':
        return 750000
    elif cadena == 'Entre 1 millón y menos de 2.5 millones':
        return 1750000
    elif cadena == 'Entre 2.5 millones y menos de 4 millones':
        return 3250000
    elif cadena == 'Entre 4 millones y menos de 5.5 millones':
        return 4750000
    elif cadena == 'Entre 5.5 millones y menos de 7 millones':
        return 6250000
    elif cadena == 'Más de 7 millones':
        return 8000000
    elif cadena == 'No pagó matrícula':
        return None  # O el valor que desees asignar para representar "No pagó matrícula"
    else:
        return None  # O el valor que desees asignar para otros casos

test_data['ESTU_VALORMATRICULAUNIVERSIDAD'] = test_data['ESTU_VALORMATRICULAUNIVERSIDAD'].apply(convertir_a_numerico)

media = test_data['ESTU_VALORMATRICULAUNIVERSIDAD'].mean()

# Rellenar los datos faltantes con la media
test_data['ESTU_VALORMATRICULAUNIVERSIDAD'] = test_data['ESTU_VALORMATRICULAUNIVERSIDAD'].fillna(media)



In [None]:
#test_data.set_index('ID', inplace=True)

In [None]:
print(test_data.columns)

Index([                                        'ID',
                              'ESTU_PRGM_ACADEMICO',
                   'ESTU_VALORMATRICULAUNIVERSIDAD',
                          'ESTU_HORASSEMANATRABAJA',
                               'FAMI_TIENEINTERNET',
                               'FAMI_TIENELAVADORA',
                              'FAMI_TIENEAUTOMOVIL',
                         'ESTU_PAGOMATRICULAPROPIO',
                             'FAMI_TIENECOMPUTADOR',
                                              20183,
                                              20184,
                                              20194,
                                              20195,
                                              20196,
                                              20202,
                                              20203,
                                              20212,
                                              20213,
             'Padre_Educación profesional comp

# Predecir Test

Este código realiza la predicción del rendimiento global utilizando el modelo entrenado (xgb_model) en el conjunto de datos de prueba (test_data_encoded).

**Codificación de variables categóricas:** El conjunto de datos de prueba (test_data) se codifica en variables dummy para asegurar que tenga la misma estructura que el conjunto de datos de entrenamiento (X_train).

**Asegurar consistencia de columnas:** Se asegura que las columnas en el conjunto de datos de prueba codificado coincidan con las columnas en el conjunto de datos de entrenamiento, rellenando cualquier valor faltante con ceros.

**Predicción:** Se utilizan las características del conjunto de datos de prueba codificado para realizar predicciones de rendimiento global utilizando el modelo XGBoost previamente entrenado (xgb_model).

**Creación de un DataFrame de resultados**: Se crea un DataFrame que contiene el ID de cada instancia del conjunto de datos de prueba y las predicciones de rendimiento global asociadas.

**Guardado del archivo de resultados:** El DataFrame se guarda como un archivo CSV llamado 'submission.csv' para su posterior análisis y evaluación.

**Reemplazo de valores numéricos por etiquetas:** Los valores numéricos en la columna de rendimiento global se reemplazan por etiquetas más descriptivas, como 'bajo', 'medio-bajo', 'medio-alto' y 'alto'.

**Renombrar columnas**: La columna de predicciones se renombra como 'RENDIMIENTO_GLOBAL' para mayor claridad.

**Verificación y guardado final**: Se imprimen las primeras filas del DataFrame resultante para verificar los cambios y luego se guarda el DataFrame modificado como un archivo CSV nuevamente.

In [None]:
print(test_data.columns)

num_columnas_test = len(test_data.columns)
print("Número de columnas:", num_columnas_test)

Index([                                        'ID',
                              'ESTU_PRGM_ACADEMICO',
                   'ESTU_VALORMATRICULAUNIVERSIDAD',
                          'ESTU_HORASSEMANATRABAJA',
                               'FAMI_TIENEINTERNET',
                               'FAMI_TIENELAVADORA',
                              'FAMI_TIENEAUTOMOVIL',
                         'ESTU_PAGOMATRICULAPROPIO',
                             'FAMI_TIENECOMPUTADOR',
                                              20183,
                                              20184,
                                              20194,
                                              20195,
                                              20196,
                                              20202,
                                              20203,
                                              20212,
                                              20213,
             'Padre_Educación profesional comp

In [None]:
test_data_encoded = pd.get_dummies(test_data.drop("ID", axis=1), drop_first=True)

# Asegurar que las columnas en test_data_encoded coincidan con las columnas en X_train
test_data_encoded = test_data_encoded.reindex(columns=X_train.columns, fill_value=0)

# Realizar predicciones con el modelo entrenado
predictions = xgb_model.predict(test_data_encoded)

# Crear un DataFrame con el ID y las predicciones
submission_df = pd.DataFrame({'ID': test_data['ID'], 'RENDIMIENTO_GLOBAL_PREDICHO': predictions})

# Guardar el DataFrame como un archivo CSV
submission_df.to_csv('submission.csv', index=False)

In [None]:
#print("Shape of test_data['ID']: ", test_data['ID'].shape)
#print("Shape of predictions: ", predictions.shape)

In [None]:
submission = pd.read_csv('submission.csv')

print(submission.head())

       ID  RENDIMIENTO_GLOBAL_PREDICHO
0  550236                            1
1   98545                            2
2  499179                            0
3  782980                            0
4  785185                            0


In [None]:
submission = pd.read_csv('submission.csv')

# Reemplazar los valores numéricos por strings
submission['RENDIMIENTO_GLOBAL_PREDICHO'] = submission['RENDIMIENTO_GLOBAL_PREDICHO'].replace({
    0: 'bajo',
    1: 'medio-bajo',
    2: 'medio-alto',
    3: 'alto'
})

# Renombrar la columna
submission = submission.rename(columns={'RENDIMIENTO_GLOBAL_PREDICHO': 'RENDIMIENTO_GLOBAL'})

# Imprimir las primeras filas para verificar los cambios
print(submission.head())

       ID RENDIMIENTO_GLOBAL
0  550236         medio-bajo
1   98545         medio-alto
2  499179               bajo
3  782980               bajo
4  785185               bajo


In [None]:
submission.to_csv('submission.csv', index=False)