In [1]:
import random
import pandas as pd

In [2]:
columns: list[str] = [
    "CODIGO PERIODO",
    "CODIGO ESTUDIANTE",
    "DES_APELLIDO_PATERNO",
    "DES_APELLIDO_MATERNO",
    "DES_NOMBRES",
    "GENERO",
    "EDAD",
    "CORREO_UPC",
    "CORREO_PERSONAL_1",
    "MOBILE PHONE",
    "FLAG_ESTUDIANTE_PROVINCIA",
    "CARRERA",
    "FACULTAD",
    "CAMPUS",
    "FECHA MATRICULA",
    "IND_CICLO_ALUMNO",
    "NRO_CICLOS_ORDINARIO_MAT",
    "NRO_CICLOS_ORDINARIO_RET",
    "NRO_CICLOS_EXTRAORDINARIO_MAT",
    "NRO_CICLOS_EXTRAORDINARIO_RET",
    "RELACION CRED.APROBADOS/CRED.MATRICULADOS EN TODO SU AVANCE",
    "CLASIFICACIÓN EQUIFAX",
    "FLAG_TIENE_DEUDA",
    "MONTO_DEUDA",
    "FLAG_COLEGIO_PROCEDENCIA_ES_PROVINCIA",
    "FLAG_BECA_18",
    "FLAG_BENEFICIO",
    "TIPO BENEFICIO",
    "MODALIDAD DE INGRESO",
    "CICLO DE INGRESO",
    "FLAG_TRABAJA",
    "FLAG_LLEVÓ NIVELACIÓN",
    "NIVEL SOCIOECONÓMICO",
    "CATEGORÍA DE PAGO",
    "CANTIDAD CURSOS MATRICULADOS EN RIESGO",
    "CANTIDAD CURSOS MATRICULADOS EN PRESENCIAL",
    "CANTIDAD CURSOS MATRICULADOS EN VIRTUAL",
    "TOTAL DE CURSOS MATRICULADOS EN TODO SU AVANCE",
    "TOTAL DE CURSOS APROBADOS EN TODO SU AVANCE",
    "TOTAL DE CURSOS DESAPROBADOS EN TODO SU AVANCE",
    "TOTAL DE RETIROS DE ASIGNATURA EN TODO SU AVANCE",
    "TOTAL DE CURSOS MATRICULADOS POR CICLO",
    "TOTAL DE RETIROS DE ASIGNATURA POR CICLO",
    "TOTAL DE CURSOS APROBADOS POR CICLO",
    "TOTAL DE CURSOS DESAPROBADOS POR CICLO",
    "TOTAL SANCIONES DISCIPLINARIAS POR CICLO",
    "TOTAL SANCIONES DISCIPLINARIAS EN TODO SU AVANCE",
    "TOTAL DE CRÉDITOS APROBADOS POR CICLO",
    "TOTAL DE CRÉDITOS DESAPROBADOS POR CICLO",
    "TOTAL DE CRÉDITOS APROBADOS EN TODO SU AVANCE",
    "TOTAL DE CRÉDITOS DESAPROBADOS EN TODO SU AVANCE",
    "TOTAL DE CRÉDITOS MATRICULADOS POR CICLO",
    "TOTAL DE CRÉDITOS MATRICULADOS EN TODO SU AVANCE",
    "PROMEDIO PONDERADO ACUMULADO",
    "PROMEDIO POR CICLO",
    "NÚMERO DE DOBLE DESAPROBACIÓN POR CICLO",
    "NÚMERO DE DOBLE DESAPROBACIÓN EN TODO SU AVANCE",
    "NÚMERO DE ASISTENCIAS POR CICLO",
    "PORCENTAJE DE ASISTENCIAS POR CICLO",
    "NÚMERO DE INASISTENCIAS POR CICLO",
    "PORCENTAJE DE INASISTENCIAS",
    "FLAG ABANDONO ESTUDIOS",
]

In [3]:
careers: list[str] = [
    "Ciencias de la Computación",
    "Ingeniería Civil",
    "Ingeniería de Gestión Empresarial",
    "Ingeniería de Gestión Minera",
    "Ingeniería de Sistemas de Información",
    "Ingeniería de Software",
    "Ingeniería Electrónica",
    "Ingeniería Industrial",
    "Ingeniería Mecatrónica",
    "Ingeniería Ambiental",
]
weights_ind_ciclo = [
    0.15,
    0.15,
    0.15,
    0.15,
    0.1,
    0.1,
    0.1,
    0.03,
    0.03,
    0.04,
]

weights_modalidad = [
    0.26,
    0.45,
    0.0008,
    0.0164,
    0.0049,
    0.0075,
    0.0056,
    0.0926,
    0.001,
    0.006,
    0.092,
    0.006,
]

tipo_beneficio = [
    "SIN BENEFICIO",
    "DESCUENTOS CORPORATIVOS",
    "BECA DE HONOR",
    "DESCUENTO RETENCION",
]

modalidad_ingreso = [
    "SELECCIÓN PREFERENTE",
    "EVALUACION INTEGRAL",
    "EVALUACIÓN INTEGRAL ARIZONA ",
    "BECAS PRONABEC",
    "BECAS HIJO DE DOCENTES",
    "SELECCIÓN PREFERENTE ARIZONA",
    "CONVENIO INT. CON DIPLOMA",
    "EXONER.GRADO TITULO",
    "TRASLADO EXTERNO ARIZONA",
    "TRASLADO EXTERNO",
    "EXONER.GRADO TITULO",
    "CONVENIO INT. SIN DIPLOMA",
]

In [4]:
def generar_tres_enteros_que_sumen(n_list: list[int]):
    a_list = []
    b_list = []
    c_list = []
    for n in n_list:
        # Generar dos números aleatorios entre 0 y n
        a = random.randint(0, n)
        b = random.randint(0, n - a)
        # Calcular el tercer número
        c = n - a - b
        a_list.append(a)
        b_list.append(b)
        c_list.append(c)
    return a_list, b_list, c_list

In [5]:
def generate_dataset_base(anio: int = 2019, k: int = 45000) -> pd.DataFrame:

    df = pd.DataFrame(columns=columns)
    # ----------------- CREANDO LOS VALORES
    # Periodo ✔
    period = [f"{anio}-1" for _ in range(k)]
    # Apellidos ✔
    # Nombres ✔
    # Genero ✔
    # Edad ✔
    # Correo UPC ✔
    # Correo personal ✔
    # Mobile phone ✔
    # Flag estudiante provincia (SI / NO (25% SI - 75% NO)) ✔
    # Carrera ✔
    # Facultad ✔
    # Campus ✔
    # Fecha matricula ✔
    # Ind ciclo alumno (Valor entre 1 y 10 ✔
    # Del ciclo 1 al 4: 60%
    # Del ciclo 5 al 7: 30%
    # Del ciclo 8 al 10: 10%)
    ind_ciclo = random.choices(
        [i for i in range(1, 11)], weights=weights_ind_ciclo, k=k
    )
    # Codigo estudiante ✔
    codigo_estudiante = [
        f"u{anio-int(ind_ciclo[i]/2)}{2 - ind_ciclo[i]%2}{i:0<3}" for i in range(k)
    ]

    # Nro ciclos ordinario mat - Que tenga relación con la fila 17 (Ojo: La suma de la fila 18 y 19 no debería ser mayor que el valor de la fila 17) ✔
    ordin_ciclo_mat = [random.randint(1, i + 1) for i in ind_ciclo]

    # Nro ciclos ordinario ret ✔
    ordin_ciclo_ret = [ind_ciclo[i] - ordin_ciclo_mat[i] for i in range(len(ind_ciclo))]
    # Nro ciclos extraordinario mat (NO CONSIDERAR)
    # Nro ciclos extraordinario ret (NO CONSIDERAR)
    # Relacion cred.aprobados/cred.matriculados en todo su avance (Valor entre 0 y 1)
    # TODO
    # Clasificación Equifax (NO CONSIDERAR)
    # Flag tiene deuda (SI / NO (40% SI - 60% NO)) ✔
    tiene_deuda = random.choices(["SI", "NO"], weights=(0.4, 0.6), k=k)

    # Monto deuda (Ojo: Si aquí sale SI: en monto deuda poner un valor aleatorio entre 0 y 10000 en rangos de 2000, osea los valores que podrían aparecer sería 2000, 4000, 6000, 8000 y 10000)
    monto_deuda = [
        (random.choice([0, 2000, 4000, 6000, 8000, 10000]) if i == "SI" else 0)
        for i in tiene_deuda
    ]
    # Flag colegio procedencia es provincia (SI / NO (25% SI - 75% NO)) ✔
    # Flag beca 18 (SI / NO (10% SI - 90% NO)) ✔
    # Flag beneficio ✔
    # Tipo beneficio ✔
    # Modalidad de ingreso ✔
    # Ciclo de ingreso ✔
    df["CICLO DE INGRESO"] = [
        f"{int(anio-ind_ciclo[i]/2)}-{2-ind_ciclo[i]%2}" for i in range(k)
    ]
    # Flag trabaja (SI / NO (25% SI - 75% NO)) ✔
    # Flag llevó nivelación (SI / NO (75% SI - 25% NO)) ✔
    # Nivel socioeconómico (A - B - C - D - E (A, B, C 70% / D 25% / E 5%)) ✔
    # Categoría de pago (Q - R - S - T - U - X - Y - Z) ✔
    # Cantidad cursos matriculados en riesgo (Valor entre 1 y 6) ✔
    cursos_peligro = [random.randint(1, 6) for i in range(k)]

    # Cantidad cursos matriculados en presencial (Valor entre 1 y 6) -> Ojo: La suma de la fila 39 y 40 no debería ser mayor de 7 ✔
    cursos_presencial = [random.randint(1, 6) for i in range(k)]

    # Cantidad cursos matriculados en virtual (Valor entre 1 y 6) ✔
    cursos_virtual = [random.randint(1, 6) for i in range(k)]

    # TOTAL DE CURSOS MATRICULADOS EN TODO SU AVANCE (Considerar el año del codigo del estudiante (fila 3). Masomenos 5 cursos por ciclo) ✔
    total_cursos = [i * 5 for i in ind_ciclo]

    # TOTAL DE CURSOS APROBADOS EN TODO SU AVANCE, TOTAL DE CURSOS DESAPROBADOS EN TODO SU AVANCE, TOTAL DE RETIROS DE ASIGNATURA EN TODO SU AVANCE ✔
    cursos_aprobados, cursos_desaprobados, cursos_retirados = (
        generar_tres_enteros_que_sumen(total_cursos)
    )
    # TOTAL DE CURSOS MATRICULADOS POR CICLO ✔
    cursos_matriculados_ciclo = [random.randint(3, 7) for _ in range(k)]
    # TOTAL DE RETIROS DE ASIGNATURA POR CICLO
    retiros_ciclo = [random.randint(1, 6) for _ in cursos_matriculados_ciclo]
    # TOTAL DE CURSOS APROBADOS POR CICLO (Ojo: La suma de la fila 45 y 46 no debería ser mayor que la fila 43)
    cursos_aprobados_ciclo = [random.randint(1, i) for i in cursos_matriculados_ciclo]
    # TOTAL DE CURSOS DESAPROBADOS POR CICLO
    cursos_desaprobados_ciclo = [
        (cursos_matriculados_ciclo[i] - cursos_aprobados_ciclo[i]) for i in range(k)
    ]
    # TOTAL SANCIONES DISCIPLINARIAS POR CICLO (NO CONSIDERAR)
    # TOTAL SANCIONES DISCIPLINARIAS EN TODO SU AVANCE (NO CONSIDERAR)
    # TOTAL DE CRÉDITOS APROBADOS POR CICLO (Multiplicar el valor de la fila 45 por 4)
    total_creditos_aprobados_ciclo = [i * 4 for i in cursos_aprobados_ciclo]
    # TOTAL DE CRÉDITOS DESAPROBADOS POR CICLO (Multiplicar el valor de la fila 46 por 4)
    total_creditos_desaprobados_ciclo = [i * 4 for i in cursos_desaprobados_ciclo]
    # TOTAL DE CRÉDITOS APROBADOS EN TODO SU AVANCE
    total_creditos_aprobados = [i * 4 for i in cursos_aprobados]
    # TOTAL DE CRÉDITOS DESAPROBADOS EN TODO SU AVANCE
    total_creditos_desaprobados = [i * 4 for i in cursos_desaprobados]
    # TOTAL DE CRÉDITOS MATRICULADOS POR CICLO (Multiplicar el valor de la fila 43 por 4)
    total_creditos_matriculados_ciclo = [i * 4 for i in cursos_matriculados_ciclo]
    # TOTAL DE CRÉDITOS MATRICULADOS EN TODO SU AVANCE
    total_creditos_matriculados = [i * 4 for i in total_cursos]
    # PROMEDIO PONDERADO ACUMULADO
    promedio_ponderado = [random.uniform(5, 20) for _ in range(k)]
    # PROMEDIO POR CICLO (Valor entre 7 y 18.5)
    promedio_ciclo = [random.uniform(7, 18.5) for _ in range(k)]
    # NÚMERO DE DOBLE DESAPROBACIÓN POR CICLO (Valor entre 1 y 6)
    numero_doble_desaprobacion_ciclo = [random.randint(1, 6) for _ in range(k)]
    # NÚMERO DE DOBLE DESAPROBACIÓN EN TODO SU AVANCE (Que tenga relación con la fila 41)
    numero_doble_desaprobacion = [random.randint(0, i) for i in cursos_desaprobados]
    # NÚMERO DE ASISTENCIAS POR CICLO (Valor entre 50 y 140)
    numero_asistencias_ciclo = [random.randint(50, 140) for _ in range(k)]

    # NÚMERO DE INASISTENCIAS POR CICLO (Valor entre 15 y 40)
    numero_inasistencias_ciclo = [random.randint(15, 40) for _ in range(k)]

    # PORCENTAJE DE ASISTENCIAS POR CICLO (Que tenga relación con la fila 59)
    porcentaje_asistencias_ciclo = [
        numero_asistencias_ciclo[i]
        / (numero_asistencias_ciclo[i] + numero_inasistencias_ciclo[i])
        for i in range(k)
    ]
    # PORCENTAJE DE INASISTENCIAS
    porcentaje_inasistencias = [
        numero_inasistencias_ciclo[i]
        / (numero_asistencias_ciclo[i] + numero_inasistencias_ciclo[i])
        for i in range(k)
    ]
    # FLAG ABANDONO ESTUDIOS (En relación con la fila 17:
    # Del ciclo 1 al 4: SÍ al 25% de la población matriculada y NO al 75%.
    # Del ciclo 5 al 7: SÍ al 10% de la población matriculada y NO al 90%.
    # Del ciclo 8 al 10: SÍ al 2% de la población matriculada y NO al 98%)
    abandono = []
    for i in ind_ciclo:
        if i <= 4:
            abandono.append(random.choices(["SI", "NO"], weights=(0.25, 0.75), k=1)[0])
        elif i <= 7:
            abandono.append(random.choices(["SI", "NO"], weights=(0.1, 0.9), k=1)[0])
        else:
            abandono.append(random.choices(["SI", "NO"], weights=(0.02, 0.98), k=1)[0])
    # -----------------> ASIGNANDO LOS VALORES

    # PERIODO
    df["CODIGO PERIODO"] = period
    # Codigo estudiante
    df["CODIGO ESTUDIANTE"] = codigo_estudiante
    # Apellidos
    df["DES_APELLIDO_PATERNO"] = [f"Apellido {i}" for i in range(k)]
    df["DES_APELLIDO_MATERNO"] = [f"Apellido {i}" for i in range(k)]
    # Nombres
    df["DES_NOMBRES"] = [f"Nombre{i}" for i in range(k)]
    # Genero
    df["GENERO"] = [random.choice(["M", "F"]) for i in range(k)]
    # Edad
    df["EDAD"] = [random.randint(18, 30) for i in range(k)]
    # Correo UPC
    df["CORREO_UPC"] = [(f"u{i}@upc.edu.pe") for i in range(k)]
    # Correo personal
    df["CORREO_PERSONAL_1"] = [(f"personal_{i}@gmail.com") for i in range(k)]
    # Mobile phone
    df["MOBILE PHONE"] = [(f"9{i}000000") for i in range(k)]
    # # Flag estudiante provincia (SI / NO (25% SI - 75% NO))
    df["FLAG_ESTUDIANTE_PROVINCIA"] = random.choices(
        ["SI", "NO"], weights=(0.25, 0.75), k=k
    )
    # Carrera
    df["CARRERA"] = [random.choice(careers) for i in range(k)]

    # Facultad
    df["FACULTAD"] = ["Ingeniería" for i in range(k)]

    # Campus
    df["CAMPUS"] = ["Monterrico" for i in range(k)]

    # Fecha matricula
    df["FECHA MATRICULA"] = [f"{anio}-0{i}-01" for i in range(k)]

    # Ind ciclo alumno
    df["IND_CICLO_ALUMNO"] = ind_ciclo

    # Nro ciclos ordinario ret
    df["NRO_CICLOS_ORDINARIO_RET"] = ordin_ciclo_ret

    # Nro ciclos ordinario mat
    df["NRO_CICLOS_ORDINARIO_MAT"] = ordin_ciclo_mat

    # Flag tiene deuda
    df["FLAG_TIENE_DEUDA"] = tiene_deuda

    # Monto deuda
    df["MONTO_DEUDA"] = monto_deuda

    # Flag colegio procedencia es provincia (SI / NO (25% SI - 75% NO))
    df["FLAG_COLEGIO_PROCEDENCIA_ES_PROVINCIA"] = random.choices(
        ["SI", "NO"], weights=(0.25, 0.75), k=k
    )

    # Flag beca 18 (SI / NO (10% SI - 90% NO))
    df["FLAG_BECA_18"] = random.choices(["SI", "NO"], weights=(0.1, 0.9), k=k)

    # Flag beneficio
    df["FLAG_BENEFICIO"] = random.choices(["SI", "NO"], k=k)

    # Tipo beneficio
    df["TIPO BENEFICIO"] = random.choices(
        tipo_beneficio, weights=(0.5, 0.3353, 0.735, 0.0653), k=k
    )

    # Modalidad de ingreso
    df["MODALIDAD DE INGRESO"] = random.choices(
        modalidad_ingreso, weights=weights_modalidad, k=k
    )

    # Flag trabaja (SI / NO (25% SI - 75% NO))
    df["FLAG_TRABAJA"] = random.choices(["SI", "NO"], weights=(0.25, 0.75), k=k)

    # Flag llevó nivelación (SI / NO (75% SI - 25% NO))
    df["FLAG_LLEVÓ NIVELACIÓN"] = random.choices(
        ["SI", "NO"], weights=(0.75, 0.25), k=k
    )

    # Nivel socioeconómico (A - B - C - D - E (A, B, C 70% / D 25% / E 5%))
    df["NIVEL SOCIOECONÓMICO"] = random.choices(
        ["A", "B", "C", "D", "E"], weights=(0.7, 0.7, 0.7, 0.25, 0.05), k=k
    )

    # Categoría de pago (Q - R - S - T - U - X - Y - Z)
    df["CATEGORÍA DE PAGO"] = random.choices(
        ["Q", "R", "S", "T", "U", "X", "Y", "Z"], k=k
    )

    # Cantidad cursos matriculados en riesgo (Valor entre 1 y 6)
    df["CANTIDAD CURSOS MATRICULADOS EN RIESGO"] = cursos_peligro

    # Cantidad cursos matriculados en presencial (Valor entre 1 y 6) -> Ojo: La suma de la fila 39 y 40 no debería ser mayor de 7
    df["CANTIDAD CURSOS MATRICULADOS EN PRESENCIAL"] = cursos_presencial

    # Cantidad cursos matriculados en virtual (Valor entre 1 y 6)
    df["CANTIDAD CURSOS MATRICULADOS EN VIRTUAL"] = cursos_virtual
    # TOTAL DE CURSOS MATRICULADOS EN TODO SU AVANCE (Considerar el año del codigo del estudiante (fila 3). Masomenos 5 cursos por ciclo)
    df["TOTAL DE CURSOS MATRICULADOS EN TODO SU AVANCE"] = total_cursos
    # TOTAL DE CURSOS APROBADOS EN TODO SU AVANCE
    df["TOTAL DE CURSOS APROBADOS EN TODO SU AVANCE"] = cursos_aprobados
    # TOTAL DE CURSOS DESAPROBADOS EN TODO SU AVANCE
    df["TOTAL DE CURSOS DESAPROBADOS EN TODO SU AVANCE"] = cursos_desaprobados
    # TOTAL DE RETIROS DE ASIGNATURA EN TODO SU AVANCE
    df["TOTAL DE RETIROS DE ASIGNATURA EN TODO SU AVANCE"] = cursos_retirados
    # TOTAL DE CURSOS MATRICULADOS POR CICLO
    df["TOTAL DE CURSOS MATRICULADOS POR CICLO"] = cursos_matriculados_ciclo
    # TOTAL DE RETIROS DE ASIGNATURA POR CICLO
    df["TOTAL DE RETIROS DE ASIGNATURA POR CICLO"] = retiros_ciclo
    # TOTAL DE CURSOS APROBADOS POR CICLO (Ojo: La suma de la fila 45 y 46 no debería ser mayor que la fila 43)
    df["TOTAL DE CURSOS APROBADOS POR CICLO"] = cursos_aprobados_ciclo
    # TOTAL DE CURSOS DESAPROBADOS POR CICLO
    df["TOTAL DE CURSOS DESAPROBADOS POR CICLO"] = cursos_desaprobados_ciclo
    # TOTAL SANCIONES DISCIPLINARIAS POR CICLO (NO CONSIDERAR)
    # TOTAL SANCIONES DISCIPLINARIAS EN TODO SU AVANCE (NO CONSIDERAR)
    df["TOTAL DE CRÉDITOS APROBADOS POR CICLO"] = total_creditos_aprobados
    # TOTAL DE CRÉDITOS APROBADOS POR CICLO
    df["TOTAL DE CRÉDITOS DESAPROBADOS POR CICLO"] = total_creditos_desaprobados_ciclo
    # TOTAL DE CRÉDITOS DESAPROBADOS POR CICLO
    df["TOTAL DE CRÉDITOS APROBADOS EN TODO SU AVANCE"] = total_creditos_aprobados
    # TOTAL DE CRÉDITOS APROBADOS EN TODO SU AVANCE
    df["TOTAL DE CRÉDITOS APROBADOS EN TODO SU AVANCE"] = total_creditos_aprobados
    # TOTAL DE CRÉDITOS DESAPROBADOS EN TODO SU AVANCE
    df["TOTAL DE CRÉDITOS DESAPROBADOS EN TODO SU AVANCE"] = total_creditos_desaprobados
    # TOTAL DE CRÉDITOS MATRICULADOS POR CICLO
    df["TOTAL DE CRÉDITOS MATRICULADOS POR CICLO"] = total_creditos_matriculados_ciclo
    # TOTAL DE CRÉDITOS MATRICULADOS EN TODO SU AVANCE
    df["TOTAL DE CRÉDITOS MATRICULADOS EN TODO SU AVANCE"] = total_creditos_matriculados
    # PROMEDIO PONDERADO ACUMULADO
    df["PROMEDIO PONDERADO ACUMULADO"] = promedio_ponderado
    # PROMEDIO POR CICLO
    df["PROMEDIO POR CICLO"] = promedio_ciclo
    # NÚMERO DE DOBLE DESAPROBACIÓN POR CICLO
    df["NÚMERO DE DOBLE DESAPROBACIÓN POR CICLO"] = numero_doble_desaprobacion_ciclo
    # NÚMERO DE DOBLE DESAPROBACIÓN EN TODO SU AVANCE
    df["NÚMERO DE DOBLE DESAPROBACIÓN EN TODO SU AVANCE"] = numero_doble_desaprobacion
    # NÚMERO DE ASISTENCIAS POR CICLO
    df["NÚMERO DE ASISTENCIAS POR CICLO"] = numero_asistencias_ciclo
    # PORCENTAJE DE ASISTENCIAS POR CICLO
    df["PORCENTAJE DE ASISTENCIAS POR CICLO"] = porcentaje_asistencias_ciclo
    # NÚMERO DE INASISTENCIAS POR CICLO
    df["NÚMERO DE INASISTENCIAS POR CICLO"] = numero_inasistencias_ciclo
    # PORCENTAJE DE INASISTENCIAS
    df["PORCENTAJE DE INASISTENCIAS"] = porcentaje_inasistencias
    # FLAG ABANDONO ESTUDIOS
    df["FLAG ABANDONO ESTUDIOS"] = abandono
    return df

In [6]:
columns_empty: list[str] = [
    "NRO_CICLOS_EXTRAORDINARIO_MAT",
    "NRO_CICLOS_EXTRAORDINARIO_RET",
    "RELACION CRED.APROBADOS/CRED.MATRICULADOS EN TODO SU AVANCE",
    "CLASIFICACIÓN EQUIFAX",
    "TOTAL SANCIONES DISCIPLINARIAS POR CICLO",
    "TOTAL SANCIONES DISCIPLINARIAS EN TODO SU AVANCE",
    # "FLAG ABANDONO ESTUDIOS",
]

In [7]:
N_ESTUDIANTES=500
test = generate_dataset_base(anio=2019,k=N_ESTUDIANTES)

In [8]:
test.drop(columns_empty, axis=1, inplace=True)
test

Unnamed: 0,CODIGO PERIODO,CODIGO ESTUDIANTE,DES_APELLIDO_PATERNO,DES_APELLIDO_MATERNO,DES_NOMBRES,GENERO,EDAD,CORREO_UPC,CORREO_PERSONAL_1,MOBILE PHONE,...,TOTAL DE CRÉDITOS MATRICULADOS EN TODO SU AVANCE,PROMEDIO PONDERADO ACUMULADO,PROMEDIO POR CICLO,NÚMERO DE DOBLE DESAPROBACIÓN POR CICLO,NÚMERO DE DOBLE DESAPROBACIÓN EN TODO SU AVANCE,NÚMERO DE ASISTENCIAS POR CICLO,PORCENTAJE DE ASISTENCIAS POR CICLO,NÚMERO DE INASISTENCIAS POR CICLO,PORCENTAJE DE INASISTENCIAS,FLAG ABANDONO ESTUDIOS
0,2019-1,u20162000,Apellido 0,Apellido 0,Nombre0,F,26,u0@upc.edu.pe,personal_0@gmail.com,90000000,...,120,11.651341,13.524804,6,5,73,0.760417,23,0.239583,NO
1,2019-1,u20172100,Apellido 1,Apellido 1,Nombre1,M,29,u1@upc.edu.pe,personal_1@gmail.com,91000000,...,80,6.140069,9.955426,4,5,85,0.685484,39,0.314516,NO
2,2019-1,u20181200,Apellido 2,Apellido 2,Nombre2,M,24,u2@upc.edu.pe,personal_2@gmail.com,92000000,...,60,18.266935,10.456070,6,1,121,0.812081,28,0.187919,NO
3,2019-1,u20162300,Apellido 3,Apellido 3,Nombre3,M,30,u3@upc.edu.pe,personal_3@gmail.com,93000000,...,120,8.077585,18.057331,5,3,86,0.728814,32,0.271186,NO
4,2019-1,u20161400,Apellido 4,Apellido 4,Nombre4,M,28,u4@upc.edu.pe,personal_4@gmail.com,94000000,...,140,19.614431,10.212869,2,0,60,0.659341,31,0.340659,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,2019-1,u20182495,Apellido 495,Apellido 495,Nombre495,F,30,u495@upc.edu.pe,personal_495@gmail.com,9495000000,...,40,8.329894,11.889037,5,3,58,0.597938,39,0.402062,NO
496,2019-1,u20181496,Apellido 496,Apellido 496,Nombre496,M,20,u496@upc.edu.pe,personal_496@gmail.com,9496000000,...,60,14.316467,13.741593,3,0,87,0.813084,20,0.186916,SI
497,2019-1,u20172497,Apellido 497,Apellido 497,Nombre497,M,28,u497@upc.edu.pe,personal_497@gmail.com,9497000000,...,80,13.934895,10.097258,2,0,131,0.829114,27,0.170886,NO
498,2019-1,u20161498,Apellido 498,Apellido 498,Nombre498,M,28,u498@upc.edu.pe,personal_498@gmail.com,9498000000,...,140,19.639586,14.134506,5,0,126,0.868966,19,0.131034,NO


In [9]:
# Save csv
test.to_csv(f"dataset/dataset_{N_ESTUDIANTES}.csv", index=False)

In [10]:
Y = test["FLAG ABANDONO ESTUDIOS"]
X = test.drop("FLAG ABANDONO ESTUDIOS", axis=1)

# Preprocess

In [11]:
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

In [12]:
columns_drop = [
    "CODIGO PERIODO",
    "CODIGO ESTUDIANTE",
    "DES_APELLIDO_PATERNO",
    "DES_APELLIDO_MATERNO",
    "DES_NOMBRES",
    "CORREO_UPC",
    "CORREO_PERSONAL_1",
    "MOBILE PHONE",
    "FACULTAD",
    "CAMPUS",
    "FECHA MATRICULA",
]

In [13]:
X.drop(columns_drop, axis=1, inplace=True)

In [14]:
categorical_columns = X.columns[X.dtypes == "object"]
numerical_columns = X.columns[X.dtypes != "object"]

In [15]:
X[categorical_columns]

Unnamed: 0,GENERO,FLAG_ESTUDIANTE_PROVINCIA,CARRERA,FLAG_TIENE_DEUDA,FLAG_COLEGIO_PROCEDENCIA_ES_PROVINCIA,FLAG_BECA_18,FLAG_BENEFICIO,TIPO BENEFICIO,MODALIDAD DE INGRESO,CICLO DE INGRESO,FLAG_TRABAJA,FLAG_LLEVÓ NIVELACIÓN,NIVEL SOCIOECONÓMICO,CATEGORÍA DE PAGO
0,F,SI,Ingeniería de Gestión Empresarial,SI,NO,NO,NO,DESCUENTOS CORPORATIVOS,EXONER.GRADO TITULO,2016-2,NO,SI,C,S
1,M,NO,Ingeniería de Gestión Minera,SI,NO,NO,NO,DESCUENTO RETENCION,EXONER.GRADO TITULO,2017-2,NO,SI,C,T
2,M,NO,Ingeniería de Gestión Empresarial,NO,NO,NO,NO,DESCUENTOS CORPORATIVOS,SELECCIÓN PREFERENTE,2017-1,SI,SI,C,Y
3,M,NO,Ingeniería de Gestión Empresarial,NO,SI,NO,SI,SIN BENEFICIO,EXONER.GRADO TITULO,2016-2,NO,SI,C,S
4,M,NO,Ingeniería de Gestión Minera,NO,SI,NO,SI,DESCUENTOS CORPORATIVOS,EVALUACION INTEGRAL,2015-1,NO,SI,B,Q
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,F,NO,Ingeniería de Gestión Minera,NO,NO,NO,SI,BECA DE HONOR,EVALUACION INTEGRAL,2018-2,NO,SI,B,T
496,M,NO,Ingeniería Mecatrónica,SI,SI,NO,SI,SIN BENEFICIO,EVALUACION INTEGRAL,2017-1,NO,SI,C,Q
497,M,NO,Ingeniería de Sistemas de Información,SI,SI,NO,NO,BECA DE HONOR,EVALUACION INTEGRAL,2017-2,NO,SI,A,S
498,M,NO,Ingeniería de Software,NO,NO,NO,NO,BECA DE HONOR,EVALUACION INTEGRAL,2015-1,SI,SI,A,Y


In [16]:
label_encoder = LabelEncoder()
scaler = StandardScaler()

X[categorical_columns] = X[categorical_columns].apply(label_encoder.fit_transform)

X[numerical_columns] = scaler.fit_transform(X[numerical_columns])

In [17]:
X

Unnamed: 0,GENERO,EDAD,FLAG_ESTUDIANTE_PROVINCIA,CARRERA,IND_CICLO_ALUMNO,NRO_CICLOS_ORDINARIO_MAT,NRO_CICLOS_ORDINARIO_RET,FLAG_TIENE_DEUDA,MONTO_DEUDA,FLAG_COLEGIO_PROCEDENCIA_ES_PROVINCIA,...,TOTAL DE CRÉDITOS MATRICULADOS POR CICLO,TOTAL DE CRÉDITOS MATRICULADOS EN TODO SU AVANCE,PROMEDIO PONDERADO ACUMULADO,PROMEDIO POR CICLO,NÚMERO DE DOBLE DESAPROBACIÓN POR CICLO,NÚMERO DE DOBLE DESAPROBACIÓN EN TODO SU AVANCE,NÚMERO DE ASISTENCIAS POR CICLO,PORCENTAJE DE ASISTENCIAS POR CICLO,NÚMERO DE INASISTENCIAS POR CICLO,PORCENTAJE DE INASISTENCIAS
0,0,0.478267,1,6,0.689646,1.365508,-0.531999,1,0.565536,0,...,-1.364148,0.689646,-0.232287,0.192221,1.432046,0.575726,-0.883675,-0.131873,-0.583934,0.131873
1,1,1.284334,0,7,-0.137268,-0.119816,-0.043926,1,1.159587,0,...,-1.364148,-0.137268,-1.509438,-0.860295,0.275304,0.575726,-0.424305,-1.156997,1.561897,1.156997
2,1,-0.059112,0,6,-0.550725,-0.614924,-0.043926,0,-0.622565,0,...,-1.364148,-0.550725,1.300773,-0.712668,1.432046,-0.420340,0.953805,0.574918,0.086638,-0.574918
3,1,1.553023,0,6,0.689646,-0.614924,1.420290,0,-0.622565,1,...,-1.364148,0.689646,-1.060449,1.528743,0.853675,0.077693,-0.386024,-0.564222,0.623096,0.564222
4,1,1.015645,0,7,1.103103,1.365508,-0.043926,0,-0.622565,1,...,-1.364148,1.103103,1.613034,-0.784382,-0.881437,-0.669356,-1.381326,-1.514651,0.488981,1.514651
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,0,1.553023,0,7,-0.964182,-0.614924,-0.531999,0,-0.622565,0,...,0.040742,-0.964182,-1.001980,-0.290124,0.853675,0.077693,-1.457888,-2.354673,1.561897,2.354673
496,1,-1.133868,0,5,-0.550725,-0.119816,-0.531999,1,1.159587,1,...,-1.364148,-0.550725,0.385314,0.256146,-0.303066,-0.669356,-0.347743,0.588648,-0.986278,-0.588648
497,1,1.015645,0,8,-0.137268,-1.110032,0.932218,1,-0.028514,1,...,0.743186,-0.137268,0.296891,-0.818472,-0.881437,-0.669356,1.336614,0.807945,-0.047477,-0.807945
498,1,1.015645,0,9,1.103103,0.375292,0.932218,0,-0.622565,0,...,-0.661703,1.103103,1.618864,0.372006,0.853675,-0.669356,1.145210,1.353137,-1.120392,-1.353137


In [18]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2)

# Modelo

In [19]:
from sklearn.model_selection import GridSearchCV, KFold, StratifiedKFold
from sklearn.neighbors import KNeighborsClassifier

knn_model = KNeighborsClassifier()

# Use with Balance data
kf = KFold(n_splits = 10, shuffle=True, random_state = 0)
# Use with Imbalance data
skf = StratifiedKFold(n_splits = 10, shuffle=True, random_state = 0)

param_grid = {
    'n_neighbors' : range(1, 30),
    'weights' : ['uniform','distance'],
    'metric' : ['minkowski','euclidean','manhattan'],
    'algorithm': ['auto', 'ball_tree', 'kd_tree', 'brute'],
    'p': [1, 2]
}

# grid  = GridSearchCV(estimator = knn_model, param_grid = param_grid, cv = skf, scoring = 'accuracy', return_train_score = True, verbose = 1)
# grid .fit(X_train, y_train)

In [20]:
knn_model.fit(X_train, y_train)

In [21]:
knn_model.score(X_test, y_test)

0.79

In [22]:
#Import required module
from sklearn.cluster import KMeans
 
#Initialize the class object
kmeans = KMeans(n_clusters= 2)
 
#predict the labels of clusters.
label = kmeans.fit_predict(X_train)
 
print(label)
pedro = pd.DataFrame(label, columns=['label'])

[1 1 1 1 1 1 1 1 0 0 0 1 0 1 1 1 0 1 0 0 0 1 1 0 1 1 0 0 1 1 1 1 0 0 0 1 1
 1 1 0 1 1 1 1 0 0 0 1 1 0 1 0 1 0 1 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 0 0 0 0
 0 1 0 1 1 1 0 0 1 1 1 1 1 1 1 1 1 0 0 1 0 1 1 0 1 1 0 0 0 0 1 0 0 0 0 1 0
 0 1 0 0 1 1 1 0 0 1 0 1 1 1 0 1 0 0 0 1 0 1 1 0 0 1 0 0 0 1 0 0 1 1 1 1 1
 0 0 1 1 1 0 1 0 0 0 1 1 1 1 0 1 1 0 0 1 1 1 1 0 0 0 0 0 1 0 1 0 0 1 0 1 0
 1 0 1 1 0 1 1 0 1 1 1 1 0 1 0 1 1 1 0 1 0 0 1 0 1 1 1 1 1 0 0 0 1 0 1 1 0
 0 0 0 0 1 1 1 0 1 0 1 0 0 1 1 0 1 1 0 0 1 1 1 1 1 0 1 0 0 1 1 0 1 0 1 0 0
 1 0 0 1 0 1 0 1 0 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 0 1 1 1 1 1 1 1 0 0 0 1 1
 0 1 1 0 0 0 1 0 1 0 0 0 0 0 1 1 1 1 0 0 0 1 1 0 0 0 0 0 1 1 0 1 0 1 1 1 1
 1 0 1 0 0 1 1 0 1 1 0 1 0 1 0 0 1 1 0 1 1 0 0 0 1 1 0 1 1 1 1 0 0 0 0 1 1
 0 1 1 1 0 1 0 1 0 0 1 1 1 0 1 1 0 1 1 0 1 1 1 0 1 0 0 0 1 0]


In [23]:
y_t=y_train.apply(lambda x: 1 if x == "NO" else 0)

In [24]:
from sklearn.metrics import classification_report

print(classification_report(y_t, label))

              precision    recall  f1-score   support

           0       0.21      0.52      0.30        75
           1       0.83      0.56      0.67       325

    accuracy                           0.55       400
   macro avg       0.52      0.54      0.49       400
weighted avg       0.72      0.55      0.60       400

