In [None]:
# Importamos la librerías.
import pandas as pd
import datetime

In [None]:
# Configuramos pandas para que nos muestre todas las columnas disponibles del dataframe.
pd.set_option("display.max.columns", None)

# Leemos el csv con pandas.
df = pd.read_csv("alumnos_ser.csv", sep=";", encoding="utf-8-sig")

In [None]:
# Verificamos las columnas y los tipos de datos del dataframe
df.info()

In [None]:
df.head(3)

In [None]:
# Verificamos la cantidad de datos contenidos en el dataframe (filas por columnas)
df.size

In [None]:
# Obtenemos la cantidad de valores NaN en el dataframe
# Rercordar que los valores NaN son los que Python trata como la "ausencia" de un valor
df.isna().sum().sum()

In [None]:
df.head(5)

In [None]:
"""
Buscamos en la columna las coincidencias, con el case=False ignoramos mayúsculas o minúsculas
Con na=False ignoramos los valores "vacíos" y con el regex=True le decimos que el texto a buscar
lo trate como una expresión regular
"""

df[df['Direccion'].str.contains('la serena|laserena|serena|laserna|la  serena|coquimbo|vicuña', case=False, na=False, regex=True)]

In [None]:
df['Dirección'] = df['Direccion'].replace({'la serena|laserena|serena|laserna|la  serena|coquimbo|vicuña':''}, regex=True, inplace=True)

In [None]:
df[df['Direccion'].str.contains('la serena|laserena|serena|laserna|la  serena|coquimbo|vicuña', case=False, na=False, regex=True)]

In [None]:
df[df['Direccion'].str.contains(',', case=False, na=False, regex=True)]

In [None]:
df['Dirección'] = df['Direccion'].replace({',':''}, regex=True, inplace=True)

In [None]:
df.tail(20)

In [None]:
df[df['Direccion'].str.contains('la serena|laserena|serena|laserna|la  serena|coquimbo|vicuña', case=False, na=False, regex=True)]

In [None]:
# Hacemos una copia de la columna del digito verificador, y se castea a string
digv = df["Digito verificador"].astype(str).copy()

# Se concatena con la columna RUT y se castea a string
df["Rut"]= df["Rut"].astype(str).str.cat(digv, sep ="-")

# Se crea una lista con las columnas a borrar del dataframe
digito_verificador_alumno = ["Digito verificador"]

# Se elimina la columna del dataframe pasandole la lista como parametro.
df.drop(digito_verificador_alumno, inplace=True, axis=1)

In [None]:
df

In [None]:
df["Direccion"] = df["Direccion"].str.upper()

In [None]:
# Nuevo data frame con los valores indicados de separador
new = df["Nombre Apoderado"].str.split(" ", n = 1, expand = True)

# Hacer una columna separada Primer Nombre Apoderado en el data frame
df["Primer Nombre Apoderado"]= new[0]

# Hacer una columna separada Segundo Nombre Apoderado en el data frame
df["Segundo Nombre Apoderado"]= new[1]

# Eliminar columnas con los nombres antiguos
df.drop(columns =["Nombre Apoderado"], inplace = True)

In [None]:
# Nuevo data frame con los valores indicados de separador
new = df["Nombre Apoderado SPL"].str.split(" ", n = 1, expand = True)

# Hacer una columna separada Primer Nombre Apoderado Suplente en el data frame
df["Primer Nombre Apoderado SPL"]= new[0]

# Hacer una columna separada Segundo Nombre Apoderado Suplente en el data frame
df["Segundo Nombre Apoderado SPL"]= new[1]

# Eliminar columnas con los nombres antiguos
df.drop(columns =["Nombre Apoderado SPL"], inplace = True)

In [None]:
# Nuevo data frame con los valores indicados de separador
new = df["Nombres"].str.split(" ", n = 1, expand = True)

# Hacer una columna separada Primer Nombre Alumno en el data frame
df["Primer Nombre Alumno"]= new[0]

# Hacer una columna separada Segundo Nombre Alumno en el data frame
df["Segundo Nombre Alumno"]= new[1]

# Eliminar columnas con los nombres antiguos
df.drop(columns =["Nombres"], inplace = True)

In [None]:
# Hacemos una copia de la columna de curso y se castea a string
letra = df["Letra"].astype(str).copy()

# Se concatena con la columna Grado y se castea a string
df["curso_2024"]= df["Grado"].astype(str).str.cat(letra, sep ="")

In [None]:
codigos = {
    0: "SIN COMUNA",
    4101: "LA SERENA",
    4102: "COQUIMBO",
    4103: "ANDACOLLO",
    4104: "LA HIGUERA",
    4105: "PAIHUANO",
    4106: "VICUÑA",
    4204: "SALAMANCA",
    2101: "ANTOFAGASTA",
    3301: "VALLENAR",
    1101: "IQUIQUE",
    4302: "COMBARBALA",
    4303: "MONTE PATRIA",
    4304: "PUNITAQUI",
    4305: "RIO HURTADO",
    5602: "ALGARROBO",
}

In [None]:
# Con el método replace comparamos los valores de la columna Comuna con el diccionario códigos.
# Si hay coincidencia se reemplaza el valor de la "celda" con la propiedad inplace=True
df['Comuna'].replace(codigos, inplace=True)

In [None]:
df["Comuna"].value_counts()

In [None]:
# Hacemos una copia de la columna comuna y se castea a string
comuna = df["Comuna"].astype(str).copy()

# Se concatena la columna direccion con la columna comuna
df["full address"]= df["Direccion"].str.cat(comuna, sep =", ")

# Especificamos en una lista la columna Dirección que ya no utilizamos
direccion_legacy = ["Direccion"]

# Eliminamos la columna
df.drop(direccion_legacy, inplace=True, axis=1)

In [None]:
df.info()

In [None]:
df.head(10)

In [None]:
# Convertimos las columnas de las fechas de Object a String para poder manipular
# El formato de las fechas de DD-MM-YYYY a YYYY-MM-DD
df['Fecha de Nacimiento'] = df['Fecha de Nacimiento'].astype("string")

In [None]:
# Insertamos columna RBD con el valor perteneciente al colegio.
df.insert(0, "rbd", 574, True)

# Insertamos columna year con el aña academico de los cursos.
df.insert(1, "year", 2025, True)

# Insertamos columna para nivel con valores vacios.
df.insert(2, "Nivel", "", True)

# Insertamos columna para local.
df.insert(3, "local", "Principal", True)

In [None]:
df.columns

# Columnas de planilla de carga SN
Formato de columnas presentes en archivo de SN a normalizar por orden listado:

- 0:  rbd
- 1:  year
- 2:  nivel
- 3:  curso
- 4:  local
- 5:  fechaMatricula
- 6:  estudiantePaterno
- 7:  estudianteMaterno
- 8:  estudianteNombre1
- 9:  estudianteNombre2
- 10: estudianteEmail
- 11: sexo
- 12: estudianteRun
- 13: fechaNacimiento
- 14: direccion
- 15: tutor1Nombre1
- 16: tutor1Nombre2
- 17: tutor1Paterno
- 18: tutor1Materno
- 19: tutor1Run
- 20: tutor1Email
- 21: tutor1Celular
- 22: tutor2Nombre1
- 23: tutor2Nombre2
- 24: tutor2Paterno
- 25: tutor2Materno
- 26: tutor2Run
- 27: tutor2Email
- 28: tutor2Celular

In [None]:
# Cambiamos los nombres de las columnas, con el parametro inplace=True hacemos los cambios persistentes.
df.rename(columns={'curso_2024': 'curso',
                   'Nivel': 'nivel',
                   'Apellido Paterno': 'estudiantePaterno',
                   'Apellido Materno': 'estudianteMaterno',
                   'Rut': 'estudianteRun',
                   'Fecha de Nacimiento': 'fechaNacimiento',
                   'Fecha de Matrícula': 'fechaMatricula',
                   'Primer Nombre Alumno': 'estudianteNombre1',
                   'Segundo Nombre Alumno': 'estudianteNombre2',
                   'Sexo': 'sexo',
                   'Email Estudiante': 'estudianteEmail',
                   'full address': 'direccion',
                   'Primer Nombre Apoderado': 'tutor1Nombre1',
                   'Segundo Nombre Apoderado': 'tutor1Nombre2',
                   'Apellido Paterno Apo.': 'tutor1Paterno',
                   'Apellido Materno Apo.': 'tutor1Materno',
                   'Rut Apoderado': 'tutor1Run',
                   'Email Apoderado': 'tutor1Email',
                   'Celular Apoderado': 'tutor1Celular',
                   'Primer Nombre Apoderado SPL': 'tutor2Nombre1',
                   'Segundo Nombre Apoderado SPL': 'tutor2Nombre2',
                   'Apellido Paterno Apo. SPL': 'tutor2Paterno',
                   'Apellido Materno Apo. SPL': 'tutor2Materno',
                   'Rut Apoderado SPL': 'tutor2Run',
                   'Email Apoderado SPL': 'tutor2Email',
                   'Celular SPL': 'tutor2Celular'}, inplace=True)

In [None]:
# Reordenamos las columnas de acuerdo al archivo de carga.
df = df[
    [
        'rbd',
        'year',
        'nivel',
        'curso',
        'local',
        'fechaMatricula',
        'estudiantePaterno',
        'estudianteMaterno',
        'estudianteNombre1',
        'estudianteNombre2',
        'estudianteEmail',
        'sexo',
        'estudianteRun',
        'fechaNacimiento',
        'direccion',
        'tutor1Nombre1',
        'tutor1Nombre2',
        'tutor1Paterno',
        'tutor1Materno',
        'tutor1Run',
        'tutor1Email',
        'tutor1Celular',
        'tutor2Nombre1',
        'tutor2Nombre2',
        'tutor2Paterno',
        'tutor2Materno',
        'tutor2Run',
        'tutor2Email',
        'tutor2Celular',
        'Grado'
    ]]

In [None]:
pd.options.mode.chained_assignment = None  # default='warn'

df.loc[df['Grado'] == 7, 'nivel'] = '7 Básico'
df.loc[df['Grado'] == 8, 'nivel'] = '8 Básico'
df.loc[df['Grado'] == 1, 'nivel'] = '1 Medio'
df.loc[df['Grado'] == 2, 'nivel'] = '2 Medio'
df.loc[df['Grado'] == 3, 'nivel'] = '3 Medio'
df.loc[df['Grado'] == 4, 'nivel'] = '4 Medio'

In [None]:
df

In [None]:
# Especificamos en una lista la columna Grado que ya no utilizamos
grado_not_used = ["Grado"]

# Eliminamos la columna
df.drop(grado_not_used, inplace=True, axis=1)

In [None]:
df["sexo"].value_counts()

In [None]:
df.columns

In [None]:
# Convertimos las columnas con fecha de tipo object a string
# Para poder manipular su formato de DD-MM-YYYY a YYYY-MM-DD
df['fechaMatricula'] = df['fechaMatricula'].astype("string")
df['fechaNacimiento'] = df['fechaNacimiento'].astype("string")

In [None]:
df.info()

In [None]:
# Cambiamos las columnas de tipo object a string
df['fechaMatricula'] = df['fechaMatricula'].astype("string")
df['fechaNacimiento'] = df['fechaNacimiento'].astype("string")

In [None]:
# Cambiamos el formato de las columnas de string a date
# Ademas con el formato .dt.date le quitamos la hora para que se mantenga sólo la fecha
df['fechaMatricula'] = pd.to_datetime(df['fechaMatricula'], dayfirst=True, format='mixed').dt.date
df['fechaNacimiento'] = pd.to_datetime(df['fechaNacimiento'], dayfirst=True, format='mixed').dt.date

In [None]:
# Limpiamos la columna de celular de AP SPL de celdas vacías a cero
df['tutor1Celular'] = df['tutor1Celular'].fillna(0)
df['tutor2Celular'] = df['tutor2Celular'].fillna(0)

# Casteamos las columnas de los números de celular de tipo float64 a int64
df['tutor1Celular'] = df['tutor1Celular'].astype('int64')
df['tutor2Celular'] = df['tutor2Celular'].astype('int64')

In [None]:
df

In [None]:
currentDateTime = datetime.datetime.now().strftime("%Y-%m-%d-%H-%M-%S")
# Exportamos el data frame a un .csv
df.to_csv(f"alumnos2025-uploadsn-{currentDateTime}.csv", sep=";", index=False, encoding="utf-8-sig")