### Limpieza de Datos de Abandono Escolar

In [None]:
import pandas as pd

# Carga y Lectura de datos

archivo = "fuentes/AbandonoEscolar.xlsx"

df = pd.read_excel(archivo)

print (df.head())

In [None]:
print(df.info())

### Limpieza de datos

1. Selección de datos

    Pues la línea de tiempo, que será analizada durante este proyecto, abarcará del año 2015 al 2023.

In [None]:
# Seleccionar solo las columnas necesarias
columnas_a_conservar = ['Entidad federativa', 'Nivel educativo', 
                        '2015/2016', '2020/2021', '2021/2022', '2022/2023', '2023/2024']

# Filtrar el DataFrame
df = df[columnas_a_conservar]

# Ver las primeras filas del nuevo DataFrame

print(df.head())

2. Renombramiento de columnas

Básicamente el renombramiento que se hará será el de los datos de los años (2000/2001, 2005/2006, etc.), solo tomamos el primer año y agregamos "Año_" antes, evitando problemas con los "/" en los nombres. De esta forma los datos se verán algo así: "2000/2001" → "Año_2000"

In [None]:
# Renombrar columnas
df.columns=['entidad_federativa', 'nivel_educativo','2015-2016',
              													 '2020-2021',
              													 '2021-2022',
              													 '2022-2023',
              													 '2023-2024']
# Reemplazar valores inconsistentes
df.replace({"-": None, "-0.2": None}, inplace=True)

In [None]:
# Convertir columnas de años a numérico
for col in df.columns[2:]:
    df[col] = pd.to_numeric(df[col], errors="coerce")

3. Guardar DF en un csv limpio

In [None]:
# Guardar el archivo limpio
df.to_csv("resultados/AbandonoEscolar.csv", index=False)

print("Archivo limpio guardado como 'AbandonoEscolar.csv'")

In [None]:
#Diccionario
dic_col = ['variables', 'tipo_dato', 'descripcion'] #Las columnas del diccionario
column_headers = list(df.columns) #lista de las columnas de los datos
column_types = df.dtypes.astype(str).tolist() #lista de los tipos de datos de las columnas
column_desc = ["Estados que conforman la entidad Federativa de los Estados Unidos Mexicanos",
               "Nivel Educativo del que se está realizando la evaluación (Primaria, Secundaria, Media Superior y Superior)",
               "Datos del ciclo escolar 2015 y 2016",
               "Datos del ciclo escolar 2020 y 2021",
      		   "Datos del ciclo escolar 2021 y 2022",
		         "Datos del ciclo escolar 2022 y 2023",
               "Datos del ciclo escolar 2023 y 2024"] 

diccionario = pd.DataFrame({
    dic_col[0]: column_headers,
    dic_col[1]: column_types,
    dic_col[2]: column_desc
})
#diccionario.head(10)
diccionario.to_excel('resultados/AbandonoEscolarDicc.xlsx', index=False)
