# Importar Pandas y Cargar el Dataset

In [2]:
import pandas as pd

# Cargar el dataset desde el archivo CSV
df = pd.read_csv("ocde_data_education_unfiltered.csv")

# Verificar los nombres de las columnas y las primeras filas para entender la estructura
print("Nombres de las columnas en el DataFrame:")
print(df.columns)

# Mostrar las primeras filas para visualizar el contenido
df.head()


Nombres de las columnas en el DataFrame:
Index(['Frequency', 'Territorial Level', 'Location', 'Territorial Typology',
       'Measure', 'Age', 'Sex', 'Education Level', 'Statistical Operation',
       'Unit Measure', 'Year', 'Value'],
      dtype='object')


Unnamed: 0,Frequency,Territorial Level,Location,Territorial Typology,Measure,Age,Sex,Education Level,Statistical Operation,Unit Measure,Year,Value
0,0,0,0,0,0,0,0,0,0,0,0,1.409
1,0,0,0,0,0,0,0,0,0,0,1,1.176
2,0,0,0,0,0,0,0,0,0,0,2,1.187
3,0,0,0,0,0,0,0,0,0,0,3,1.022
4,0,0,0,0,0,0,0,0,0,0,4,1.277


# Identificación de Valores Faltantes

In [4]:
# Verificar la cantidad de valores faltantes en cada columna
print("Valores faltantes por columna:")
print(df.isnull().sum())


Valores faltantes por columna:
Frequency                0
Territorial Level        0
Location                 0
Territorial Typology     0
Measure                  0
Age                      0
Sex                      0
Education Level          0
Statistical Operation    0
Unit Measure             0
Year                     0
Value                    0
dtype: int64


# Identificar valores únicos en columnas específicas

In [6]:
# Verificar los valores únicos en la columna 'Education Level'
print("Valores únicos en la columna 'Education Level':")
print(df['Education Level'].unique())


Valores únicos en la columna 'Education Level':
[0 1 2 3 4 5 6 7]


# Mapeo de la Columna Education Level

In [8]:
# Mapeo de valores numéricos a descripciones textuales basadas en ISCED
education_level_mapping = {
    0: "Preprimaria",
    1: "Educación Primaria",
    2: "Educación Secundaria Inferior",
    3: "Educación Secundaria Superior",
    4: "Educación Postsecundaria No Terciaria",
    5: "Educación Terciaria - Nivel Corto",
    6: "Grado de Licenciatura o Equivalente",
    7: "Maestría, Doctorado o Nivel Equivalente"
}

# Reemplazar los valores en la columna 'Education Level' con las descripciones textuales
df['Education Level'] = df['Education Level'].map(education_level_mapping)

# Verificar los cambios en la columna
print("Valores de 'Education Level' después del mapeo:")
print(df['Education Level'].unique())

# Visualizar las primeras filas del DataFrame después del mapeo
df.head()


Valores de 'Education Level' después del mapeo:
['Preprimaria' 'Educación Primaria' 'Educación Secundaria Inferior'
 'Educación Secundaria Superior' 'Educación Postsecundaria No Terciaria'
 'Educación Terciaria - Nivel Corto' 'Grado de Licenciatura o Equivalente'
 'Maestría, Doctorado o Nivel Equivalente']


Unnamed: 0,Frequency,Territorial Level,Location,Territorial Typology,Measure,Age,Sex,Education Level,Statistical Operation,Unit Measure,Year,Value
0,0,0,0,0,0,0,0,Preprimaria,0,0,0,1.409
1,0,0,0,0,0,0,0,Preprimaria,0,0,1,1.176
2,0,0,0,0,0,0,0,Preprimaria,0,0,2,1.187
3,0,0,0,0,0,0,0,Preprimaria,0,0,3,1.022
4,0,0,0,0,0,0,0,Preprimaria,0,0,4,1.277


# Identificar Valores Únicos en Todas las Columnas

In [10]:
# Verificar valores únicos en columnas clave para determinar si los ceros representan valores válidos o si son placeholders
print("Valores únicos en la columna 'Frequency':", df['Frequency'].unique())
print("Valores únicos en la columna 'Territorial Level':", df['Territorial Level'].unique())
print("Valores únicos en la columna 'Location':", df['Location'].unique())
print("Valores únicos en la columna 'Territorial Typology':", df['Territorial Typology'].unique())
print("Valores únicos en la columna 'Measure':", df['Measure'].unique())
print("Valores únicos en la columna 'Age':", df['Age'].unique())
print("Valores únicos en la columna 'Sex':", df['Sex'].unique())
print("Valores únicos en la columna 'Statistical Operation':", df['Statistical Operation'].unique())
print("Valores únicos en la columna 'Unit Measure':", df['Unit Measure'].unique())
print("Valores únicos en la columna 'Year':", df['Year'].unique())


Valores únicos en la columna 'Frequency': [0]
Valores únicos en la columna 'Territorial Level': [0 1 2]
Valores únicos en la columna 'Location': [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210

# Eliminar Columnas sin Datos

In [12]:
# Eliminar columnas irrelevantes que solo contienen el valor 0
df = df.drop(columns=['Frequency', 'Territorial Typology', 'Measure', 'Unit Measure'])

# Mostrar las primeras filas después de eliminar columnas para verificar cambios
print("DataFrame después de eliminar columnas irrelevantes:")
print(df.head())

# Valores únicos en 'Location', 'Age', 'Sex', y 'Year' para verificación adicional
print("Valores únicos en la columna 'Location':", df['Location'].unique())
print("Valores únicos en la columna 'Age':", df['Age'].unique())
print("Valores únicos en la columna 'Sex':", df['Sex'].unique())
print("Valores únicos en la columna 'Year':", df['Year'].unique())


DataFrame después de eliminar columnas irrelevantes:
   Territorial Level  Location  Age  Sex Education Level  \
0                  0         0    0    0     Preprimaria   
1                  0         0    0    0     Preprimaria   
2                  0         0    0    0     Preprimaria   
3                  0         0    0    0     Preprimaria   
4                  0         0    0    0     Preprimaria   

   Statistical Operation  Year  Value  
0                      0     0  1.409  
1                      0     1  1.176  
2                      0     2  1.187  
3                      0     3  1.022  
4                      0     4  1.277  
Valores únicos en la columna 'Location': [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74 

# Mapeo de Columnas Age y Sex

In [14]:
# Mapeo para la columna 'Age'
age_mapping = {
    0: "Grupo de Edad 1",  
    1: "Grupo de Edad 2"
}
df['Age'] = df['Age'].map(age_mapping)

# Mapeo para la columna 'Sex'
sex_mapping = {
    0: "Desconocido",  
    1: "Masculino",
    2: "Femenino"
}
df['Sex'] = df['Sex'].map(sex_mapping)

# Verificar los cambios en las columnas
print("Valores únicos en la columna 'Age' después del mapeo:", df['Age'].unique())
print("Valores únicos en la columna 'Sex' después del mapeo:", df['Sex'].unique())


Valores únicos en la columna 'Age' después del mapeo: ['Grupo de Edad 1' 'Grupo de Edad 2']
Valores únicos en la columna 'Sex' después del mapeo: ['Desconocido' 'Masculino' 'Femenino']


# Mapeo de Columna Year

In [16]:
# Mapeo de la columna 'Year' asumiendo que 0 corresponde a 2013, lo sabemos gracias a la documentación de la API
year_mapping = {i: 2013 + i for i in range(11)}
df['Year'] = df['Year'].map(year_mapping)

# Verificar el cambio en la columna 'Year'
print("Valores únicos en la columna 'Year' después del mapeo:", df['Year'].unique())


Valores únicos en la columna 'Year' después del mapeo: [2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023]


# Convertir valores para evitar errores de conversión

In [18]:
# Convertir la columna 'Value' a numérico y eliminar posibles errores de conversión
df['Value'] = pd.to_numeric(df['Value'], errors='coerce')


In [19]:
# Convertir la columna 'Year' a int si aún no lo está
df['Year'] = df['Year'].astype(int)


# Eliminar Filas con Valores Nulos

In [21]:
# Eliminar filas con valores nulos en columnas críticas
df = df.dropna(subset=['Location', 'Value', 'Year'])


# Verificar limpieza de DataFrame

In [23]:
# Verificación final de la estructura del DataFrame
print(df.info())
print(df.head())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 215469 entries, 0 to 215468
Data columns (total 8 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   Territorial Level      215469 non-null  int64  
 1   Location               215469 non-null  int64  
 2   Age                    215469 non-null  object 
 3   Sex                    215469 non-null  object 
 4   Education Level        215469 non-null  object 
 5   Statistical Operation  215469 non-null  int64  
 6   Year                   215469 non-null  int64  
 7   Value                  215469 non-null  float64
dtypes: float64(1), int64(4), object(3)
memory usage: 13.2+ MB
None
   Territorial Level  Location              Age          Sex Education Level  \
0                  0         0  Grupo de Edad 1  Desconocido     Preprimaria   
1                  0         0  Grupo de Edad 1  Desconocido     Preprimaria   
2                  0         0  Grupo de Edad 1  Des

In [24]:
# Exportar el DataFrame limpio a un archivo CSV
df.to_csv('ocde_data_education_cleaned.csv', index=False)

print("El archivo se ha guardado como 'ocde_data_education_cleaned.csv'")


El archivo se ha guardado como 'ocde_data_education_cleaned.csv'


# Nuevo Mapeo d ela Columna Age (con info de la "description")

In [25]:
# nuevo mapeo de la columana Age con la info de la "decription" del dataset
# Grupo de Edad 1: Representa el rango de 25 a 34 años.
# Grupo de Edad 2: Representa el rango de 25 a 64 años.
# Actualizar el mapeo en la columna 'Age' para reflejar los rangos de edad correctos

age_mapping = {
    "Grupo de Edad 1": "25-34 años",
    "Grupo de Edad 2": "25-64 años"
}
df['Age'] = df['Age'].map(age_mapping)

# Verificar los cambios en la columna 'Age'
print("Valores únicos en la columna 'Age' después del mapeo:", df['Age'].unique())



Valores únicos en la columna 'Age' después del mapeo: ['25-34 años' '25-64 años']


# Exportar DataFrame limpio a CSV

In [26]:
# Exportar el DataFrame actualizado a un archivo CSV
df.to_csv('ocde_data_nivel_de_educacion_y_edades_vr_empleabilidad_cleaned.csv', index=False)

print("El archivo se ha guardado como 'ocde_data_nivel_de_educacion_y_edades_vr_empleabilidad_cleaned.csv'")


El archivo se ha guardado como 'ocde_data_nivel_de_educacion_y_edades_vr_empleabilidad_cleaned.csv'
