In [37]:
# Importa la biblioteca pandas y la asigna al alias pd, para manejo de datos en estructuras tipo tabla.
import pandas as pd

In [38]:
# Carga el archivo CSV en un DataFrame llamado df para su análisis y manipulación.
df = pd.read_csv("ACTIVIDADES_DE_LA_BIBLIOTECA.csv")

In [39]:
# Muestra la dimensión del DataFrame como (filas, columnas).
df.shape

(15309, 9)

In [40]:
# Muestra un resumen del DataFrame: número de entradas, tipos de datos y valores no nulos por columna.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15309 entries, 0 to 15308
Data columns (total 9 columns):
 #   Column                                    Non-Null Count  Dtype  
---  ------                                    --------------  -----  
 0   Fecha                                     15309 non-null  float64
 1   Actividad                                 15309 non-null  object 
 2   Línea de Servicio                         15309 non-null  object 
 3   Espacio donde se desarrolla la actividad  15309 non-null  object 
 4   Asistencias                               15309 non-null  int64  
 5   Rangos de Edad                            15309 non-null  object 
 6   Femenino                                  15221 non-null  float64
 7   Masculino                                 14968 non-null  float64
 8   LUGAR                                     15309 non-null  object 
dtypes: float64(3), int64(1), object(5)
memory usage: 1.1+ MB


In [41]:
# Elimina las columnas innecesarias
df_cleaned = df.drop(columns=["Femenino", "Masculino", "Fecha"])

In [42]:
# Verifica la estructura del DataFrame después de eliminar columnas: entradas, tipos de datos y valores no nulos.
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15309 entries, 0 to 15308
Data columns (total 6 columns):
 #   Column                                    Non-Null Count  Dtype 
---  ------                                    --------------  ----- 
 0   Actividad                                 15309 non-null  object
 1   Línea de Servicio                         15309 non-null  object
 2   Espacio donde se desarrolla la actividad  15309 non-null  object
 3   Asistencias                               15309 non-null  int64 
 4   Rangos de Edad                            15309 non-null  object
 5   LUGAR                                     15309 non-null  object
dtypes: int64(1), object(5)
memory usage: 717.7+ KB


In [43]:
# Renombra la columna a modificar para facilitar su manejo (sin espacios).

df_cleaned.rename(columns={'Línea de Servicio': 'Línea_Servicio'}, inplace=True)
df_cleaned.rename(columns={'Espacio donde se desarrolla la actividad': 'ESPACIO_ACTIVIDAD'}, inplace=True)
df_cleaned.rename(columns={'Rangos de Edad': 'Rangos_Edad'}, inplace=True)

In [44]:
# Elimina las filas con valores nulos (NaN) en el DataFrame.
df_cleaned = df_cleaned.dropna()

In [45]:
df_cleaned.shape

(15309, 6)

In [46]:
# Calcula la diferencia en el número de filas antes y después de eliminar las filas con valores nulos.
# Muestra cuántas filas fueron eliminadas.

rows_before = df.shape[0]
rows_after = df_cleaned.shape[0]

rows_before - rows_after

0

In [47]:
# Muestra el resumen del DataFrame después de eliminar filas con valores nulos, verificando la estructura y el número de entradas.
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15309 entries, 0 to 15308
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Actividad          15309 non-null  object
 1   Línea_Servicio     15309 non-null  object
 2   ESPACIO_ACTIVIDAD  15309 non-null  object
 3   Asistencias        15309 non-null  int64 
 4   Rangos_Edad        15309 non-null  object
 5   LUGAR              15309 non-null  object
dtypes: int64(1), object(5)
memory usage: 717.7+ KB


In [48]:
# Convierte la columna a tipo de dato 'string' 'float' 'int' para asegurar consistencia en el formato y mantenerlas para realizar cálculos o análisis

df_cleaned['Actividad'] = df_cleaned['Actividad'].astype('string')
df_cleaned['Línea_Servicio'] = df_cleaned['Línea_Servicio'].astype('string')
df_cleaned['ESPACIO_ACTIVIDAD'] = df_cleaned['ESPACIO_ACTIVIDAD'].astype('string')
df_cleaned['Asistencias'] = df_cleaned['Asistencias'].astype('int')
df_cleaned['Rangos_Edad'] = df_cleaned['Rangos_Edad'].astype('string')
df_cleaned['LUGAR'] = df_cleaned['LUGAR'].astype('string')

In [49]:
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15309 entries, 0 to 15308
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Actividad          15309 non-null  string
 1   Línea_Servicio     15309 non-null  string
 2   ESPACIO_ACTIVIDAD  15309 non-null  string
 3   Asistencias        15309 non-null  int64 
 4   Rangos_Edad        15309 non-null  string
 5   LUGAR              15309 non-null  string
dtypes: int64(1), string(5)
memory usage: 717.7 KB


In [50]:
# Muestra una lista ordenada de los valores únicos presentes en la columna.
sorted(df_cleaned.LUGAR.unique())

['BOJACA',
 'BOJACÁ',
 'CENTRO',
 'FAGUA',
 'JJ CASAS',
 'JJ. CASAS',
 'LA BALSA',
 'MERCEDES',
 'MERCEDES DE C',
 'RESGUARDO',
 'YERBABUENA']

In [51]:
# Reemplaza el valor en la columna selecciona para corregir errores tipográficos.
df_cleaned.LUGAR = df_cleaned.LUGAR.replace("JJ CASAS", "JJ. CASAS")
df_cleaned.LUGAR = df_cleaned.LUGAR.replace("BOJACA", "BOJACÁ")


In [52]:
sorted(df_cleaned.Rangos_Edad.unique())

['60 Y MÁS',
 'ADOLESCENTES (12 A 17 AÑOS)',
 'ADOLESCENTES (13 A 17 AÑOS)',
 'ADULTOS (27 A 59 AÑOS)',
 'ADULTOS (29 A 59 AÑOS)',
 'ADULTOS MAYORES \n(60 AÑOS EN ADELANTE)',
 'ADULTOS MAYORES (60 AÑOS EN ADELANTE)',
 'JOVENES (18 A 26 AÑOS)',
 'JOVENES (18 A 28 AÑOS)',
 'JÓVENES (18 A 26 AÑOS)',
 'JÓVENES (18 A 28 AÑOS)',
 'NIÑOS Y NIÑAS (6 A 11 AÑOS)',
 'NIÑOS Y NIÑAS (6 A 12 AÑOS)',
 'NIÑOS Y NIÑAS (6-11)',
 'PRIMERA INFANCIA (0 A 5 AÑOS)',
 'TODO PUBLICO']

In [53]:
df_cleaned.Rangos_Edad = df_cleaned.Rangos_Edad.replace("JOVENES (18 A 26 AÑOS)", "JÓVENES (18 A 26 AÑOS)")
df_cleaned.Rangos_Edad = df_cleaned.Rangos_Edad.replace("JOVENES (18 A 28 AÑOS)", "JÓVENES (18 A 28 AÑOS)")
df_cleaned.Rangos_Edad = df_cleaned.Rangos_Edad.replace("NIÑOS Y NIÑAS (6-11))", "NIÑOS Y NIÑAS (6 A 11 AÑOS)")
df_cleaned.Rangos_Edad = df_cleaned.Rangos_Edad.replace("ADULTOS MAYORES \n(60 AÑOS EN ADELANTE", "ADULTOS MAYORES (60 AÑOS EN ADELANTE)")


In [54]:
sorted(df_cleaned.Línea_Servicio.unique())

['ACCESO A INTERNET',
 'ACTIVIDADES DE FORMACION CULTURAL',
 'ACTIVIDADES DE FORMACION EN LECTURA',
 'ACTIVIDADES DE FORMACION EN LECTURA Y ESCRITURA',
 'ACTIVIDADES DE FORMACIÓN EN LECTURA',
 'ACTIVIDADES EN FORMACION EN LECTURA Y ESCRITURA',
 'ACTIVIDADES EN LECTURA Y ESCRITURA',
 'ACTIVIDADES Y FORMACION COMUNITARIA',
 'ACTIVIDADES Y FORMACION COMUNITARIA PARA EL DESARROLLO LOCAL',
 'ACTIVIDADES Y FORMACION COMUNITARIA Y PARA EL DESARROLLO LOCAL',
 'ACTIVIDADES Y FORMACION CULTURAL',
 'ACTIVIDADES Y FORMACION EN LECTURA',
 'ACTIVIDADES Y FORMACION EN LECTURA Y ESCRITURA',
 'ACTIVIDADES Y FORMACIÓN COMUNITARIA',
 'ACTIVIDADES Y FORMACIÓN COMUNITARIA Y PARA EL DESARROLLO LOCAL',
 'ACTIVIDADES Y FORMACIÓN CULTURAL',
 'ACTIVIDADES Y FORMACIÓN EN LECTURA',
 'ACTIVIDADES Y FORMACIÓN EN LECTURA Y ESCRITURA',
 'AREA DE CIRCULACION Y PRESTAMO',
 'CONSULTA EN SALA',
 'FORMACION DE USUARIOS',
 'FORMACION DE USUARIOS / ALFABETIZACION',
 'FORMACION DE USUARIOS / ALFABETIZACION INFORMACIONAL',
 '

In [55]:
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("ACTIVIDADES DE FORMACION EN LECTURA", "ACTIVIDADES DE FORMACIÓN EN LECTURA")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("ACTIVIDADES Y FORMACION EN LECTURA)", "ACTIVIDADES DE FORMACIÓN EN LECTURA")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("ACTIVIDADES Y FORMACIÓN EN LECTURA)", "ACTIVIDADES DE FORMACIÓN EN LECTURA")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("ACTIVIDADES Y FORMACION CULTURAL", "ACTIVIDADES DE FORMACION CULTURAL")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("ACTIVIDADES Y FORMACIÓN CULTURAL", "ACTIVIDADES DE FORMACION CULTURAL")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("PRESTAMO EXTERNO", "PRÉSTAMO EXTERNO")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("FORMACIÓN DE USUARIOS / ALFABETIZACIÓN", "FORMACIÓN DE USUARIOS / ALFABETIZACIÓN INFORMACIONAL")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("FORMACION DE USUARIOS / ALFABETIZACION INFORMACIONAL", "FORMACIÓN DE USUARIOS / ALFABETIZACIÓN INFORMACIONAL")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("FORMACION DE USUARIOS / ALFABETIZACION", "FORMACIÓN DE USUARIOS / ALFABETIZACIÓN INFORMACIONAL")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("FORMACIÓN DE USUARIOS", "FORMACIÓN DE USUARIOS / ALFABETIZACIÓN INFORMACIONAL")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("FORMACION DE USUARIOS", "FORMACIÓN DE USUARIOS / ALFABETIZACIÓN INFORMACIONAL")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("ACTIVIDADES Y FORMACION COMUNITARIA Y PARA EL DESARROLLO LOCAL", "ACTIVIDADES Y FORMACION COMUNITARIA PARA EL DESARROLLO LOCAL")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("ACTIVIDADES Y FORMACIÓN COMUNITARIA Y PARA EL DESARROLLO LOCAL", "ACTIVIDADES Y FORMACION COMUNITARIA PARA EL DESARROLLO LOCAL")



In [56]:
sorted(df_cleaned.Línea_Servicio.unique())

['ACCESO A INTERNET',
 'ACTIVIDADES DE FORMACION CULTURAL',
 'ACTIVIDADES DE FORMACION EN LECTURA Y ESCRITURA',
 'ACTIVIDADES DE FORMACIÓN EN LECTURA',
 'ACTIVIDADES EN FORMACION EN LECTURA Y ESCRITURA',
 'ACTIVIDADES EN LECTURA Y ESCRITURA',
 'ACTIVIDADES Y FORMACION COMUNITARIA',
 'ACTIVIDADES Y FORMACION COMUNITARIA PARA EL DESARROLLO LOCAL',
 'ACTIVIDADES Y FORMACION EN LECTURA',
 'ACTIVIDADES Y FORMACION EN LECTURA Y ESCRITURA',
 'ACTIVIDADES Y FORMACIÓN COMUNITARIA',
 'ACTIVIDADES Y FORMACIÓN EN LECTURA',
 'ACTIVIDADES Y FORMACIÓN EN LECTURA Y ESCRITURA',
 'AREA DE CIRCULACION Y PRESTAMO',
 'CONSULTA EN SALA',
 'FORMACIÓN DE USUARIOS / ALFABETIZACIÓN INFORMACIONAL',
 'PRÉSTAMO EXTERNO',
 'REFERENCIA']

In [57]:
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("ACTIVIDADES Y FORMACION EN LECTURA", "ACTIVIDADES DE FORMACIÓN EN LECTURA")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("ACTIVIDADES EN FORMACION EN LECTURA Y ESCRITURA", "ACTIVIDADES DE FORMACION EN LECTURA Y ESCRITURA")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("ACTIVIDADES Y FORMACION EN LECTURA Y ESCRITURA", "ACTIVIDADES DE FORMACION EN LECTURA Y ESCRITURA")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("ACTIVIDADES Y FORMACIÓN EN LECTURA Y ESCRITURA", "ACTIVIDADES DE FORMACION EN LECTURA Y ESCRITURA")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("ACTIVIDADES Y FORMACIÓN EN LECTURA", "ACTIVIDADES DE FORMACIÓN EN LECTURA")
df_cleaned.Línea_Servicio = df_cleaned.Línea_Servicio.replace("ACTIVIDADES Y FORMACIÓN COMUNITARIA", "ACTIVIDADES Y FORMACION COMUNITARIA")


In [58]:
# Muestra la forma final del DataFrame limpio: número de filas y columnas tras la depuración
df_cleaned.shape

(15309, 6)

In [59]:
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15309 entries, 0 to 15308
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Actividad          15309 non-null  string
 1   Línea_Servicio     15309 non-null  string
 2   ESPACIO_ACTIVIDAD  15309 non-null  string
 3   Asistencias        15309 non-null  int64 
 4   Rangos_Edad        15309 non-null  string
 5   LUGAR              15309 non-null  string
dtypes: int64(1), string(5)
memory usage: 717.7 KB


In [60]:
df_cleaned.to_csv("ACTIVIDADES_DE_LA_BIBLIOTECA_clean.csv", index=False)

print("\nEl archivo CSV ha sido guardado.")



El archivo CSV ha sido guardado.
