In [1]:
# cleanred servirá para depurar, corregir y ajustar diferentes datos
# Pandas como librería permite el trabajo de conjunto de datos
# La función import permite "llamar" a la librería Pandas que se trabajará bajo un alias "pd"
import pandas as pd

In [2]:
# Para el manejo de grandes datos se permite usar archivos CSV (archivo separado por comas)
# Dataframe se denominará "df" el cual permite un trabajo en una matriz bidimensional
# Se cargar un archivo CSV dentro del DataFrame de pandas
df = pd.read_csv("redbib.csv")

In [3]:
# Al ejecutar df.shape devolverá como resultado la dimensión de la matriz (columnas, filas)
df.shape

(716843, 21)

In [4]:
# La función df.info(), proporciona información sobre la estructura de la matriz como:
# Número de filas y columnas, índices, tipos de datos, uso de memoria, valores no nulos. 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 716843 entries, 0 to 716842
Data columns (total 21 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   Título             716843 non-null  object
 1   Autor              618567 non-null  object
 2   Clasificación      716826 non-null  object
 3   Descripción        716843 non-null  object
 4   Ciudad             716169 non-null  object
 5   Fecha_publicación  684961 non-null  object
 6   ISBN               659564 non-null  object
 7   Cod_barras         716843 non-null  int64 
 8   Precio             716843 non-null  object
 9   Estadística        716843 non-null  object
 10  Biblioteca         716843 non-null  object
 11  Clasificación_2    716804 non-null  object
 12  Tipo_de_material   716843 non-null  object
 13  Público_objetivo   709856 non-null  object
 14  Localización       716843 non-null  object
 15  Estado_de_Proceso  716843 non-null  object
 16  Fecha_creación     7

In [5]:
# Mediante la función drop() se podrán omitir las columnas de poca relevancia para el análisis de datos
# En la depuración de la matríz se almacenará en un nuevo DataFrame denominado df_cleanred
df_cleanred = df.drop(columns=["Clasificación", "Descripción", "ISBN", "Precio", "Materia", "Acervo"])

In [6]:
# A través de la función df_cleanred_info(), mostrará como resultado la nueva matriz
# Relaciona las carácteristicas sin la columna eliminada.
df_cleanred.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 716843 entries, 0 to 716842
Data columns (total 15 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   Título             716843 non-null  object
 1   Autor              618567 non-null  object
 2   Ciudad             716169 non-null  object
 3   Fecha_publicación  684961 non-null  object
 4   Cod_barras         716843 non-null  int64 
 5   Estadística        716843 non-null  object
 6   Biblioteca         716843 non-null  object
 7   Clasificación_2    716804 non-null  object
 8   Tipo_de_material   716843 non-null  object
 9   Público_objetivo   709856 non-null  object
 10  Localización       716843 non-null  object
 11  Estado_de_Proceso  716843 non-null  object
 12  Fecha_creación     716843 non-null  object
 13  Proveedor          546589 non-null  object
 14  Tipo de préstamo   716843 non-null  object
dtypes: int64(1), object(14)
memory usage: 82.0+ MB


In [7]:
# Pandas permite renombrar columnas a través de la función .rename()
# la opción inplace=True permite conservar los cambios en las columnas

# Fecha_publicación
df_cleanred.rename(columns={'Fecha_publicación': 'Año_publicación'}, inplace=True)

# Estadística
df_cleanred.rename(columns={'Estadística': 'Rubro'}, inplace=True)

# Público_objetivo
df_cleanred.rename(columns={'Público_objetivo': 'Colección'}, inplace=True)

# Fecha_creación
df_cleanred.rename(columns={'Fecha_creación': 'Fecha_Ingreso'}, inplace=True)

In [8]:
# Para visualizar los nuevos cambios se debe ejecutar la función info()
df_cleanred.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 716843 entries, 0 to 716842
Data columns (total 15 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   Título             716843 non-null  object
 1   Autor              618567 non-null  object
 2   Ciudad             716169 non-null  object
 3   Año_publicación    684961 non-null  object
 4   Cod_barras         716843 non-null  int64 
 5   Rubro              716843 non-null  object
 6   Biblioteca         716843 non-null  object
 7   Clasificación_2    716804 non-null  object
 8   Tipo_de_material   716843 non-null  object
 9   Colección          709856 non-null  object
 10  Localización       716843 non-null  object
 11  Estado_de_Proceso  716843 non-null  object
 12  Fecha_Ingreso      716843 non-null  object
 13  Proveedor          546589 non-null  object
 14  Tipo de préstamo   716843 non-null  object
dtypes: int64(1), object(14)
memory usage: 82.0+ MB


In [12]:
# Use la siguiente línea si desea eliminar filas con valores nulos solo en algunas columnas:
df_cleanred = df_cleanred.dropna(subset=["Autor", "Ciudad", "Cod_barras", "Año_publicación", "Clasificación_2", "Tipo_de_material", "Colección", "Proveedor"])


In [13]:
# La función .shape devolverá valores de número de filas y columnas del DataFrame.
df_cleanred.shape

(443402, 15)

In [19]:
# Para saber el número de filas eliminadas se usa la función row_before y row_after

rows_before = df.shape[0]
rows_after = df_cleanred.shape[0]
rows_before - rows_after

273441

In [20]:
# Para conocer la información actualizada del nuevo conjunto de datos se hace uso de la función info() y columnas y filas eliminadas no relacionan.
df_cleanred.info()

<class 'pandas.core.frame.DataFrame'>
Index: 443402 entries, 0 to 716842
Data columns (total 15 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   Título             443402 non-null  object
 1   Autor              443402 non-null  object
 2   Ciudad             443402 non-null  object
 3   Año_publicación    443402 non-null  object
 4   Cod_barras         443402 non-null  int64 
 5   Rubro              443402 non-null  object
 6   Biblioteca         443402 non-null  object
 7   Clasificación_2    443402 non-null  object
 8   Tipo_de_material   443402 non-null  object
 9   Colección          443402 non-null  object
 10  Localización       443402 non-null  object
 11  Estado_de_Proceso  443402 non-null  object
 12  Fecha_Ingreso      443402 non-null  object
 13  Proveedor          443402 non-null  object
 14  Tipo de préstamo   443402 non-null  object
dtypes: int64(1), object(14)
memory usage: 54.1+ MB


In [21]:
# Tipo de datos: para ajustar cada uno de los elementos se deberá usar la siguiente estructura
# df_cleanred['Nombre_Columna'] = df_cleanred['Nombre_Columna'].astype('string') string corresponde al tipo de dato cadena de texto
# df_cleanred['Nombre_Columna'] = df_cleanred['Nombre_Columna'].astype('int') int corresponde al tipo de dato entero
# df_cleanred.Nombre_Columna = pd.to_datetime(df_cleanred.Nombre_columna, format="%d/%m/%Y") Formato de fecha

df_cleanred['Título'] = df_cleanred['Título'].astype('string')
df_cleanred['Autor'] = df_cleanred['Autor'].astype('string')
df_cleanred['Ciudad'] = df_cleanred['Ciudad'].astype('object')
df_cleanred['Rubro'] = df_cleanred['Rubro'].astype('string')
df_cleanred['Biblioteca'] = df_cleanred['Biblioteca'].astype('string')
df_cleanred['Tipo_de_material'] = df_cleanred['Tipo_de_material'].astype('string')
df_cleanred['Colección'] = df_cleanred['Colección'].astype('string')
df_cleanred['Estado_de_Proceso'] = df_cleanred['Estado_de_Proceso'].astype('string')
df_cleanred['Proveedor'] = df_cleanred['Proveedor'].astype('string')
df_cleanred['Tipo de préstamo'] = df_cleanred['Tipo de préstamo'].astype('string')
df_cleanred['Cod_barras'] = df_cleanred['Cod_barras'].astype('int')

In [22]:
# Para comprobar los ajustes nuevamente y se ejecuta la función .info
df_cleanred.info()

<class 'pandas.core.frame.DataFrame'>
Index: 443402 entries, 0 to 716842
Data columns (total 15 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   Título             443402 non-null  string
 1   Autor              443402 non-null  string
 2   Ciudad             443402 non-null  object
 3   Año_publicación    443402 non-null  object
 4   Cod_barras         443402 non-null  int64 
 5   Rubro              443402 non-null  string
 6   Biblioteca         443402 non-null  string
 7   Clasificación_2    443402 non-null  object
 8   Tipo_de_material   443402 non-null  string
 9   Colección          443402 non-null  string
 10  Localización       443402 non-null  object
 11  Estado_de_Proceso  443402 non-null  string
 12  Fecha_Ingreso      443402 non-null  object
 13  Proveedor          443402 non-null  string
 14  Tipo de préstamo   443402 non-null  string
dtypes: int64(1), object(5), string(9)
memory usage: 54.1+ MB


In [23]:
# Para obtener los valores de la columna Ciudad en orden alfabético
sorted(df_cleanred.Ciudad.unique())

['Aguadulce, España',
 'Alacalá La Real, España',
 'Alagón, Zaragoza',
 'Alaquàs, Valencia',
 'Albacete (España)',
 'Albolote (España)',
 'Albuixech, España',
 'Alcalá La Real (España)',
 'Alcira (España)',
 'Alcobendas, España',
 'Alegia (España)',
 'Alexandria (Virginia)',
 'Alfragide (Portugal)',
 'Algemesí, España',
 'Algete (España)',
 'Alicante, España',
 'Allemagne',
 'Allemange',
 'Almería, España',
 'Altair Quebecor',
 'Amenia (Colombia)',
 'Amsterdam (Holanda)',
 'Andalucía (España)',
 'Annapolis',
 'Antequera, España',
 'Antioquia',
 'Arabia Saudita',
 'Aragua (Venezuela)',
 'Aranguren, Vizcaya, España',
 'Archidona (España)',
 'Arcos de Belén, México',
 'Argentina',
 'Arlés (Francia)',
 'Armenia (Colombia)',
 'Asturias (España)',
 'Asunción (Paraguay)',
 'Atenas',
 'Atlanta, Georgia',
 'Augsburg (Alemania)',
 'Aurbun, Indiana',
 'Austin (Estados Unidos)',
 'Australia',
 'Austria',
 'BArcelona',
 'Badalona (España)',
 'Bahía (Brasil)',
 'Bahía Solano',
 'Balderas (México)',


In [24]:
# Para corregir o cambiar una palabra se debe ejecutar la siguiente línea de la columna Ciudad
df_cleanred.Ciudad = df_cleanred.Ciudad.replace("Alacalá La Real, España", "Alcalá La Real (España)")
df_cleanred.Ciudad = df_cleanred.Ciudad.replace("Albuixech, España", "Albuixech, (España)")
df_cleanred.Ciudad = df_cleanred.Ciudad.replace("Algemesí, España", "Algemesí, (España)")
df_cleanred.Ciudad = df_cleanred.Ciudad.replace("Alaquàs, Valencia", "Valencia, (España)")
df_cleanred.Ciudad = df_cleanred.Ciudad.replace("Alagón, Zaragoza", "Zaragoza, (España)")
df_cleanred.Ciudad = df_cleanred.Ciudad.replace("Alicante, España", "Alicante, (España)")
df_cleanred.Ciudad = df_cleanred.Ciudad.replace("Allemange", "Allemagne")
df_cleanred.Ciudad = df_cleanred.Ciudad.replace("Alexandria (Virginia)", "Virginia (Estados Unidos)")
df_cleanred.Ciudad = df_cleanred.Ciudad.replace("Amenia (Colombia)", "Armenia (Colombia)")

In [25]:
# Para verificar que los ajustes se hayan realizado en la columna Ciudad en orden alfabético
sorted(df_cleanred.Ciudad.unique())

['Aguadulce, España',
 'Albacete (España)',
 'Albolote (España)',
 'Albuixech, (España)',
 'Alcalá La Real (España)',
 'Alcira (España)',
 'Alcobendas, España',
 'Alegia (España)',
 'Alfragide (Portugal)',
 'Algemesí, (España)',
 'Algete (España)',
 'Alicante, (España)',
 'Allemagne',
 'Almería, España',
 'Altair Quebecor',
 'Amsterdam (Holanda)',
 'Andalucía (España)',
 'Annapolis',
 'Antequera, España',
 'Antioquia',
 'Arabia Saudita',
 'Aragua (Venezuela)',
 'Aranguren, Vizcaya, España',
 'Archidona (España)',
 'Arcos de Belén, México',
 'Argentina',
 'Arlés (Francia)',
 'Armenia (Colombia)',
 'Asturias (España)',
 'Asunción (Paraguay)',
 'Atenas',
 'Atlanta, Georgia',
 'Augsburg (Alemania)',
 'Aurbun, Indiana',
 'Austin (Estados Unidos)',
 'Australia',
 'Austria',
 'BArcelona',
 'Badalona (España)',
 'Bahía (Brasil)',
 'Bahía Solano',
 'Balderas (México)',
 'Baranquilla (Colombia)',
 'Barcelona',
 'Barrancabermeja',
 'Barranquilla',
 'Barreal de Heredia',
 'Barsikow',
 'Basel',
 'B

In [26]:
# Para obtener los valores de la columna Colección en orden alfabético
sorted(df_cleanred.Colección.unique())

['Adolescente',
 'Adulto',
 'Adultos',
 'Desconocido o no especificado',
 'Educacion infantil',
 'Educación primaria (1er ciclo)',
 'Educación primaria (segundo ciclo)',
 'Escuela secundaria',
 'Especializada',
 'General',
 'Juvenil',
 'No codificado',
 'Preadolescente',
 'Preescolar',
 'Primaria',
 'educación Infantil']

In [27]:
# Para corregir o cambiar una palabra se debe ejecutar la siguiente línea de la columna Colección
df_cleanred.Colección = df_cleanred.Colección.replace("Adulto", "Adultos")
df_cleanred.Colección = df_cleanred.Colección.replace("Educacion infantil", "Infantil")
df_cleanred.Colección = df_cleanred.Colección.replace("Educación primaria (1er ciclo)", "Infantil")
df_cleanred.Colección = df_cleanred.Colección.replace("Educación primaria (segundo ciclo)", "Infantil")
df_cleanred.Colección = df_cleanred.Colección.replace("Escuela secundaria", "Juvenil")
df_cleanred.Colección = df_cleanred.Colección.replace("Adolescente", "Juvenil")
df_cleanred.Colección = df_cleanred.Colección.replace("Preadolescente", "Infantil")
df_cleanred.Colección = df_cleanred.Colección.replace("Primaria", "Infantil")
df_cleanred.Colección = df_cleanred.Colección.replace("educación Infantil", "Infantil")
df_cleanred.Colección = df_cleanred.Colección.replace("Desconocido o no especificado", "General")
df_cleanred.Colección = df_cleanred.Colección.replace("No codificado", "General")
df_cleanred.Colección = df_cleanred.Colección.replace("Preescolar", "Infantil")


In [28]:
# Para verificar que los ajustes se hayan realizado en la columna Colección en orden alfabético
sorted(df_cleanred.Colección.unique())

['Adultos', 'Especializada', 'General', 'Infantil', 'Juvenil']

In [29]:
# Obtener valores de la columna Rubro en orden alfabético
sorted(df_cleanred.Rubro.unique())


['Canje',
 'Compra',
 'Consejeria',
 'Convenio',
 'Donación',
 'FDL',
 'Proyectos',
 'Recuperado',
 'Reposicion',
 'SED',
 'Traslado']

In [30]:
# Para corregir o cambiar una palabra se debe ejecutar la siguiente línea de la columna Rubro

df_cleanred.Rubro = df_cleanred.Rubro.replace("Consejeria", "Proyectos")
df_cleanred.Rubro = df_cleanred.Rubro.replace("Convenio", "Proyectos")
df_cleanred.Rubro = df_cleanred.Rubro.replace("FDL", "Proyectos")
df_cleanred.Rubro = df_cleanred.Rubro.replace("SED", "Proyectos")
df_cleanred.Rubro = df_cleanred.Rubro.replace("Reposicion", "Reposición")

In [31]:
# Verificar los ajustes en la columna Rubro
sorted(df_cleanred.Rubro.unique())


['Canje',
 'Compra',
 'Donación',
 'Proyectos',
 'Recuperado',
 'Reposición',
 'Traslado']

In [32]:
# Obtener valores de la columna Tipo_de_material en orden alfabético
sorted(df_cleanred.Tipo_de_material.unique())

['Audiolibro',
 'Blu-Ray',
 'Braile General',
 'Braile Infantil',
 'CD',
 'DVD',
 'Folletos',
 'Libro General',
 'Libro Infantil',
 'Libro en tela',
 'Mapas',
 'Música',
 'Partituras',
 'Referencia',
 'VHS']

In [33]:
# # Para corregir o cambiar una palabra se debe ejecutar la siguiente línea de la columna Tipo_de_material

df_cleanred.Tipo_de_material = df_cleanred.Tipo_de_material.replace("Audiolibro", "Audiovisual")
df_cleanred.Tipo_de_material = df_cleanred.Tipo_de_material.replace("Blu-Ray", "Audiovisual")
df_cleanred.Tipo_de_material = df_cleanred.Tipo_de_material.replace("CD", "Audiovisual")
df_cleanred.Tipo_de_material = df_cleanred.Tipo_de_material.replace("DVD", "Audiovisual")
df_cleanred.Tipo_de_material = df_cleanred.Tipo_de_material.replace("Música", "Audiovisual")
df_cleanred.Tipo_de_material = df_cleanred.Tipo_de_material.replace("VHS", "Audiovisual")


In [34]:
# Verificar cambios de valores en la columna Tipo_de_material en orden alfabético
sorted(df_cleanred.Tipo_de_material.unique())

['Audiovisual',
 'Braile General',
 'Braile Infantil',
 'Folletos',
 'Libro General',
 'Libro Infantil',
 'Libro en tela',
 'Mapas',
 'Partituras',
 'Referencia']

In [35]:
# Obtener valores de la columna de la columna Localización en orden alfabético
sorted(df_cleanred.Localización.unique())

['Bebeteca',
 'Centro Aprende',
 'Distrito Gráfico',
 'En catalogación',
 'General',
 'Infantil',
 'Laboratorio de Cocreación',
 'Libro Viajero',
 'Local',
 'Localización eliminada',
 'Ludoteca',
 'Multimedia',
 'No disponible',
 'Promoción de Lectura',
 'Sonoteca',
 'Videoteca']

In [36]:
# Para corregir o cambiar una palabra se debe ejecutar la siguiente línea de la columna Localización
df_cleanred.Localización = df_cleanred.Localización.replace("Libro Viajero", "General")
df_cleanred.Localización = df_cleanred.Localización.replace("Localización eliminada", "General")
df_cleanred.Localización = df_cleanred.Localización.replace("Multimedia", "Audiovisual")
df_cleanred.Localización = df_cleanred.Localización.replace("Sonoteca", "Audiovisual")
df_cleanred.Localización = df_cleanred.Localización.replace("Videoteca", "Audiovisual")

In [37]:
# Para revisar los cambios de valores en la columna Localización en orden alfabético
sorted(df_cleanred.Localización.unique())

['Audiovisual',
 'Bebeteca',
 'Centro Aprende',
 'Distrito Gráfico',
 'En catalogación',
 'General',
 'Infantil',
 'Laboratorio de Cocreación',
 'Local',
 'Ludoteca',
 'No disponible',
 'Promoción de Lectura']

In [38]:
# La función drop_duplicates() permite elimina filas duplicadas de un DataFrame.
# Su sintaxis df_cleaned.drop_duplicates(subset=None, keep='first', inplace=True) 
# subset: Especifica las columnas en las que se buscarán duplicados. Si no se especifica, se comprueban todos los valores de las filas.
# keep: Decide cuáles de los duplicados se conservarán.
# inplace: Si se establece en True, el DataFrame se modificará directamente sin necesidad de reasignarlo.

df_cleanred.drop_duplicates(subset=None, keep='first', inplace=True)

In [39]:
# Última revisión y visual general de la versión final.
df_cleanred.shape

(443402, 15)

In [40]:
# Revisión final del DataFrame se ejecunta la función info(), que proporciona información sobre el nuevo conjunto de datos.
df_cleanred.info()

<class 'pandas.core.frame.DataFrame'>
Index: 443402 entries, 0 to 716842
Data columns (total 15 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   Título             443402 non-null  string
 1   Autor              443402 non-null  string
 2   Ciudad             443402 non-null  object
 3   Año_publicación    443402 non-null  object
 4   Cod_barras         443402 non-null  int64 
 5   Rubro              443402 non-null  string
 6   Biblioteca         443402 non-null  string
 7   Clasificación_2    443402 non-null  object
 8   Tipo_de_material   443402 non-null  string
 9   Colección          443402 non-null  string
 10  Localización       443402 non-null  object
 11  Estado_de_Proceso  443402 non-null  string
 12  Fecha_Ingreso      443402 non-null  object
 13  Proveedor          443402 non-null  string
 14  Tipo de préstamo   443402 non-null  string
dtypes: int64(1), object(5), string(9)
memory usage: 54.1+ MB


In [41]:
# Se graba el nuevo Dataframe limpio en un archivo CSV como redbid_clean.csv
# index=False para no guardar los índices como columna
df_cleanred.to_csv("redbid_clean.csv", index=False)

print("\nArchivo CSV grabado satisfactoriamente.")


Archivo CSV grabado satisfactoriamente.
