In [1]:
import pandas as pd
import json 

In [2]:
#APERTURA DE ARCHIVO
with open('Books.json', 'r') as file:
    books = json.load(file)

#CANTIDAD DE ELEMENTOS EN EL ARCHIVO
len(books)    

2375

### DataWrangling

In [3]:
#APERTURA DE ARCHIVO
df = pd.read_json('Books.json')
df.head(3)

Unnamed: 0,title,category,authors,publisher,publishedDate,pageCount,language,price
0,La metamorfosis,[Fiction],[Franz Kafka],CASTALIA,2012-10-01,62.0,es,
1,El Sabueso de los Baskerville,[Fiction],[Arthur Conan Doyle],Taylor & Francis,2001-02-14,242.0,es,
2,El idiota,[Fiction],[Fiódor Dostoievski],e-artnow,2015-07-22,809.0,es,0.99


In [4]:
#BUSQUEDA DE NULOS
df.isna().sum()

title               0
category          134
authors            85
publisher         289
publishedDate      45
pageCount          42
language            0
price            1227
dtype: int64

#### Variable Price

In [5]:
#IMPUTACION DE VALORES NULOS POR LA MEDIA
df.loc[df.price.isna(), 'price'] = df.price.mean()

#INFO
print(f'Cantidad de nulos: {df.price.isna().sum()}')

Cantidad de nulos: 0


#### Variable PublishedDate

In [6]:
df = df.loc[df.publishedDate.notna()]

#INFO
print(f'Cantidad de nulos: {df.publishedDate.isna().sum()}')

Cantidad de nulos: 0


In [7]:
#SE CONVIERTE FECHA EN TIPO FECHA REPRESENTANDO EL AÑO DE PUBLICACION
df.publishedDate = pd.to_datetime(df.publishedDate, format="%Y-%m-%d",yearfirst=True, errors='coerce').dt.year

#SE IMPUTAN LOS NULOS POR LA MEDIA DE LOS AÑOS
df.loc[df.publishedDate.isna(), 'publishedDate'] = df.publishedDate.median()

#INFO
print(f'Cantidad de nulos: {df.publishedDate.isna().sum()}')

Cantidad de nulos: 0


#### Variable pageCount

In [8]:
#SE CONVIERTE FECHA EN TIPO FECHA REPRESENTANDO EL AÑO DE PUBLICACION
df.loc[df.pageCount.isna(), 'pageCount'] = df.pageCount.median()

#INFO
print(f'Cantidad de nulos: {df.pageCount.isna().sum()}')

Cantidad de nulos: 0


#### Valores nulos restantes

In [9]:
#BUSQUEDA DE NULOS
df.isna().sum()

title              0
category         131
authors           82
publisher        289
publishedDate      0
pageCount          0
language           0
price              0
dtype: int64

In [10]:
#SE ELIMINAN DATOS NULOS
df.dropna(inplace=True)

#BUSQUEDA DE NULOS
df.isna().sum()

title            0
category         0
authors          0
publisher        0
publishedDate    0
pageCount        0
language         0
price            0
dtype: int64

### Preparacion de datos en tablas

#### Tabla authors

In [11]:
#PREPARACION DE TABLA AUTORES
authors = []

for book in books:
    if book['authors']:
        for author in book['authors']:
            authors.append(author)
        
#SE ELIMINAN DUPLICADOS Y SE ORDENA LA LISTA
authors = list(set(authors))
authors.sort()
print(f'Total de autores despues de quitar duplicados: {len(authors)}')

Total de autores despues de quitar duplicados: 1819


In [12]:
#SE CREA DATAFRAME PARA ALOJAR LA TABLA
df_author = pd.DataFrame({'author_id':range(1,len(authors)+1),
                          'name': authors})

df_author.head()

Unnamed: 0,author_id,name
0,1,Fernando Trujillo Sáez
1,2,Sigmund Freud
2,3,(Astronomo) Copernico
3,4,", Esopo"
4,5,A. Pandolfi


#### Tabla categories

In [13]:
#PREPARACION DE TABLA CATEGORIAS
categories = []

for book in books:
    if book['category']:
        for category in book['category']:
                categories.append(category)
        

#SE ELIMINAN DUPLICADOS Y SE ORDENA LA LISTA
categories = list(set(categories))
categories.sort()
print(f'Total de categorias: {len(categories)}')

Total de categorias: 161


In [14]:
#SE CREA DATAFRAME PARA ALOJAR LA TABLA
df_categories = pd.DataFrame({  'category_id':range(1,len(categories)+1),
                                'name': categories})

df_categories.head()

Unnamed: 0,category_id,name
0,1,Accounting
1,2,Adobe Photoshop
2,3,Adventure stories
3,4,Aesthetics
4,5,Agriculture


#### Tabla publisher

In [15]:
#PREPARACION TABLA PUBLISERS
publishers = [book['publisher'] for book in books if book['publisher']]

publishers = list(set(publishers))

publishers.sort()

df_publ = pd.DataFrame({'publisher_id':range(1, len(publishers)+1),
                        'name' : publishers})

df_publ.head()

Unnamed: 0,publisher_id,name
0,1,22 Lions
1,2,2samaræ
2,3,978-987-572-875-2
3,4,A Fuego Lento Ediciones
4,5,AGUILAR


In [16]:
#APERTURA DE ARCHIVO
df.head()

Unnamed: 0,title,category,authors,publisher,publishedDate,pageCount,language,price
0,La metamorfosis,[Fiction],[Franz Kafka],CASTALIA,2012.0,62.0,es,8.772099
1,El Sabueso de los Baskerville,[Fiction],[Arthur Conan Doyle],Taylor & Francis,2001.0,242.0,es,8.772099
2,El idiota,[Fiction],[Fiódor Dostoievski],e-artnow,2015.0,809.0,es,0.99
3,Antígona: Tragedia clásica griega,[Fiction],"[Sófocles,]",IberiaLiteratura,2015.0,59.0,es,8.772099
4,El juguete rabioso,[Fiction],[Roberto Arlt],BoD - Books on Demand,2023.0,131.0,es,8.772099
