In [80]:
import requests
import pandas as pd
import json
from io import StringIO
from typing import Optional
import re
# URL de la API que proporciona el dataset en formato JSON
url = 'https://raw.githubusercontent.com/anyoneai/e-commerce-open-data-set/master/products.json'

# Realizar la solicitud GET a la API
response = requests.get(url)

In [81]:
# Verificar que la solicitud fue exitosa (código de estado 200)
if response.status_code == 200:
    # Acceder al contenido de la respuesta, que es un JSON
    data = response.json()
    
    # Convertir el objeto JSON en una cadena JSON
    json_str = json.dumps(data)
    
    # Usar StringIO para convertir la cadena JSON en un objeto similar a un archivo
    json_data = StringIO(json_str)
    
    # Leer el objeto similar a un archivo con pd.read_json() y almacenarlo en 'df'
    df = pd.read_json(json_data)

    print('DataFrame creado con éxito:')
    display(df.head())  # Muestra las primeras filas del DataFrame para verificar
    df.info()
else:
    print(f'Error al hacer la solicitud: Código de estado {response.status_code}')

DataFrame creado con éxito:


Unnamed: 0,sku,name,type,price,upc,category,shipping,description,manufacturer,model,url,image
0,43900,Duracell - AAA Batteries (4-Pack),HardGood,5.49,41333424019,"[{'id': 'pcmcat312300050015', 'name': 'Connect...",5.49,Compatible with select electronic devices; AAA...,Duracell,MN2400B4Z,http://www.bestbuy.com/site/duracell-aaa-batte...,http://img.bbystatic.com/BestBuy_US/images/pro...
1,48530,Duracell - AA 1.5V CopperTop Batteries (4-Pack),HardGood,5.49,41333415017,"[{'id': 'pcmcat312300050015', 'name': 'Connect...",5.49,Long-lasting energy; DURALOCK Power Preserve t...,Duracell,MN1500B4Z,http://www.bestbuy.com/site/duracell-aa-1-5v-c...,http://img.bbystatic.com/BestBuy_US/images/pro...
2,127687,Duracell - AA Batteries (8-Pack),HardGood,7.49,41333825014,"[{'id': 'pcmcat312300050015', 'name': 'Connect...",5.49,Compatible with select electronic devices; AA ...,Duracell,MN1500B8Z,http://www.bestbuy.com/site/duracell-aa-batter...,http://img.bbystatic.com/BestBuy_US/images/pro...
3,150115,Energizer - MAX Batteries AA (4-Pack),HardGood,4.99,39800011329,"[{'id': 'pcmcat312300050015', 'name': 'Connect...",5.49,4-pack AA alkaline batteries; battery tester i...,Energizer,E91BP-4,http://www.bestbuy.com/site/energizer-max-batt...,http://img.bbystatic.com/BestBuy_US/images/pro...
4,185230,Duracell - C Batteries (4-Pack),HardGood,8.99,41333440019,"[{'id': 'pcmcat312300050015', 'name': 'Connect...",5.49,Compatible with select electronic devices; C s...,Duracell,MN1400R4Z,http://www.bestbuy.com/site/duracell-c-batteri...,http://img.bbystatic.com/BestBuy_US/images/pro...


<class 'pandas.core.frame.DataFrame'>
Index: 51646 entries, 0 to 51645
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sku           51646 non-null  int64  
 1   name          51645 non-null  object 
 2   type          51646 non-null  object 
 3   price         51646 non-null  float64
 4   upc           51646 non-null  int64  
 5   category      51646 non-null  object 
 6   shipping      51646 non-null  object 
 7   description   51646 non-null  object 
 8   manufacturer  51584 non-null  object 
 9   model         48783 non-null  object 
 10  url           51646 non-null  object 
 11  image         51646 non-null  object 
dtypes: float64(1), int64(2), object(9)
memory usage: 5.1+ MB


In [82]:
import pandas as pd

df_copy = df.copy()

# Función para extraer la primera categoría
def extract_first_category(record):
    return record[0]['name']

# Función para extraer la segunda categoría
def extract_second_category(record):
    return record[1]['name'] if len(record) > 1 else None

# Función para extraer la tercera categoría
def extract_third_category(record):
    return record[2]['name'] if len(record) > 2 else None

# Función para extraer la cuarta categoría
def extract_fourth_category(record):
    return record[3]['name'] if len(record) > 3 else None

# Función para extraer la quinta categoría
def extract_fifth_category(record):
    return record[4]['name'] if len(record) > 4 else None

# Aplicamos las funciones a cada fila de la columna 'category' para obtener las categorías correspondientes
df_copy['first_category'] = df_copy['category'].apply(extract_first_category)
df_copy['second_category'] = df_copy['category'].apply(extract_second_category)
df_copy['third_category'] = df_copy['category'].apply(extract_third_category)
df_copy['fourth_category'] = df_copy['category'].apply(extract_fourth_category)
df_copy['fifth_category'] = df_copy['category'].apply(extract_fifth_category)




In [90]:
#¿Cuantos valores the 'fifth_category' tienen al menos 100 records?

# Contar el número de productos en cada categoría
fifth_category_counts = df_copy['fifth_category'].value_counts()    

# Filtrar las categorías con al menos 100 productos                 
fifth_category_counts = fifth_category_counts[fifth_category_counts >= 100]

# Mostrar el resultado
print(f'Hay {len(fifth_category_counts)} categorías con al menos 100 productos:')
print(fifth_category_counts)


Hay 14 categorías con al menos 100 productos:
fifth_category
Dash Installation Kits           739
Smartwatch Bands                 233
iPhone 6s Cases                  214
Deck Harnesses                   171
Universal Camera Bags & Cases    163
Multi-Cup Coffee Makers          135
iPhone 6s Plus Cases             126
Outdoor Seating                  120
Electric Tea Kettles             115
Full-Size Blenders               114
In-Ceiling Speakers              106
Coffee Pods                      105
Prime Lenses                     104
Antennas & Adapters              103
Name: count, dtype: int64


In [89]:
#Filtrar df_copy dataframe para todas las filas que tengan mas de 100 records en fifth_category incluyendo los valores nulos.

# Filtrar el DataFrame para incluir solo las filas con al menos 100 productos en la quinta categoría    
df_filtered = df_copy[df_copy['fifth_category'].isin(fifth_category_counts.index) | df_copy['fifth_category'].isnull()]

# Mostrar el resultado
print(f'Dimensiones del DataFrame filtrado: {df_filtered.shape}')
print(f'Número de categorías únicas en la quinta categoría: {df_filtered["fifth_category"].nunique()}')
print(f'Número de valores nulos en la quinta categoría: {df_filtered["fifth_category"].isnull().sum()}')





Dimensiones del DataFrame filtrado: (48548, 17)
Número de categorías únicas en la quinta categoría: 14
Número de valores nulos en la quinta categoría: 46000


In [95]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
Index: 51646 entries, 0 to 51645
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   sku              51646 non-null  int64  
 1   name             51645 non-null  object 
 2   type             51646 non-null  object 
 3   price            51646 non-null  float64
 4   upc              51646 non-null  int64  
 5   category         51646 non-null  object 
 6   shipping         51646 non-null  object 
 7   description      51646 non-null  object 
 8   manufacturer     51584 non-null  object 
 9   model            48783 non-null  object 
 10  url              51646 non-null  object 
 11  image            51646 non-null  object 
 12  first_category   51646 non-null  object 
 13  second_category  50891 non-null  object 
 14  third_category   45003 non-null  object 
 15  fourth_category  26158 non-null  object 
 16  fifth_category   5646 non-null   object 
dtypes: float64(1), in

In [94]:
df_filtered.info()

<class 'pandas.core.frame.DataFrame'>
Index: 48548 entries, 0 to 51645
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   sku              48548 non-null  int64  
 1   name             48547 non-null  object 
 2   type             48548 non-null  object 
 3   price            48548 non-null  float64
 4   upc              48548 non-null  int64  
 5   category         48548 non-null  object 
 6   shipping         48548 non-null  object 
 7   description      48548 non-null  object 
 8   manufacturer     48486 non-null  object 
 9   model            45685 non-null  object 
 10  url              48548 non-null  object 
 11  image            48548 non-null  object 
 12  first_category   48548 non-null  object 
 13  second_category  47793 non-null  object 
 14  third_category   41905 non-null  object 
 15  fourth_category  23060 non-null  object 
 16  fifth_category   2548 non-null   object 
dtypes: float64(1), in

In [98]:
#¿cuantas categorias unicas hay en cada categoria?

# Contar el número de categorías únicas en cada columna de categoría
unique_categories = df_filtered[['first_category', 'second_category', 'third_category', 'fourth_category', 'fifth_category']].nunique()

# Mostrar el resultado
print('Número de categorías únicas en cada columna:')
print(unique_categories)


Número de categorías únicas en cada columna:
first_category      62
second_category    171
third_category     616
fourth_category    741
fifth_category      14
dtype: int64


In [120]:
# ¿Cuantas categorias unicas hay en la cuarta categoria?

unique_fourth_categories = df_filtered['fourth_category'].nunique() 

# Mostrar el resultado
print(f'Número de categorías únicas en la cuarta categoría: {unique_fourth_categories}')

# ¿Cuantas categorias unicas representan el 90% de los registros de la cuarta categoria?
# Calcular el número de categorías que representan el 90% de los registros
category_counts = df_filtered['fourth_category'].value_counts(normalize=True)
cumulative_percentages = category_counts.cumsum()
n_categories = (cumulative_percentages < 0.9).sum()

# Mostrar el resultado
print(f'Número de categorías que representan el 90% de los registros: {n_categories}')

#Hacer una lista con las categorias que representan el 90% de los registros de la cuarta categoria
# Calcular el número de categorías que representan el 90% de los registros
category_counts = df_filtered['fourth_category'].value_counts(normalize=True)
cumulative_percentages = category_counts.cumsum()
n_categories = (cumulative_percentages < 0.9).sum()

# Crear una lista con las categorías que representan el 90% de los registros
top_categories = category_counts.head(n_categories).index.tolist()

# Mostrar el resultado
print(f'Categorías que representan el 90% de los registros:{top_categories}')	



Número de categorías únicas en la cuarta categoría: 741
Número de categorías que representan el 90% de los registros: 261
Categorías que representan el 90% de los registros:['iPhone Cases & Clips', 'Deck Installation Parts', 'Cookware', 'Printer Ink', 'Laptop Bags & Cases', 'All TV Stands', 'Food Preparation Utensils', 'Portable Chargers/Power Packs', 'PC Laptops', 'Electric Ranges', 'Gas Ranges', 'Toner', 'Cases', 'Laptop Batteries', '3D Printer Filament', 'Internal Batteries', 'Smartwatch Accessories', 'Wall Mount Range Hoods', 'Camera Bags & Cases', 'Over-Ear Headphones', 'Camera Batteries', 'Bakeware', 'On-Ear Headphones', 'Outdoor Speakers', 'Luggage', 'Coffee Makers', 'Electric Dryers', 'Apple Watch Bands & Straps', 'Blenders', 'External Hard Drives', 'Security Camera Systems', 'DSLR Lenses', 'In-Wall & In-Ceiling Speakers', 'Patio Furniture & Decor', 'Bookshelf Speakers', 'All Point & Shoot Cameras', 'Projector Screens', 'Car Subwoofers', 'USB Cables & Hubs', 'Laptop Chargers & 

In [124]:
# ¿Cuantas categorias unicas hay en la tercer categoria?

# Contar el número de categorías únicas en la tercera categoría
unique_third_categories = df_filtered['third_category'].nunique()

# Mostrar el resultado
print(f'Número de categorías únicas en la tercera categoría: {unique_third_categories}')

# ¿Cuantas categorias unicas representan el 90% de los registros de la tercer categoria?
# Calcular el número de categorías que representan el 90% de los registros
category_counts = df_filtered['third_category'].value_counts(normalize=True)
cumulative_percentages = category_counts.cumsum()
n_categories = (cumulative_percentages < 0.9).sum()

# Mostrar el resultado
print(f'Número de categorías que representan el 90% de los registros: {n_categories}')

#Hacer una lista con las categorias que representan el 90% de los registros de la tercer categoria
# Calcular el número de categorías que representan el 90% de los registros
category_counts = df_filtered['third_category'].value_counts(normalize=True)
cumulative_percentages = category_counts.cumsum()
n_categories = (cumulative_percentages < 0.9).sum()

# Crear una lista con las categorías que representan el 90% de los registros
top_categories = category_counts.head(n_categories).index.tolist()

# Mostrar el resultado
print(f'Categorías que representan el 90% de los registros:{top_categories}')



Número de categorías únicas en la tercera categoría: 616
Número de categorías que representan el 90% de los registros: 228
Categorías que representan el 90% de los registros:['iPhone Accessories', 'Cell Phone Cases & Clips', 'Car Audio Installation Parts', 'Printer Ink & Toner', 'Laptop Accessories', 'Cases, Covers & Keyboard Folios', 'Cell Phone Batteries & Power', 'Cookware, Bakeware & Cutlery', 'Speakers', 'All Refrigerators', 'Sheet Music', 'Ranges', 'Adapters, Cables & Chargers', 'All Laptops', 'Coffee, Tea & Espresso', 'Kitchen Gadgets', 'TV Stands', 'All Desktops', 'Earbud & In-Ear Headphones', 'Over-Ear & On-Ear Headphones', 'A/V Cables & Connectors', 'Camera Bags, Cases & Straps', 'USB Flash Drives', 'Outdoor Living', 'Filters & Accessories', 'Smartwatches & Accessories', 'All Unlocked Cell Phones', 'Camera Batteries & Power', 'All Microwaves', 'Hard Drives & Storage', 'Built-In Dishwashers', 'Camera Lenses', 'Cooktops', 'PS4 Games', 'Dryers', 'Fans', 'Range Hoods', 'Security 

In [121]:
# ¿Cuantas categorias unicas hay en la segunda categoria?

# Contar el número de categorías únicas en la segunda categoría
unique_second_categories = df_filtered['second_category'].nunique()

# Mostrar el resultado
print(f'Número de categorías únicas en la segunda categoría: {unique_second_categories}')

# ¿Cuantas categorias unicas representan el 90% de los registros de la segunda categoria?
# Calcular el número de categorías que representan el 90% de los registros
category_counts = df_filtered['second_category'].value_counts(normalize=True)
cumulative_percentages = category_counts.cumsum()
n_categories = (cumulative_percentages < 0.9).sum()

# Mostrar el resultado
print(f'Número de categorías que representan el 90% de los registros: {n_categories}')

#Hacer una lista con las categorias que representan el 90% de los registros de la segunda categoria
# Calcular el número de categorías que representan el 90% de los registros
category_counts = df_filtered['second_category'].value_counts(normalize=True)
cumulative_percentages = category_counts.cumsum()
n_categories = (cumulative_percentages < 0.9).sum()

# Crear una lista con las categorías que representan el 90% de los registros
top_categories = category_counts.head(n_categories).index.tolist()

# Mostrar el resultado
print(f'Categorías que representan el 90% de los registros:{top_categories}')


Número de categorías únicas en la segunda categoría: 171
Número de categorías que representan el 90% de los registros: 58
Categorías que representan el 90% de los registros:['Cell Phone Accessories', 'Pre-Owned Games', 'Small Kitchen Appliances', 'Computer Accessories & Peripherals', 'Digital Camera Accessories', 'Ranges, Cooktops & Ovens', 'Car Installation Parts & Accessories', 'Home Audio', 'iPad & Tablet Accessories', 'Headphones', 'Heating, Cooling & Air Quality', 'Office & School Supplies', 'TV Stands, Mounts & Furniture', 'Refrigerators', 'Sheet Music & DVDs', 'Bluetooth & Wireless Speakers', 'Car Audio', 'Appliance Parts & Accessories', 'TV & Home Theater Accessories', 'Housewares', 'Connected Home', 'Personal Care & Beauty', 'Musical Instrument Accessories', 'Laptops', 'Office Furniture & Storage', 'Washers & Dryers', 'Desktop & All-in-One Computers', 'Furniture & Decor', 'Binoculars, Telescopes & Optics', 'Telephones & Communication', 'Software', 'Digital Cameras', 'Computer 