In [61]:
import pandas as pd
import numpy as np

pd.set_option('display.max_columns', None) 

In [62]:
df_rating = pd.read_csv("Materiales/rating-and-performance-limpio.csv" ,  index_col = 0)

In [63]:
df_rating.columns

Index(['title', 'price', 'retail_price', 'units_sold', 'uses_ad_boosts',
       'rating_x', 'rating_count', 'rating_five_count', 'rating_four_count',
       'rating_three_count', 'rating_two_count', 'rating_one_count',
       'badge_local_product', 'badge_product_quality', 'badge_fast_shipping',
       'tags', 'product_color', 'product_variation_size_id',
       'shipping_option_name', 'shipping_option_price', 'shipping_is_express',
       'countries_shipped_to', 'inventory_total', 'origin_country',
       'merchant_name', 'merchant_info_subtitle', 'merchant_rating_count',
       'merchant_rating', 'merchant_id', 'product_id', 'listed_products',
       'total_units_sold', 'mean_units_sold_per_product', 'rating_y',
       'merchant_ratings_count', 'mean_product_prices', 'mean_retail_prices',
       'average_discount', 'mean_discount', 'mean_product_ratings_count',
       'urgency_text_rate'],
      dtype='object')

1. Total de unidades vendidas por país de origen del vendedor. Debéis agrupar los datos según el país de origen del vendedor y calcular el total de unidades vendidas para cada país. Esto nos dará una idea de qué países tienen una mayor participación en las ventas totales y cuáles tienen menos. Devuelve los resultados en un DataFrame ordenados de mayor a menor en función de la cantidad de unidades vendidas. 

In [64]:
sold_country = df_rating.groupby('origin_country')['units_sold'].sum().reset_index()
sold_country = sold_country.sort_values(by = 'units_sold' , ascending = False)

In [65]:
sold_country

Unnamed: 0,origin_country,units_sold
1,CN,6651245
4,US,43560
3,SG,20100
2,GB,1000
5,VE,350
0,AT,100


2. Estadísticas de precio por país de envío. Vamos a explorar el precio promedio y el precio máximo de los productos según el país al que se envían. Al hacer esto, podremos entender cómo varían los precios según el destino del envío y si hay alguna tendencia interesante que valga la pena analizar.  Devuelve los resultados en un DataFrame. 

In [66]:
data_country = df_rating.groupby('origin_country')['units_sold'].agg(['mean' , 'max']).reset_index()

In [67]:
data_country

Unnamed: 0,origin_country,mean,max
0,AT,100.0,100
1,CN,4387.364776,100000
2,GB,1000.0,1000
3,SG,10050.0,20000
4,US,1405.16129,10000
5,VE,70.0,100


3. Conteo de productos con y sin distintivo de producto local. Vamos a clasificar los productos según si tienen o no un distintivo de producto local. Luego, calcularemos el conteo de productos en cada categoría para comprender cuántos productos tienen este distintivo y cuántos no. Esto puede proporcionarnos información sobre cómo se promocionan los productos con esta característica. Devuelve los resultados en un DataFrame. 

In [68]:
local_prod = df_rating.groupby('badge_local_product')['product_id'].count().reset_index()
local_prod.columns = ['local_product', 'count']

In [69]:
local_prod

Unnamed: 0,local_product,count
0,0,1544
1,1,29


4. Promedio de unidades vendidas por tipo de envío. Nuestro objetivo es analizar cómo se correlaciona el tipo de envío (columna `shipping_option_name` ) con las unidades vendidas. Vamos a calcular el promedio de unidades vendidas para cada tipo de opción de envío. Esto podría ayudarnos a determinar si ciertos métodos de envío están relacionados con un mayor o menor rendimiento en las ventas. Devuelve los resultados en un DataFrame.  ¿Qué conclusiones puedes sacar de este resultado?

In [70]:
ship_info = df_rating.groupby('shipping_option_name')['units_sold'].mean().reset_index()
ship_info = ship_info.sort_values(by = 'units_sold' , ascending = False)
ship_info.columns = ['shipping_option', 'mean(units_sold)']

In [71]:
ship_info

# En general, estos resultados sugieren que los métodos de envío estándar en diferentes idiomas tienen un rendimiento más bajo 
# Esto podría ser una indicación de que se necesitan mejoras en la forma en que se ofrecen estos servicios 

Unnamed: 0,shipping_option,mean(units_sold)
8,Standardowa wysyłka,10033.333333
0,Ekspresowa wysyłka,10000.0
14,ការដឹកជញ្ជូនតាមស្តង់ដារ,10000.0
10,Standart Gönderi,5500.0
13,การส่งสินค้ามาตรฐาน,5000.0
5,Livraison standard,4383.756631
7,Standard Shipping,4216.666667
11,Стандартная доставка,3366.666667
2,Envío normal,3220.0
1,Envio Padrão,2488.888889


5. Reemplazo de valores. A lo largo del DataFrame tenemos algunas columnas cuyos valores son cero y uno, lo que podría llevar a confusión en su interpretación. Estas columnas son: 

    - `uses_ad_boosts`: La cual indica si la plataforma de comercio electrónico ha utilizado o no la función de impulso de anuncios.  Si el valor de uses_ad_boosts es 1, indica que el vendedor ha invertido en publicidad adicional para resaltar el producto. Si el valor es 0, no ha sido promocionado a través de anuncios adicionales.

    - `badge_local_product`: Indica que el producto se produce, fabrica o se envía desde la misma región o país en el que se realiza la transacción de compra. Si el valor es 1, significa que el producto tiene un distintivo que lo califica como un producto local. Si el valor es 0, indica que el producto no tiene este distintivo.

    - `badge_product_quality`: Indica que el producto cumple con ciertos estándares de calidad, características o evaluaciones positivas por parte de los consumidores. Si el valor es 1, significa que el producto tiene un distintivo que lo califica como un producto de alta calidad. Si el valor es 0, indica que el producto no tiene este distintivo de calidad.

    - `badge_fast_shipping`: Indica que el producto se enviará y entregará en un plazo más corto en comparación con otras opciones de envío estándar. Si el valor es 1, significa que el producto tiene un distintivo que indica un envío rápido. Si el valor es 0, indica que el producto no tiene este distintivo de envío rápido.

    - `shipping_is_express`: Se refiere a si una opción de envío para un producto en una plataforma de comercio electrónico se considera como "envío exprés" o "envío rápido". Si el valor es 1, significa que la opción de envío asociada se considera como una entrega rápida o exprés. Si el valor es 0, indica que la opción de envío no se considera como envío exprés.

    Todas estas columnas cumplen un patrón, y es que los 0 corresponden con 'No' y los 1 con 'Si'. Por esto, en este ejercicio deberéis reemplazar los 0: No y los 1: Si. 

In [72]:
dicc_mapeo = {0: "No", 1: "Yes"}
columnas = ['uses_ad_boosts' , 'badge_local_product' , 'badge_product_quality', 'badge_fast_shipping', 'shipping_is_express']

for columna in columnas:
    df_rating[columna] = df_rating[columna].map(dicc_mapeo)

In [73]:
df_rating.head(1)

Unnamed: 0,title,price,retail_price,units_sold,uses_ad_boosts,rating_x,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count,badge_local_product,badge_product_quality,badge_fast_shipping,tags,product_color,product_variation_size_id,shipping_option_name,shipping_option_price,shipping_is_express,countries_shipped_to,inventory_total,origin_country,merchant_name,merchant_info_subtitle,merchant_rating_count,merchant_rating,merchant_id,product_id,listed_products,total_units_sold,mean_units_sold_per_product,rating_y,merchant_ratings_count,mean_product_prices,mean_retail_prices,average_discount,mean_discount,mean_product_ratings_count,urgency_text_rate
0,2020 Summer Vintage Flamingo Print Pajamas Se...,16.0,14,100,No,3.76,54,26.0,8.0,10.0,1.0,9.0,No,No,No,"Summer,Fashion,womenunderwearsuit,printedpajam...",white,M,Livraison standard,4,No,34,50,CN,zgrdejia,,568,4.128521,595097d6a26f6e070cb878d1,5e9ae51d43d6a96e303acdb0,1,100,100.0,4.129,568.0,16.0,14.0,-14.0,-14.0,54.0,100.0


6. Calificación de la calidad del producto. Sobreescribe la columna `badge_product_quality`  utilizando `apply()` para asignar "Buena" a las filas donde 'badge_product_quality' sea "No" y "Excelente" donde sea "Si".

In [74]:
def cat_quality (data):
    
    if data == "Yes":
        return 'Excellent'
    elif data == "No":
        return 'Good'
    
df_rating["badge_product_quality"] = df_rating["badge_product_quality"].apply(cat_quality)

In [75]:
df_rating["badge_product_quality"].unique()

array(['Good', 'Excellent'], dtype=object)

In [76]:
df_rating.sample(5)

Unnamed: 0,title,price,retail_price,units_sold,uses_ad_boosts,rating_x,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count,badge_local_product,badge_product_quality,badge_fast_shipping,tags,product_color,product_variation_size_id,shipping_option_name,shipping_option_price,shipping_is_express,countries_shipped_to,inventory_total,origin_country,merchant_name,merchant_info_subtitle,merchant_rating_count,merchant_rating,merchant_id,product_id,listed_products,total_units_sold,mean_units_sold_per_product,rating_y,merchant_ratings_count,mean_product_prices,mean_retail_prices,average_discount,mean_discount,mean_product_ratings_count,urgency_text_rate
856,Femmes d'été Sexy Floral robe courte bretelles...,15.0,28,100,Yes,3.23,69,25.0,9.0,8.0,11.0,16.0,No,Good,No,"sexypleated,sweetheart,Shorts,short dress,Summ...",blue,S,Livraison standard,4,No,51,50,CN,qysm6688,,897,3.850613,5bdbb9048a83b5678f43462b,5c9b2bded2430a1d4535ed64,1,100,100.0,3.851,897.0,15.0,28.0,47.0,47.0,69.0,
940,Robe d'été haute qualité plus taille 6XL 2016 ...,11.0,10,20000,No,3.73,8609,3624.0,1733.0,1531.0,761.0,960.0,No,Good,No,"Summer,Women's Casual Tops,V-neck,loose t-shir...",black,S,Livraison standard,3,No,41,50,CN,深圳服装贸易有限公司店铺,84 % avis positifs,32394,3.924677,57864d704d669274929898fb,5809ab4aa964b43cbe7b19ef,3,20020,6673.0,3.925,32394.0,7.67,25.33,51.0,51.33,2872.0,
662,2018 Nouveau T-shirts d'été Femmes Sexy col en...,5.78,50,5000,Yes,3.55,876,362.0,142.0,141.0,77.0,154.0,No,Good,No,"Summer,Plus Size,Sleeve,Tops,womens top,short ...",grey,XS,Livraison standard,1,No,10,50,CN,longming,85 % avis positifs,27175,3.966035,58a99ceca65ebc504a6ebf1e,5a6af94ffb04de342fa3ff8b,4,6020,1505.0,3.966,27175.0,8.95,42.75,37.0,37.0,325.0,25.0
582,Débardeur pour femme Débardeur Bandage Plume I...,3.0,3,100,Yes,4.29,58,36.0,13.0,3.0,2.0,4.0,No,Excellent,No,"blouse,Summer,Vest,Plus Size,Tank,Shirt,Women ...",black,S,Livraison standard,1,No,34,50,CN,oklfao,83 % avis positifs,1050,3.88381,5a698cef028bbd27227d3d12,5cde56ea6bbbd86b1cbab4a8,3,300,100.0,3.884,1050.0,3.0,3.0,0.0,0.0,58.0,67.0
231,Femmes Camisole extensible Spaghetti Strap Lon...,5.77,48,100000,No,4.1,20744,11184.0,4152.0,2919.0,1174.0,1315.0,No,Good,No,"Mini,Strapless Dress,Spaghetti Strap,Tank,Tops...",black,XS,Livraison standard,2,No,46,50,CN,shanghailalanginternationaltradecoltd,86 % avis positifs,330405,4.067348,53f2beb39020ee03566d6e18,544b079d1280fa28eee9b380,1,100000,100000.0,4.067,330405.0,5.77,48.0,88.0,88.0,20744.0,


7. Cálculo de descuento. Crea una nueva columna `discount_percentage` utilizando `apply()` que calcule el porcentaje de descuento  basado en las columnas 'price' y 'retail_price', redondea los decimales a 2. Después elimina las columnas de `average_discount` y `mean_discount` 

In [77]:
def porcentaje_descuento (price , retail_price):
    
    descuento = price - retail_price
    porcentaje_descuento = round((descuento * 100) / price , 2)
    
    return porcentaje_descuento

df_rating['discount_percentage'] = df_rating.apply(lambda x: porcentaje_descuento(x["price"], x["retail_price"]), axis = 1)

In [78]:
df_rating.drop(['average_discount' , 'mean_discount'], axis = 1 , inplace = True)

In [79]:
df_rating.head(1)

Unnamed: 0,title,price,retail_price,units_sold,uses_ad_boosts,rating_x,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count,badge_local_product,badge_product_quality,badge_fast_shipping,tags,product_color,product_variation_size_id,shipping_option_name,shipping_option_price,shipping_is_express,countries_shipped_to,inventory_total,origin_country,merchant_name,merchant_info_subtitle,merchant_rating_count,merchant_rating,merchant_id,product_id,listed_products,total_units_sold,mean_units_sold_per_product,rating_y,merchant_ratings_count,mean_product_prices,mean_retail_prices,mean_product_ratings_count,urgency_text_rate,discount_percentage
0,2020 Summer Vintage Flamingo Print Pajamas Se...,16.0,14,100,No,3.76,54,26.0,8.0,10.0,1.0,9.0,No,Good,No,"Summer,Fashion,womenunderwearsuit,printedpajam...",white,M,Livraison standard,4,No,34,50,CN,zgrdejia,,568,4.128521,595097d6a26f6e070cb878d1,5e9ae51d43d6a96e303acdb0,1,100,100.0,4.129,568.0,16.0,14.0,54.0,100.0,12.5


8. Evaluación de la valoración del vendedor. Utiliza `apply()` para crear una nueva columna 'seller_reputation' donde los valores sean "Buena" si 'merchant_rating' es mayor o igual a 4, y "Regular" si es menor a 4. Después elimina la columna `merchant_rating`. 

In [80]:
def valoracion (data):
    
    if data >= 4:
        return 'Good'
    
    elif data < 4:
        return 'Ordinary'

df_rating['seller_reputation'] = df_rating['merchant_rating'].apply(valoracion)

In [81]:
df_rating.drop('merchant_rating', axis = 1 , inplace = True)

In [82]:
df_rating.head(1)

Unnamed: 0,title,price,retail_price,units_sold,uses_ad_boosts,rating_x,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count,badge_local_product,badge_product_quality,badge_fast_shipping,tags,product_color,product_variation_size_id,shipping_option_name,shipping_option_price,shipping_is_express,countries_shipped_to,inventory_total,origin_country,merchant_name,merchant_info_subtitle,merchant_rating_count,merchant_id,product_id,listed_products,total_units_sold,mean_units_sold_per_product,rating_y,merchant_ratings_count,mean_product_prices,mean_retail_prices,mean_product_ratings_count,urgency_text_rate,discount_percentage,seller_reputation
0,2020 Summer Vintage Flamingo Print Pajamas Se...,16.0,14,100,No,3.76,54,26.0,8.0,10.0,1.0,9.0,No,Good,No,"Summer,Fashion,womenunderwearsuit,printedpajam...",white,M,Livraison standard,4,No,34,50,CN,zgrdejia,,568,595097d6a26f6e070cb878d1,5e9ae51d43d6a96e303acdb0,1,100,100.0,4.129,568.0,16.0,14.0,54.0,100.0,12.5,Good


9. Guarda los resultados en un DataFrame para usarlo en la próxima lección. 

In [83]:
df_rating.to_csv("Materiales/rating-and-performance-transformado.csv")