# Otros métodos de limpieza

- `.map()`:  Se utiliza para aplicar una transformación o reemplazo a cada elemento de una Serie, y devuelve una nueva Serie con los valores transformados o reemplazados.

- `.replace()`: Se utiliza para reemplazar valores en un DataFrame o Serie con otros valores especificados.


In [1]:
# pero antes....librerias!!!
# nuestras librerias a utilizar
import pandas as pd
import numpy as np


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [2]:
# y nuestros datos anteriores....
# traemos los datos que guardamos en el tema anterior.

df = pd.read_csv("bank-additional_full_apply.csv")

In [3]:
# lo primero que vamos a hacer es crear un diccionario donde:
# las claves sean los valores que tenemos en la columna sobre la que queremos aplicar el map
# los valores del diccionario serán los valores nuevos que queremos tener en la columna
# En nuestro caso queremos reemplazar los 0 por No y los 1 por Si

diccionario_mapa = {0: "No", 1: "Si"}

In [4]:
# una vez creado el diccionario, vamos a aplicar el map a la columna de 'loan'
# en este caso vamos a sobreescribir los valores de la columna

df["loan"] = df["loan"].map(diccionario_mapa)

# vemos el DataFrame y veremos que ahora la columna de 'loan' ya no tiene 1 y 0, ahora tiene Si y No. 
df.sample(6)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat,hijos_totales
612,143974,0,0,2012-06-27,12,5df56c5b-958e-469f-90cd-7e048bc9ff5f,47.0,admin.,divorced,university degree,0.0,1.0,No,telephone,160,3,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191,no,22-junio-2017,43.183,-83.083,junio,2017.0,Mediana edad,0 hijos
23487,68084,1,2,2013-08-28,24,cf65114e-8aea-4400-af0d-8a0a0aa48881,,technician,married,university degree,0.0,1.0,No,cellular,151,2,999,0,nonexistent,1.4,,-36.1,,52281,no,15-abril-2016,49.188,-94.235,abril,2016.0,Adultos mayores,3 hijos
37701,14774,2,2,2014-03-26,25,476bbadf-d55c-4c9d-8627-ca0f0f7890f5,73.0,retired,married,university degree,0.0,0.0,No,telephone,245,4,999,0,nonexistent,-2.9,92.201,-31.4,0.821,50762,no,5-julio-2018,47.006,-100.37,julio,2018.0,Adultos mayores,4 hijos
13173,36879,2,0,2012-04-28,28,96ccfb41-e12e-4693-83bb-47ede3edaf4d,32.0,technician,single,university degree,0.0,0.0,Si,cellular,90,1,999,0,nonexistent,1.4,93.918,-42.7,4.962,52281,no,3-junio-2018,47.918,-121.591,junio,2018.0,Adultos jóvenes,2 hijos
14998,169919,1,0,2012-07-14,21,e09c2508-e802-4cd2-aa20-cf20a79eec76,30.0,entrepreneur,single,university degree,0.0,1.0,No,cellular,11,12,999,0,nonexistent,1.4,93.918,-42.7,4.958,52281,no,2-abril-2018,36.688,-110.313,abril,2018.0,Adultos jóvenes,1 hijos
15121,18852,0,1,2012-06-03,31,7b3a444d-ab67-48e5-bbc5-2c33c1ef68e2,28.0,blue-collar,single,,0.0,0.0,No,cellular,437,1,999,0,nonexistent,1.4,93.918,-42.7,4.958,52281,no,22-septiembre-2017,37.02,-124.84,septiembre,2017.0,Adultos jóvenes,1 hijos


In [5]:
# chequeamos los valores únicos para la columna de loan 
df["loan"].unique()

array(['No', 'Si', nan], dtype=object)

In [6]:
# hacemos lo mismo para la columna de 'housing' y 'default', para la cual nos vale el mismo diccionario que hemos creado antes. 
df["housing"] = df["housing"].map(diccionario_mapa)
df["default"] = df["default"].map(diccionario_mapa)


In [7]:
# vemos cuáles son sus valores únicos de la columna 'housing'
df["housing"].unique()

array(['No', 'Si', nan], dtype=object)

In [8]:
# vemos cuáles son sus valores únicos de la columna 'housing'
df["default"].unique()

array(['No', nan, 'Si'], dtype=object)

## `.replace()`


El método `replace()` se utiliza para reemplazar valores en un *DataFrame* o una *Serie* con otros valores específicos que proporcionamos. Puedes utilizar este método para realizar cambios en los datos de manera eficiente y fácil.

La sintaxis básica del `replace()` en Pandas es la siguiente:

```python
DataFrame.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')
```


In [9]:
df.head(1)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat,hijos_totales
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,No,No,No,telephone,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0,Adultos mayores,1 hijos


In [10]:
# aplicamos el método '.replace()' sobre la columna 'pdays' para reemplazar los valores 999 por nulos de numpy (np.nan)
df["pdays"] = df["pdays"].replace(999, np.nan)

# comprobamos que no tenemos valores de 999 en la columna 'pdays' . Perfecto! No nos sale ninguno
df[df["pdays"] == 999]

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat,hijos_totales


In [11]:
# guardamos el csv para usarlo en la lección de mañana
df.to_csv("bank-additional_clean.csv")

# Ejercicios

En estos usaremos el conjunto de datos que guardamos ayer en los ejercicios de la clase invertida. Los ejercicios que os planteamos hoy son: 


1. Total de unidades vendidas por país de origen del vendedor. Debéis agrupar los datos según el país de origen del vendedor y calcular el total de unidades vendidas para cada país. Esto nos dará una idea de qué países tienen una mayor participación en las ventas totales y cuáles tienen menos. Devuelve los resultados en un DataFrame ordenados de mayor a menor en función de la cantidad de unidades vendidas. 

2. Estadísticas de precio por país de envío. Vamos a explorar el precio promedio y el precio máximo de los productos según el país al que se envían. Al hacer esto, podremos entender cómo varían los precios según el destino del envío y si hay alguna tendencia interesante que valga la pena analizar.  Devuelve los resultados en un DataFrame. 

3. Conteo de productos con y sin distintivo de producto local. Vamos a clasificar los productos según si tienen o no un distintivo de producto local. Luego, calcularemos el conteo de productos en cada categoría para comprender cuántos productos tienen este distintivo y cuántos no. Esto puede proporcionarnos información sobre cómo se promocionan los productos con esta característica. Devuelve los resultados en un DataFrame. 

4. Promedio de unidades vendidas por tipo de envío. Nuestro objetivo es analizar cómo se correlaciona el tipo de envío (columna `shipping_option_name` ) con las unidades vendidas. Vamos a calcular el promedio de unidades vendidas para cada tipo de opción de envío. Esto podría ayudarnos a determinar si ciertos métodos de envío están relacionados con un mayor o menor rendimiento en las ventas. Devuelve los resultados en un DataFrame.  ¿Qué conclusiones puedes sacar de este resultado?

5. Reemplazo de valores. A lo largo del DataFrame tenemos algunas columnas cuyos valores son cero y uno, lo que podría llevar a confusión en su interpretación. Estas columnas son: 

    - `uses_ad_boosts`: La cual indica si la plataforma de comercio electrónico ha utilizado o no la función de impulso de anuncios.  Si el valor de uses_ad_boosts es 1, indica que el vendedor ha invertido en publicidad adicional para resaltar el producto. Si el valor es 0, no ha sido promocionado a través de anuncios adicionales.

    - `badge_local_product`: Indica que el producto se produce, fabrica o se envía desde la misma región o país en el que se realiza la transacción de compra. Si el valor es 1, significa que el producto tiene un distintivo que lo califica como un producto local. Si el valor es 0, indica que el producto no tiene este distintivo.

    - `badge_product_quality`: Indica que el producto cumple con ciertos estándares de calidad, características o evaluaciones positivas por parte de los consumidores. Si el valor es 1, significa que el producto tiene un distintivo que lo califica como un producto de alta calidad. Si el valor es 0, indica que el producto no tiene este distintivo de calidad.

    - `badge_fast_shipping`: Indica que el producto se enviará y entregará en un plazo más corto en comparación con otras opciones de envío estándar. Si el valor es 1, significa que el producto tiene un distintivo que indica un envío rápido. Si el valor es 0, indica que el producto no tiene este distintivo de envío rápido.

    - `shipping_is_express`: Se refiere a si una opción de envío para un producto en una plataforma de comercio electrónico se considera como "envío exprés" o "envío rápido". Si el valor es 1, significa que la opción de envío asociada se considera como una entrega rápida o exprés. Si el valor es 0, indica que la opción de envío no se considera como envío exprés.

    Todas estas columnas cumplen un patrón, y es que los 0 corresponden con 'No' y los 1 con 'Si'. Por esto, en este ejercicio deberéis reemplazar los 0: No y los 1: Si. 


6. Calificación de la calidad del producto. Sobreescribe la columna `badge_product_quality`  utilizando `apply()` para asignar "Buena" a las filas donde 'badge_product_quality' sea "No" y "Excelente" donde sea "Si".


7. Cálculo de descuento. Crea una nueva columna `discount_percentage` utilizando `apply()` que calcule el porcentaje de descuento  basado en las columnas 'price' y 'retail_price', redondea los decimales a 2. Después elimina las columnas de `average_discount` y `mean_discount` 

8. Evaluación de la valoración del vendedor. Utiliza `apply()` para crear una nueva columna 'seller_reputation' donde los valores sean "Buena" si 'merchant_rating' es mayor o igual a 4, y "Regular" si es menor a 4. Después elimina la columna `merchant_rating`. 

9. Guarda los resultados en un DataFrame para usarlo en la próxima lección. 


In [24]:
df = pd.read_csv('df_combinado_alterado.csv', index_col=0)
df.head(2)

Unnamed: 0,index_x,title_orig,price,retail_price,units_sold,uses_ad_boosts,rating_x,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count,badge_local_product,badge_product_quality,badge_fast_shipping,tags,product_color,product_variation_size_id,shipping_option_name,shipping_option_price,shipping_is_express,countries_shipped_to,inventory_total,origin_country,merchant_name,merchant_info_subtitle,merchant_rating_count,merchant_rating,merchant_id,product_url,product_id,index_y,merchant_id.1,listed_products,total_units_sold,mean_units_sold_per_product,rating_y,merchant_ratings_count,mean_product_prices,mean_retail_prices,average_discount,mean_discount,mean_product_ratings_count
0,0,2020 Summer Vintage Flamingo Print Pajamas Se...,16.0,14,100,0,3.76,54,26.0,8.0,10.0,1.0,9.0,0,0,0,"Summer,Fashion,womenunderwearsuit,printedpajam...",white,M,Livraison standard,4,0,34,50,CN,zgrdejia,,568,4.128521,595097d6a26f6e070cb878d1,https://www.wish.com/c/5e9ae51d43d6a96e303acdb0,5e9ae51d43d6a96e303acdb0,822,595097d6a26f6e070cb878d1,1,100,100.0,4.129,568.0,16.0,14.0,-14.0,-14.0,54.0
1,1,Women's Casual Summer Sleeveless Sexy Mini Dress,8.0,22,20000,1,3.45,6135,2269.0,1027.0,1118.0,644.0,1077.0,0,0,0,"Mini,womens dresses,Summer,Patchwork,fashion d...",green,XS,Livraison standard,2,0,41,50,CN,sarahouse,83 % avis positifs,17752,3.899673,56458aa03a698c35c9050988,https://www.wish.com/c/58940d436a0d3d5da4e95a38,58940d436a0d3d5da4e95a38,65,56458aa03a698c35c9050988,6,21400,3567.0,3.9,17752.0,5.68,10.33,38.0,37.83,1057.0


Total de unidades vendidas por país de origen del vendedor. Debéis agrupar los datos según el país de origen del vendedor y calcular el total de unidades vendidas para cada país. Esto nos dará una idea de qué países tienen una mayor participación en las ventas totales y cuáles tienen menos. Devuelve los resultados en un DataFrame ordenados de mayor a menor en función de la cantidad de unidades vendidas.

In [17]:
unit_sold_country = df.groupby('origin_country')['units_sold'].sum().sort_values(ascending = False).reset_index()
unit_sold_country

Unnamed: 0,origin_country,units_sold
0,CN,6651245
1,US,43560
2,SG,20100
3,GB,1000
4,VE,350
5,AT,100


Estadísticas de precio por país de envío. Vamos a explorar el precio promedio y el precio máximo de los productos según el país al que se envían. Al hacer esto, podremos entender cómo varían los precios según el destino del envío y si hay alguna tendencia interesante que valga la pena analizar.  Devuelve los resultados en un DataFrame. 

In [31]:
len(df['countries_shipped_to'].unique())

94

In [32]:
countries_stats0 = df.groupby('origin_country')['price'].agg(['mean', 'max']).reset_index()
countries_stats0

Unnamed: 0,origin_country,mean,max
0,AT,7.0,7.0
1,CN,8.341629,49.0
2,GB,9.0,9.0
3,SG,3.38,3.93
4,US,9.397097,16.0
5,VE,8.298,16.0


In [20]:
countries_stats = df.groupby('countries_shipped_to')['price'].agg(['mean', 'max']).reset_index()
countries_stats

Unnamed: 0,countries_shipped_to,mean,max
0,6,6.000000,6.0
1,8,5.298333,6.0
2,9,6.707500,8.0
3,10,12.111429,18.0
4,11,8.500000,12.0
...,...,...,...
89,135,5.355000,7.0
90,137,8.243333,11.0
91,138,6.036667,9.0
92,139,8.975000,13.0


Conteo de productos con y sin distintivo de producto local. Vamos a clasificar los productos según si tienen o no un distintivo de producto local. Luego, calcularemos el conteo de productos en cada categoría para comprender cuántos productos tienen este distintivo y cuántos no. Esto puede proporcionarnos información sobre cómo se promocionan los productos con esta característica. Devuelve los resultados en un DataFrame. 

In [28]:
df.head(1)

Unnamed: 0,index_x,title_orig,price,retail_price,units_sold,uses_ad_boosts,rating_x,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count,badge_local_product,badge_product_quality,badge_fast_shipping,tags,product_color,product_variation_size_id,shipping_option_name,shipping_option_price,shipping_is_express,countries_shipped_to,inventory_total,origin_country,merchant_name,merchant_info_subtitle,merchant_rating_count,merchant_rating,merchant_id,product_url,product_id,index_y,merchant_id.1,listed_products,total_units_sold,mean_units_sold_per_product,rating_y,merchant_ratings_count,mean_product_prices,mean_retail_prices,average_discount,mean_discount,mean_product_ratings_count
0,0,2020 Summer Vintage Flamingo Print Pajamas Se...,16.0,14,100,0,3.76,54,26.0,8.0,10.0,1.0,9.0,0,0,0,"Summer,Fashion,womenunderwearsuit,printedpajam...",white,M,Livraison standard,4,0,34,50,CN,zgrdejia,,568,4.128521,595097d6a26f6e070cb878d1,https://www.wish.com/c/5e9ae51d43d6a96e303acdb0,5e9ae51d43d6a96e303acdb0,822,595097d6a26f6e070cb878d1,1,100,100.0,4.129,568.0,16.0,14.0,-14.0,-14.0,54.0


In [27]:
df['badge_local_product'].unique()

array([0, 1])

# Opción 1

In [35]:
df['local_product'] = df['badge_local_product'].apply(lambda x: 'Yes' if x else 'No')
df.head(1)

Unnamed: 0,index_x,title_orig,price,retail_price,units_sold,uses_ad_boosts,rating_x,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count,badge_local_product,badge_product_quality,badge_fast_shipping,tags,product_color,product_variation_size_id,shipping_option_name,shipping_option_price,shipping_is_express,countries_shipped_to,inventory_total,origin_country,merchant_name,merchant_info_subtitle,merchant_rating_count,merchant_rating,merchant_id,product_url,product_id,index_y,merchant_id.1,listed_products,total_units_sold,mean_units_sold_per_product,rating_y,merchant_ratings_count,mean_product_prices,mean_retail_prices,average_discount,mean_discount,mean_product_ratings_count,local_product
0,0,2020 Summer Vintage Flamingo Print Pajamas Se...,16.0,14,100,0,3.76,54,26.0,8.0,10.0,1.0,9.0,0,0,0,"Summer,Fashion,womenunderwearsuit,printedpajam...",white,M,Livraison standard,4,0,34,50,CN,zgrdejia,,568,4.128521,595097d6a26f6e070cb878d1,https://www.wish.com/c/5e9ae51d43d6a96e303acdb0,5e9ae51d43d6a96e303acdb0,822,595097d6a26f6e070cb878d1,1,100,100.0,4.129,568.0,16.0,14.0,-14.0,-14.0,54.0,No


In [36]:
count_df = df['local_product'].value_counts().reset_index()
count_df

Unnamed: 0,local_product,count
0,No,1544
1,Yes,29


# Opción 2

In [37]:
distintivo = df.groupby('badge_local_product')['index_x'].count().reset_index()
distintivo

Unnamed: 0,badge_local_product,index_x
0,0,1544
1,1,29


Promedio de unidades vendidas por tipo de envío. Nuestro objetivo es analizar cómo se correlaciona el tipo de envío (columna `shipping_option_name` ) con las unidades vendidas. Vamos a calcular el promedio de unidades vendidas para cada tipo de opción de envío. Esto podría ayudarnos a determinar si ciertos métodos de envío están relacionados con un mayor o menor rendimiento en las ventas. Devuelve los resultados en un DataFrame.  ¿Qué conclusiones puedes sacar de este resultado?

In [38]:
df.shipping_option_name.unique()

array(['Livraison standard', 'Standard Shipping', 'Envio Padrão',
       'Стандартная доставка', 'Standart Gönderi', 'การส่งสินค้ามาตรฐาน',
       'Standardversand', 'Envío normal', 'Standardowa wysyłka',
       'الشحن القياسي', 'Expediere Standard', 'ការដឹកជញ្ជូនតាមស្តង់ដារ',
       'Livraison Express', 'Spedizione standard', 'Ekspresowa wysyłka'],
      dtype=object)

In [39]:
df.head(1)

Unnamed: 0,index_x,title_orig,price,retail_price,units_sold,uses_ad_boosts,rating_x,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count,badge_local_product,badge_product_quality,badge_fast_shipping,tags,product_color,product_variation_size_id,shipping_option_name,shipping_option_price,shipping_is_express,countries_shipped_to,inventory_total,origin_country,merchant_name,merchant_info_subtitle,merchant_rating_count,merchant_rating,merchant_id,product_url,product_id,index_y,merchant_id.1,listed_products,total_units_sold,mean_units_sold_per_product,rating_y,merchant_ratings_count,mean_product_prices,mean_retail_prices,average_discount,mean_discount,mean_product_ratings_count,local_product
0,0,2020 Summer Vintage Flamingo Print Pajamas Se...,16.0,14,100,0,3.76,54,26.0,8.0,10.0,1.0,9.0,0,0,0,"Summer,Fashion,womenunderwearsuit,printedpajam...",white,M,Livraison standard,4,0,34,50,CN,zgrdejia,,568,4.128521,595097d6a26f6e070cb878d1,https://www.wish.com/c/5e9ae51d43d6a96e303acdb0,5e9ae51d43d6a96e303acdb0,822,595097d6a26f6e070cb878d1,1,100,100.0,4.129,568.0,16.0,14.0,-14.0,-14.0,54.0,No


In [42]:
promedio = df.groupby('shipping_option_name')['units_sold'].mean().sort_values(ascending = False).reset_index()
promedio

Unnamed: 0,shipping_option_name,units_sold
0,Standardowa wysyłka,10033.333333
1,Ekspresowa wysyłka,10000.0
2,ការដឹកជញ្ជូនតាមស្តង់ដារ,10000.0
3,Standart Gönderi,5500.0
4,การส่งสินค้ามาตรฐาน,5000.0
5,Livraison standard,4383.756631
6,Standard Shipping,4216.666667
7,Стандартная доставка,3366.666667
8,Envío normal,3220.0
9,Envio Padrão,2488.888889


### Conclusión: Los envíos 3 primeros tipos de envío son los que mayor cantidad tienen de unidades vendidas, mientras que los 4 últimos son los que menor cantidad tienen de unidades vendidas. 

5. Reemplazo de valores. A lo largo del DataFrame tenemos algunas columnas cuyos valores son cero y uno, lo que podría llevar a confusión en su interpretación. Estas columnas son: 

    - `uses_ad_boosts`: La cual indica si la plataforma de comercio electrónico ha utilizado o no la función de impulso de anuncios.  Si el valor de uses_ad_boosts es 1, indica que el vendedor ha invertido en publicidad adicional para resaltar el producto. Si el valor es 0, no ha sido promocionado a través de anuncios adicionales.

    - `badge_local_product`: Indica que el producto se produce, fabrica o se envía desde la misma región o país en el que se realiza la transacción de compra. Si el valor es 1, significa que el producto tiene un distintivo que lo califica como un producto local. Si el valor es 0, indica que el producto no tiene este distintivo.

    - `badge_product_quality`: Indica que el producto cumple con ciertos estándares de calidad, características o evaluaciones positivas por parte de los consumidores. Si el valor es 1, significa que el producto tiene un distintivo que lo califica como un producto de alta calidad. Si el valor es 0, indica que el producto no tiene este distintivo de calidad.

    - `badge_fast_shipping`: Indica que el producto se enviará y entregará en un plazo más corto en comparación con otras opciones de envío estándar. Si el valor es 1, significa que el producto tiene un distintivo que indica un envío rápido. Si el valor es 0, indica que el producto no tiene este distintivo de envío rápido.

    - `shipping_is_express`: Se refiere a si una opción de envío para un producto en una plataforma de comercio electrónico se considera como "envío exprés" o "envío rápido". Si el valor es 1, significa que la opción de envío asociada se considera como una entrega rápida o exprés. Si el valor es 0, indica que la opción de envío no se considera como envío exprés.

    Todas estas columnas cumplen un patrón, y es que los 0 corresponden con 'No' y los 1 con 'Si'. Por esto, en este ejercicio deberéis reemplazar los 0: No y los 1: Si. 





In [48]:
# vamos a crear una lista con los nombres de las columnas que queremos cambiar
lista_columnas = ['uses_ad_boosts', 'badge_local_product', 'badge_product_quality', 'badge_fast_shipping', 'shipping_is_express']

# iteramos por la lista de columnas y a cada una de ellas le aplicamos la función que hemos creado con un '.apply()'
for col in lista_columnas:
    df[col] = df[col].apply(lambda x: 'Sí' if x == 1 else 'No')

In [49]:
df.loc[:3, lista_columnas]

Unnamed: 0,uses_ad_boosts,badge_local_product,badge_product_quality,badge_fast_shipping,shipping_is_express
0,No,No,No,No,No
1,Sí,No,No,No,No
2,Sí,No,No,No,No
3,No,No,No,No,No


6. Calificación de la calidad del producto. Sobreescribe la columna `badge_product_quality`  utilizando `apply()` para asignar "Buena" a las filas donde 'badge_product_quality' sea "No" y "Excelente" donde sea "Si".



In [50]:
df['badge_product_quality'] = df['badge_product_quality'].apply(lambda x: 'Buena' if x == 'No' else 'Excelente')

In [57]:
df.loc[41:44, ['badge_product_quality']]

Unnamed: 0,badge_product_quality
41,Buena
42,Buena
43,Excelente
44,Buena



7. Cálculo de descuento. Crea una nueva columna `discount_percentage` utilizando `apply()` que calcule el porcentaje de descuento  basado en las columnas 'price' y 'retail_price', redondea los decimales a 2. Después elimina las columnas de `average_discount` y `mean_discount` 

In [62]:
df.loc[:3, ['price', 'retail_price']]

Unnamed: 0,price,retail_price
0,16.0,14
1,8.0,22
2,4.9,8
3,4.93,6


In [64]:
# Solución con una lambda
df['discount_percentage'] = df.apply(lambda row: round(((row['retail_price'] - row['price']) / row['retail_price']) * 100, 2), axis=1)
df.head(2)

Unnamed: 0,index_x,title_orig,price,retail_price,units_sold,uses_ad_boosts,rating_x,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count,badge_local_product,badge_product_quality,badge_fast_shipping,tags,product_color,product_variation_size_id,shipping_option_name,shipping_option_price,shipping_is_express,countries_shipped_to,inventory_total,origin_country,merchant_name,merchant_info_subtitle,merchant_rating_count,merchant_rating,merchant_id,product_url,product_id,index_y,merchant_id.1,listed_products,total_units_sold,mean_units_sold_per_product,rating_y,merchant_ratings_count,mean_product_prices,mean_retail_prices,average_discount,mean_discount,mean_product_ratings_count,local_product,discount_percentage
0,0,2020 Summer Vintage Flamingo Print Pajamas Se...,16.0,14,100,No,3.76,54,26.0,8.0,10.0,1.0,9.0,No,Buena,No,"Summer,Fashion,womenunderwearsuit,printedpajam...",white,M,Livraison standard,4,No,34,50,CN,zgrdejia,,568,4.128521,595097d6a26f6e070cb878d1,https://www.wish.com/c/5e9ae51d43d6a96e303acdb0,5e9ae51d43d6a96e303acdb0,822,595097d6a26f6e070cb878d1,1,100,100.0,4.129,568.0,16.0,14.0,-14.0,-14.0,54.0,No,-14.29
1,1,Women's Casual Summer Sleeveless Sexy Mini Dress,8.0,22,20000,Sí,3.45,6135,2269.0,1027.0,1118.0,644.0,1077.0,No,Buena,No,"Mini,womens dresses,Summer,Patchwork,fashion d...",green,XS,Livraison standard,2,No,41,50,CN,sarahouse,83 % avis positifs,17752,3.899673,56458aa03a698c35c9050988,https://www.wish.com/c/58940d436a0d3d5da4e95a38,58940d436a0d3d5da4e95a38,65,56458aa03a698c35c9050988,6,21400,3567.0,3.9,17752.0,5.68,10.33,38.0,37.83,1057.0,No,63.64


In [65]:
# Solución sin lambda
def calcula_descuento(fila):
    price = fila['price']
    ret_price = fila['retail_price']
    return round(((ret_price - price) / ret_price) * 100, 2) 

In [66]:
df['discount_percentage2'] = df.apply(calcula_descuento, axis=1) 
df.head(2)

Unnamed: 0,index_x,title_orig,price,retail_price,units_sold,uses_ad_boosts,rating_x,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count,badge_local_product,badge_product_quality,badge_fast_shipping,tags,product_color,product_variation_size_id,shipping_option_name,shipping_option_price,shipping_is_express,countries_shipped_to,inventory_total,origin_country,merchant_name,merchant_info_subtitle,merchant_rating_count,merchant_rating,merchant_id,product_url,product_id,index_y,merchant_id.1,listed_products,total_units_sold,mean_units_sold_per_product,rating_y,merchant_ratings_count,mean_product_prices,mean_retail_prices,average_discount,mean_discount,mean_product_ratings_count,local_product,discount_percentage,discount_percentage2
0,0,2020 Summer Vintage Flamingo Print Pajamas Se...,16.0,14,100,No,3.76,54,26.0,8.0,10.0,1.0,9.0,No,Buena,No,"Summer,Fashion,womenunderwearsuit,printedpajam...",white,M,Livraison standard,4,No,34,50,CN,zgrdejia,,568,4.128521,595097d6a26f6e070cb878d1,https://www.wish.com/c/5e9ae51d43d6a96e303acdb0,5e9ae51d43d6a96e303acdb0,822,595097d6a26f6e070cb878d1,1,100,100.0,4.129,568.0,16.0,14.0,-14.0,-14.0,54.0,No,-14.29,-14.29
1,1,Women's Casual Summer Sleeveless Sexy Mini Dress,8.0,22,20000,Sí,3.45,6135,2269.0,1027.0,1118.0,644.0,1077.0,No,Buena,No,"Mini,womens dresses,Summer,Patchwork,fashion d...",green,XS,Livraison standard,2,No,41,50,CN,sarahouse,83 % avis positifs,17752,3.899673,56458aa03a698c35c9050988,https://www.wish.com/c/58940d436a0d3d5da4e95a38,58940d436a0d3d5da4e95a38,65,56458aa03a698c35c9050988,6,21400,3567.0,3.9,17752.0,5.68,10.33,38.0,37.83,1057.0,No,63.64,63.64


In [67]:
df.drop(columns=['average_discount', 'mean_discount', 'discount_percentage2'], inplace=True)
df.head(2)

Unnamed: 0,index_x,title_orig,price,retail_price,units_sold,uses_ad_boosts,rating_x,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count,badge_local_product,badge_product_quality,badge_fast_shipping,tags,product_color,product_variation_size_id,shipping_option_name,shipping_option_price,shipping_is_express,countries_shipped_to,inventory_total,origin_country,merchant_name,merchant_info_subtitle,merchant_rating_count,merchant_rating,merchant_id,product_url,product_id,index_y,merchant_id.1,listed_products,total_units_sold,mean_units_sold_per_product,rating_y,merchant_ratings_count,mean_product_prices,mean_retail_prices,mean_product_ratings_count,local_product,discount_percentage
0,0,2020 Summer Vintage Flamingo Print Pajamas Se...,16.0,14,100,No,3.76,54,26.0,8.0,10.0,1.0,9.0,No,Buena,No,"Summer,Fashion,womenunderwearsuit,printedpajam...",white,M,Livraison standard,4,No,34,50,CN,zgrdejia,,568,4.128521,595097d6a26f6e070cb878d1,https://www.wish.com/c/5e9ae51d43d6a96e303acdb0,5e9ae51d43d6a96e303acdb0,822,595097d6a26f6e070cb878d1,1,100,100.0,4.129,568.0,16.0,14.0,54.0,No,-14.29
1,1,Women's Casual Summer Sleeveless Sexy Mini Dress,8.0,22,20000,Sí,3.45,6135,2269.0,1027.0,1118.0,644.0,1077.0,No,Buena,No,"Mini,womens dresses,Summer,Patchwork,fashion d...",green,XS,Livraison standard,2,No,41,50,CN,sarahouse,83 % avis positifs,17752,3.899673,56458aa03a698c35c9050988,https://www.wish.com/c/58940d436a0d3d5da4e95a38,58940d436a0d3d5da4e95a38,65,56458aa03a698c35c9050988,6,21400,3567.0,3.9,17752.0,5.68,10.33,1057.0,No,63.64


8. Evaluación de la valoración del vendedor. Utiliza `apply()` para crear una nueva columna 'seller_reputation' donde los valores sean "Buena" si 'merchant_rating' es mayor o igual a 4, y "Regular" si es menor a 4. Después elimina la columna `merchant_rating`. 

In [69]:
df['seller_reputation'] = df['merchant_rating'].apply(lambda x: 'Buena' if x >= 4 else 'Regular')
df.loc[:4, ['seller_reputation']]

Unnamed: 0,seller_reputation
0,Buena
1,Regular
2,Regular
3,Regular
4,Regular


In [70]:
df.drop(columns=['merchant_rating'], inplace=True)
df.head(2)

Unnamed: 0,index_x,title_orig,price,retail_price,units_sold,uses_ad_boosts,rating_x,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count,badge_local_product,badge_product_quality,badge_fast_shipping,tags,product_color,product_variation_size_id,shipping_option_name,shipping_option_price,shipping_is_express,countries_shipped_to,inventory_total,origin_country,merchant_name,merchant_info_subtitle,merchant_rating_count,merchant_id,product_url,product_id,index_y,merchant_id.1,listed_products,total_units_sold,mean_units_sold_per_product,rating_y,merchant_ratings_count,mean_product_prices,mean_retail_prices,mean_product_ratings_count,local_product,discount_percentage,seller_reputation
0,0,2020 Summer Vintage Flamingo Print Pajamas Se...,16.0,14,100,No,3.76,54,26.0,8.0,10.0,1.0,9.0,No,Buena,No,"Summer,Fashion,womenunderwearsuit,printedpajam...",white,M,Livraison standard,4,No,34,50,CN,zgrdejia,,568,595097d6a26f6e070cb878d1,https://www.wish.com/c/5e9ae51d43d6a96e303acdb0,5e9ae51d43d6a96e303acdb0,822,595097d6a26f6e070cb878d1,1,100,100.0,4.129,568.0,16.0,14.0,54.0,No,-14.29,Buena
1,1,Women's Casual Summer Sleeveless Sexy Mini Dress,8.0,22,20000,Sí,3.45,6135,2269.0,1027.0,1118.0,644.0,1077.0,No,Buena,No,"Mini,womens dresses,Summer,Patchwork,fashion d...",green,XS,Livraison standard,2,No,41,50,CN,sarahouse,83 % avis positifs,17752,56458aa03a698c35c9050988,https://www.wish.com/c/58940d436a0d3d5da4e95a38,58940d436a0d3d5da4e95a38,65,56458aa03a698c35c9050988,6,21400,3567.0,3.9,17752.0,5.68,10.33,1057.0,No,63.64,Regular


9. Guarda los resultados en un DataFrame para usarlo en la próxima lección. 


In [71]:
# Ejercicio 7 me costó bastante, lo podemos hacer en la clase en detalle? 
df.to_csv('df_final_mas_reciente_usar_este_viernes.csv')