
# Ejercicios

Vamos a seguir trabajando con el *csv* de `rating-and-performance`, pero vamos a añadir un *csv* más para completar la información de nuestro *e-commerce*. En concreto, vamos a incluir: 

- `insights.csv`: Tenemos datos sobre el éxito de vendedores activos. Sus columnas son: 



    | Nombre de columna         | Descripción                                                                                            |
    |---------------------------|--------------------------------------------------------------------------------------------------------|
    | rating                    | La calificación del producto. (Float)                                                                  |
    | listedproducts            | El número de productos listados en la plataforma de comercio electrónico Wish. (Integer)                |
    | totalunitssold            | El número total de unidades vendidas del producto. (Integer)                                           |
    | meanunitssoldperproduct   | El número promedio de unidades vendidas por producto. (Float)                                         |
    | merchantratingscount      | El número de calificaciones para el vendedor. (Integer)                                                |
    | meanproductprices         | El precio promedio del producto. (Float)                                                               |
    | meanretailprices          | El precio minorista promedio del producto. (Float)                                                     |
    | averagediscount           | El descuento promedio aplicado al producto. (Float)                                                    |
    | meandiscount              | El descuento medio aplicado al producto. (Float)                                                       |
    | meanproductratingscount   | El número promedio de calificaciones para el producto. (Float)                                         |
    | totalurgencycount         | El número total de recuentos de urgencia para el producto. (Integer)                                   |
    | urgencytextrate           | La tasa de ofertas de texto de urgencia para el producto. (Float)                                      |



In [214]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd


# Importamos regex
# -----------------------------------------------------------------------
import re

# Importamos numpy
# -----------------------------------------------------------------------
import numpy as np

r'\(([\d,]+ notes)\)'

# Configuraciones
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)


**Los ejercicios que os planteamos son:**

1. Unid los dos DataFrames en uno solo, usando el método que considereis más correcto. Querremos quedarnos con todos los productos que estén en los dos conjuntos de datos. 

In [215]:
df_rap = pd.read_csv('rating-and-performance.csv')
df_in = pd.read_csv('insight.csv')

df_rap = df_rap.iloc[:, 1:]
df_in = df_in.iloc[:, 1:]

print(f"Dimensiones de df_rap son {df_rap.shape}")
print(f"Dimensiones de df_in son {df_in.shape} \n")

print(f"Las columnas de df_rap son \n\n {df_rap.columns}\n")
print(f"Las columnas de df_in son \n\n {df_in.columns}")

Dimensiones de df_rap son (1573, 43)
Dimensiones de df_in son (958, 13) 

Las columnas de df_rap son 

 Index(['title', 'title_orig', 'price', 'retail_price', 'currency_buyer',
       'units_sold', 'uses_ad_boosts', 'rating', 'rating_count',
       'rating_five_count', 'rating_four_count', 'rating_three_count',
       'rating_two_count', 'rating_one_count', 'badges_count',
       'badge_local_product', 'badge_product_quality', 'badge_fast_shipping',
       'tags', 'product_color', 'product_variation_size_id',
       'product_variation_inventory', 'shipping_option_name',
       'shipping_option_price', 'shipping_is_express', 'countries_shipped_to',
       'inventory_total', 'has_urgency_banner', 'urgency_text',
       'origin_country', 'merchant_title', 'merchant_name',
       'merchant_info_subtitle', 'merchant_rating_count', 'merchant_rating',
       'merchant_id', 'merchant_has_profile_picture',
       'merchant_profile_picture', 'product_url', 'product_picture',
       'product_id',

In [216]:
# Las columnas merchant_id y merchant.id son candidatas a ser usadas como unión de ambos dataframes. 

df_rap['merchant_id'].unique()
df_in['merchant.id'].unique()

# Efectivamente, siguen el mismo patrón.

array(['5357bcf2bb72c5504882e889', '5708773c3c02161b3f8c7900',
       '5417aada4ad3ab27e954b76c', '570f3a713a698c14278bb51e',
       '53082ea15aefb07dfe1f2a4f', '53f2beb39020ee03566d6e18',
       '5926c5ace8ff5525241b368d', '5860c757b1e41d4d67d183e8',
       '52bd3ddb34067e4620a4c62d', '5a7b23a69bda4e3d375e7b3f',
       '53a2a09ad91139519161a267', '539937d634067e06707b1a8e',
       '58ad449708de0c6dc59d9e06', '56e43d9e3a698c3826a5feff',
       '53aa664438d3046ee44a5024', '53facca81c105e3d5866e212',
       '5384613a796f680f9d78a127', '558c2cdc89d53c4005ea2920',
       '55c8a4c33a698c6010edcd9e', '58106cfce516491e6e5f1e53',
       '5acaf29d5ebcfd72403106a8', '54af9c1428565a151043b6bf',
       '557ed5b886d66519ff242099', '57568f454054c95cbd8d1619',
       '5652f4053a698c76dc9a3f37', '5542fcb264b4f014ce88ecae',
       '58ad356108de0c6dc39d979d', '544867549719cd33de1048d5',
       '54bcaabb39b8c00b482a115f', '58c0fff96ecaa3523d59a24d',
       '572d45c708fad86678ca1938', '570b67d4a9dc12590be

In [217]:
# Podemos unir ambos dataframe a partir de la columna en común y el método merge()

df_merge = df_rap.merge(df_in, how='inner', left_on='merchant_id', right_on='merchant.id') 

print(f"Dimensiones de df_rap son {df_rap.shape}")
print(f"Dimensiones de df_in son {df_in.shape} \n")

print(f"La forma de df_merge es: {df_merge.shape}\n")


Dimensiones de df_rap son (1573, 43)
Dimensiones de df_in son (958, 13) 

La forma de df_merge es: (1573, 56)



Es raro porque uno esperaría que el dataframe resultante tuviera menos filas que el máximo. 

¿Es posible que se repitan valores en la tabla grande? 

Lo compruebo y... efectivamente.

2. Explorad el nombre de las columnas, ¿hay alguna que este repetida o que no nos aporte información de valor? ¿Hay alguna columna que solo tenga un valor? En caso de ser así, eliminadlas. **NOTA** Hay tres columnas que cuando exploramos sus valores únicos y sus frecuencias ayer, nos deberíamos haber dado cuenta que solo tiene un valor.  


In [218]:
df_merge.shape

(1573, 56)

In [219]:
columnas = df_merge.columns

for col in columnas:
    print("**************")
    print(df_merge[col].value_counts())

**************
title
Nouvelle mode d'été femmes robe décontractée col rond lâche Big Swing jupe sans manches Soild couleur robe de plage                                           24
Mini robe de soirée décontractée sans manches pour femmes                                                                                                     12
Femmes d'été Sling Dress V-cou Floral Strap plissé Casual Pocket Large Dress                                                                                   9
Pantalon à lacets à la mode pour femmes d'été, plus la taille Pantalon court à taille haute décontracté                                                        9
Tissu taille formateur gilet chaud shaper été shaperwear minceur réglable sueur ceinture corps shaper                                                          9
                                                                                                                                                              ..
Robe plissée 

In [220]:
# merchant_id y merchant.id dan información repetida. Se puede eliminar una.

# La columna theme tiene el mismo valor (summer) para los 1573 registros. Se puede eliminar. 

# La columna currency_buyer tiene el mismo valor (EUR) para los 1573 registros. Se puede eliminar. 

# La columna crawl_month tiene el mismo valor (2020-08) para los 1573 registros. Se puede eliminar. 

columnas_a_borrar = ['merchant.id', 'theme', 'currency_buyer', 'crawl_month']

df_merge.drop(columns=columnas_a_borrar, axis=1, inplace=True)




In [221]:
df_merge.shape

# Hemos borrado 4 columnas. 

(1573, 52)

3. Algunas de las columnas tienen `.` en sus nombres y en otras tenemos `_`.  Unifica el nombre de las columnas para que todas tengan "_". Además, todas deben estar en minúsculas. 

In [222]:
# Homogeneizamos el nombre de las columnas

# Creamos el diccinario con los nuevos nombres de las columnas.

nuevas_cols = {col: col.replace('.', '_').lower() for col in df_merge.columns}




In [223]:
# Y después renombramos el dataframe

df_merge.rename(columns=nuevas_cols, inplace=True)



In [224]:
df_merge.columns

Index(['title', 'title_orig', 'price', 'retail_price', 'units_sold',
       'uses_ad_boosts', 'rating_x', 'rating_count', 'rating_five_count',
       'rating_four_count', 'rating_three_count', 'rating_two_count',
       'rating_one_count', 'badges_count', 'badge_local_product',
       'badge_product_quality', 'badge_fast_shipping', 'tags', 'product_color',
       'product_variation_size_id', 'product_variation_inventory',
       'shipping_option_name', 'shipping_option_price', 'shipping_is_express',
       'countries_shipped_to', 'inventory_total', 'has_urgency_banner',
       'urgency_text', 'origin_country', 'merchant_title', 'merchant_name',
       'merchant_info_subtitle', 'merchant_rating_count', 'merchant_rating',
       'merchant_id', 'merchant_has_profile_picture',
       'merchant_profile_picture', 'product_url', 'product_picture',
       'product_id', 'listed_products', 'total_units_sold',
       'mean_units_sold_per_product', 'rating_y', 'merchant_ratings_count',
       'mea

4. En la columna de `merchant_info_subtitle`, si nos fijamos hay algunas celdas donde tenemos entre paréntesis el número total de calificaciones para el comerciante (que es la misma información que la que tenemos en la columna "merchant_rating_count"). Eliminad de la columna "merchant_info_subtitle" la parte del *string* de los paréntesis. Guardar el resultado de vuestra limpieza en una columna que se llame igual, es decir, "merchant_info_subtitle". 

In [225]:
df_merge['merchant_info_subtitle'].value_counts()

merchant_info_subtitle
83 % avis positifs (32,168 notes)      14
86 % avis positifs (12,309 notes)      11
87 % avis positifs (42,919 notes)       8
85 % avis positifs (80,093 notes)       7
84 % avis positifs (5,654 notes)        6
                                       ..
84% Positive Feedback (399 ratings)     1
(32,715 notes)                          1
87 % avis positifs (4,943 notes)        1
85 % avis positifs (1,998 notes)        1
(55,499 notes)                          1
Name: count, Length: 1058, dtype: int64

In [226]:
# Para eliminar el paréntesis de todos los valores de la columna 'merchant_info_subtitle' puedo utilizar un replace con un patrón de regex

patron = r'\(([\d,]+ notes)\)'

df_merge['merchant_info_subtitle'] = df_merge['merchant_info_subtitle'].str.replace(patron, repl="",regex=True)

df_merge['merchant_info_subtitle']


0                          
1       83 % avis positifs 
2       86 % avis positifs 
3                          
4       85 % avis positifs 
               ...         
1568    90 % avis positifs 
1569                       
1570    86 % avis positifs 
1571    77 % avis positifs 
1572    90 % avis positifs 
Name: merchant_info_subtitle, Length: 1573, dtype: object

5. Si nos fijamos, en la primera fila antes solo teníamos un paréntesis, pero los hemos eliminado en el paso anterior, y ahora tenemos un *string* vacío, lo cual no tiene mucho sentido. En este ejercicio debereis reemplazar esos *strings* vacios por nulos de Pandas (**NOTA** estos deben ser indicados de la siguiente forma `np.nan`, y deberéis importar numpy). 

In [227]:
# No puedo decirle que reemplace los espacios en blanco con nulos porque veo que me llena de nulos los otros valores. 

# Uso regex para asegurarme de que solo sustituye en los valores que no tienen datos.

patron = r'^$'   # Esto en regex es una cadena vacía

df_merge['merchant_info_subtitle'] = df_merge['merchant_info_subtitle'].str.replace(patron, repl='np.nan',regex=True)

df_merge.loc[0, 'merchant_info_subtitle']

df_merge['merchant_info_subtitle']

0                    np.nan
1       83 % avis positifs 
2       86 % avis positifs 
3                    np.nan
4       85 % avis positifs 
               ...         
1568    90 % avis positifs 
1569                 np.nan
1570    86 % avis positifs 
1571    77 % avis positifs 
1572    90 % avis positifs 
Name: merchant_info_subtitle, Length: 1573, dtype: object

6. Hay ciertas columnas que no vamos a necesitar para nuestro análisis. En concreto, vamos a eliminar las columnas de `badges_count`, `product_variation_inventory`, `urgency_text`, `merchant_title`, `merchant_has_profile_picture`, `merchant_profile_picture`, `product_picture`, `total_urgency_count`, `has_urgency_banner` y `urgency_text_rate`. Guardad los cambios realizados hasta este punto en un csv para usarlo en los ejercicios de la lección de mañana. 

In [228]:
df_merge.shape

(1573, 52)

In [229]:
col_borrar = ['badges_count', 'product_variation_inventory', 'urgency_text', 'merchant_title', 'merchant_has_profile_picture', 'merchant_profile_picture', 'product_picture', 'total_urgency_count', 'has_urgency_banner', 'urgency_text_rate']

df_merge.drop(columns=col_borrar, axis=1, inplace=True)

df_merge.shape # Comprobamos que hemos borrado correctamente 10 columnas.

(1573, 42)

In [230]:
df_merge.to_csv('cambios_leccion_04.csv') 

7. Pongamos en práctica el filtrado de datos en Pandas: 

    - Seleccionad aquellos productos cuyo color es verde. ¿Cuántos productos tenemos?

    - Seleccionad aquellos productos cuyo color es verde y rojo. ¿Cuántos productos tenemos de cada tipo de color?

    - Seleccionad aquellos productos de la talla M, que valgan más de 15. ¿Cuántos productos tenemos?

    - Seleccionad aquellos productos cuyo precio este entre 1 y 2 (ambos inclusive). ¿Cuántos productos tenemos?

    - Filtrad los datos, para extraer solo aquellos productos que tengan uno o más dígitos en su titulo. ¿Cuántos productos hay?




In [239]:
# - Seleccionad aquellos productos cuyo color es verde. ¿Cuántos productos tenemos?

condicion = df_merge['product_color']=='green'

prod_verdes = df_merge[condicion]

prod_verdes['product_color'].unique()  # Comprobamos primero que, efectivamente, hemos filtrado bien los verdes.

prod_verdes['product_color'].value_counts() # Obtenemos el número de productos verdes: 90

product_color
green    90
Name: count, dtype: int64

In [247]:
#    - Seleccionad aquellos productos cuyo color es verde y rojo. ¿Cuántos productos tenemos de cada tipo de color?

df_merge['product_color'].unique()

# No hay una etiqueta que esa verde y rojo. Voy a interpretar que se refiere a que pueda ser tanto verde como rojo.


condicion_verde = df_merge['product_color']=='green'

prod_verdes = df_merge[condicion_verde]

condicion_rojo = df_merge['product_color']=='red'

prod_rojos = df_merge[condicion_rojo]

productos_verdes_o_rojos = df_merge[condicion_rojo | condicion_verde ]

productos_verdes_o_rojos['product_color'].unique()  # Comprobamos que hemos filtrado bien los colores que queremos.

productos_verdes_o_rojos['product_color'].value_counts() # Obtenemos el número de productos total: 93 rojos y 90 verdes.

product_color
red      93
green    90
Name: count, dtype: int64

In [248]:
df_merge.columns

Index(['title', 'title_orig', 'price', 'retail_price', 'units_sold',
       'uses_ad_boosts', 'rating_x', 'rating_count', 'rating_five_count',
       'rating_four_count', 'rating_three_count', 'rating_two_count',
       'rating_one_count', 'badge_local_product', 'badge_product_quality',
       'badge_fast_shipping', 'tags', 'product_color',
       'product_variation_size_id', 'shipping_option_name',
       'shipping_option_price', 'shipping_is_express', 'countries_shipped_to',
       'inventory_total', 'origin_country', 'merchant_name',
       'merchant_info_subtitle', 'merchant_rating_count', 'merchant_rating',
       'merchant_id', 'product_url', 'product_id', 'listed_products',
       'total_units_sold', 'mean_units_sold_per_product', 'rating_y',
       'merchant_ratings_count', 'mean_product_prices', 'mean_retail_prices',
       'average_discount', 'mean_discount', 'mean_product_ratings_count'],
      dtype='object')

#     - Seleccionad aquellos productos de la talla M, que valgan más de 15. ¿Cuántos productos tenemos?

Me he quedado por aquí

In [249]:
df_merge['product_variation_size_id'].unique()

todas_tallas_M = ['M', 'M.', 'S/M(child)', 'Size M']



array(['M', 'XS', 'S', 'Size-XS', 'M.', 'XXS', 'L', 'XXL', nan, 'S.', 's',
       'choose a size', 'XS.', '32/L', 'Suit-S', 'XXXXXL', 'EU 35', '4',
       'Size S.', '1m by 3m', '3XL', 'Size S', 'XL', 'Women Size 36',
       'US 6.5 (EU 37)', 'XXXS', 'SIZE XS', '26(Waist 72cm 28inch)',
       'Size XXS', '29', '1pc', '100 cm', 'One Size', 'SIZE-4XL', '1',
       'S/M(child)', '2pcs', 'XXXL', 'S..', '30 cm', '5XL', '33',
       'Size M', '100 x 100cm(39.3 x 39.3inch)', '100pcs', '2XL', '4XL',
       'SizeL', 'SIZE XXS', 'XXXXL', 'Base & Top & Matte Top Coat',
       'size S', '35', '34', 'SIZE-XXS', 'S(bust 88cm)',
       'S (waist58-62cm)', 'S(Pink & Black)', '20pcs', 'US-S',
       'Size -XXS', 'X   L', 'White', '25', 'Size-S', 'Round',
       'Pack of 1', '1 pc.', 'S Diameter 30cm', '6XL',
       'AU plug Low quality', '5PAIRS', '25-S', 'Size/S', 'S Pink',
       'Size-5XL', 'daughter 24M', '2', 'Baby Float Boat', '10 ml', '60',
       'Size-L', 'US5.5-EU35', '10pcs', '17', 'Size-XXS

    - Seleccionad aquellos productos cuyo precio este entre 1 y 2 (ambos inclusive). ¿Cuántos productos tenemos?

    - Filtrad los datos, para extraer solo aquellos productos que tengan uno o más dígitos en su titulo. ¿Cuántos productos hay?