In [1]:
# importamos la pandas para poder trabajar en la lección
import pandas as pd

In [3]:
# importamos un nuevo fichero de datos para entender mejor estos conceptos
df = pd.read_csv("files/data.csv", index_col=["Day"])
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


### Selección a través de un único elemento
En este primer ejercicio vamos a intentar sacar el valor de 96, en concreto hace referencia a la humedad el martes. Recordemos que: 

- En el `loc` usaremos los nombres de las filas y las columnas (es como el juego de hundir la flota), corresponde a lo que tenemos en rojo en la imagen. 

- En el `iloc` usaremos los indices de las filas y las columnas, igual que hacíamos en las listas o los *arrays* de NumPy, corresponde con lo que vemos en verde en la imagen. 

![imagen](https://github.com/Adalab/data_imagenes/blob/main/Pandas/loc-iloc-explicacion_ej1.png?raw=true)

In [4]:
# Usando el loc, accediendo por los nombres de las filas y las columnas
print(f'La humedad que hizo el martes usando el LOC es:  {df.loc["Tue", "Humidity"]} %')

# usando el iloc, accediendo por los índices, que empiezan en 0 como siempre en Python
print(f'La humedad que hizo el martes usando el ILOC es:  {df.iloc[1, 3]} %')

La humedad que hizo el martes usando el LOC es:  96 %
La humedad que hizo el martes usando el ILOC es:  96 %


Imaginemos que queremos sacar una fila en concreto pero todas las columnas o viceversa:

> En estos casos tendremos que usar `:`, esto índica que lo queremos todo. Es decir: 

```python
[filas-deseadas, :] # le estamos diciendo que nos busque por una fila dada y nos devuelva todas las columnas

[:, columna-deseada] # devuelvenos todas las filas de la columna que especifiquemos
```

Imaginemos ahora que queremos extraer toda la información climática del martes. En este caso, querremos de una fila concreta todas las columnas. 

![imagen2](https://github.com/Adalab/data_imagenes/blob/main/Pandas/loc-iloc-explicacion_ej2.png?raw=true)

In [5]:
# Usando el loc, accediendo por los nombres de las filas y las columnas
print(f'Las condiciones climáticas del martes usando el LOC es: \n  {df.loc["Tue", :]}')

print("\n----------------------\n")
# Usando el iloc, accediendo por los índices
print(f'Las condiciones climáticas del martes usando el ILOC es: \n  {df.iloc[1, :]}')

Las condiciones climáticas del martes usando el LOC es: 
  Weather        Sunny
Temperature    19.67
Wind              28
Humidity          96
Name: Tue, dtype: object

----------------------

Las condiciones climáticas del martes usando el ILOC es: 
  Weather        Sunny
Temperature    19.67
Wind              28
Humidity          96
Name: Tue, dtype: object


¿Y si ahora quisieramos extraer el viento que ha hecho durante la semana? En este caso querríamos todas las filas y una sola columna. 

![imagen3](https://github.com/Adalab/data_imagenes/blob/main/Pandas/loc-iloc-explicacion_ej3.png?raw=true)

In [6]:
# Usando el loc, accediendo por los nombres de las filas y las columnas
print(f'Las viento que hizo durante la semana usando el LOC es: \n  {df.loc[:, "Wind"]}')

print("\n----------------------\n")
# Usando el iloc, accediendo por los índices
print(f'Las condiciones climáticas del martes usando el ILOC es: \n  {df.iloc[:, 2]}')

Las viento que hizo durante la semana usando el LOC es: 
  Day
Mon    13
Tue    28
Wed    16
Thu    11
Fri    26
Sat    27
Sun    20
Name: Wind, dtype: int64

----------------------

Las condiciones climáticas del martes usando el ILOC es: 
  Day
Mon    13
Tue    28
Wed    16
Thu    11
Fri    26
Sat    27
Sun    20
Name: Wind, dtype: int64


### Selección a través de una lista de valores 

En este caso la sintaxis del `loc` y el `iloc` cambian un poco. Seguiremos usando los nombres de las filas y las columnas para el `loc` y los índices para el `iloc`, pero tendremos que añadir algún corchete más. 

```python
[[fila_deseada1, fila_deseada2], :] # le estamos diciendo que nos busque por una fila dada y nos devuelva todas las columnas. FIJAOS COMO LO QUE HEMOS HECHO HA SIDO AÑADIR UNOS CORCHETES MÁS DONDE INCLUIREMOS LOS NOMBRES DE LAS FILAS O COLUMNAS QUE QUERRAMOS SEPARADAS POR COMAS. Los ':' siguen indicando que queremo todas las columnas en este caso.

[:, [col_deseada1, col_deseada2]] # devuelvenos todas las filas de la columna que especifiquemos. FIJAOS COMO LO QUE HEMOS HECHO HA SIDO AÑADIR UNOS CORCHETES MÁS DONDE INCLUIREMOS LOS NOMBRES DE LAS FILAS O COLUMNAS QUE QUERRAMOS SEPARADAS POR COMAS. Los ':' siguen indicando que queremos todas las filas.
```

Ahora queremos extraer la información del viento, pero ya no lo queremos para toda la semana, en realidad lo quiero para el martes y el domingo. 

In [7]:
# Usando el loc, accediendo por los nombres de las filas y las columnas
print(f'El viento que hizo el martes y el sabado usando el LOC es: \n  {df.loc[["Tue", "Sat"], "Wind"]}')

print("\n----------------------\n")
# Usando el iloc, accediendo por los índices
print(f'El viento que hizo el martes y el sabado  usando el ILOC es: \n  {df.iloc[[1, 5], 2]}')

El viento que hizo el martes y el sabado usando el LOC es: 
  Day
Tue    28
Sat    27
Name: Wind, dtype: int64

----------------------

El viento que hizo el martes y el sabado  usando el ILOC es: 
  Day
Tue    28
Sat    27
Name: Wind, dtype: int64


Imaginemos ahora que no queremos solo la información del viento para el martes y el domingo, sino que también queremos la información de la temperatura.

In [8]:
# Usando el loc, accediendo por los nombres de las filas y las columnas
print(f'El viento y la temperatura que hizo el martes y el sabado usando el LOC es: \n  {df.loc[["Tue", "Sat"], ["Wind", "Temperature"]]}')

print("\n----------------------\n")
# Usando el iloc, accediendo por los índices
print(f'El viento y la temperatura que hizo el martes y el sabado usando el ILOC es: \n  {df.iloc[[1, 5], [2,1]]}')

El viento y la temperatura que hizo el martes y el sabado usando el LOC es: 
       Wind  Temperature
Day                   
Tue    28        19.67
Sat    27        11.07

----------------------

El viento y la temperatura que hizo el martes y el sabado usando el ILOC es: 
       Wind  Temperature
Day                   
Tue    28        19.67
Sat    27        11.07


### Selección de un rango de datos a través de un corte

En este caso podremos usar la sintaxis de `[start:stop:step]` que conocemos de listas. 

In [9]:
# lo primero que vamos a hacer es recordar el DataFrame
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


En este ejercicio vamos a querer sacar la temperatura, el viento y la humedad del martes y el viernes. 

In [10]:
# Usando el loc, accediendo por los nombres de las filas y las columnas
print(f"El viento, la temperatura y la humedad que hizo el jueves y el viernes usando el LOC es: \n  {df.loc[['Thu', 'Fri'], 'Temperature':'Humidity' ]}")

print("\n----------------------\n")
# Usando el iloc, accediendo por los índices
print(f'El viento, la temperatura y la humedad que hizo el jueves y el viernes usando el ILOC es: \n  {df.iloc[[3, 4], 1:4]}')

El viento, la temperatura y la humedad que hizo el jueves y el viernes usando el LOC es: 
       Temperature  Wind  Humidity
Day                             
Thu        14.44    11        22
Fri        10.51    26        79

----------------------

El viento, la temperatura y la humedad que hizo el jueves y el viernes usando el ILOC es: 
       Temperature  Wind  Humidity
Day                             
Thu        14.44    11        22
Fri        10.51    26        79


Y si quisieramos saber todas las condiciones climáticas del lunes , miércoles y viernes? En este caso tendremos que hacer uso del `[start_ stop: step]`

In [22]:
# Usando el loc, accediendo por los nombres de las filas y las columnas
print(f"Las condiciones climáticas que hicieron el lunes, miércoles y viernes usando el LOC es: \n  {df.loc['Mon':'Fri':2 , :]}")

print("\n----------------------\n")
# Usando el iloc, accediendo por los índices
print(f'El viento, la temperatura y la humedad que hizo el martes y el viernes usando el ILOC es: \n  {df.iloc[0:6:2, :]}')

Las condiciones climáticas que hicieron el lunes, miércoles y viernes usando el LOC es: 
      Weather  Temperature  Wind  Humidity
Day                                     
Mon   Sunny        12.79    13        30
Wed   Sunny        17.51    16        20
Fri  Shower        10.51    26        79

----------------------

El viento, la temperatura y la humedad que hizo el martes y el viernes usando el ILOC es: 
      Weather  Temperature  Wind  Humidity
Day                                     
Mon   Sunny        12.79    13        30
Wed   Sunny        17.51    16        20
Fri  Shower        10.51    26        79


### Seleccionar basado en una condición 

Al igual que en NumPy podemos filtrar los datos de nuestro DataFrame usando operadores de comparación,  como `>`, `<`, `>=`, `<=`, `==` o `!=`. Pero antes de ponernos a ver como filtrar datos, aprendamos ha acceder solo a una columna de nuestro DataFrame. Podríamos pensar que lo podemos hacer con un `loc` o un `iloc` como hemos estado viendo hasta ahora, pero hay una forma un poco más sencilla. Para eso deberemos seguir la siguiente sintaxis:

```python
df["nombre_columna"]
df.nombre_columna
# estas dos opciones me devuelven exactamente lo mismo. 
```

In [12]:
# recordamos el DataFrame
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


In [13]:
# accedemos a los datos de la columna 'Temperature'
# Fijaos como nos ha devuelto una serie donde tenemos todos los valores de la columna 'Temperature'
df["Temperature"]

Day
Mon    12.79
Tue    19.67
Wed    17.51
Thu    14.44
Fri    10.51
Sat    11.07
Sun    17.50
Name: Temperature, dtype: float64

In [14]:
# El código de arriba es exactamente igual que:
df.Temperature

Day
Mon    12.79
Tue    19.67
Wed    17.51
Thu    14.44
Fri    10.51
Sat    11.07
Sun    17.50
Name: Temperature, dtype: float64

¿Y que pasaría si quisiera acceder a varias columnas? Solo podremos usar la sintaxis `df[["columna_1", "columna_2"]]`. Fijaos como ahora estamos añadiendo un corchete extra a la sintaxis que hemos aprendido en los pasos anteriores. 

In [15]:
df[["Temperature", "Wind"]]

Unnamed: 0_level_0,Temperature,Wind
Day,Unnamed: 1_level_1,Unnamed: 2_level_1
Mon,12.79,13
Tue,19.67,28
Wed,17.51,16
Thu,14.44,11
Fri,10.51,26
Sat,11.07,27
Sun,17.5,20


Una vez que hemos visto esto como acceder a los datos de una o varias columnas unicamente, vamos a ver como podemos filtrar los datos del DataFrame, igual que hacíamos en los *arrays*. 

En este primer ejemplo, vamos a quedarnos con todos los datos donde la temperatura sea mayor que 12ºC. En este caso seguiremos la siguiente sintaxis: 

```python
df.loc[df["columna"] CONDICION]
```

In [16]:
# filtramos nuestros datos para quedarnos solo con las filas donde la temperatura sean mayor que 12
df_mayor_12_1 = df.loc[df.Temperature > 12, :]
print(f"El resultado usando la sintaxis de DF.COLUMNA usando LOC es:\n {df_mayor_12_1}")

print("\n --------------- \n")

# la linea de arriba es exactamente la misma que esta que vemos aquí abajo
df_mayor_12_2 = df.loc[df["Temperature"] > 12, :]
print(f"El resultado usando la sintaxis de df['COLUMNA'] usando LOC es:\n {df_mayor_12_1}")


El resultado usando la sintaxis de DF.COLUMNA usando LOC es:
     Weather  Temperature  Wind  Humidity
Day                                     
Mon   Sunny        12.79    13        30
Tue   Sunny        19.67    28        96
Wed   Sunny        17.51    16        20
Thu  Cloudy        14.44    11        22
Sun   Sunny        17.50    20        10

 --------------- 

El resultado usando la sintaxis de df['COLUMNA'] usando LOC es:
     Weather  Temperature  Wind  Humidity
Day                                     
Mon   Sunny        12.79    13        30
Tue   Sunny        19.67    28        96
Wed   Sunny        17.51    16        20
Thu  Cloudy        14.44    11        22
Sun   Sunny        17.50    20        10


In [17]:
# ¿y como lo haríamos con iloc? Se nos ocurriría que usando los corchetes, poniendo el índice de la columna que queremos usar como filtro. 
# veamoslo. 
df.iloc[df[1] > 12, :]

KeyError: 1

⚠️ Obtenemos el error porque `iloc` no puede aceptar una Serie booleana. Sólo acepta una lista booleana. Podemos utilizar la función `list()` para convertir una Serie en una lista booleana. Por lo tanto, tendríamos que:

In [18]:
df.iloc[list(df.Temperature > 12), :]

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Sun,Sunny,17.5,20,10


In [19]:
# si juntamos todo lo aprendido de loc e iloc en las últimas celdas

# filtramos nuestros datos para quedarnos solo con las filas donde la temperatura sean mayor que 12
df_mayor_12_1 = df.loc[df.Temperature > 12, :]
print(f"El resultado usando la sintaxis de DF.COLUMNA usando LOC es:\n {df_mayor_12_1}")

print("\n --------------- \n")

# la linea de arriba es exactamente la misma que esta que vemos aquí abajo
df_mayor_12_2 = df.loc[df["Temperature"] > 12, :]
print(f"El resultado usando la sintaxis de df['COLUMNA'] usando LOC es:\n {df_mayor_12_1}")

print("\n --------------- \n")

# filtramos con ILOC
df_mayor_12_iloc = df.iloc[list(df.Temperature > 12), :]
print(f"El resultado usando la sintaxis de df['COLUMNA'] usando ILOC es:\n {df_mayor_12_iloc}")



El resultado usando la sintaxis de DF.COLUMNA usando LOC es:
     Weather  Temperature  Wind  Humidity
Day                                     
Mon   Sunny        12.79    13        30
Tue   Sunny        19.67    28        96
Wed   Sunny        17.51    16        20
Thu  Cloudy        14.44    11        22
Sun   Sunny        17.50    20        10

 --------------- 

El resultado usando la sintaxis de df['COLUMNA'] usando LOC es:
     Weather  Temperature  Wind  Humidity
Day                                     
Mon   Sunny        12.79    13        30
Tue   Sunny        19.67    28        96
Wed   Sunny        17.51    16        20
Thu  Cloudy        14.44    11        22
Sun   Sunny        17.50    20        10

 --------------- 

El resultado usando la sintaxis de df['COLUMNA'] usando ILOC es:
     Weather  Temperature  Wind  Humidity
Day                                     
Mon   Sunny        12.79    13        30
Tue   Sunny        19.67    28        96
Wed   Sunny        17.51    1

**¿Y si queremos que se cumplan varias condiciones?**

En este caso tendremos que usar los operadores & o |, como vimos en NumPy. Recordemos lo que significan: 

- `&`: es como el operador `and`. En este caso se tendrán que cumplir todas las condiciones que le pasemos. 


- `|`: es como el operador `or`. En este caso nos devolverá datos de las condiciones que se cumplan, pero no tienen porque cumplirse todas a la vez. O una condición y otra. 

En este ejercicio vamos a querer filtrar  los días de la semana que había un viento mayor que 20 y que el tiempo era soleado ("Sunny") 

In [20]:
# Seleccionar aquellas filas donde se cumpla la condición de que el viento es mayor que 20 y el tiempo era soleado.
# además estamos especificando que nos devuelva solo las columnas de "Temperature" y " Wind"
# SE TIENEN QUE CUMPLIR LAS DOS CONDICIONES

# filtramos con LOC
df_dos_condiciones_loc = df.loc[(df.Wind > 20) & (df.Weather == 'Sunny'), ['Temperature', 'Wind']]

# filtramos con ILOC
df_dos_condiciones_iloc = df.iloc[list((df.Wind > 20) & (df.Weather == 'Sunny')), [1,2]]


print(f"El resultado usando LOC es:\n {df_dos_condiciones_loc}")

print("\n --------------- \n")

print(f"El resultado usando ILOC es:\n {df_dos_condiciones_iloc}")

El resultado usando LOC es:
      Temperature  Wind
Day                   
Tue        19.67    28

 --------------- 

El resultado usando ILOC es:
      Temperature  Wind
Day                   
Tue        19.67    28


**POR LO TANTO, LAS DIFERENCIAS ENTRE `LOC` E `ILOC` SON:**

|               | loc                                                | iloc                                               |
|---------------|----------------------------------------------------|----------------------------------------------------|
| **Uso**       | Acceso a datos utilizando etiquetas de índice      | Acceso a datos utilizando posiciones de índice     |
| **Índice**    | Puede utilizar etiquetas o slices de etiquetas     | Solo puede utilizar posiciones enteras o slices    |
| **Filtrado**  | Permite filtrar filas y seleccionar columnas       | Permite filtrar filas y seleccionar columnas       |
| **Sintaxis**  | Utiliza etiquetas separadas por comas              | Utiliza posiciones enteras separadas por comas     |
| **Inclusión/Exclusión** | El valor final se incluye                   | El valor final es excluyente                      |
| **Comparaciones** | No requiere conversión a lista                   | Requiere conversión a lista para comparaciones     |
| **Ejemplo**   | `df.loc[3:5, 'columna']`                          | `df.iloc[3:5, 2]`                                  |


# Ejercicios

A lo largo de todos los ejercicios de la clase invertida trabajaremos con un *csv* que contiene información de las ventas de un *e-commerce*. En concreto usaremos un DataFrame que se llama `rating-and-performance.csv`. Nos proporciona información detalladas de las características de cada producto, calificaciones, ventas, reseñas y otras métricas para que podamos comprender qué hace que un producto de verano tenga éxito en Wish. Veamos en detalles sus columnas para entender mejor el conjuntos de datos: 


| Columna                      | Descripción                                                                                                    |
|------------------------------|----------------------------------------------------------------------------------------------------------------|
| title                        | El título del producto. (*object*)                                                                      |
| title_orig                   | El título original del producto. (*object*)                                                             |
| price                        | El precio del producto. (*float*)                                                                             |
| retail_price                 | El precio minorista original del producto. (*float*)                                                           |
| currency_buyer               | La moneda del comprador. (*object*)                                                                     |
| units_sold                   | El número de unidades vendidas. (*integer*)                                                                       |
| uses_ad_boosts               | Un indicador de si el producto ha sido promovido mediante anuncios. (*bool*)                                  |
| rating                       | La calificación del producto. (*float*)                                                                       |
| rating_count                 | El número total de calificaciones para el producto. (*integer*)                                                    |
| rating_five_count            | El número de calificaciones de cinco estrellas para el producto. (*integer*)                                       |
| rating_four_count            | El número de calificaciones de cuatro estrellas para el producto. (*integer*)                                      |
| rating_three_count           | El número de calificaciones de tres estrellas para el producto. (*integer*)                                        |
| rating_two_count             | El número de calificaciones de dos estrellas para el producto. (*integer*)                                         |
| rating_one_count             | El número de calificaciones de una estrella para el producto. (*integer*)                                          |
| badges_count                 | El número de insignias asociadas al producto. (*integer*)                                                          |
| badge_local_product          | Un indicador de si el producto es local. (*bool*)                                                             |
| badge_product_quality        | Un indicador de si el producto tiene una insignia de calidad. (*bool*)                                        |
| badge_fast_shipping          | Un indicador de si el producto tiene una insignia de envío rápido. (*bool*)                                   |
| tags                         | Las etiquetas asociadas al producto. (*object*)                                                         |
| product_color                | El color del producto. (*object*)                                                                       |
| product_variation_inventory  | El inventario de la variación del producto. (*integer*)                                                           |
| shipping_option_name         | El nombre de la opción de envío. (*object*)                                                             |
| shipping_option_price        | El precio de la opción de envío. (*float*)                                                                    |
| shipping_is_express          | Un indicador de si la opción de envío es express. (*bool*)                                                    |
| countries_shipped_to         | Los países a los que se envía el producto. (*object*)                                                   |
| inventory_total              | El inventario total del producto. (*integer*)                                                                     |
| has_urgency_banner           | Un indicador de si el producto tiene un banner de urgencia. (*bool*)                                          |
| urgency_text                 | El texto del banner de urgencia. (*object*)                                                             |
| origin_country               | El país de origen del producto. (*object*)                                                              |
| merchant_title               | El título del comerciante. (*object*)                                                                   |
| merchant_name                | El nombre del comerciante. (*object*)                                                                   |
| merchant_info_subtitle       | El subtítulo del comerciante. (*object*)                                                                |
| merchant_rating_count        | El número total de calificaciones para el comerciante. (*integer*)                                                 |
| merchant_has_profile_picture | Un indicador de si el comerciante tiene una imagen de perfil. (*bool*)                                       |
| merchant_profile_picture     | La imagen de perfil del comerciante. (*object*)                                                         |
| product_url                  | La URL del producto. (*object*)                                                                         |
| product_picture              | La imagen del producto. (*object*)                                                                      |
| theme                        | El tema del producto. (*object*)                                                                        |
| crawl_month                  | El mes en que se obtuvo el producto. (*object*)                                                         |


Para seguir prácticando con Pandas os planteamos los siguientes ejercicios: 

1- Abre el fichero de `rating-and-performance` con el método que sea más correcto. Además muestra las 5 primeras filas del *DataFrame*. 

2- Pongamos en práctica el `loc` e `iloc`:

  - Usando el `loc`: 

      - Extraed todas las filas de la columna "price". ¿De qué tipo es el resultado obtenido?

      - Extraed todas las filas de las columnas "price" y "retail_price". ¿De qué tipo es el resultado obtenido?

      - Extraed las filas pares, de las columnas "rating", "rating_count", "rating_five_count", "rating_four_count", "rating_three_count", "rating_two_count", "rating_one_count". 

    - Extraed las las filas cuyo precio sea mayor que 10 y sus unidades vendidas ("units_sold") sea mayor que 5000. 

  - Usando el `iloc` (sacaremos los mismos resultados que con el loc): 

    - Extraed todas las filas de la columna "price". 

    - Extraed todas las filas de las columnas "price" y "retail_price". 

    - Extraed las filas pares, de las columnas "rating", "rating_count", "rating_five_count", "rating_four_count", "rating_three_count", "rating_two_count", "rating_one_count". 



In [34]:
# Ejercicio 1
df = pd.read_csv('files/rating-and-performance.csv')
# df.drop(columns='index', inplace=True)
df.head()

Unnamed: 0,index,title,title_orig,price,retail_price,currency_buyer,units_sold,uses_ad_boosts,rating,rating_count,...,merchant_rating_count,merchant_rating,merchant_id,merchant_has_profile_picture,merchant_profile_picture,product_url,product_picture,product_id,theme,crawl_month
0,0,2020 Summer Vintage Flamingo Print Pajamas Se...,2020 Summer Vintage Flamingo Print Pajamas Se...,16.0,14,EUR,100,0,3.76,54,...,568,4.128521,595097d6a26f6e070cb878d1,0,,https://www.wish.com/c/5e9ae51d43d6a96e303acdb0,https://contestimg.wish.com/api/webimage/5e9ae...,5e9ae51d43d6a96e303acdb0,summer,2020-08
1,1,SSHOUSE Summer Casual Sleeveless Soirée Party ...,Women's Casual Summer Sleeveless Sexy Mini Dress,8.0,22,EUR,20000,1,3.45,6135,...,17752,3.899673,56458aa03a698c35c9050988,0,,https://www.wish.com/c/58940d436a0d3d5da4e95a38,https://contestimg.wish.com/api/webimage/58940...,58940d436a0d3d5da4e95a38,summer,2020-08
2,2,2020 Nouvelle Arrivée Femmes Printemps et Été ...,2020 New Arrival Women Spring and Summer Beach...,8.0,43,EUR,100,0,3.57,14,...,295,3.989831,5d464a1ffdf7bc44ee933c65,0,,https://www.wish.com/c/5ea10e2c617580260d55310a,https://contestimg.wish.com/api/webimage/5ea10...,5ea10e2c617580260d55310a,summer,2020-08
3,3,Hot Summer Cool T-shirt pour les femmes Mode T...,Hot Summer Cool T Shirt for Women Fashion Tops...,8.0,8,EUR,5000,1,4.03,579,...,23832,4.020435,58cfdefdacb37b556efdff7c,0,,https://www.wish.com/c/5cedf17ad1d44c52c59e4aca,https://contestimg.wish.com/api/webimage/5cedf...,5cedf17ad1d44c52c59e4aca,summer,2020-08
4,4,Femmes Shorts d'été à lacets taille élastique ...,Women Summer Shorts Lace Up Elastic Waistband ...,2.72,3,EUR,100,1,3.1,20,...,14482,4.001588,5ab3b592c3911a095ad5dadb,0,,https://www.wish.com/c/5ebf5819ebac372b070b0e70,https://contestimg.wish.com/api/webimage/5ebf5...,5ebf5819ebac372b070b0e70,summer,2020-08


In [35]:
# Usando el `loc`: 
#       - Extraed todas las filas de la columna "price". ¿De qué tipo es el resultado obtenido?
df2 = df.loc[:, 'price']
df2 # dtype: float64

0       16.00
1        8.00
2        8.00
3        8.00
4        2.72
        ...  
1568     6.00
1569     2.00
1570     5.00
1571    13.00
1572     7.00
Name: price, Length: 1573, dtype: float64

In [37]:
#       - Extraed todas las filas de las columnas "price" y "retail_price". ¿De qué tipo es el resultado obtenido?
df3 = df.loc[:, ['price', 'retail_price']]
df3.dtypes
# price           float64
# retail_price      int64
# dtype: object

price           float64
retail_price      int64
dtype: object

In [38]:
#       - Extraed las filas pares, de las columnas "rating", "rating_count", "rating_five_count", "rating_four_count", "rating_three_count", "rating_two_count", "rating_one_count". 
df4 = df.loc[::2, ["rating", "rating_count", "rating_five_count", "rating_four_count", "rating_three_count", "rating_two_count", "rating_one_count"]]
df4


Unnamed: 0,rating,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count
0,3.76,54,26.0,8.0,10.0,1.0,9.0
2,3.57,14,5.0,4.0,2.0,0.0,3.0
4,3.10,20,6.0,4.0,2.0,2.0,6.0
6,3.84,6742,3172.0,1352.0,971.0,490.0,757.0
8,3.47,15,6.0,2.0,3.0,1.0,3.0
...,...,...,...,...,...,...,...
1564,3.38,414,156.0,58.0,72.0,45.0,83.0
1566,3.54,28,7.0,11.0,4.0,2.0,4.0
1568,4.08,1367,722.0,293.0,185.0,77.0,90.0
1570,3.71,59,24.0,15.0,8.0,3.0,9.0


In [40]:
#     - Extraed las filas cuyo precio sea mayor que 10 y sus unidades vendidas ("units_sold") sea mayor que 5000. 
df5 = df.loc[(df.price > 10) & (df.units_sold > 5000), ['price', 'units_sold']]
df5


Unnamed: 0,price,units_sold
16,11.0,10000
77,11.0,10000
89,11.0,20000
109,11.0,10000
111,14.0,10000
...,...,...
1533,16.0,10000
1534,11.0,20000
1537,11.0,10000
1548,12.0,10000


In [41]:
#   - Usando el `iloc` (sacaremos los mismos resultados que con el loc): 
#     - Extraed todas las filas de la columna "price". 
df6 = df.iloc[:, 3]
df6

0       16.00
1        8.00
2        8.00
3        8.00
4        2.72
        ...  
1568     6.00
1569     2.00
1570     5.00
1571    13.00
1572     7.00
Name: price, Length: 1573, dtype: float64

In [43]:
#     - Extraed todas las filas de las columnas "price" y "retail_price". 
df7 = df.iloc[:, [3, 4]]
df7

Unnamed: 0,price,retail_price
0,16.00,14
1,8.00,22
2,8.00,43
3,8.00,8
4,2.72,3
...,...,...
1568,6.00,9
1569,2.00,56
1570,5.00,19
1571,13.00,11


In [44]:
#     - Extraed las filas pares, de las columnas "rating", "rating_count", "rating_five_count", "rating_four_count", "rating_three_count", "rating_two_count", "rating_one_count". 
df8 = df.iloc[::2, 8:15]
df8

Unnamed: 0,rating,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count
0,3.76,54,26.0,8.0,10.0,1.0,9.0
2,3.57,14,5.0,4.0,2.0,0.0,3.0
4,3.10,20,6.0,4.0,2.0,2.0,6.0
6,3.84,6742,3172.0,1352.0,971.0,490.0,757.0
8,3.47,15,6.0,2.0,3.0,1.0,3.0
...,...,...,...,...,...,...,...
1564,3.38,414,156.0,58.0,72.0,45.0,83.0
1566,3.54,28,7.0,11.0,4.0,2.0,4.0
1568,4.08,1367,722.0,293.0,185.0,77.0,90.0
1570,3.71,59,24.0,15.0,8.0,3.0,9.0
