In [1]:
# importamos la pandas para poder trabajar en la lección
import pandas as pd

In [3]:
# importamos un nuevo fichero de datos para entender mejor estos conceptos
df = pd.read_csv("data.csv", index_col=["Day"])
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


### Selección a través de un único elemento
En este primer ejercicio vamos a intentar sacar el valor de 96, en concreto hace referencia a la humedad el martes. Recordemos que: 

- En el `loc` usaremos los nombres de las filas y las columnas (es como el juego de hundir la flota), corresponde a lo que tenemos en rojo en la imagen. 

- En el `iloc` usaremos los indices de las filas y las columnas, igual que hacíamos en las listas o los *arrays* de NumPy, corresponde con lo que vemos en verde en la imagen. 

![imagen](https://github.com/Adalab/data_imagenes/blob/main/Pandas/loc-iloc-explicacion_ej1.png?raw=true)

In [5]:
# Usando el loc, accediendo por los nombres de las filas y las columnas
print(f'La humedad que hizo el martes usando el LOC es:  {df.loc["Tue", "Humidity"]} %')

# usando el iloc, accediendo por los índices, que empiezan en 0 como siempre en Python
print(f'La humedad que hizo el martes usando el ILOC es:  {df.iloc[1, 3]} %')

La humedad que hizo el martes usando el LOC es:  96 %
La humedad que hizo el martes usando el ILOC es:  96 %


Imaginemos que queremos sacar una fila en concreto pero todas las columnas o viceversa:

> En estos casos tendremos que usar `:`, esto índica que lo queremos todo. Es decir: 

```python
[filas-deseadas, :] # le estamos diciendo que nos busque por una fila dada y nos devuelva todas las columnas

[:, columna-deseada] # devuelvenos todas las filas de la columna que especifiquemos
```

Imaginemos ahora que queremos extraer toda la información climática del martes. En este caso, querremos de una fila concreta todas las columnas. 

![imagen2](https://github.com/Adalab/data_imagenes/blob/main/Pandas/loc-iloc-explicacion_ej2.png?raw=true)

In [6]:
# Usando el loc, accediendo por los nombres de las filas y las columnas
print(f'Las condiciones climáticas del martes usando el LOC es: \n  {df.loc["Tue", :]}')

print("\n----------------------\n")
# Usando el iloc, accediendo por los índices
print(f'Las condiciones climáticas del martes usando el ILOC es: \n  {df.iloc[1, :]}')

Las condiciones climáticas del martes usando el LOC es: 
  Weather        Sunny
Temperature    19.67
Wind              28
Humidity          96
Name: Tue, dtype: object

----------------------

Las condiciones climáticas del martes usando el ILOC es: 
  Weather        Sunny
Temperature    19.67
Wind              28
Humidity          96
Name: Tue, dtype: object


¿Y si ahora quisieramos extraer el viento que ha hecho durante la semana? En este caso querríamos todas las filas y una sola columna. 

![imagen3](https://github.com/Adalab/data_imagenes/blob/main/Pandas/loc-iloc-explicacion_ej3.png?raw=true)

In [7]:
# Usando el loc, accediendo por los nombres de las filas y las columnas
print(f'Las viento que hizo durante la semana usando el LOC es: \n  {df.loc[:, "Wind"]}')

print("\n----------------------\n")
# Usando el iloc, accediendo por los índices
print(f'Las condiciones climáticas del martes usando el ILOC es: \n  {df.iloc[:, 2]}')

Las viento que hizo durante la semana usando el LOC es: 
  Day
Mon    13
Tue    28
Wed    16
Thu    11
Fri    26
Sat    27
Sun    20
Name: Wind, dtype: int64

----------------------

Las condiciones climáticas del martes usando el ILOC es: 
  Day
Mon    13
Tue    28
Wed    16
Thu    11
Fri    26
Sat    27
Sun    20
Name: Wind, dtype: int64


### Selección a través de una lista de valores 

En este caso la sintaxis del `loc` y el `iloc` cambian un poco. Seguiremos usando los nombres de las filas y las columnas para el `loc` y los índices para el `iloc`, pero tendremos que añadir algún corchete más. 

```python
[[fila_deseada1, fila_deseada2], :] # le estamos diciendo que nos busque por una fila dada y nos devuelva todas las columnas. FIJAOS COMO LO QUE HEMOS HECHO HA SIDO AÑADIR UNOS CORCHETES MÁS DONDE INCLUIREMOS LOS NOMBRES DE LAS FILAS O COLUMNAS QUE QUERRAMOS SEPARADAS POR COMAS. Los ':' siguen indicando que queremo todas las columnas en este caso.

[:, [col_deseada1, col_deseada2]] # devuelvenos todas las filas de la columna que especifiquemos. FIJAOS COMO LO QUE HEMOS HECHO HA SIDO AÑADIR UNOS CORCHETES MÁS DONDE INCLUIREMOS LOS NOMBRES DE LAS FILAS O COLUMNAS QUE QUERRAMOS SEPARADAS POR COMAS. Los ':' siguen indicando que queremos todas las filas.
```

Ahora queremos extraer la información del viento, pero ya no lo queremos para toda la semana, en realidad lo quiero para el martes y el domingo. 

In [14]:
# Usando el loc, accediendo por los nombres de las filas y las columnas
print(f'El viento que hizo el martes y el sabado usando el LOC es: \n  {df.loc[["Tue", "Sat"], "Wind"]}')

print("\n----------------------\n")
# Usando el iloc, accediendo por los índices
print(f'El viento que hizo el martes y el sabado  usando el ILOC es: \n  {df.iloc[[1, 5], 2]}')

El viento que hizo el martes y el sabado usando el LOC es: 
  Day
Tue    28
Sat    27
Name: Wind, dtype: int64

----------------------

El viento que hizo el martes y el sabado  usando el ILOC es: 
  Day
Tue    28
Sat    27
Name: Wind, dtype: int64


Imaginemos ahora que no queremos solo la información del viento para el martes y el domingo, sino que también queremos la información de la temperatura.

In [16]:
# Usando el loc, accediendo por los nombres de las filas y las columnas
print(f'El viento y la temperatura que hizo el martes y el sabado usando el LOC es: \n  {df.loc[["Tue", "Sat"], ["Wind", "Temperature"]]}')

print("\n----------------------\n")
# Usando el iloc, accediendo por los índices
print(f'El viento y la temperatura que hizo el martes y el sabado usando el ILOC es: \n  {df.iloc[[1, 5], [2,1]]}')

El viento y la temperatura que hizo el martes y el sabado usando el LOC es: 
       Wind  Temperature
Day                   
Tue    28        19.67
Sat    27        11.07

----------------------

El viento y la temperatura que hizo el martes y el sabado usando el ILOC es: 
       Wind  Temperature
Day                   
Tue    28        19.67
Sat    27        11.07


### Selección de un rango de datos a través de un corte

En este caso podremos usar la sintaxis de `[start:stop:step]` que conocemos de listas. 

In [17]:
# lo primero que vamos a hacer es recordar el DataFrame
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


En este ejercicio vamos a querer sacar la temperatura, el viento y la humedad del martes y el viernes. 

In [20]:
# Usando el loc, accediendo por los nombres de las filas y las columnas
print(f"El viento, la temperatura y la humedad que hizo el jueves y el viernes usando el LOC es: \n  {df.loc[['Thu', 'Fri'], 'Temperature':'Humidity' ]}")

print("\n----------------------\n")
# Usando el iloc, accediendo por los índices
print(f'El viento, la temperatura y la humedad que hizo el jueves y el viernes usando el ILOC es: \n  {df.iloc[[3, 4], 1:4]}')

El viento, la temperatura y la humedad que hizo el jueves y el viernes usando el LOC es: 
       Temperature  Wind  Humidity
Day                             
Thu        14.44    11        22
Fri        10.51    26        79

----------------------

El viento, la temperatura y la humedad que hizo el jueves y el viernes usando el ILOC es: 
       Temperature  Wind  Humidity
Day                             
Thu        14.44    11        22
Fri        10.51    26        79


Y si quisieramos saber todas las condiciones climáticas del lunes , miércoles y viernes? En este caso tendremos que hacer uso del `[start_ stop: step]`

In [21]:
# Usando el loc, accediendo por los nombres de las filas y las columnas
print(f"Las condiciones climáticas que hicieron el lunes, miércoles y viernes usando el LOC es: \n  {df.loc['Mon':'Fri':2 , :]}")

print("\n----------------------\n")
# Usando el iloc, accediendo por los índices
print(f'El viento, la temperatura y la humedad que hizo el martes y el viernes usando el ILOC es: \n  {df.iloc[0:6:2, :]}')

Las condiciones climáticas que hicieron el lunes, miércoles y viernes usando el LOC es: 
      Weather  Temperature  Wind  Humidity
Day                                     
Mon   Sunny        12.79    13        30
Wed   Sunny        17.51    16        20
Fri  Shower        10.51    26        79

----------------------

El viento, la temperatura y la humedad que hizo el martes y el viernes usando el ILOC es: 
      Weather  Temperature  Wind  Humidity
Day                                     
Mon   Sunny        12.79    13        30
Wed   Sunny        17.51    16        20
Fri  Shower        10.51    26        79


### Seleccionar basado en una condición 

Al igual que en NumPy podemos filtrar los datos de nuestro DataFrame usando operadores de comparación,  como `>`, `<`, `>=`, `<=`, `==` o `!=`. Pero antes de ponernos a ver como filtrar datos, aprendamos ha acceder solo a una columna de nuestro DataFrame. Podríamos pensar que lo podemos hacer con un `loc` o un `iloc` como hemos estado viendo hasta ahora, pero hay una forma un poco más sencilla. Para eso deberemos seguir la siguiente sintaxis:

```python
df["nombre_columna"]
df.nombre_columna
# estas dos opciones me devuelven exactamente lo mismo. 
```

In [22]:
# recordamos el DataFrame
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


In [23]:
# accedemos a los datos de la columna 'Temperature'
# Fijaos como nos ha devuelto una serie donde tenemos todos los valores de la columna 'Temperature'
df["Temperature"]

Day
Mon    12.79
Tue    19.67
Wed    17.51
Thu    14.44
Fri    10.51
Sat    11.07
Sun    17.50
Name: Temperature, dtype: float64

In [24]:
# El código de arriba es exactamente igual que:
df.Temperature

Day
Mon    12.79
Tue    19.67
Wed    17.51
Thu    14.44
Fri    10.51
Sat    11.07
Sun    17.50
Name: Temperature, dtype: float64

¿Y que pasaría si quisiera acceder a varias columnas? Solo podremos usar la sintaxis `df[["columna_1", "columna_2"]]`. Fijaos como ahora estamos añadiendo un corchete extra a la sintaxis que hemos aprendido en los pasos anteriores. 

In [25]:
df[["Temperature", "Wind"]]

Unnamed: 0_level_0,Temperature,Wind
Day,Unnamed: 1_level_1,Unnamed: 2_level_1
Mon,12.79,13
Tue,19.67,28
Wed,17.51,16
Thu,14.44,11
Fri,10.51,26
Sat,11.07,27
Sun,17.5,20


Una vez que hemos visto esto como acceder a los datos de una o varias columnas unicamente, vamos a ver como podemos filtrar los datos del DataFrame, igual que hacíamos en los *arrays*. 

En este primer ejemplo, vamos a quedarnos con todos los datos donde la temperatura sea mayor que 12ºC. En este caso seguiremos la siguiente sintaxis: 

```python
df.loc[df["columna"] CONDICION]
```

In [26]:
# filtramos nuestros datos para quedarnos solo con las filas donde la temperatura sean mayor que 12
df_mayor_12_1 = df.loc[df.Temperature > 12, :]
print(f"El resultado usando la sintaxis de DF.COLUMNA usando LOC es:\n {df_mayor_12_1}")

print("\n --------------- \n")

# la linea de arriba es exactamente la misma que esta que vemos aquí abajo
df_mayor_12_2 = df.loc[df["Temperature"] > 12, :]
print(f"El resultado usando la sintaxis de df['COLUMNA'] usando LOC es:\n {df_mayor_12_1}")


El resultado usando la sintaxis de DF.COLUMNA usando LOC es:
     Weather  Temperature  Wind  Humidity
Day                                     
Mon   Sunny        12.79    13        30
Tue   Sunny        19.67    28        96
Wed   Sunny        17.51    16        20
Thu  Cloudy        14.44    11        22
Sun   Sunny        17.50    20        10

 --------------- 

El resultado usando la sintaxis de df['COLUMNA'] usando LOC es:
     Weather  Temperature  Wind  Humidity
Day                                     
Mon   Sunny        12.79    13        30
Tue   Sunny        19.67    28        96
Wed   Sunny        17.51    16        20
Thu  Cloudy        14.44    11        22
Sun   Sunny        17.50    20        10


In [None]:
# ¿y como lo haríamos con iloc? Se nos ocurriría que usando los corchetes, poniendo el índice de la columna que queremos usar como filtro. 
# veamoslo. 
df.iloc[df[1] > 12, :]

⚠️ Obtenemos el error porque `iloc` no puede aceptar una Serie booleana. Sólo acepta una lista booleana. Podemos utilizar la función `list()` para convertir una Serie en una lista booleana. Por lo tanto, tendríamos que:

In [27]:
df.iloc[list(df.Temperature > 12), :]

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Sun,Sunny,17.5,20,10


In [28]:
# si juntamos todo lo aprendido de loc e iloc en las últimas celdas

# filtramos nuestros datos para quedarnos solo con las filas donde la temperatura sean mayor que 12
df_mayor_12_1 = df.loc[df.Temperature > 12, :]
print(f"El resultado usando la sintaxis de DF.COLUMNA usando LOC es:\n {df_mayor_12_1}")

print("\n --------------- \n")

# la linea de arriba es exactamente la misma que esta que vemos aquí abajo
df_mayor_12_2 = df.loc[df["Temperature"] > 12, :]
print(f"El resultado usando la sintaxis de df['COLUMNA'] usando LOC es:\n {df_mayor_12_1}")

print("\n --------------- \n")

# filtramos con ILOC
df_mayor_12_iloc = df.iloc[list(df.Temperature > 12), :]
print(f"El resultado usando la sintaxis de df['COLUMNA'] usando ILOC es:\n {df_mayor_12_iloc}")



El resultado usando la sintaxis de DF.COLUMNA usando LOC es:
     Weather  Temperature  Wind  Humidity
Day                                     
Mon   Sunny        12.79    13        30
Tue   Sunny        19.67    28        96
Wed   Sunny        17.51    16        20
Thu  Cloudy        14.44    11        22
Sun   Sunny        17.50    20        10

 --------------- 

El resultado usando la sintaxis de df['COLUMNA'] usando LOC es:
     Weather  Temperature  Wind  Humidity
Day                                     
Mon   Sunny        12.79    13        30
Tue   Sunny        19.67    28        96
Wed   Sunny        17.51    16        20
Thu  Cloudy        14.44    11        22
Sun   Sunny        17.50    20        10

 --------------- 

El resultado usando la sintaxis de df['COLUMNA'] usando ILOC es:
     Weather  Temperature  Wind  Humidity
Day                                     
Mon   Sunny        12.79    13        30
Tue   Sunny        19.67    28        96
Wed   Sunny        17.51    1

**¿Y si queremos que se cumplan varias condiciones?**

En este caso tendremos que usar los operadores & o |, como vimos en NumPy. Recordemos lo que significan: 

- `&`: es como el operador `and`. En este caso se tendrán que cumplir todas las condiciones que le pasemos. 


- `|`: es como el operador `or`. En este caso nos devolverá datos de las condiciones que se cumplan, pero no tienen porque cumplirse todas a la vez. O una condición y otra. 

En este ejercicio vamos a querer filtrar  los días de la semana que había un viento mayor que 20 y que el tiempo era soleado ("Sunny") 

In [33]:
# Seleccionar aquellas filas donde se cumpla la condición de que el viento es mayor que 20 y el tiempo era soleado.
# además estamos especificando que nos devuelva solo las columnas de "Temperature" y " Wind"
# SE TIENEN QUE CUMPLIR LAS DOS CONDICIONES

# filtramos con LOC
df_dos_condiciones_loc = df.loc[(df.Wind > 20) & (df.Weather == 'Sunny'), ['Temperature', 'Wind']]

# filtramos con ILOC
df_dos_condiciones_iloc = df.iloc[list((df.Wind > 20) & (df.Weather == 'Sunny')), [1,2]]


print(f"El resultado usando LOC es:\n {df_dos_condiciones_loc}")

print("\n --------------- \n")

print(f"El resultado usando ILOC es:\n {df_dos_condiciones_iloc}")

El resultado usando LOC es:
      Temperature  Wind
Day                   
Tue        19.67    28

 --------------- 

El resultado usando ILOC es:
      Temperature  Wind
Day                   
Tue        19.67    28


**POR LO TANTO, LAS DIFERENCIAS ENTRE `LOC` E `ILOC` SON:**

|       | loc                                             | iloc                                                |
|-------|-------------------------------------------------|-----------------------------------------------------|
| Uso   | Acceso a datos utilizando etiquetas de índice    | Acceso a datos utilizando posiciones de índice       |
| Índice| Puede utilizar etiquetas o slices de etiquetas   | Solo puede utilizar posiciones enteras o slices      |
| Filtrado | Permite filtrar filas y seleccionar columnas     | Permite filtrar filas y seleccionar columnas         |
| Sintaxis | Utiliza etiquetas separadas por comas           | Utiliza posiciones enteras separadas por comas       |
| Ejemplo | `df.loc[3:5, 'columna']`                        | `df.iloc[3:5, 2]`                                   |
