# 5. Manipulación de DataFrames (2º Parte)

Seguimos trabajando la manipulación de DataFrames. Para ello, utilizaremos de nuevo el archivo del apartado 4.

Recuerda que creamos un DataFrame a partir de un archivo con datos de artículos electrónicos que el profesor tiene guardado en Google Drive en formato .csv. El link al archivo es el indicado a https://drive.google.com/uc?export=download&id=16SQQX0ly--l9UvNBr5-KGRWb6todE1u6.

Vamos a llamar al Dataframe: **`df`** (por ejemplo)

In [1]:
# Importamos la librería pandas

import pandas as pd

# Creamos un DataFrame a partir de un archivo de Excel.
# Además, establecemos la columna "ID_Producto" como índice

df = pd.read_csv("https://drive.google.com/uc?export=download&id=16SQQX0ly--l9UvNBr5-KGRWb6todE1u6", index_col="ID_Producto")

df

Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU1,Xbox Series X,65,500
SKU4,Teclado mecánico Razer BlackWidow,130,250
SKU7,"Monitor Gaming Asus 27""",45,750
SKU11,Robot aspirador Roomba 960,30,450
SKU26,Kindle Paperwhite,150,200
SKU39,Cámara de acción Insta360 One X2,80,380
SKU44,Cafetera Nespresso Vertuo,80,150
SKU48,Nintendo Switch,50,280
SKU62,PlayStation 5,75,480
SKU63,Reloj Inteligente Apple Watch Series 6,90,600


## 5.1. Filtrar DataFrames con condiciones 

Puedes seleccionar un conjunto de datos que **cumplan una condición** utilizando esta estructura `nombreDataframe[condicion]`. Por ejemplo:

In [2]:
df[df["Cantidad"] > 100]

Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU4,Teclado mecánico Razer BlackWidow,130,250
SKU26,Kindle Paperwhite,150,200
SKU98,AirPods Pro,120,250
SKU162,Mochila antirrobo XD Design,150,180
SKU196,Consola Retro Sega Genesis,110,120


In [3]:
# Si quieres crear un nuevo DataFrame filtrado.
# De esta forma tendrás dos dataframe: el original (df) y el filtrado (df_filtrado)
df_filtrado = df[df["Cantidad"] > 100]
df_filtrado

Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU4,Teclado mecánico Razer BlackWidow,130,250
SKU26,Kindle Paperwhite,150,200
SKU98,AirPods Pro,120,250
SKU162,Mochila antirrobo XD Design,150,180
SKU196,Consola Retro Sega Genesis,110,120


### 5.1.1. Indicadores `&` (AND) y `|` (OR)

Estas condiciones pueden ser complejas a través de usar indicadores `&` (AND) y `|` (OR).

* **`&`** (AND): las dos condiciones tiene que cumplirse: Por ejemplo:

In [4]:
# Tienen que cumplirse dos condiciones al mismo tiempo
df_filtrado_1 = df[(df["Cantidad"] > 100) & (df["Precio"] < 200)]
df_filtrado_1

Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU162,Mochila antirrobo XD Design,150,180
SKU196,Consola Retro Sega Genesis,110,120


* **`|`** (OR): las dos condiciones tiene que cumplirse: Por ejemplo:

In [5]:
# Tienen que cumplirse una de las dos condiciones
df_filtrado_2 = df[(df["Cantidad"] > 100) | (df["Precio"] < 200)]
df_filtrado_2

Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU4,Teclado mecánico Razer BlackWidow,130,250
SKU26,Kindle Paperwhite,150,200
SKU44,Cafetera Nespresso Vertuo,80,150
SKU98,AirPods Pro,120,250
SKU162,Mochila antirrobo XD Design,150,180
SKU196,Consola Retro Sega Genesis,110,120


Para filtrar por aquellos que contienen un texto determinado, puedes usar `.str.contains()`. Nótese que es sensible a mayúsculas y tildes.

In [6]:
# Filtra los productos que contienen la palabra "Cámara" en la columna Producto
df_filtrado_3 = df[(df["Producto"].str.contains("Cámara"))]
df_filtrado_3

Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU39,Cámara de acción Insta360 One X2,80,380
SKU187,Cámara Canon EOS Rebel T7,50,550


## 5.2. Ordenar DataFrames

Para ordenar los datos en tu `DataFrame` puedes usar el comando: `sort_values`

`nombreDataFrame.sort_values(by=nombre_columna, ascending=True/False)`

`ascending` es `True` cuando los datos van de menor a mayor, y es `False` en el caso contrario.

Puedes combinarlo con el método `head()` y así desplegar un top 5, top 10, o similar. Por ejemplo así puedes ver el top 5 productos por precio.

In [7]:
df_ordenado = df.sort_values(by="Precio", ascending=False).head(5)
df_ordenado

Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU126,Refrigerador Samsung Smart,25,2000
SKU191,"Smart TV LG OLED 55""",40,1500
SKU134,Laptop Dell XPS 15,40,1200
SKU154,iPad Pro 12.9,60,1050
SKU172,iPhone 13,100,990


## 5.3. Gestionar de datos vacios
Un problema común la hora de gestionar datos es que puede haber columnas que no tienen todos los datos. Miremos este ejemplo:

In [8]:
df_artistas = pd.read_excel("https://docs.google.com/uc?export=download&id=1bqVTtpAF50QSlrtB6DjfeHx1w9UKT7O3")
df_artistas

Unnamed: 0,Artista,Spotify streams (millones)
0,Taylor Swift,29100.0
1,Bad Bunny,16370.0
2,The Weeknd,14140.0
3,Drake,14030.0
4,Peso Pluma,10540.0
5,Feid,


```{admonition} Significado de NaN

`NaN` significa "**Not a Number**" (en inglés: “no es un número”) y se usa en Pandas para representar valores faltantes o nulos en los datos.

```


### 5.3.1. Identificar datos vacíos

En un DataFrame pequeño, como el que acabamos de crear, es fácil ver donde y cuántos `NaN` hay. Pero cuando manipulamos grandes volúmenes de datos es mejor llamar el siguiente tipo de código para obtener un resumen de este problema

Los valores `NaN` aparecen cuando hay datos faltantes.{margin}`Esto es común en encuestas o archivos CSV con celdas vacías.`

Para ver cuántos y en cuáles columnas faltan daros, usamos:

In [9]:
df_artistas.isna().sum()


Artista                       0
Spotify streams (millones)    1
dtype: int64

Puedes ver que en la columna `Spotify streams (millones)` tenemos 1 dato con `NaN`, mientras que en las otras columnas no tenemos.

### 5.3.2. Eliminar datos vacíos
La fila del artista Feid no tiene ningún dato, por lo que podría ser recomendable sacarlo del DataFrame, así podemos manipular los otros datos.

**Advertencia**: el método `dropna()` elimina toda la fila si es que alguna columna es `NaN`.

**Nota**: Tienes que crear otro DataFrame con la información filtrada. Esto es una protección para evitar que elimines fácilmente los datos.

In [10]:
df_artistas_filtrado = df_artistas.dropna()
df_artistas_filtrado


Unnamed: 0,Artista,Spotify streams (millones)
0,Taylor Swift,29100.0
1,Bad Bunny,16370.0
2,The Weeknd,14140.0
3,Drake,14030.0
4,Peso Pluma,10540.0


### 5.3.3. Llenar datos vacios
Otra manera de gestionar estos datos es llenando el vacio que dejó. Vamos a reemplazar el `NaN` en este caso por `7900`, que fue el número asociado a Feid para este año, usando `fillna`

In [11]:
df_artistas_llenado = df_artistas.fillna(7900)
df_artistas_llenado


Unnamed: 0,Artista,Spotify streams (millones)
0,Taylor Swift,29100.0
1,Bad Bunny,16370.0
2,The Weeknd,14140.0
3,Drake,14030.0
4,Peso Pluma,10540.0
5,Feid,7900.0


Si queremos ser específicos con como vamos a completar los datos, vamos a usar el método `loc` para localizar esa fila, en este caso la 5.

In [12]:
df_artistas.loc[5, "Spotify streams (millones)"] = 7900
df_artistas


Unnamed: 0,Artista,Spotify streams (millones)
0,Taylor Swift,29100.0
1,Bad Bunny,16370.0
2,The Weeknd,14140.0
3,Drake,14030.0
4,Peso Pluma,10540.0
5,Feid,7900.0


## 5.4. Crear una columna usando una formula
Puede añadir una nueva columna en base a cálculos.

En el siguiente ejemplo tenemos un `DataFrame` con la cantidad y precio de cada producto.

In [13]:
# Vamos a visualizar los tres primeros datos.
df.head(3)


Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU1,Xbox Series X,65,500
SKU4,Teclado mecánico Razer BlackWidow,130,250
SKU7,"Monitor Gaming Asus 27""",45,750


Suponga que quiere saber cuáles son los productos que representan más valor en su inventario. Para ello le pide que cree una nueva columna llamada `"ValorInventario"` que contenga el valor de la **cantidad multiplicada por el precio** de cada producto.

In [14]:
# Generamos la columna
df["ValorInventario"] = df.Cantidad * df.Precio

# Desplegamos el cambio, con solo los 10 primeros productos
df.head(10)


Unnamed: 0_level_0,Producto,Cantidad,Precio,ValorInventario
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
SKU1,Xbox Series X,65,500,32500
SKU4,Teclado mecánico Razer BlackWidow,130,250,32500
SKU7,"Monitor Gaming Asus 27""",45,750,33750
SKU11,Robot aspirador Roomba 960,30,450,13500
SKU26,Kindle Paperwhite,150,200,30000
SKU39,Cámara de acción Insta360 One X2,80,380,30400
SKU44,Cafetera Nespresso Vertuo,80,150,12000
SKU48,Nintendo Switch,50,280,14000
SKU62,PlayStation 5,75,480,36000
SKU63,Reloj Inteligente Apple Watch Series 6,90,600,54000


## 5.5. Borrar una columna
Para borrar una columna debe usar `drop`, y especificar `axis = 1`, que es el indicador de columnas. En pandas `axis = 0` referencia a las filas.

In [15]:
df_productos_borrado = df.drop("ValorInventario", axis=1)

# Desplegamos el cambio, con solo los 5 primeros productos
df_productos_borrado.head(5)


Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU1,Xbox Series X,65,500
SKU4,Teclado mecánico Razer BlackWidow,130,250
SKU7,"Monitor Gaming Asus 27""",45,750
SKU11,Robot aspirador Roomba 960,30,450
SKU26,Kindle Paperwhite,150,200


**Nota**: Tienes que crear otro DataFrame con la información borrada. Esto es una protección para evitar que elimines fácilmente los datos y no puedas recuperarlos.