# 5. Manipulación de DataFrames (2º Parte)

Ahora que sabemos como cargar nuestros archivos, es hora de usarlos. Comencemos configurando nuestro DataFrame inicial.

Creamos un Dataframe a partir de un archivo con datos de artículos electrónicos que el profesor tiene guardado en Google Drive en formato .csv. El link al archivo es el indicado a https://drive.google.com/uc?export=download&id=16SQQX0ly--l9UvNBr5-KGRWb6todE1u6.

Vamos a llamar al Dataframe: **df** (por ejemplo)

In [20]:
# Importamos la librería pandas

import pandas as pd

# Creamos un DataFrame a partir de un archivo de Excel.
# Además, establecemos la columna "ID_Producto" como índice

df = pd.read_csv("https://drive.google.com/uc?export=download&id=16SQQX0ly--l9UvNBr5-KGRWb6todE1u6", index_col="ID_Producto")

## 4.1. Mostrar los primeros o últimos datos

Para mostrar una parte inicial o final del `DataFrame` usarás el método `head(n)` o `tail(n)`, donde 'n' son los primeros o últimos n datos.

In [17]:
df.head(5)

Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU1,Xbox Series X,65,500
SKU4,Teclado mecánico Razer BlackWidow,130,250
SKU7,"Monitor Gaming Asus 27""",45,750
SKU11,Robot aspirador Roomba 960,30,450
SKU26,Kindle Paperwhite,150,200


In [3]:
df.tail(7)


Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU171,Drone DJI Mavic Air 2,20,900
SKU172,iPhone 13,100,990
SKU176,Bose QuietComfort 35 II,70,350
SKU178,Bicicleta eléctrica Xiaomi,35,800
SKU187,Cámara Canon EOS Rebel T7,50,550
SKU191,"Smart TV LG OLED 55""",40,1500
SKU196,Consola Retro Sega Genesis,110,120


## 4.2. Muestra un resumen de los datos `describe`

Con `describe()` puedes obtener rápidamente algunas estadisticas descriptivas (conteo, media, desviación estándar, máximo, mínimo y cuartiles) de las columnas que tienen datos numéricos.

In [4]:
df.describe()


Unnamed: 0,Cantidad,Precio
count,30.0,30.0
mean,73.166667,588.333333
std,35.073404,430.65374
min,20.0,120.0
25%,50.0,285.0
50%,67.5,465.0
75%,97.5,787.5
max,150.0,2000.0


## 4.3. Más funciones de estadistica descriptiva

#### - **Promedio** o media aritmética `mean`

In [5]:
# Promedio o media aritmética de la columna "Precio"
df.Precio.mean()

# Tambien funciona asi:
df["Precio"].mean()


588.3333333333334

#### - **Máximo** `max` y **mínimo** `min` de una columna  

In [6]:
# Valor máximo de la columna Precio
df.Precio.max()

# Tambien funciona asi:
df["Precio"].max()


2000

In [7]:
# Valor mínimo de la columna Precio
df.Precio.min()

# Tambien funciona asi:
df["Precio"].min()


120

#### - Buscar el **índice de la fila** correspondiente al valor máximo  o mínimo de una columna: `idxmax` o `idxmin` 

In [21]:
# Busca el índice del valor máximo de la columna Precio y lo almacena en la variable id

id = df.Precio.idxmax()

print(id)


SKU126


In [9]:
# Índice del valor mínimo de la columna Precio.
# Busca el índice del valor mínimo la columna Precio y lo almacena en la variable id

id = df.Precio.idxmin()

print(id)


SKU196


#### - **Sumatorio** de una columna `sum`

In [22]:
# Sumatorio de la columna Cantidad
df.Cantidad.sum()

# Tambien funciona asi:
df["Cantidad"].sum()


2195

In [23]:
# Sumatorio de la columna Precio
df.Precio.sum()

# Tambien funciona asi:
df["Precio"].sum()



17650

#### - Contar número de valores de una columna `count`

Este es un método que devuelve el número de valores no nulos en la columna especificada. Si hay algún valor NaN (Not a Number) en la columna, no serán contados.

In [11]:
# Contar total columna
df.Producto.count()

# Tambien funciona asi:
df["Producto"].count()


30

#### - Contar por tipo `value.counts`

Este método devuelve una Serie que contiene el conteo de valores únicos en orden descendente. También proporciona el número de veces que cada entrada única aparece en la columna Producto.

In [12]:
# Contar por tipo
df.Producto.value_counts()

# Tambien funciona asi:
df["Producto"].value_counts()


Producto
Xbox Series X                               1
Teclado mecánico Razer BlackWidow           1
Smart TV LG OLED 55"                        1
Cámara Canon EOS Rebel T7                   1
Bicicleta eléctrica Xiaomi                  1
Bose QuietComfort 35 II                     1
iPhone 13                                   1
Drone DJI Mavic Air 2                       1
Silla gaming DXRacer                        1
Microondas inteligente Panasonic            1
Auriculares Sony WH-1000XM4                 1
Mochila antirrobo XD Design                 1
Smartwatch Samsung Galaxy Watch 3           1
iPad Pro 12.9                               1
Laptop Dell XPS 15                          1
Samsung Galaxy S21                          1
Refrigerador Samsung Smart                  1
Garmin Fenix 6 Pro                          1
Gafas de realidad virtual Oculus Quest 2    1
AirPods Pro                                 1
GoPro HERO9                                 1
Reloj Inteligente Apple W

## 4.4. Filtrar DataFrames con condiciones 

Puedes seleccionar un set de datos que cumplen una condición utilizando esta estructura `df[condicion]`. Por ejemplo:

In [13]:
df[df["Cantidad"] > 100]


Unnamed: 0_level_0,Producto,Cantidad,Precio
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SKU4,Teclado mecánico Razer BlackWidow,130,250
SKU26,Kindle Paperwhite,150,200
SKU98,AirPods Pro,120,250
SKU162,Mochila antirrobo XD Design,150,180
SKU196,Consola Retro Sega Genesis,110,120


Estas condiciones pueden ser complejas a través de usar indicadores `&` (AND) y `|` (OR)

In [14]:
# Tienen que cumplirse dos condiciones al mismo tiempo
df_excel[(df_excel["Cantidad"] > 100) & (df_excel["Precio"] < 200000)]


NameError: name 'df_excel' is not defined

In [None]:
# Tiene que cumplirse al menos una condición
df_excel[(df_excel["Cantidad"] > 100) | (df_excel["Precio"] < 200000)]


Para filtrar por aquellos que contienen un texto determinado, puedes usar `.str.contains()`. Nótese que es sensible a mayúsculas y tildes.

In [None]:
# Filtra los productos que contienen la palabra "Cámara"
df_excel[(df_excel["Producto"].str.contains("Cámara"))]


## 4.5. Ordenar DataFrames
Para ordenar los datos en tu `DataFrame` puedes usar la siguiente estructura

`df.sort_values(by=nombre_columna, ascending=True/False)`

`ascending` es `True` cuando los datos van de menor a mayor, y es `False` en el caso contrario.

Puedes combinarlo con el método `head()` y así desplegar un top 5, top 10, o similar. Por ejemplo así puedes ver el top 5 productos por precio.

In [None]:
df_excel.sort_values(by="Precio", ascending=False).head(5)


## 4.6. Gestión de datos vacios
Un problema común la hora de gestionar datos es que hay columnas que no tienen todos los datos. Miremos este ejemplo:

In [None]:
df_artistas = pd.read_excel("https://docs.google.com/uc?export=download&id=1bqVTtpAF50QSlrtB6DjfeHx1w9UKT7O3")
df_artistas


### Identificando datos vacíos
En un DataFrame pequeño, como el que acabamos de crear, es fácil ver donde y cuántos `NaN` hay. Pero cuando manipulamos grandes volúmenes de datos es mejor llamar el siguiente tipo de código para obtener un resumen de este problema

In [None]:
df_artistas.isna().sum()


Puedes ver que en la columna `Spotify streams (millones)` tenemos 1 dato con `NaN`, mientras que en las otras columnas no tenemos.

### Eliminando datos vacíos
La fila de Feid no tiene ningún dato, por lo que podría ser recomendable sacarlo del DataFrame, así podemos manipular los otros datos.

**Advertencia**: el método `dropna()` elimina toda la fila si es que alguna columna es `NaN`.

**Nota**: Tienes que crear otro DataFrame con la información filtrada. Esto es una protección para evitar que elimines fácilmente los datos.

In [None]:
df_artistas_filtrado = df_artistas.dropna()
df_artistas_filtrado


### Llenando datos vacios
Otra manera de gestionar estos datos es llenando el vacio que dejó. Vamos a reemplazar el `NaN` en este caso por `7900`, que fue el número asociado a Feid para este año, usando `fillna`

In [None]:
df_artistas_llenado = df_artistas.fillna(7900)
df_artistas_llenado


Si queremos ser super específicos con como vamos a completar los datos, vamos a usar el método `loc` para específicamente localizar ese dato.

In [None]:
df_artistas.loc[5, "Spotify streams (millones)"] = 7900
df_artistas


## 4.7. Creando una columna usando una formula
Puede añadir una nueva columna en base a cálculos.

En el siguiente ejemplo tenemos un `DataFrame` con la cantidad y precio de cada producto.

In [None]:
df_excel.head(3)


Suponga que quiere saber cuáles son los productos que representan más valor en su inventario. Para ello le pide que cree una nueva columna llamada `"ValorInventario"` que contenga el valor de la cantidad multiplicada por el precio de cada producto.

In [None]:
# Generamos la columna
df_excel["ValorInventario"] = df_excel.Cantidad * df_excel.Precio

# Desplegamos el cambio, con solo los 3 primeros productos
df_excel.head(3)


## 4.8. Borrando una columna
Para borrar una columna debe usar `drop`, y especificar `axis=1`, que es el indicador de columnas. En pandas `axis=0` referencia a las filas.

In [None]:
df_productos_borrado = df_excel.drop("ValorInventario", axis=1)

# Desplegamos el cambio, con solo los 3 primeros productos
df_productos_borrado.head(3)


**Nota**: Tienes que crear otro DataFrame con la información borrada. Esto es una protección para evitar que elimines fácilmente los datos y no puedas recuperarlos.