<a href="https://colab.research.google.com/github/fermuba/Procesamiento-de-Datos/blob/main/S5/Ejemplos_clase/Ejemplo_5_limpiando_nans.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Ejemplo 5: Limpiando nans

### 1. Objetivos:
    - Aprender a limpiar NaNs por filas
    - Aprender a limpiar NaNs por columnas
    - Aprender a llenar NaNs con otros valores útiles

---
    
### 2. Desarrollo:

### 1) Limpiando NaNs por filas

Tenemos el siguiente dataset

In [2]:
# Cargamos librerias
import pandas as pd
import numpy as np

In [3]:
# Creamos un diccionario para prueba
datos = {
    'precio': [34, 54, np.nan, np.nan, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 14, np.nan, 5, 2, 10],
    'productos_vendidos': [3, 45, 23, np.nan, 24, 6, np.nan]
}

# Creacion de dataframe desde diccionario
df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"])

In [4]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Para limpiar las filas que tengan mínimo 1 valor `NaN`, se utiliza `dropna(axis=0, how='any')`:

In [5]:
df.dropna(axis=0, how='any')

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0


Con el `axis=0` le estamos diciendo que queremos eliminar por filas. Con `how='any'` le decimos que queremos eliminar cualquier fila que tenga mínimo un `NaN`.

Si quisiéramos eliminar sólo las filas donde **todos** los valores sean `NaN`, podemos usar `axis='all'`:

In [6]:
df.dropna(axis=0, how='all')

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Estos resultados no se aplican directamente al `DataFrame` original. Si queremos que persistan tenemos que asignarlos a otra variable:

In [7]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


In [8]:
df_dropped = df.dropna(axis=0, how='all')
df_dropped

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


### Limpiando NaNs por columnas

Vamos a agregar una columna:

In [9]:
# Creacion de una columna
df['descuento'] = np.nan

In [10]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,descuento
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,14.0,23.0,
Lazarillo de Tormes,,,,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,2.0,6.0,
El AyMeDuele,34.0,10.0,,


Al igual que por filas, eliminar `NaNs` por columna también se puede hacer usando ´any´ y ´all´. La única diferencia es que ahora hay que usar `axis=1` para que se haga la eliminación por columnas:

In [11]:
df.dropna(axis=1, how='any')

Pokemaster
Cegatron
Pikame Mucho
Lazarillo de Tormes
Stevie Wonder
Needle
El AyMeDuele


In [12]:
df_dropped = df.dropna(axis=1, how='all')
df_dropped

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


### Llenando NaNs con valores

Otra cosa que podemos hacer es llenar los valores `NaN` con algún otro valor.

Por ejemplo, digamos que tenemos este dataset:

In [13]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,descuento
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,14.0,23.0,
Lazarillo de Tormes,,,,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,2.0,6.0,
El AyMeDuele,34.0,10.0,,


Lo primero que hay que hacer es eliminar filas y columnas donde **todos** los valores sean `NaN`, puesto que no nos sirven de nada:

In [14]:
# Eliminacion de filas y columnas que solo tengan elementos NaN
df_no_nans = df.dropna(axis=0, how='all')
df_no_nans = df_no_nans.dropna(axis=1, how='all')

df_no_nans

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Ahora, digamos que podemos asumir que si hay un valor `NaN` en "productos_vendidos" es porque no ha sido vendido aún. En ese caso podemos rellenar ese `NaN` usando `fillna`:

In [15]:
# Completamos con 0 elementos NaN de la columna 'productos_vendidos'
df_no_nans['productos_vendidos'].fillna(0)

Pokemaster        3.0
Cegatron         45.0
Pikame Mucho     23.0
Stevie Wonder    24.0
Needle            6.0
El AyMeDuele      0.0
Name: productos_vendidos, dtype: float64

In [18]:
df_no_nans['productos_vendidos'] = df_no_nans['productos_vendidos'].fillna(0)

# Otra opcion para guardar los cambios
# df_no_nans['productos_vendidos'].fillna(0, inplace= True)

df_no_nans

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0


Para finalizar, "precio" sí es una variable muy importante, así que nos deshacemos de las filas que aún tengan `NaNs`:

In [19]:
# Eliminamos las filas restantes que no necesitamos para precios
df_no_nans.dropna(axis=0)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0
