## Ejemplo 5: Limpiando nans

### 1. Objetivos:
    - Aprender a limpiar NaNs por filas
    - Aprender a limpiar NaNs por columnas
    - Aprender a llenar NaNs con otros valores útiles
 
---
    
### 2. Desarrollo:

### 1) Limpiando NaNs por filas

Tenemos el siguiente dataset

In [1]:
import pandas as pd
import numpy as np

In [2]:
# CReamos el dataframe
datos = {
    'precio': [34, 54, np.nan, np.nan, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 14, np.nan, 5, 2, 10],
    'productos_vendidos': [3, 45, 23, np.nan, 24, 6, np.nan]
}

df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"])

In [3]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Para limpiar las filas que tengan mínimo 1 valor `NaN` (i.e. al menos un NAn), se utiliza `dropna(axis=0, how='any')`:

Con que encuentre un NaN, elimina el renglón completo

In [4]:
df.dropna(axis=0, how='any')

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0


Con el `axis=0` le estamos diciendo que queremos eliminar por filas. Con `how='any'` le decimos que queremos eliminar cualquier fila que tenga al menos un `NaN`.

Si quisiéramos eliminar sólo las filas donde **todos** los valores sean `NaN`, podemos usar `axis='0', how = 'all'`:

In [5]:
df.dropna(axis=0, how='all')

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Estos resultados no se aplican directamente al `DataFrame` original. Si queremos que persistan tenemos que asignarlos a otra variable:

In [6]:
# si queremos guardar el dataframe limpio/semilimpio
# lo tenemos que asignar a una variable
df_dropped = df.dropna(axis=0, how='all')

In [7]:
df_dropped

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


### Limpiando NaNs por columnas

Vamos a agregar una columna a nuesto dataframe orignal:

In [8]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


In [9]:
# Le agregaré una columna que se llama 'descuento'
# que tiene puros Nans
df['descuento'] = np.nan

In [10]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,descuento
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,14.0,23.0,
Lazarillo de Tormes,,,,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,2.0,6.0,
El AyMeDuele,34.0,10.0,,


Al igual que por filas, eliminar `NaNs` por columna también se puede hacer usando ´any´ y ´all´. La única diferencia es que ahora hay que usar `axis=1` para que se haga la eliminación por columnas:

In [11]:
# Elima la columna si tiene al menos un NAn
df.dropna(axis=1, how='any')

Pokemaster
Cegatron
Pikame Mucho
Lazarillo de Tormes
Stevie Wonder
Needle
El AyMeDuele


In [13]:
# elimina si todos son NAN
df_dropped = df.dropna(axis=1, how='all')
df_dropped

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


### Llenando NaNs con valores

Otra cosa que podemos hacer es llenar los valores `NaN` con algún otro valor.

Por ejemplo, digamos que tenemos este dataset:

In [14]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,descuento
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,14.0,23.0,
Lazarillo de Tormes,,,,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,2.0,6.0,
El AyMeDuele,34.0,10.0,,


Lo primero que hay que hacer es eliminar filas y columnas donde **todos** los valores sean `NaN`, puesto que no nos sirven de nada:

In [16]:
#quitamos los renglones en los que TODO el renglón es NAn
df_no_nans = df.dropna(axis=0, how='all')

In [17]:
df_no_nans

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,descuento
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,14.0,23.0,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,2.0,6.0,
El AyMeDuele,34.0,10.0,,


In [18]:
# quitamos las columnas en las que toda la columna sea NAn
df_no_nans = df_no_nans.dropna(axis=1, how='all')

df_no_nans

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Ahora, digamos que podemos asumir que si hay un valor conceptual en los `NaN` en "productos_vendidos" es porque no ha sido vendido aún. En ese caso podemos rellenar ese `NaN` usando la función `fillna`:

In [19]:
# Vamos a modificar la columna 'productos_vendidos'
# cambiando en NAn por un 0
df_no_nans['productos_vendidos'] = df_no_nans['productos_vendidos'].fillna(0)

df_no_nans

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_no_nans['productos_vendidos'] = df_no_nans['productos_vendidos'].fillna(0)


Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0


Para finalizar, "precio" sí es una variable muy importante, así que nos deshacemos de las filas que aún tengan `NaNs`:

In [20]:
df_no_nans.dropna(axis=0)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0
