## Ejemplo 5: Limpiando nans

### 1. Objetivos:
    - Aprender a limpiar NaNs por filas
    - Aprender a limpiar NaNs por columnas
    - Aprender a llenar NaNs con otros valores útiles
 
---
    
### 2. Desarrollo:

### 1) Limpiando NaNs por filas

Tenemos el siguiente dataset

In [1]:
import pandas as pd
import numpy as np

In [2]:
datos = {
    'precio': [34, 54, np.nan, np.nan, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 14, np.nan, 5, 2, 10],
    'productos_vendidos': [3, 45, 23, np.nan, 24, 6, np.nan]
}

df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"])

In [3]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Para limpiar las filas que tengan mínimo 1 valor `NaN`, se utiliza `dataframe.dropna(axis=0, how='any')`:

In [7]:
# tu código

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0


Con el `axis=0` le estamos diciendo que queremos eliminar por filas. Con `how='any'` le decimos que queremos eliminar cualquier fila que tenga mínimo un `NaN`.

Si quisiéramos eliminar sólo las filas donde **todos** los valores sean `NaN`, podemos usar `how='all'`:

In [1]:
# tu código

Estos resultados no se aplican directamente al `DataFrame` original. Si queremos que persistan tenemos que asignarlos a otra variable:

In [11]:
df1 = 
df1

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0


### Limpiando NaNs por columnas

Vamos a agregar una columna de Nans:

In [12]:
df["descuentos"] = np.nan

In [13]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,descuentos
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,14.0,23.0,
Lazarillo de Tormes,,,,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,2.0,6.0,
El AyMeDuele,34.0,10.0,,


Al igual que por filas, eliminar `NaNs` por columna también se puede hacer usando ´any´ y ´all´. La única diferencia es que ahora hay que usar `axis=1` para que se haga la eliminación por columnas:

In [15]:
# tu código para eliminar cualquier columna con Nans

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,descuentos


In [2]:
# tu código para eliminar sólo las columnas donde todos son Nans

### Llenando NaNs con valores

Otra cosa que podemos hacer es llenar los valores `NaN` con algún otro valor.

Por ejemplo, digamos que tenemos este dataset:

In [17]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,descuentos
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,14.0,23.0,
Lazarillo de Tormes,,,,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,2.0,6.0,
El AyMeDuele,34.0,10.0,,


Lo primero que hay que hacer es eliminar filas y columnas donde **todos** los valores sean `NaN`, puesto que no nos sirven de nada:

In [23]:
df_no_nans = df.
df_no_nans = df_no_nans.

df_no_nans

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Ahora, digamos que podemos asumir que si hay un valor `NaN` en "productos_vendidos" es porque no ha sido vendido aún. En ese caso podemos rellenar ese `NaN` usando la forma:

`dataftrame[-columna-].fillna(-valor-)`

In [24]:
df_no_nans['productos_vendidos'] = 
df_no_nans

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0


Para finalizar, "precio" sí es una variable muy importante, así que nos deshacemos de las filas que aún tengan `NaNs` usando `dataframe.dropna(axis=0)`:

In [22]:
# tu código

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0


---
---

## Reto 5: Identificando y limpiando NaNs

### 1. Objetivos:
    - Practicar la identificación de NaNs
    - Practicar eliminar NaNs de un `DataFrame` usando diferentes técnicas
 
---
    
### 2. Desarrollo:

#### a) Limpiando un Dataset de NaNs

Eres el Data Wrangler de EyePoker Inc. Te han dado el siguiente dataset para que apliques algunas técnicas de procesamiento de datos:

In [None]:
import pandas as pd
import numpy as np

pd.options.mode.chained_assignment = None 

In [None]:
datos = {
    'precio': [12000, 5500, np.nan, 4800, 8900, np.nan, 1280, 1040, 23100, np.nan, 15000, 13400, np.nan],
    'cantidad_en_stock': [34, 54, np.nan, 78, 56, np.nan, 34, 4, 0, 18, 45, 23, 5],
    'cantidad_vendidos': [120, 34, np.nan, 9, 15, np.nan, 103, np.nan, np.nan, 23, 10, 62, 59],
    'descuentos': [np.nan] * 13
}

df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele", "El Desretinador", "Sacamel Ojocles", "Desojado", "Maribel Buenas Noches", "Cíclope", "El Cuatro Ojos"])

In [None]:
df

Para poder realizar los análisis y visualizaciones posteriores, te han pedido que elimines los `NaNs` del dataset. Realiza los siguientes pasos para limpiar tu dataset:

1. Has un conteo de cuántos `NaNs` hay en cada fila y en cada columna
2. Elimina las filas y columnas donde **todos** los valores sean `NaN`.
3. Dado que la columna `cantidad_vendidos` no es tan importante, cambia los `NaNs` que haya en esa columna por `0`.
4. Dado que la columna `precio` es muy importante, elimina las filas restantes que tengan algún `NaN` en dicha columna.

Realiza todas tus transformaciones usando el `DataFrame` `df_copy`.

In [None]:
df_copy = df.copy()

## Realiza aquí tus transformaciones
##
## ...
## ...