## Ejemplo 5: Limpiando nans

### 1. Objetivos:
    - Aprender a limpiar NaNs por filas
    - Aprender a limpiar NaNs por columnas
    - Aprender a llenar NaNs con otros valores útiles
 
---
    
### 2. Desarrollo:

### 1) Limpiando NaNs por filas

Tenemos el siguiente dataset

In [2]:
import pandas as pd
import numpy as np

In [3]:
datos = {
    'precio': [34, 54, np.nan, np.nan, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 14, np.nan, 5, 2, 10],
    'productos_vendidos': [3, 45, 23, np.nan, 24, 6, np.nan]
}

df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"])

In [4]:
df

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Para limpiar las filas que tengan mínimo 1 valor `NaN`, se utiliza `dataframe.dropna(axis=0, how='any')`:

In [5]:
df.dropna(how="any")  # axis = 0

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0


Con el `axis=0` le estamos diciendo que queremos eliminar por filas. Con `how='any'` le decimos que queremos eliminar cualquier fila que tenga mínimo un `NaN`.

Si quisiéramos eliminar sólo las filas donde **todos** los valores sean `NaN`, podemos usar `how='all'`:

In [6]:
df.dropna(how="all")

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Estos resultados no se aplican directamente al `DataFrame` original, es sólo una vista del resultado, así que para que los resultados persistan los tenemos que asignarlos a otra variable:

In [7]:
df1 = df.dropna(how="all")

df1

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


### Limpiando NaNs por columnas

Primero, agregamos una columna llamada `Descuentos` de `NaNs` de tipo numérico usando el valor nulo del módulo **NumPy** de la forma:

    dataframe[-nombre de columna-] = np.nan

In [10]:
df1["Descuentos"] = np.nan

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [13]:
df1

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,Descuentos
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,14.0,23.0,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,2.0,6.0,
El AyMeDuele,34.0,10.0,,


Al igual que por filas, eliminar `NaNs` por columna también se puede hacer usando `any`y `all`, la única diferencia es que ahora hay que usar `axis=1` para que se haga la eliminación por columnas:

In [14]:
df1.dropna(axis=1, how="any")  # eliminando columnas que tengan almenos un NaN

Unnamed: 0,cantidad_en_stock
Pokemaster,3.0
Cegatron,6.0
Pikame Mucho,14.0
Stevie Wonder,5.0
Needle,2.0
El AyMeDuele,10.0


In [15]:
df1.dropna(axis=1, how="all")  # eliminando columnas donde todos los valores son NaN

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


### Llenando NaNs con valores

Otra cosa que podemos hacer es llenar o remplazar los valores `NaN` con algún otro valor.

Por ejemplo, partiendo de los valores del DataFrame `df`:

In [19]:
df2 = df1.dropna(axis=1, how="all")
df2

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Lo primero que hay que hacer es eliminar filas y columnas donde **todos** los valores sean `NaN`, puesto que no nos sirven de nada:

In [20]:
df_no_nans = df2   # elimnar filas donde todos los valores son NaNs

df_no_nans

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


In [None]:
df_no_nans = ...  # eliminar columnas donde todos los valores son NaNs

df_no_nans

Ahora, digamos que podemos asumir que si hay un valor `NaN` en "productos_vendidos" es porque no ha sido vendido aún. En ese caso podemos rellenar ese `NaN` con cero usando la forma:

`dataftrame[-columna-].fillna(-valor-)`

In [21]:
df_no_nans['productos_vendidos'] = df_no_nans['productos_vendidos'].fillna(0)

df_no_nans

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0


Para finalizar, "precio" sí es una variable muy importante, así que nos deshacemos de las filas que aún tengan `NaNs` usando `dataframe.dropna(axis=0)`:

In [24]:
df_no_nans = df_no_nans.dropna()  # axis=0, how="any"
df_no_nans

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0


In [27]:
df2["precio"] = df2["precio"].fillna(30)
df2

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,30.0,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0


In [30]:
df3 = df.copy()
df3["precio"] = df3["precio"].fillna(30)
df3

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,30.0,14.0,23.0
Lazarillo de Tormes,30.0,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


---
---

## Reto 5: Identificando y limpiando NaNs

### 1. Objetivos:
    - Practicar la identificación de NaNs
    - Practicar eliminar NaNs de un `DataFrame` usando diferentes técnicas
 
### 2. Desarrollo:

#### a) Limpiando un conjunto de datos (Dataset) de NaNs

Eres el Data Wrangler de EyePoker Inc. Te han dado el siguiente dataset para que apliques algunas técnicas de procesamiento de datos:

In [None]:
import pandas as pd
import numpy as np

pd.options.mode.chained_assignment = None 

In [None]:
datos = {
    'precio': [12000, 5500, np.nan, 4800, 8900, np.nan, 1280, 1040, 23100, np.nan, 15000, 13400, np.nan],
    'cantidad_en_stock': [34, 54, np.nan, 78, 56, np.nan, 34, 4, 0, 18, 45, 23, 5],
    'cantidad_vendidos': [120, 34, np.nan, 9, 15, np.nan, 103, np.nan, np.nan, 23, 10, 62, 59],
    'descuentos': [np.nan] * 13
}

df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele", "El Desretinador", "Sacamel Ojocles", "Desojado", "Maribel Buenas Noches", "Cíclope", "El Cuatro Ojos"])

In [None]:
df

Para poder realizar los análisis y visualizaciones posteriores, te han pedido que elimines los `NaNs` del dataset. Realiza los siguientes pasos para limpiar tu dataset:

1. Has un conteo de cuántos `NaNs` hay en cada fila y en cada columna
2. Elimina las filas y columnas donde **todos** los valores sean `NaN`.
3. Dado que la columna `cantidad_vendidos` no es tan importante, cambia los `NaNs` que haya en esa columna por `0`.
4. Dado que la columna `precio` es muy importante, elimina las filas restantes que tengan algún `NaN` en dicha columna.

Realiza todas tus transformaciones usando el `DataFrame` `df_copy` para evitar perder el DataFrame original para la validación:

In [None]:
df_copy = df.copy()

## Realiza aquí tus transformaciones sobre df_copy
...

Y la celda de validación es ...

In [None]:
def revisar_limpieza(df, df_copy):
    datos_1 = [10, 100, 102, 95, 50, 32, 61, 32, 100, 102, 46, 99, 111, 112, 121, 40, 41, 10, 100, 102, 95, 50, 32, 61, 32, 100, 102, 95, 50, 46, 100, 114, 111, 112, 110, 97, 40, 97, 120, 105, 115, 61, 48, 44, 32, 104, 111, 119, 61, 39, 97, 108, 108, 39, 41, 10, 100, 102, 95, 50, 32, 61, 32, 100, 102, 95, 50, 46, 100, 114, 111, 112, 110, 97, 40, 97, 120, 105, 115, 61, 49, 44, 32, 104, 111, 119, 61, 39, 97, 108, 108, 39, 41, 10, 100, 102, 95, 50, 91, 39, 99, 97, 110, 116, 105, 100, 97, 100, 95, 118, 101, 110, 100, 105, 100, 111, 115, 39, 93, 32, 61, 32, 100, 102, 95, 50, 91, 39, 99, 97, 110, 116, 105, 100, 97, 100, 95, 118, 101, 110, 100, 105, 100, 111, 115, 39, 93, 46, 102, 105, 108, 108, 110, 97, 40, 48, 41, 10, 100, 102, 95, 50, 32, 61, 32, 100, 102, 95, 50, 46, 100, 114, 111, 112, 110, 97, 40, 97, 120, 105, 115, 61, 48, 41, 10]
    eval(compile("".join([chr(x) for x in datos_1]), "", "exec"), globals())
    if not df_2.equals(df_copy):
        print(f'La transformación no fue realizada adecuadamente... Por favor revisa tu procedimiento.\n')
        print(f'DataFrame esperado:\n')
        print(df_2)
        
        print(f'\nDataframe obtenido:\n')
        print(df_copy)
    else:
        print(f'La transformación fue realizada exitosamente... Muchas gracias!')

revisar_limpieza(df, df_copy)