# Procesamiento de valores ausentes

Para encontrar los valores ausentes en una tabla se usa le método `isna()`, el resultado obtenido de este metodo es un booleano `True` or `False`, por lo que no es tan bueno este metodo, para ello se debe acompañar del método  `sum()`.  La función `sum()` cuenta todos los valores `True` y devuelve su suma total: `

`print(cholera.isna().sum())` 

# Formas de procesar valores ausentes

* Las filas de la tabla se pueden eliminar por completo
* Reemplazar los valores ausentes con otros valores

Para sustituir los valores de la columna se utiliza el método `fillna()`:

`cholera['imported_cases'].fillna(0, inplace=True)`

El resultado será idéntico: cualquier valor que falte en la columna 'imported_cases' se reemplazará por 0.

Por cierto, incluso puedes usar aquí el bucle for para remplazar los valores ausentes. Todo lo que necesitas es crear una lista que contenga todas las columnas en donde quieres hacer el remplazo, y después iterar sobre esos nombres para hacer realmente el cambio.

```python
# recorrer nombres de columna y remplazar los valores ausentes con ceros
columns_to_replace = ['imported_cases']

for col in columns_to_replace:
    cholera[col].fillna(0, inplace=True)
```
Los bucles son útiles cuando tienes varias columnas y quieres reemplazar los valores ausentes por un valor específico. En este caso, solo necesitamos reemplazar los valores ausentes en la columna `'imported_cases'`. Por lo tanto, `cholera['imported_cases'].fillna(0, inplace=True)` es el método preferible.

# Ejercicio practico

```python
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

columns_to_replace = ['genre', 'Artist', 'track']

for col in columns_to_replace:
    df[col].fillna('no_info', inplace=True)
        
        # escribe tu código aquí

print(df.isna().sum())
```
Resultado

  user_id       0. <br>
total play    564. <br>
Artist          0. <br>
genre           0. <br>
track           0. <br>
dtype: int64. 

# Eliminar filas

Para eliminar filas con valores ausentes en un DataFrame de pandas, usa el método `dropna()`. Este método elimina las filas con al menos un valor ausente. También puedes especificar una lista de columnas en su parámetro `subset=` para que elimine filas con valores nulos solo en esas columnas.

<img src = "/Users/dion/Documents/GitHub/DataScience_Bootcamp/SPRINT 3/img/dropna.png">

Asi es como funciona: 

```python
cholera = cholera.dropna(subset=['total_cases', 'deaths', 'case_fatality_rate'], inplace=True)
print(cholera)
```
Y ahora, la fila con datos de Europa ya no está.

Ahora eliminemos toda la columna 'notes', que consiste casi en su totalidad en valores ausentes.

Usaremos el método `dropna()` de nuevo, pero esta vez agregaremos otro argumento: `axis=`. Este argumento nos permite especificar si queremos eliminar filas o columnas. Si pasamos el string `columns` a `axis=`, se eliminarán las columnas que tengan valores ausentes. Dado que `notes` es la única columna que contiene valores ausentes, podemos usar esta opción de forma segura para eliminarla.

```python
cholera = cholera.dropna(axis='columns')
print(cholera)
```

Debes saber que si tienes varias columnas con valores ausentes, `cholera.dropna(axis='columns')` las eliminará todas. No es siempre lo que queremos. En su lugar, puedes usar el método `drop()` para controlar qué columnas quieres eliminar. Esto es lo que debes hacer si solo quieres eliminar la columna `'notes'` utilizando el método `drop()`:

`cholera = cholera.drop(labels=['notes'], axis='columns')`

Tanto `drop()` como `dropna()` admiten el argumento `inplace=`, lo que nos permite realizar la operación localmente sin reasignación. Este es un ejemplo de cómo utilizar `drop()` para realizar un reemplazo localmente:

`cholera.drop(labels=['notes'], axis='columns', inplace=True)`

Ahora que limpiamos los datos, serán más fiables para nuestro análisis.

Si detectas valores ausentes, siempre es una buena idea discutirlos con quienes te proporcionaron los datos. Es mejor hacer una pausa, saber por qué faltan datos y después abordar el problema. Luego puedes reanudar tu análisis.

Ahora ya puedes eliminar las filas no necesarias de tu dataset, y también trabajar con los datos ausentes de manera que realmente sirvan para tu análisis, en lugar de arruinarlo.

En la siguiente lección continuaremos nuestro viaje para resolver problemas de contenido aprendiendo cómo procesar valores duplicados.

