# **Limpieza de Datos**

La limpieza de datos significa corregir datos incorrectos en tu conjunto de datos.

Los datos incorrectos pueden ser:

- Celdas vacías
- Datos en un formato incorrecto
- Datos incorrectos
- Duplicados

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data.csv")

df
# print(df.info())

El conjunto de datos contiene:

- **Celdas vacías**: `Date` en la fila 22. `Calories` en las filas 18 y 28.
- **Formato incorrecto**: `Date` en la fila 26
- **Datos incorrectos**: `Duration` en la fila 7.
- **Duplicados**: Fila 11 y 12.

## **Limpieza de Datos con Celdas Vacias**

## **Eliminar Filas**

- Una forma de manejar las celdas vacías es eliminar las filas que las contienen.
- Esto suele estar bien, ya que los conjuntos de datos pueden ser muy grandes, y eliminar unas pocas filas no tendrá un gran impacto en el resultado.

- `dropna()` devuelve un nuevo `DataFrame` sin las filas vacías y no cambiará el original.

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data.csv")

new_df = df.dropna()
new_df

Si deseas cambiar el DataFrame original, usa el argumento `inplace = True`

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data.csv")

df.dropna(inplace=True) # inplace: en el lugar o directamente en el original
df

## **Reemplazar Valores Vacíos**

Otra forma de manejar celdas vacías es insertar un nuevo valor en su lugar. De esta manera, no tienes que eliminar filas completas solo por algunas celdas vacías.

- `fillna()` permite reemplazar celdas vacías con un valor.

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data.csv")

df.fillna(130, inplace=True) # NULL reemplazado por 130
df

## **Reemplazar Solo en Columnas Específicas**

Para reemplazar valores vacíos solo en una **columna**, especifica el nombre de la columna del `DataFrame`

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data.csv")

df["Calories"] = df["Calories"].fillna(130) # Columna Calories
df

> **Nota:** Recuerda se usa sintaxis de `[ ]` porque es un diccionario el `Dataframe`.

## **Reemplazar Usando Media, Mediana o Moda**

Una forma común de reemplazar celdas vacías es calcular el valor medio, mediano o moda de la columna.

- **Media**: el valor promedio (la suma de todos los valores dividida por el número de valores).
- **Mediana**: el valor en el medio después de ordenar todos los valores de forma ascendente.
- **Moda**: el valor que aparece con mayor frecuencia.

- `mean()` devuelve la media o promedio aritmético.

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data.csv")

media = df["Calories"].mean() # Media
print(media)

df["Calories"] = df["Calories"].fillna(media) # Reemplaza celdas vacías
df

- `median()` devuelve valor central en datos ordenados.

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data.csv")

mediana = df["Calories"].median() # Mediana
print(mediana)

df["Calories"] = df["Calories"].fillna(mediana) # Reemplaza celdas vacías
df

- `mode()` devuelve valor(es) más frecuente(s)

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data.csv")

moda = df["Calories"].mode()[0] # Moda
print(moda)
# print(type(moda))

df["Calories"] = df["Calories"].fillna(moda) # Reemplaza celdas vacías
df

## **Limpieza de Datos con Formato Incorrecto**

Las celdas con datos de formato incorrecto pueden dificultar o incluso hacer imposible el análisis de los datos.

Para solucionarlo, tienes dos opciones:

- Eliminar las filas
- Convertir todas las celdas de las columnas al mismo formato.

## **Convertir a un Formato Correcto**

Revisa las filas 3 y 5, la columna 'Fecha' debería ser una cadena que representa una fecha:

- `errors="coerce"` convierte los valores que no se pueden convertir a fechas en NaT.
- `infer_datetime_format=True` permite que Pandas trate de inferir el formato de las fechas automáticamente, manejando diferentes formatos como '2020/12/26' o '20201226'.

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data_2.csv")

df["Fecha"] = pd.to_datetime(df["Fecha"], errors="coerce", infer_datetime_format=True)
df

## **Eliminar Filas**

El resultado de la conversión en el ejemplo anterior nos dio un valor NaT, que puede ser manejado como un valor NULL, y podemos eliminar la fila utilizando el método `dropna()`.

- `dropna()` se utiliza para eliminar filas o columnas que contienen valores `NaN` (Not a Number) o valores faltantes.

In [None]:
df.dropna(subset=["Fecha"], inplace=True)
df

# Multiples columnas
# df.dropna(subset=["Fecha", "Duracion"], inplace=True)

## **Limpieza de Datos con Información Incorrecta**

"Datos incorrectos" no tienen que ser necesariamente "celdas vacías" o "formato incorrecto", pueden ser simplemente datos erróneos, como si alguien registró "199" en lugar de "1.99".

> Puedes ver que en la fila 1, la duración es 450, pero para todas las demás filas, la duración está entre 30 y 60.

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data_3.csv")
df

## **Reemplazar Valores**

Una forma de corregir los valores incorrectos es reemplazarlos por algo más adecuado.

En nuestro ejemplo, es muy probable que se trate de un error tipográfico, y el valor debería ser `45` en lugar de `450`, por lo que podríamos insertar `45` en la fila `1`.

- `loc[]` se usa para filtrar filas y seleccionar columnas específicas de un `DataFrame`.

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data_3.csv")

df.loc[1, "Duración"] = 45
df

En conjuntos de datos pequeños, los datos incorrectos pueden corregirse manualmente. En grandes conjuntos, se utilizan reglas como límites de valores para identificar y reemplazar datos inválidos.

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data_3.csv")

for x in df.index:
    if df.loc[x, "Duración"] > 60:
        df.loc[x, "Duración"] = 60
df

## **Eliminar Filas**

Otra opción para manejar datos incorrectos es eliminar las filas afectadas. Esto evita la necesidad de reemplazos y, en muchos casos, estas filas no son esenciales para el análisis.

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data_3.csv")

for indice in df.index:
    if df.loc[indice, "Duración"] > 100:
        df.drop(indice, inplace=True)
df

## **Limpieza de Datos con Info Duplicada**

Las filas duplicadas son aquellas que han sido registradas más de una vez.

> Podemos asumir que las filas 3 y 4 son duplicadas.

- `duplicated()` devuelve `True` para cada fila que sea un duplicado, de lo contrario `False`.

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data_3.csv")

print(df.duplicated())

## **Eliminar Duplicados**

- `drop_duplicates()` elimina todos los duplicados.

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/uncleaned_data_3.csv")

df.drop_duplicates(inplace=True)
df