# Tecnicas para limpieza de datos

1. Eliminar duplicados
`drop_duplicates()`
2. Eliminar caracteres no deseados
`str.replace()`
3. Corrección del tipo de dato
df[ “campo” ].astype(float) [texto del enlace](https://)
4. Manejo de datos faltantes
`dropna()`
`fillna()`
5. Normalización de datos
`.str.strip().lower()`
6. Filtrado de datos
`df [ df[“campo”] + condición ]`


## Importamos algunos datasets para explorar

In [None]:
# Importar la librería Pandas
import pandas as pd

In [None]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Verificar que los archivos csv se encuentren en la carpeta datasets
import os
os.listdir("/content/drive/MyDrive/datasets")

In [None]:
# Importamos el Dataset satis (customer satisfaction)
df_satis = pd.read_csv("/content/drive/MyDrive/datasets/satis_clientes.csv")
df_satis.info()

In [None]:
# Importamos el Dataset Netflix
df_netflix = pd.read_csv("/content/drive/MyDrive/datasets/netflix_titles.csv")
df_netflix.info()

In [None]:
# Importamos el Dataset de pacientes con sus mediciones de temperatura
df_pacientes = pd.read_csv('https://docs.google.com/spreadsheets/d/1-rUn4TUwpGrLE1DH8moeiR5eSyeF-jOOTpfhRgZxVIQ/gviz/tq?tqx=out:csv&sheet=')
df_pacientes.info()


## Identificación de datos duplicados

[duplicated()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html)

### Dataframe satis

In [None]:
df_satis.info()

In [None]:
# Veamos si hay duplicados
df_satis.duplicated().sum()

In [None]:
# Veamos cuantos registros duplicados hay
df_satis.duplicated(subset=["Empresa", "Calificación"]).sum()

In [None]:
# Contar valores unicos
df_satis.value_counts(subset=["Empresa", "Calificación"]).sort_values(ascending=False)

In [None]:
# Visualizar los duplicados con diferentes argumentos
df_satis[df_satis.duplicated(keep=False)].sort_values(by='Empresa')

In [None]:
# Aplicar filtros
df_satis[df_satis['Empresa'] == "Keebler Inc"]

In [None]:
df_satis[df_satis.duplicated(subset=["Empresa", "Fecha"],keep=False)].sort_values(by='id')

In [None]:
df_satis[df_satis.duplicated(subset=df_satis.columns[1:],keep=False)].sort_values(by='Empresa')

### Dataframe Pacientes

In [None]:
# Veamos cuantos registros duplicados hay
df_pacientes.duplicated().sum()

In [None]:
# Si hay, entonces los listamos (keep, first, last, False)
df_pacientes[df_pacientes.duplicated(subset=["nombre"], keep=False)].sort_values(by='nombre')

### Dataframe Netflix

In [None]:
df_netflix.duplicated().sum()

In [None]:
df_netflix[df_netflix.duplicated()]

## Tratamiento de datos duplicados
[Pandas drop_duplicates()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html)

### Dataset Satis

In [None]:
df_satis.info()

In [None]:
df_satis_pp1 = df_satis.drop_duplicates(subset=["Empresa", "Calificación"], keep="first")
df_satis_pp1.info()

In [None]:
df_netflix.duplicated().sum()

In [None]:
df_satis_pp1[df_satis_pp1.duplicated(subset=["Empresa", "Calificación"], keep=False)].sort_values(by='Empresa')


## Exploración de datos nulos

In [None]:
df_satis.info()

In [None]:
# Ver si hay valores nulos, en general o en columnas especificas
#df_satis.isnull().sum()
#df_satis[["Comentarios", "Calificación"]].isnull().sum()
df_satis.isnull().any(axis=1).sum()

In [None]:
# Visualizar los registros con celdas null / NaN
df_satis[df_satis.isnull().any(axis=1)][["Comentarios", "Calificación"]]

## Tratamiento de datos nulos

### drop

`dropna` se usa para eliminar registros que contengan datos nulos
<BR>
[Pandas dropna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html)

* how: para especificar si (any / all) celdas deben tener NaN
* thresh: indicar la cantidad de NaN para ejecutar el drop (no se puede combinar con any)
* subset: indicar las columnas a evaluar
* inplace: si guarda los cambios en el dataframe o retorna una copia

Analizar y comparar que sucede cuando aplicamos dropna a todas las columnas o a algunas especificas.

In [None]:
# Eliminar un registro si alguna las columnas contienen NaA
df_satis_pp2 = df_satis.dropna()
df_satis_pp2.info()

In [None]:
# Eliminar un registro si alguna o tdas las columnas contienen NaA
df_satis_pp2 = df_satis.dropna(how="all")
df_satis_pp2.info()

In [None]:
# Eliminar un registro solo evaluando NaN en las columnas indicadas
df_satis_pp2 = df_satis.dropna(subset=["Comentarios", "Calificación"])
df_satis_pp2.info()

In [None]:
# Eliminar una columna si contiene NaN
df_satis_pp2 = df_satis.dropna(axis=1) # no accepta subset
df_satis_pp2.info()

### fill

`fillna` se utiliza para completar el dato faltante
<BR>
[Pandas fillna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html)
<BR>
* df.fillna(0)  se completa con un valor fijo
* df.fillna(method="ffill")  completa con el valor del registro anterior
* df.fillna(method="bfill") completa con el valor del registro previo
* df["col"].fillna(df["col"].mean()) completa con la media de la columna
* df.fillna({"col1": 0, "col2": "desconocido"})

1. completamos con un valor fijo

In [None]:
# usamos el atributo value con un valor fijo en 0
df_satis_pp3 = df_satis.fillna(value = 0)
df_satis_pp3.info()

In [None]:
# También podríamos usar un diccionario
df_satis_pp3 = df_satis.fillna({"Calificación": 0, "Comentarios": "Sin dato"})

In [None]:
# listamos los primeros registros
df_satis_pp3.head(10)

In [None]:
# Eventualmente ajustamos el tipo de dato
df_satis_pp3 = df_satis_pp3.astype({"Comentarios": "string"})
df_satis_pp3.info()

In [None]:
# Podemos aplicar filtros
df_satis_pp3[df_satis_pp3["Comentarios"]=="0"]

2. Completamos con el valor próximo

In [None]:
df_satis_pp3 = df_satis.fillna(method = "ffill")
df_satis_pp3.info()

3. Completamos con el valor previo

In [None]:
df_satis_pp3 = df_satis.fillna(method = "bfill")
df_satis_pp3.info()

4. Completamos con la media, meadiana, moda

In [None]:
df_satis_pp3 = df_satis.fillna(df_satis.mean(numeric_only=True))
df_satis_pp3.info()

In [None]:
# calcular la media de la columna Calificación
media_calif = df_satis["Calificación"].mode()[0] # mean() / median() / mode()[0]

# aplicar fillna con diccionario
df_satis_pp3 = df_satis.fillna({
    "Calificación": media_calif,
    "Comentarios": "Sin dato"
})

In [None]:
df_satis_pp3.head(5)

Analicemos el dataset pacientes

In [None]:
df_pacientes.info()

In [None]:
# Completamos con la media de la columna
df_pacientes_pp1 = df_pacientes.fillna(df_pacientes.mean(numeric_only=True))
df_pacientes_pp1.info()

In [None]:
# Completamos con la media de la fila usando lambda

# seleccionar solo las columnas d1...d10
cols = df_pacientes.columns[1:]   # todas excepto 'nombre'

# aplicar moda por fila
df_pacientes_pp1[cols] = df_pacientes[cols].apply(
    lambda row: row.fillna(row.mean()), axis=1
)

In [None]:
# Completamos con la media de la fila usando T (traspuesta)
df_pacientes_pp1[cols] = df_pacientes[cols].T.fillna(df_pacientes[cols].mean(axis=1)).T

In [None]:
#df_pacientes.head()
df_pacientes_pp1.head()

Veamos el concepto de Traspuesta

In [None]:
df = pd.DataFrame({
    "A": [1, 2, 3],
    "B": [4, 5, 6]
})
print("Original:")
print(df)

print("\nTranspuesta:")
print(df.T)

## Normalización de datos

## Ajustar tipo de dato

### astype()

* df["col"] = df["col"].astype(int)
* df["col"] = df["col"].astype(float)
* df["col"] = df["col"].astype(str)

In [None]:
df_satis_pp4 = df_satis.copy()
df_satis_pp4["Comentarios"] = df_satis["Comentarios"].astype("string")

In [None]:
df_satis_pp4.info()

### to_numeric()

In [None]:
pd.to_numeric(df["col"], errors="coerce")

### to_datetime()

In [None]:
type(df_satis["Fecha"][0])
df_satis["Fecha"][0]

In [None]:
# pd.to_datetime(df_satis.Fecha)
pd.to_datetime(df_satis["Fecha"], format="%d/%m/%Y")


## Filtrado de datos

In [None]:
df_satis.info()

In [None]:
# Con una sola columna
df_satis["Empresa"]

In [None]:
# Con varias columnas
df_satis[["Empresa", "Fecha"]]

In [None]:
df_satis[df_satis["Empresa"] == "Kuhn-Fay"]

In [None]:
# Con condición
df_satis[[("Empresa") =="Alpha" & ("Comentarios" > "3")]]