<a href="https://colab.research.google.com/github/amorelo01/IA_UdeA_AndresZ/blob/main/M3_S1_DatosFaltantesDuplicados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p><img alt="banner" height="252px" width="1080px" src="https://docs.google.com/uc?export=download&id=18D9zTLyHjMFbwtI2Eenr0l5oGeH9a1Wq"  align="center" hspace="10px" vspace="0px" ></p>





# <font color='056938'> **Limpieza de datos** </font>
---

La limpieza de datos o *Data Cleaning* es la depuración de datos erróneos en una base de datos. Esta acción permite identificar datos incorrectos, incompletos o poco relevantes. Después de la limpieza, se sustituyen, modifican o eliminan por completo los datos inservibles.






# <font color='056938'> **¿Por qué es importante la limpieza de datos?** </font>
---

Los datos de calidad pueden variar dependiendo de cuál sea su cualidad, entre las principales se encuentran:

**Exactitud**: todos los datos deben ser precisos. Una forma de comprobar su exactitud es comparándolos con otras fuentes. Si esta fuente no existe o es inexacta, entonces la información que tienes también lo será.

**Coherencia**: la coherencia de los datos te permite saber si la información de contacto que tienes de una persona u organización es la misma en diferentes bases de datos, tablas o aplicaciones que utilices.

**Validez**: todos los datos deben cumplir con reglas o restricciones definidas. De igual forma, cada información puede ser validada para comprobar si es correcta o no.

**Uniformidad**: es importante que todos los datos dentro de tus bases tengan unidades uniformes. Este es un elemento realmente indispensable a la hora de hacer data cleansing, pues de no tener todo en orden, el proceso se vuelve complejo.

# <font color='056938'> **¿Qué hacer en la limpieza de datos?** </font>
---

Existen varias técnicas de limpieza de datos que puede utilizar para mejorar la calidad de sus datos. Aquí se presentan algunas de las técnicas más comunes:

1.   Eliminar datos duplicados
2.   Imputar datos faltantes
3.   Corregir valores inconsistentes
4.   Estandarizar datos
5.   Eliminar valores atípicos
6.   Manejar errores
7.   Verificar la precisión de los datos



# <font color='056938'> **Datos duplicados** </font>
---

Los datos duplicados suelen presentarse por dos razones: la primera, por la entrada de datos inconsistente y la segunda, por los múltiples canales que capturan información de contacto.

## <font color='8EC044'> **¿Cómo se detectan los datos duplicados?** </font>

Usamos la función `duplicated()` de la libreria pandas para identificar datos duplicados. El método devuelve una Serie con valores `True` y `False` que indican qué filas en el DataFrame están duplicadas y cuáles no.

> <font color='46B8A9'> **Tip** </font> El tipo de resultado obtenido, Serie con valores `True` y `False`, es usualmente denomindado en Pandas como una máscara (o `mask` en inglés). Es decir, una estructura booleana que se utiliza para filtrar datos en un DataFrame o una Serie. Consiste en un conjunto de valores `True` o `False`, donde los valores `True` indican las filas o elementos que se deben conservar, y los `False` los que se deben descartar.

Considere el listado del registro de los usuarios que se han comunicado con la mesa de ayuda de la biblioteca de la Universidad de Antioquia durante un periodo de tiempo en particular

In [None]:
!gdown 1Or-DGN4av60uzzVJJNSb3he6yGH_6if5
import pandas as pd
import numpy as np

df_original = pd.read_csv('registros.csv')
df_original

Usamos la función `duplicated()` para identificar los registros repetidos.

In [None]:
# Identificar filas duplicadas
duplicados1 = df_original.duplicated()

# Imprimir las filas duplicadas
duplicados1

Unnamed: 0,0
0,False
1,False
2,False
3,False
4,False
5,False
6,False
7,True
8,False
9,False


Note que en nuestro caso identifica que el registro con el indice `7` es duplicado. En particular note que los registros con los indices `3` y `7` son idénticos

Es posible identificar duplicados con base en un subconjunto de las columnas

In [None]:
# Identificar filas duplicadas de una columna específica (Autor)
duplicados2 = df_original.duplicated(subset=['nombre', 'correo'])

# Imprimir las filas duplicadas
duplicados2

Unnamed: 0,0
0,False
1,False
2,False
3,False
4,False
5,False
6,False
7,True
8,False
9,True


En este caso, considerando solo las columnas `nombre` y `correo`, las parejas de registros $(3, 7)$  y $(1, 9)$ estan repetidos. **¿Qué sucede con el par de registros $(0, 5)$?**

<font color='46B8A9'> **Parámetro `keep`** </font>

El parámetro `keep` de la función `duplicated()` en Pandas controla cuál o cuáles de las filas duplicadas se deben marcar como duplicadas. Tiene tres opciones posibles:

`keep`=`first` (por defecto): Marca como duplicadas todas las filas excepto la primera aparición de un duplicado.

`keep`=`last`: Marca como duplicadas todas las filas excepto la última aparición de un duplicado.

`keep`=`False`: Marca todas las filas duplicadas, sin excluir ninguna, es decir, tanto la primera como las siguientes apariciones serán marcadas como duplicadas.

### <font color='157699'> **Ejercicio** </font>
---

Use la función `duplicated()` para identificar los registros que se encuentran repetidos en función  del `nombre` y el `correo`, tenga presente que deberá marcarse como repetidas todas las ocurrencias de un registro excepto aquella que tenga la fecha de aparición más temprana (debe conservarse el registro que tenga la fecha menor)

In [None]:
# Escriba aquí su respuesta


## <font color='8EC044'> **¿Qué hacer con los datos duplicados?** </font>

Usualmente los datos duplicados se remueven del dataframe. Para ello podemos hacerlo a través de la mascará que creamos anteriormente. Es decir:


In [None]:
# Por defecto mantiene el primer registro y elimina las demás duplicados
df = df_original.copy()
mask = df.duplicated(subset=['nombre', "correo"])
mask
dfsinduplicados1 = df[~mask]
dfsinduplicados1

Alternativamente, podemos usuar la función `drop_duplicates()` que también puede considerar parámetro `keep` que discutimos anteriormente.

In [None]:
# Por defecto mantiene el primer registro y elimina las demás duplicados
df = df_original.copy()
dfsinduplicados1 = df.drop_duplicates(subset=['nombre', 'correo'])
dfsinduplicados1


# <font color='056938'> **Datos similares** </font>

En algunos casos estamos interesados en identificar registros que son bastante similares pero no identicos. Este tipo de registros son usualmente debidos a errores en la entrada de los datos.

En nuestra base de datos los registros con indices `0` y `5`

In [None]:
df = df_original.copy()
df.iloc[[0,5]]

Existen formas de identificar dichos registros usando librerias como `fuzzywuzzy`.

`fuzzywuzzy` es un paquete de Python utilizado para comparar cadenas de texto y realizar coincidencias difusas (fuzzy matching), lo que resulta útil cuando necesitas comparar dos cadenas que no son exactamente iguales, pero son similares. Se basa en la distancia de Levenshtein para calcular las diferencias entre secuencias de caracteres

Note por ejemplo, que podemos calcular el nivel de similaridad entre estos dos registros:


In [None]:
!pip install fuzzywuzzy
!pip install python-Levenshtein

In [None]:
from fuzzywuzzy import fuzz

# Comparación simple"Hola Mundo"
puntuacion = fuzz.ratio(df.iloc[0]['correo'], df.iloc[5]['correo'])
puntuacion

### <font color='157699'> **Ejercicio** </font>

Cree una máscara que identifique los registros que tienen un grado de similaridad con una puntuación de más de 90.

# <font color='056938'> **Datos faltantes** </font>



Los **valores faltantes** son puntos de datos que están ausentes para una variable específica en un conjunto de datos. Pueden estar representados de varias formas, como celdas en blanco, valores nulos, `null`,  o símbolos especiales como `NA` o `None`. Estos puntos de datos faltantes suponen un desafío importante en el análisis de datos y pueden llevar a resultados inexactos o sesgados.



Hay muchos tipos de datos faltantes y muchas razones por las cuales pueden ocurrir. Estos dos factores son decisivos al enfrentar la ausencia de datos en el momento de analizar los resultados, donde lo principal es decidir si la pérdida es aleatoria, es decir, afecta por igual a todos los individuos, o bien puede ser debida a una razón o razones específicas que pueden introducir sesgos que invaliden los resultados.


## <font color='8EC044'> **Tipos de datos faltantes** </font>

Una forma útil de clasificar los datos faltantes es de acuerdo a la forma como estos se presentan en los datos. Es decir, si la pérdida es aleatoria y afecta por igual a todos los individuos,  

### <font color='157699'> **Datos Faltantes Completamente al Azar (`MCAR`)** </font>
La probabilidad de que un valor esté faltante no depende ni de las variables observadas ni de los valores faltantes mismos. Es como si los datos faltantes fueran seleccionados al azar.
* **Ejemplo:** Imagina una encuesta donde algunas preguntas no son respondidas debido a un error en la impresión de la encuesta. La probabilidad de que una pregunta específica esté sin responder no depende de ninguna otra pregunta ni de la respuesta a esa pregunta.



### <font color='157699'> **Datos Faltantes al Azar (`MAR`)** </font>

La probabilidad de que un valor esté faltante depende de otras variables observadas en el conjunto de datos, pero no del valor faltante en sí.
* **Ejemplo:** En una encuesta sobre hábitos de ejercicio, es más probable que las personas mayores no reporten su peso. La probabilidad de que el peso esté faltante depende de la edad (una variable observada), pero no del peso real de la persona.



### <font color='157699'> **Datos Faltantes No al Azar (`MNAR`)** </font>

La probabilidad de que un valor esté faltante depende del valor faltante mismo o de otras variables no observadas. Es el tipo de datos faltantes más difícil de manejar.
* **Ejemplo:** En un estudio sobre depresión, las personas con depresión severa pueden ser menos propensas a responder preguntas sobre su estado de ánimo. La probabilidad de que una respuesta sobre el estado de ánimo esté faltante depende del estado de ánimo real de la persona (un valor faltante).

  Las personas con mayores ingresos pueden negarse a compartir la información exacta en una encuesta o cuestionario que pregunte sobre ingresos.





La identificación del tipo de datos faltantes es crucial porque determina el método adecuado para tratarlos. Los datos `MCAR` y `MAR` pueden ser manejados con técnicas más simples como la eliminación de casos con datos faltantes o la imputación de valores faltantes. Sin embargo, los datos `MNAR` requieren métodos más complejos y específicos.




### <font color='157699'> **Ejercicio** </font>

Considere el siguiente dataframe en el que se han considerado los registros de varios mimebros del personal adminitrativo de la universidad, considerando tres variables adicionales:


* `genero`
* `experiencia`: años de experiencia
* `ingreso`: Ingresos mensuales
* `ansiedad`: si ha experimentado ansiedad en el último mes



In [None]:
import pandas as pd
!gdown 1-JfcYV-ErOImuAmStW2fTDEzNTesCg80
df_original = pd.read_csv('registros_v2.csv')
df = df_original.copy()
df


Discuta para los datos faltantes cuál tipo considera usted que podrían considerarse

## <font color='8EC044'> **¿Cómo se detectan los datos faltantes?** </font>

Anteriormente ya habiamos discutido la función `info()` de pandas que nos entrega información sobre los datos no nulos para cada una de las variables



In [None]:
df.info()

Las funciones `isnull()` y `notnull()` de la libreria `pandas` nos indican cuando un valor es nulo o no, respectivamente.

Podemos usarlo para obtener el número de registros nulos por cada columna

In [None]:
df.isnull().sum()

Esta misma función puede usarse para filtrar aquellos registros que tienen variables nulos en el dataframe, por ej

In [None]:
rows_with_nulls = df[df.isnull().any(axis=1)]
rows_with_nulls

Tambien puede usarse para  obtener los registros con valores nulos en alguna columna en particular

In [None]:
mask = pd.isnull(df['ansiedad'])
df[mask]

### <font color='157699'> **Ejercicio** </font>

IDentifique las columnas que  tienen por lo menos un dato faltante

In [None]:
# Escriba aqui su respuesta


## <font color='8EC044'> **Estrategias para el tratamiento de datos faltantes** </font>

Existen diversas estrategias para gestionar los datos faltantes en una base de datos. Estas podrian clasificarse en dos tipos:


*   **Eliminar entradas**: se refiere al proceso de elimnar variables (columnas) o registros (filas) para los cuales existen valores faltantes.  
*   **imputar valores**: se refiere al proceso de reemplazar los valores faltantes en un conjunto de datos por estimaciones o valores plausibles

El uso de una estrategia u otra dependerá del tipo de  datos faltantes, pero a su veces generará consecuencias diferentes en los análisis y resultados



### <font color='157699'> **Eliminar entradas** </font>

En esta alternativa se opta por filtrar, no incluir en el análisis,variables o registros para los que existen datos faltantes.

Esta aproximación tiene como consecuencia una perdida de información. Que, dado el caso en el que los datos faltantes sean númerosos, podria ser considerable.

Puede optarse por:
* Eliminar  las variables (columnas) para las que existen datos faltantes.  Esto es apropiado cuando los datos faltantes se concentran en unas pocas columnas y para cada una de ellas el número de faltantes es significativo
* Eliminar los registros que tienen datos faltantes.

Este tipo de estrategias se ajusta a mejor a datos faltantes del tipo `MCAR` o `MAR`, siempre que  la pérdida de información asociada no impacte significativamente el análisis

Para eliminar las columnas o filas que tienes datos faltantes usamos el método `dropna()`. Note que por defecto, se eliminan los registros que tienen algun dato faltante.



In [None]:
df.dropna()

Para eliminar las columnas que tienen datos faltantes se usa el argumento `df.dropna(axis=1)`

In [None]:
df.dropna(axis=1)

Adicionalmente, hay otros parametros para controlar que filas o columnas eliminar, algunos de ellos son:

| Argumento  | Descripción                                                                                                     | Valores posibles                                  | Valor predeterminado |
|------------|-----------------------------------------------------------------------------------------------------------------|---------------------------------------------------|----------------------|
| `axis`     | Determina si se eliminan filas o columnas con valores faltantes.                                                 | `0`: filas, `1`: columnas | `0`                  |
| `how`      | Especifica si se eliminan filas/columnas si **algún** o **todos** los valores están faltantes.                    | `'any'`: si alguno, `'all'`: si todos              | `'any'`              |
| `thresh`   | Requiere un número mínimo de valores no faltantes para evitar eliminar la fila o columna.                        | Número entero                                      | `None`               |
| `subset`   | Lista de filas o columnas específicas para considerar al verificar valores faltantes.                            | Lista de nombres de columnas/índices               | `None`               |
| `inplace`  | Si se establece en `True`, modifica el DataFrame original sin devolver una copia.                                | `True` o `False`                                   | `False`              |


#### <font color='46B8A9'> **Ejercicio** </font>

Considere la siguiente instrucción, interprete que entradas se eliminan

In [None]:
df.dropna(axis=0, thresh=7)

### <font color='157699'> **Imputar datos** </font>

Al imputar valores a los datos faltantes, es importante, entre otros aspcctos, identificar que tipo de variable es aquella para la que se quiere imputar el dato, el número de datos faltantes en dicha variable

#### <font color='46B8A9'> **Imputar con un estadístico de tendencia** </font>

Las columnas en el conjunto de datos que tienen valores numéricos continuos pueden ser reemplazadas con la media, mediana o moda de los valores restantes en la columna.

La imputación con media y mediana puede proporcionar una buena estimación de los valores faltantes, respectivamente, para datos distribuidos normalmente y datos sesgados. Este enfoque es popularmente utilizado cuando hay un pequeño número de valores faltantes en los datos. Sin embargo, cuando hay muchos valores faltantes, los resultados de la media o la mediana pueden ocasionar una pérdida de variación en los datos. Así mismo, la imputación con la media es sensible a los valores atípicos.

Para imputar un valor a un dato faltante usamos la función `fillna()`. Note por ejemplo como podemos imputar un valor para los datos faltantes en la columna `tiempo_activo`. Note que hemos obviado la instrucción `inplace = True` para evitar cambiar el dataframe original y así poder usarlo en los siguientes ejemplos

In [None]:
df['tiempo_activo'].fillna(df['tiempo_activo'].mean())

En algunas ocasiones, podriamos saber que los valores de las variables para las que hay datos faltantes, tienen comportamientos distintos para grupos diferentes en la base de datos. En esto casos es recomendable hacer la imputación teniendo en cuenta estos grupos. Para ello, usamos el método de `groupby()` que habiamos discutido anteriormente.

In [None]:
df['tiempo_activo'].fillna(df.groupby('genero')['tiempo_activo'].transform('mean'))

#### <font color='46B8A9'> **Imputar con un estadístico de frecuencia** </font>

Cuando los valores faltantes provienen de columnas categóricas (de tipo cadena o numéricas), los valores faltantes pueden ser reemplazados con la categoría más frecuente. Si el número de valores faltantes es muy grande, entonces se pueden reemplazar con una nueva categoría.

Veamos el número de valores faltantes en la variable `ansiedad`

In [None]:
df['ansiedad'].value_counts(dropna=False)



---
**En cuál de los tipos de datos faltantes clasificaría aquuellos pertenecientes a la variable `ansiedad`?**


---




Dado que la gran mayoria de los datos tienen categoria `no`, una aproximación conservadora sería imputar los datos faltantes con este valor

In [None]:
df['ansiedad'].fillna('no')

Cuando el número de valores faltantes son muchos, podríamos imputar un valor de referencia que nos permita interpretar en el análisis que dichos valores eran datos faltantes

In [None]:
df['ansiedad'].fillna('99')

#### <font color='46B8A9'> **Imputar con valores adyacentes** </font>

El relleno hacia adelante (`ffill`) y el relleno hacia atrás (`bfill`) son métodos utilizados para llenar valores faltantes llevando hacia adelante el último valor observado que no está faltante (para `ffill`) o llevando hacia atrás el siguiente valor observado que no está faltante (para `bfill`). Estos métodos son especialmente útiles para datos de series temporales.

In [None]:
import numpy as np

df.sort_values(by='timestamp', ascending=True, inplace=True)
df.reset_index(drop=True,inplace=True)
df.loc[6, 'timestamp'] = np.nan
df

In [None]:
df['timestamp'].fillna(method='ffill')

De igual forma, podriamos aplicarlo para todas las columnas del dataframe o un subconjunto de estas:


In [None]:
df.bfill()


#### <font color='46B8A9'> **Imputación basada en modelo (Regresion)** </font>

Para la imputación es posible utilizar la correlación entre la variable que contiene el valor faltante y otras variables.

En este método, se utilizan modelos predictivos para imputar valores faltantes basándose en otras características del conjunto de datos.

El modelo de regresión o clasificación se puede usar para la predicción de valores faltantes, dependiendo de la naturaleza (categórica o continua) de la característica que tiene el valor faltante.



Note que en este caso deberemos usar modelos que de momento no se han cubierto en el curso, pero para los cuales ilustraremos su forma de uso:

In [None]:
from sklearn.linear_model import LinearRegression

# Seleccionamos las columnas de interes
df_filtered = df[['tiempo_activo',	'genero',	'Experiencia', 'ingreso']]
# filtramos los datos eliminando los nulos excepto para la columna ingreso
df_filtered = df_filtered.dropna(subset=['tiempo_activo', 'genero'])
# recodificamos la columna genero con 0 y 1
df_filtered = pd.get_dummies(df_filtered, columns=['genero'], drop_first=True)

# Partimos los datos entre los que tienen el ingreso como faltane y los que no
test_data = df_filtered[df_filtered["ingreso"].isnull()==True]
traindf = df_filtered[df_filtered["ingreso"].isnull()==False]

y_train = traindf["ingreso"]
X_train = traindf.drop("ingreso", axis=1)
X_test = test_data.drop("ingreso", axis=1)

# Llevamos a cabo la regresion
model = LinearRegression()
model.fit(X_train, y_train)

# Obtenemos pa predicción
y_pred = model.predict(X_test)

test_data['ingreso'] = y_pred
test_data['ingreso']

#### <font color='46B8A9'> **Interpolar** </font>

La interpolación es una técnica utilizada para llenar valores faltantes basándose en los valores de los puntos de datos adyacentes. Esta técnica se usa principalmente en datos de series temporales o en situaciones donde se espera que los puntos de datos faltantes varíen de manera suave o sigan una cierta tendencia. También se utiliza en casos de datos muestreados de manera regular.

La interpolación puede entenderse como un promedio ponderado. Los pesos están relacionados inversamente con la distancia a los puntos vecinos.

In [None]:
# Linear interpolation for a specific column
df['tiempo_activo'].interpolate(method='linear')

Similarmente puede hacerse para todas las columnas numericas del dataFrame

In [None]:
# Linear interpolation for the entire DataFrame
df.interpolate(method='linear')

#### <font color='46B8A9'> **`k` vecino más cercanos** </font>

Una estrategia similar, imputa un valor para el dato faltante  en función de los valores de sus vecinos más cercanos en el espacio de características (`features`). Una de las técnicas más empleadas en este contexto es k-Vecinos Más Cercanos (`KNN`)

La idea es encontrar los k puntos de datos más cercanos y utilizar sus valores para imputar los valores faltantes.

Considere por ejemplo el caso en el que queremos imputar los datos faltantes en `ingeso`,  `tiempo_activo` y `Experiencia`con base en la registros con caracteristicas similares

In [None]:
data = df[['ingreso', 'tiempo_activo', 'Experiencia']]
data


In [None]:
from sklearn.impute import KNNImputer
import pandas as pd

# Create a KNN imputer
imputer = KNNImputer(n_neighbors=3)

# Perform imputation
data_imputed = imputer.fit_transform(data)
imputed_df = pd.DataFrame(data_imputed, columns=data.columns)
imputed_df

#### <font color='46B8A9'> **Ejercicio** </font>
---

Considere el siguiente datframe de los municipios de Colombia. Discuta como gestionaría los datos faltantes

In [None]:
import pandas as pd

!gdown 1UMxngfK1xVnSz5ZYksEln9pltF_mAIcG
df = pd.read_csv("municipios.csv")
df