### Limpieza mediante análisis estadístico

#### Cuartiles

Los cuartiles son valores que dividen un conjunto de datos ordenados en cuatro partes iguales. Los tres cuartiles principales son:

1.Primer cuartil (Q1): El primer cuartil, también conocido como el cuartil inferior, es el valor que separa el 25% inferior de los datos del 75% superior.

2.Segundo cuartil (Q2): El segundo cuartil es equivalente a la mediana. Divide los datos en dos partes iguales, con el 50% de los datos por encima y el 50% por debajo.

3.Tercer cuartil (Q3): El tercer cuartil, o cuartil superior, es el valor que separa el 75% inferior de los datos del 25% superior.

##### Rango intercuartil (IQR): 
El rango intercuartil (IQR) es una medida de dispersión que representa la amplitud del rango que abarcan los valores centrales de un conjunto de datos. Se calcula como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1).

El IQR es útil para identificar valores atípicos o extremos en un conjunto de datos. Se considera que los valores que están por debajo del primer cuartil menos 1.5 veces el IQR o por encima del tercer cuartil más 1.5 veces el IQR son posibles valores atípicos.

Ejemplo:

Supongamos que tenemos el siguiente conjunto de datos:

[5, 8, 10, 12, 15, 20, 22, 25, 28, 30, 35, 40, 45, 50, 55, 60, 65, 70]

Para calcular los cuartiles y el IQR, primero debemos ordenar los datos de forma ascendente

1.Primer cuartil (Q1): Para encontrar Q1, tomamos el valor que está en el 25% de la posición de los datos ordenados. En este caso, tenemos 18 datos, por lo que el 25% de 18 es 4.5 (aproximadamente). El valor en la posición 4 y el valor en la posición 5 son 10 y 12 respectivamente. Como 4.5 está entre estos dos valores, podemos calcular el promedio: (10 + 12) / 2 = 11.

2.Segundo cuartil (Q2): El segundo cuartil es simplemente la mediana. Como tenemos 18 datos, el valor en la posición (18 + 1) / 2 = 9.5 (aproximadamente) es 28.

3.Tercer cuartil (Q3): Para encontrar Q3, tomamos el valor que está en el 75% de la posición de los datos ordenados. El 75% de 18 es 13.5 (aproximadamente). El valor en la 

13 y el valor en la posición 14 son 50 y 55 respectivamente. El promedio de estos dos valores es (50 + 55) / 2 = 52.5.

Rango intercuartil
Ahora, podemos calcular el rango intercuartil (IQR) como la diferencia entre Q3 y Q1: IQR = Q3 - Q1 = 52.5 - 11 = 41.5.

El rango intercuartil nos proporciona una medida de dispersión robusta que abarca el rango central de los datos, lo que nos permite identificar valores atípicos potenciales mediante el uso de límites establecidos basados en el IQR.

Recuerda que los cuartiles y el rango intercuartil son herramientas útiles para comprender la distribución de los datos y detectar valores atípicos en un conjunto de datos.

##### Rango intercuartil en limpieza de datos

En este ejemplo, se identificarán y eliminarán los valores atípicos basándose en el rango intercuartil (IQR).

Sea la tabla:

ID	Valor
1	10
2	15
3	20
4	25
5	30
6	500
7	35
8	40

Después de la limpieza queremos obtener

ID	Valor
1	10
2	15
3	20
4	25
5	30
7	35
8	40

In [None]:
#Código en Python:
import pandas as pd

data = {
    'ID': [1, 2, 3, 4, 5, 6, 7, 8],
    'Valor': [10, 15, 20, 25, 30, 500, 35, 40]
}
df = pd.DataFrame(data)

# Calcular el rango intercuartil (IQR)
Q1 = df['Valor'].quantile(0.25)
Q3 = df['Valor'].quantile(0.75)
IQR = Q3 - Q1

# Definir los límites para detectar valores atípicos
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Filtrar los valores atípicos
df_cleaned = df[(df['Valor'] >= lower_bound) & (df['Valor'] <= upper_bound)]

# Resultado
print(df_cleaned)

#El código calcula el rango intercuartil (IQR) de la columna 'Valor' y define los límites para identificar valores atípicos. Luego, filtra el DataFrame original, manteniendo solo los valores dentro de los límites establecidos. El resultado es un DataFrame limpio que excluye los valores atípicos.