# Estadística Descriptiva y Preprocesamiento

## Sin Calidad No Hay Ciencia de Datos: ¿Qué Tan Confiables Son tus Datos?

La calidad de los datos se refiere al grado en que los datos son adecuados y confiables para cumplir con su propósito específico. Contar con datos de alta calidad es fundamental para tomar decisiones informadas y basadas en evidencia, lo que se traduce en resultados más precisos, análisis sólidos y conclusiones confiables.

Por el contrario, si los datos son inconsistentes, incompletos o erróneos, cualquier análisis o modelo construido a partir de ellos se verá comprometido, afectando negativamente su validez y utilidad.


### Impacto en la toma de decisiones

La calidad de los datos impacta directamente la fiabilidad de los análisis y la efectividad en la toma de decisiones empresariales. Datos erróneos, incompletos o inconsistentes pueden llevar a estrategias equivocadas, predicciones inexactas, ineficiencias operativas e incluso pérdidas económicas o daño reputacional. Por ello, contar con datos precisos y coherentes es fundamental, ya que constituyen la base sobre la cual se construyen la inteligencia de negocios, la analítica avanzada y el éxito en la ciencia de datos.

_**¡Sin datos de calidad, no hay decisiones de calidad!** Por eso, la calidad de los datos es el fundamento de la inteligencia de negocios y del éxito en la ciencia de datos._


### Dimensiones de la calidad de los datos

Para evaluar si los datos son realmente útiles y confiables, se analizan diferentes dimensiones de calidad. A continuación, te presentamos las más importantes con ejemplos sencillos:

*   **Precisión**: ¿Los datos son correctos y exactos?
    _Ejemplo: La edad de un cliente está registrada como 150 años, o un precio de producto es negativo._
*   **Consistencia**: ¿Los datos son coherentes en todas las fuentes y a lo largo del tiempo?
    _Ejemplo: El nombre de un cliente aparece como "Juan Pérez" en una tabla y "Perez, Juan" en otra, o la facturación de un mes no cuadra con los registros de ventas individuales._
*   **Integridad**: ¿Las relaciones entre tablas y registros están completas y respetan las reglas de negocio?
    _Ejemplo: Un pedido hace referencia a un cliente que no existe en la tabla de clientes o faltan órdenes vinculadas a facturas._
*   **Completitud**: ¿Están todos los datos que necesito presentes?
    _Ejemplo: Una base de datos de clientes donde faltan los números de teléfono o direcciones de correo electrónico de una gran parte de los registros no es completa._
*   **Validez**: ¿Los datos cumplen con las reglas y formatos preestablecidos?
    _Ejemplo: Un campo de fecha contiene texto en lugar de un formato de fecha válido (YYYY-MM-DD), o un código postal no sigue el formato esperado para una región._
*   **Existencia**: ¿Los datos están disponibles y accesibles cuando se necesitan?
    _Ejemplo: Los registros históricos están archivados en un sistema inaccesible o una tabla crítica está caída en el proceso de consulta._

Estas seis dimensiones (precisión, consistencia, integridad, completitud, validez y existencia) conforman el marco esencial para evaluar y garantizar que tus datos sean fiables, útiles y estén siempre listos para el análisis.

_**La limpieza de datos es crucial:** Invertir tiempo en la limpieza y validación de datos al inicio de un proyecto de ciencia de datos es fundamental. Un análisis basado en datos de baja calidad puede ser peor que no hacer análisis alguno, ya que puede conducir a decisiones erróneas._


## Del Caos al Significado: Comprende tus Datos con Estadística Central

La estadística básica es clave en la ciencia de datos porque permite entender y resumir grandes volúmenes de información de forma sencilla. Las medidas de tendencia central —media, mediana y moda— ayudan a identificar valores representativos dentro de un conjunto de datos, lo cual es fundamental para detectar patrones, comparar grupos y tomar decisiones informadas. Antes de aplicar modelos complejos, es esencial dominar estos conceptos para garantizar un análisis claro, confiable y útil.


### Medidas de Tendencia Central: Media, Mediana y Moda

Las medidas de tendencia central son valores que intentan ubicar el centro de un conjunto de datos, proporcionando una idea de cómo se comportan la mayoría de las observaciones. Son esenciales para resumir grandes volúmenes de información en un solo número representativo.

*   **Media (Promedio)**: La suma de todos los valores dividida por el número total de valores. Es sensible a los valores atípicos.
*   **Mediana**: El valor central en un conjunto de datos ordenado. Es menos sensible a los valores atípicos que la media.
*   **Moda**: El valor que aparece con mayor frecuencia en un conjunto de datos. Puede haber una, varias o ninguna moda.


In [2]:
# Ejemplo y Ejercicio: Medidas de Tendencia Central
import numpy as np
datos = [10, 12, 12, 15, 16, 18, 20, 22, 22, 22, 25]

# Media
media = np.mean(datos)
print(f"Datos: {datos}")
print(f"Media: {media:.2f}")

# Mediana
mediana = np.median(datos)
print(f"Mediana: {mediana}")

# Moda (usando scipy.stats.mode si hay múltiples modas o para mayor robustez)
from collections import Counter
conteo = Counter(datos)
moda = [k for k, v in conteo.items() if v == max(conteo.values())]
print(f"Moda: {moda}")

# Ejercicio: Calcula la media, mediana y moda para el siguiente conjunto de datos:
datos_ejercicio = [5, 7, 7, 8, 9, 10, 10, 10, 11, 12]
# Tu código aquí
# media_ej = ...
# mediana_ej = ...
# moda_ej = ...
# print(f"Media Ejercicio: {media_ej}")
# print(f"Mediana Ejercicio: {mediana_ej}")
# print(f"Moda Ejercicio: {moda_ej}")


Datos: [10, 12, 12, 15, 16, 18, 20, 22, 22, 22, 25]
Media: 17.64
Mediana: 18.0
Moda: [22]


### Medidas de Posición: Cuartiles, Deciles y Percentiles

Además de las medidas de tendencia central, las medidas de posición nos ayudan a entender la distribución de los datos, dividiéndolos en partes iguales para analizar cómo se dispersan los valores y dónde se encuentra un dato específico en relación con el resto.

*   **Cuartiles**: Dividen el conjunto de datos ordenado en cuatro partes iguales (Q1, Q2, Q3).
*   **Deciles**: Dividen el conjunto de datos ordenado en diez partes iguales.
*   **Percentiles**: Dividen el conjunto de datos ordenado en cien partes iguales. Un percentil 'P' indica que el P% de los datos están por debajo de ese valor.


In [3]:
# Ejemplo y Ejercicio: Medidas de Posición
datos_posicion = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20]

# Cuartiles
q1 = np.percentile(datos_posicion, 25)
q2 = np.percentile(datos_posicion, 50) # Mediana
q3 = np.percentile(datos_posicion, 75)
print(f"Datos: {datos_posicion}")
print(f"Q1 (25%): {q1}")
print(f"Q2 (50% - Mediana): {q2}")
print(f"Q3 (75%): {q3}")

# Deciles (ej. Decil 3 - 30%)
d3 = np.percentile(datos_posicion, 30)
print(f"Decil 3 (30%): {d3}")

# Percentiles (ej. Percentil 90 - 90%)
p90 = np.percentile(datos_posicion, 90)
print(f"Percentil 90 (90%): {p90}")

# Ejercicio: Para el mismo conjunto de datos, calcula el Decil 7 y el Percentil 45.
# Tu código aquí
# d7 = ...
# p45 = ...
# print(f"Decil 7 Ejercicio: {d7}")
# print(f"Percentil 45 Ejercicio: {p45}")


Datos: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20]
Q1 (25%): 5.75
Q2 (50% - Mediana): 10.5
Q3 (75%): 15.25
Decil 3 (30%): 6.7
Percentil 90 (90%): 18.1


_**La importancia de elegir la medida correcta:** Cada medida de tendencia central y posición tiene sus fortalezas y debilidades. Elegir la medida adecuada depende del tipo de datos y del objetivo del análisis. Por ejemplo, la mediana es preferible a la media en presencia de valores atípicos que puedan distorsionar el promedio._


## Varianza y Desviación: Revelando el Comportamiento Oculto de los Datos

Si las medidas de tendencia central nos dicen dónde está el "centro" de nuestros datos, las medidas de dispersión nos revelan cuán "estirados" o "agrupados" están. Es decir, nos permiten entender qué tan homogéneos o heterogéneos son los valores. Imagina dos equipos de baloncesto con la misma altura promedio; las medidas de dispersión nos dirían si uno tiene jugadores de alturas muy similares y el otro tiene una mezcla de muy altos y muy bajos.


### Rango, Varianza y Desviación Estándar

Estas son las herramientas más comunes para cuantificar la dispersión de nuestros datos:

*   **Rango**: Es la medida más simple. Se calcula restando el valor mínimo al valor máximo de un conjunto de datos. Nos da una idea rápida de la amplitud total.
    _Ejemplo: Si las edades de un grupo van de 20 a 45 años, el rango es 25 años._
*   **Rango Intercuartílico (IQR)**: Representa el 50% central de los datos, es la diferencia entre el primer cuartil (Q1) y el tercer cuartil (Q3).
*   **Varianza**: Mide la dispersión promedio de cada punto de dato respecto a la media. Cuantifica qué tan lejos están los valores de la media, elevando al cuadrado las diferencias para evitar que se cancelen entre sí y para penalizar más las desviaciones grandes.
    _Ejemplo: Una alta varianza en los salarios indica que hay una gran diferencia entre los salarios más bajos y los más altos._
*   **Desviación Estándar**: Es la raíz cuadrada de la varianza. Se expresa en las mismas unidades que los datos originales, lo que la hace más interpretable que la varianza. Nos dice, en promedio, cuánto se desvían los datos de la media.
    _Ejemplo: Una desviación estándar baja en un proceso de fabricación indica que los productos son muy consistentes en su tamaño._


In [4]:
# Ejemplo y Ejercicio: Medidas de Dispersión
datos_dispersion = [10, 12, 15, 18, 20, 22, 25, 28, 30]

# Rango
rango = np.max(datos_dispersion) - np.min(datos_dispersion)
print(f"Datos: {datos_dispersion}")
print(f"Rango: {rango}")

# Varianza
varianza = np.var(datos_dispersion)
print(f"Varianza: {varianza:.2f}")

# Desviación Estándar
desviacion_estandar = np.std(datos_dispersion)
print(f"Desviación Estándar: {desviacion_estandar:.2f}")

# Ejercicio: Calcula el rango, varianza y desviación estándar para el siguiente conjunto de datos:
datos_ejercicio_dispersion = [2, 4, 4, 4, 5, 5, 7, 9]
# Tu código aquí
# rango_ej = ...
# varianza_ej = ...
# desviacion_estandar_ej = ...
# print(f"Rango Ejercicio: {rango_ej}")
# print(f"Varianza Ejercicio: {varianza_ej}")
# print(f"Desviación Estándar Ejercicio: {desviacion_estandar_ej}")


Datos: [10, 12, 15, 18, 20, 22, 25, 28, 30]
Rango: 20
Varianza: 42.89
Desviación Estándar: 6.55


### Coeficiente de Variación (CV)

El Coeficiente de Variación es una medida de dispersión relativa que expresa la desviación estándar como un porcentaje de la media. Es especialmente útil cuando necesitamos comparar la variabilidad de dos o más conjuntos de datos que tienen unidades de medida diferentes o medias muy distintas.

_**¿Cuándo usarlo?** Imagina que comparas la variabilidad de los salarios de ingenieros (en USD) y la variabilidad de los pesos de manzanas (en gramos). Sus desviaciones estándar no serían directamente comparables. El CV te permite ver cuál tiene una mayor "dispersión relativa" respecto a su propio promedio._


In [5]:
# Ejemplo y Ejercicio: Coeficiente de Variación
# Datos de Salarios (en USD)
salarios = np.array([50000, 55000, 60000, 62000, 65000])
media_salarios = np.mean(salarios)
std_salarios = np.std(salarios)
cv_salarios = (std_salarios / media_salarios) * 100
print(f"Salarios: {salarios}")
print(f"CV Salarios: {cv_salarios:.2f}%")

# Datos de Pesos de Manzanas (en gramos)
pesos_manzanas = np.array([150, 155, 148, 152, 160])
media_pesos = np.mean(pesos_manzanas)
std_pesos = np.std(pesos_manzanas)
cv_pesos = (std_pesos / media_pesos) * 100
print(f"Pesos Manzanas: {pesos_manzanas}")
print(f"CV Pesos Manzanas: {cv_pesos:.2f}%")

# Ejercicio: Calcula el CV para el siguiente conjunto de datos de temperaturas (en Celsius):
temperaturas = np.array([20, 21, 20, 22, 23, 21])
# Tu código aquí
# media_temp = ...
# std_temp = ...
# cv_temp = ...
# print(f"CV Temperaturas: {cv_temp}")


Salarios: [50000 55000 60000 62000 65000]
CV Salarios: 9.10%
Pesos Manzanas: [150 155 148 152 160]
CV Pesos Manzanas: 2.74%


_**La dispersión complementa la tendencia:** Conocer solo la media o la mediana de un conjunto de datos es como ver solo la punta del iceberg. Para una comprensión completa, siempre debemos complementar las medidas de tendencia central con las medidas de dispersión. Estas nos brindan el contexto necesario para tomar decisiones más informadas y evitar sorpresas._


## ¡Consolida tus habilidades!

La práctica constante con las herramientas y los conceptos de este módulo te permitirá construir una base sólida para el análisis de datos. Realiza los ejercicios y explora para afianzar tus conocimientos.

¡Esperamos que este cuaderno te sea de gran utilidad!
