### Coeficiente de variacion (Medida relativa de dispersion)

No podemos conocer la dispersión de un conjunto de datos hasta que conocemos su desviación estándar, su media y cómo se compara la desviación estándar con la media.

Lo que necesitamos es una medida relativa que nos proporcione una estimación de la magnitud de la desviación respecto a la magnitud de la media. El coeficiente de variación es una de estas medidas relativas de dispersión.

Relaciona la desviación estándar y la media, expresando la desviación estándar como porcentaje de la media. La unidad de medida, entonces, es “porcentaje”, en lugar de las unidades de los datos originales.

- CV < 10% → Baja variabilidad (datos bastante homogéneos).

- 10% ≤ CV ≤ 30% → Variabilidad moderada.

- CV > 30% → Alta variabilidad (los datos son muy dispersos).

In [1]:
# Coeficiente de variacion = desviacion estandar / media * 100

La desviación estándar mide la cantidad de variación o dispersión de un conjunto de valores. La varianza es el cuadrado de la DS y ambas proporcionan insights sobre la consistencia de los datos.

**np.std(array, axis=None)**: calcula la desviación estándar, proporcionando una medida de la dispersión de los datos respecto a su media.

**np.var(array, axis=None)**: calcula la varianza de los elementos, cuantificando su dispersión cuadrática respecto a la medi

Pandas hereda la simplicidad de NumPy para calcular varianza y desviación estándar directamente sobre Series o columnas de un DataFrame, manteniendo la misma semántica y sin necesidad de convertir a arrays.
**.var(ddof=0)** calcula la varianza poblacional (mismo resultado que np.var)

**.std(ddof=0)** calcula la desviación estándar poblacional (equivalente a np.std).

### Distribucion de frecuencias

Tipos de frecuencia:

1. Frecuencia absoluta: Cuenta cuántas veces aparece cada categoría o cada clase en tu conjunto de datos. Esta será tu frecuencia absoluta. 

2. Frecuencia relativa: Calcula la frecuencia relativa, que es la proporción de cada categoría sobre el total de observaciones. Se obtiene dividiendo la frecuencia absoluta de cada categoría entre el número total de observaciones.

3. Frecuencia acumulada: Si es relevante para tu análisis, puedes sumar las frecuencias absolutas de todas las categorías hasta cada punto para obtener la frecuencia acumulada.

Pasos:
1. Definir las categorias
2. Contar la frecuencia
3. Crear una tabla que sea facil de leer con las frecuencias de interes
4. Verificar que las frecuencias rel. sumen 100% y que el total de frecuencias=total observaciones
5. Interpretar la tabla

### Histograma

El Histograma es un gráfico de la distribución de frecuencias, que se construye con rectángulos de superficie proporcional al producto de la amplitud por la frecuencia absoluta (o relativa) de cada uno de los intervalos de clase.



Está formado por una serie de rectángulos, la variable de interés se representa en el eje horizontal, el número o porcentaje de observaciones se representa en el eje vertical. La base está sobre el eje horizontal y el centro en el punto medio. Los extremos de cada rectángulo coinciden con los verdaderos límites. La longitud es el tamaño de cada intervalo de clase y la superficie es proporcional a la frecuencia. La superficie total del histograma representa el 100% de los datos.

**La curva de densidad (KDE) suaviza la información del histograma, dibujando una línea continua que facilita comparar varias series o ver la “suavidad” de la distribución**

### Asimetria (Skewness)

**.skew()** Mide el grado de inclinación de la distribución respecto a su media:

- Asimetría > 0: cola hacia la derecha; hay valores excepcionalmente altos.

- Asimetría < 0: cola hacia la izquierda; hay valores excepcionalmente bajos.

### Curtosis (Kurtosis)



**.kurt()** Mide la concentración de los datos en torno a la media. Esto quantifica la “puntiagudez” de la distribución comparada con una normal
- Curtosis > 3: colas pesadas y pico pronunciado; hay más valores extremos de lo esperado.
- Curtosis < 3: distribución más plana; menos valores extremos.


Con estas herramientas sabrás no solo dónde se agrupan tus datos, sino también cómo se dispersan y si presentan comportamientos extremos o asimétricos.

## Cuartiles, percentiles y detección de outliers

permiten segmentar los datos y entender cómo se distribuyen. Facilita tareas como detectar valores atípicos, analizar la variabilidad y tomar decisiones basadas en rangos específicos dentro de los datos.

### Percentil

Indican el valor bajo el cual cae un cierto porcentaje de observaciones en un grupo. Son útiles para entender la distribución de los datos. 

- En numpy:
**np.percentile(array, q, axis=None)**: calcula el q-ésimo percentil de los datos, donde q está en el rango de 0 a 100. Es útil para entender la dispersión y la forma de la distribución de los datos
- En pandas:
**df['col'].quantile([0.25, 0.75])**

#### Rango intercuartilico

El IQR (InterQuartile Range) es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1).

- Cubre la mitad central de los datos (desde el 25 % hasta el 75 %).
- Es resistente a valores extremos (outliers), ya que ignora el 25 % superior y el 25 % inferior de los datos.
- Un IQR grande implica mucha variabilidad en la “zona media” de la distribución.

### Identificación de outliers mediante criterios IQR y boxplots

Los outliers son aquellos valores que se sitúan a una distancia inusualmente grande del resto de las observaciones en un conjunto de datos, y aunque a menudo se asocian con errores de medición o entrada, también pueden reflejar fenómenos reales y relevantes (Fallas en sensores, casos exepcionales que valga la pena investigar)

Además, en contextos donde confluyen subpoblaciones distintas, lo que para un grupo es un dato atípico podría ser el valor típico de otro (por ejemplo, entrenamientos en ambientes diferentes). Por todo ello, los outliers no deben eliminarse de forma automática: antes de descartarlos, conviene explorarlos, documentar su posible origen y decidir si corregirlos, marcarlos como casos especiales o mantenerlos tal cual, ya que su presencia aporta información valiosa sobre la calidad de los datos, las variaciones naturales y los posibles errores en la captura de la información.

#### Visualizacion con IQR

Al extender el IQR 1.5 veces hacia arriba y hacia abajo, definimos límites naturales que separan la “zona central” de las posibles anomalías. Cualquier punto que quede fuera de esos límites se considera un candidato a outlier, cuya detección y análisis pueden revelar errores de medición, entradas duplicadas o fenómenos excepcionales dignos de atención.
Criterio clásico: 1.5 × IQR
- Límite inferior = Q1 − 1.5 × IQR
- Límite superior = Q3 + 1.5 × IQR

**No borres automáticamente estos registros**, Verifica su origen (¿fue un error?) y decide según el objetivo de tu análisis si imputar, transformar o mantenerlos para estudiar esos casos extremos.



#### Visualizacion con boxplot

Sintetiza toda la información anterior en un solo gráfico:
- Caja: Desde Q1 a Q3
- Linea interna: mediana
- Bigotes: Extremos que no se clasifican como outliers
- Puntos fuera de los bigotes: outliers

Ofrece visualmente la distribucion central (mediana y cuartiles), la dispercion (IQR) y la presencia de valores atipicos

## Relaciones entre variables

Para descubrir cómo se relacionan tus atributos y encontrar patrones conjuntos, utilizamos principalmente la correlación y las tablas de contingencia

### Correlacion Pearson-Spearman

**df.corr(method='...')** Por defecto aplica Pearson
La correlación cuantifica la relación entre dos variables, es decir, cómo cambian juntas. un coeficiente cercano a +1 indica que ambas suben o bajan simultáneamente de manera casi perfecta, mientras que un valor cercano a –1 sugiere que una sube cuando la otra baja

- Pearson: Mide relacion lineal. Ideal con datos continuos y normalmente distribuidos
- Spearman: Se basa en rangos y no en valores absolutos, por lo que capta relaciones monótonas incluso si no son lineales o si hay valores extremos (outliers) que distorsionan el cálculo de Pearson. Util si los datos tienen escalas diferentes, distribuciones sesgadas o correlacion de tipo diferente a lineal (Exponencial...)

**Interpretacion**
Valores cercanos a 0 indican poca correlacion, cercanos a 1 indican mucha

### Mapas de correlacion y mapas de calor

Para interpretar rápidamente múltiples correlaciones a la vez, Pandas permite aplicar un gradiente de color sobre la matriz: cada celda se colorea según el valor del coeficiente, de manera que los tonos más intensos destacan relaciones muy fuertes (positivas o negativas) y los colores neutros señalan correlaciones cercanas a cero.

Esta representación visual convierte una tabla de números en un mapa de calor sencillo de leer, donde basta un vistazo para detectar pares de variables altamente vinculados o independientes.

Se puede ajustar la paleta de colores (**cmamp='coolwarm'**) por ejemplo para enfatizar mas los extremos

**pearson.style.background_gradient(cmap='coolwarm')**


### Tablas de contingencia

Las tablas de contingencia (**pd.crosstab**) condensan en una cuadrícula la frecuencia con que ocurren combinaciones de dos variables categóricas, ayudándote a visualizar cómo se distribuyen los casos conjuntos

Facilita identificar patrones, desbalances entre grupos o relaciones inesperadas sin tener que filtrar o agrupar manualmente los datos