# Estadistica

## Medidas de Dispersión
Para calcular la varianza se puede usar la funcion np.var() de numpy, que calcula la varianza de un array o lista de valores. La desviación estándar se puede calcular con np.std(). Ejemplo:

In [None]:
import numpy as np

# Datos de ejemplo
data = [10, 12, 23, 23, 16, 23, 21, 16]

# Calcular varianza
varianza = np.var(data, ddof=1) # ddof=1 para varianza muestral no toda la poblacion.
print(varianza)

# Calcular desviación estándar
desviacion_estandar = np.std(data)
print(desviacion_estandar)

## Quantiles
Para calcular los quantiles se puede usar la función np.quantile() de numpy. Esta función toma un array de datos y un valor entre 0 y 1 que representa el quantil deseado. Por ejemplo, para calcular el primer cuartil (Q1), el segundo cuartil (Q2 o mediana) y el tercer cuartil (Q3), se puede hacer lo siguiente:

In [None]:
import numpy as np

# Datos de ejemplo
data = [10, 12, 23, 23, 16, 23, 21, 16]

# Calcular quantiles
q1 = np.quantile(data, 0.25)
q2 = np.quantile(data, 0.5)  # Mediana
q3 = np.quantile(data, 0.75)
print(f"Q1: {q1}, Q2: {q2}, Q3: {q3}")

# Tambien se puede usar la funcion linspace para obtener los quantiles de manera mas general.
quantiles = np.linspace(0, 1, 5)  # Cuatro quantiles (0%, 25%, 50%, 75%, 100%)
quantiles_values = np.quantile(data, quantiles)
print(f"Quantiles: {quantiles_values}")

## Outliers
Para detectar outliers, se puede usar el método del rango intercuartil (IQR). Los outliers son aquellos valores que están por debajo de Q1 - 1.5 * IQR o por encima de Q3 + 1.5 * IQR. Aquí hay un ejemplo de cómo hacerlo:

In [None]:
from scipy.stats import iqr
import numpy as np

# Datos de ejemplo
data = [10.0, 12.0, 23.0, 23.0, 16.0, 23.0, 21.0, 16.0, 100.0]  # Incluyendo un outlier (100)
data_np = np.array(data)

# Calcular Q1, Q3 y IQR
iqr_value = iqr(data_np)

lower_threshold = np.quantile(data_np, 0.25) - 1.5 * iqr_value
upper_threshold = np.quantile(data_np, 0.75) + 1.5 * iqr_value

print(data_np[(data_np < lower_threshold) | (data_np > upper_threshold)])  # Imprime los outliers

## Distribución Binomial
Se utiliza cuando se tienen dos resultados posibles (éxito o fracaso) y se quiere calcular la probabilidad de obtener un número específico de éxitos en un número fijo de ensayos. La función `binom.pmf()` de `scipy.stats` se usa para calcular la probabilidad de obtener exactamente k éxitos en n ensayos.

In [None]:
from scipy.stats import binom

# Lanzar 1 moneda con una probabilidad de éxito de 0.5, 10 veces.
serie1 = binom.rvs(1, 0.5, size=10)

# Lanzar 3 monedas con una probabilidad de éxito de 0.5, 1 vece.
serie2 = binom.rvs(3, 0.5, size=2)

print(serie1)
print(serie2)

# Calcular la probabilidad de obtener exactamente 7 exitos en 10 ensayos con una probabilidad de éxito de 0.5
prob_exacta = binom.pmf(7, 10, 0.5)
print(prob_exacta)

# Calcular la probabilidad de obtener 7 o menos éxitos en 10 ensayos con una probabilidad de éxito de 0.5
prob_7_o_menos = binom.cdf(7, 10, 0.5)
print(prob_7_o_menos)

# Calcular la probabilidad de obtener más de 7 éxitos en 10 ensayos con una probabilidad de éxito de 0.5
prob_mas_de_7 = 1 - binom.cdf(7, 10, 0.5)
print(prob_mas_de_7)

## Distribución Normal
La distribución normal es una de las distribuciones más importantes en estadística. Se caracteriza por su forma de campana y se define por dos parámetros: la media (mu) y la desviación estándar (sigma). La función `norm.pdf()` de `scipy.stats` se usa para calcular la densidad de probabilidad de la distribución normal.

Cuando el promedio o media es 0 y la desviación estándar es 1, se conoce como distribución normal estándar. La función `norm.cdf()` se usa para calcular la función de distribución acumulativa (CDF) de la distribución normal.

In [None]:
from scipy.stats import norm

# Generar 10 valores de una distribución normal con media 161 y desviación estándar 7
norm.rvs(161, 7, size=10)

# Probabilidad de que una persona mida menos de 154 cm, dado que la media es 161 cm y la desviación estándar es 7 cm.
prob1 = norm.cdf(154, 161, 7)
print(prob1)

# Probabilidad de que una persona mida más de 154 cm, dado que la media es 161 cm y la desviación estándar es 7 cm.
prob2 = 1 - norm.cdf(154, 161, 7)
print(prob2)

# Probabilidad de que una persona mida entre 154 cm y 170 cm, dado que la media es 161 cm y la desviación estándar es 7 cm.
prob3 = norm.cdf(157, 161, 7) - norm.cdf(154, 161, 7)
print(prob3)

# Que valor de altura corresponde al percentil 90 (es inferior a), dado que la media es 161 cm y la desviación estándar es 7 cm.
value1 = norm.ppf(0.9, 161, 7)
print(value1)

## Teorema del Límite Central
El Teorema del Límite Central establece que, dado un número suficientemente grande de muestras independientes de una población con una media y una desviación estándar finitas, la distribución de la media muestral se aproximará a una distribución normal, independientemente de la forma de la distribución original.

## Distribución Poisson
La distribución de Poisson se utiliza para modelar el número de eventos que ocurren en un intervalo de tiempo fijo o en un área fija, dado que estos eventos ocurren con una tasa promedio constante y son independientes entre sí. La función `poisson.pmf()` de `scipy.stats` se usa para calcular la probabilidad de que ocurra un número específico de eventos en un intervalo dado.

In [None]:
from scipy.stats import poisson

# Generar 10 valores de una distribución de Poisson con un promedio de 8 eventos.
poisson.rvs(8, size=10)

# Si el promedio de eventos es 8, calcular la probabilidad de que ocurran exactamente 5 eventos.
prob1 = poisson.pmf(5, 8)
print(prob1)

# Si el promedio de eventos es 8, calcular la probabilidad de que ocurran 5 o menos eventos.
prob2 = poisson.cdf(5, 8)
print(prob2)

# Si el promedio de eventos es 8, calcular la probabilidad de que ocurran más de 5 eventos.
prob3 = 1 - poisson.cdf(5, 8)
print(prob3)

## Distribución Exponencial
La distribución exponencial se utiliza para modelar el tiempo entre eventos en un proceso de Poisson. Es útil para describir el tiempo que transcurre entre eventos que ocurren de manera continua e independiente a una tasa constante. La función `expon.pdf()` de `scipy.stats` se usa para calcular la densidad de probabilidad de la distribución exponencial.

In [None]:
from scipy.stats import expon

# Calcular la probabilidad de que el tiempo entre eventos sea menor a 1 hora, dado que la tasa de eventos es 2 por hora.
prob1 = expon.cdf(1, scale=2)
print(prob1)

# Calcular la probabilidad de que el tiempo entre eventos sea mayor a 1 hora, dado que la tasa de eventos es 2 por hora.
prob2 = 1 - expon.cdf(1, scale=2)
print(prob2)

## Distribución T de Student
La distribución t de Student se utiliza cuando se trabaja con muestras pequeñas y la desviación estándar de la población es desconocida. Es similar a la distribución normal, pero tiene colas más gruesas, lo que refleja la mayor incertidumbre en las estimaciones de la media y la desviación estándar. La función `t.pdf()` de `scipy.stats` se usa para calcular la densidad de probabilidad de la distribución t.

## Correlación
La correlación es una medida estadística que indica la relación entre dos variables. La correlación puede ser positiva (ambas variables aumentan juntas), negativa (una variable aumenta mientras la otra disminuye) o nula (no hay relación). La función `pearsonr()` de `scipy.stats` se usa para calcular el coeficiente de correlación de Pearson y el valor p asociado.

In [3]:
import pandas as pd
from scipy.stats import pearsonr

# Datos de ejemplo
x = [1, 2, 3, 4, 5]
y = [2, 3, 4, 5, 6]

# Calcular la correlación de Pearson
corr, p_value = pearsonr(x, y)
print(f"Coeficiente de correlación: {corr}, Valor p: {p_value}")

import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [2, 4, 6, 8],
    'C': [4, 3, 2, 1]
})

corr = df['A'].corr(df['B'])  # Correlación entre A y B
print(f"Coeficiente de correlación: {corr}")

Coeficiente de correlación: 1.0, Valor p: 0.0
Coeficiente de correlación: 1.0
