
# OVA 4 Análisis Estadístico Inferencial

## Contenido

- [Introducción](#Introducción)
- [Estadística Inferencial](#Estadística-Inferencial)
- [Prueba T de Student](#Prueba-T-de-Student)
- [Prueba Chi Cuadrado](#Prueba-Chi-Cuadrado)  
- [Intervalos de Confianza](#Intervalos-de-Confianza)
- [ANOVA](#ANOVA)
- [Correlación](#Correlación)
- [Regresión](#Regresión)
- [Código en Python](#Código-en-Python)

## Introducción

La estadística inferencial permite extraer conclusiones más allá de los datos, como determinar si existe una relación entre variables o hacer estimaciones sobre una población a partir de una muestra.

## Estadística Inferencial

La estadística inferencial se basa en la teoría de probabilidades para hacer inferencias sobre una población a partir de una muestra aleatoria. Algunas de sus técnicas más importantes son:

- Pruebas de hipótesis 
- Estimación de parámetros
- Intervalos de confianza
- Análisis de varianza
- Correlación y regresión

## Prueba T de Student

La prueba T de Student permite comparar si dos grupos difieren significativamente en sus medias. Se calcula como:

$$
t = \frac{\bar{X_1}-\bar{X_2}}{S_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}
$$

Donde $\bar{X_1}$ y $\bar{X_2}$ son las medias muestrales, $S_p$ es la desviación estándar agrupada y $n_1$, $n_2$ los tamaños muestrales.

## Prueba Chi Cuadrado 

Permite determinar si existe una relación entre dos variables categóricas. Se calcula como:

$$
\chi^2 = \sum_{i=1}^{k} \sum_{j=1}^{r} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}
$$

Donde $O_{ij}$ son las frecuencias observadas y $E_{ij}$ las frecuencias esperadas bajo la hipótesis nula.

## Intervalos de Confianza

Permiten estimar un rango de valores probable para un parámetro poblacional:

$$
IC = (p - z*\frac{\sigma}{\sqrt{n}}, p + z*\frac{\sigma}{\sqrt{n}})
$$

Donde $p$ es la media/proporción muestral, $\sigma$ la desviación estándar, $n$ el tamaño muestral y $z$ depende del nivel de confianza.

## ANOVA 

El análisis de varianza (ANOVA) compara las medias de 3 o más grupos. La hipótesis nula establece que todas las medias poblacionales son iguales. El estadístico F se calcula como:

$$
F = \frac{Varianza\ entre\ grupos}{Varianza\ dentro\ de\ los\ grupos}
$$

## Correlación

- **Pearson**: mide la relación lineal entre dos variables cuantitativas. Rango de -1 a 1.

- **Spearman**: mide la relación monótona entre dos variables cuantitativas. Rango de -1 a 1. 

## Regresión

- **Lineal**: ajusta una recta de regresión por mínimos cuadrados ordinarios.

- **Logística**: modela la probabilidad de una variable categórica en función de predictores cuantitativos.

## Código en Python

A continuación se muestra el código en Python para aplicar las técnicas vistas:


```python
# Prueba T para dos muestras independientes
from scipy import stats
stats.ttest_ind(a, b) 

# Prueba Chi Cuadrado  
from scipy import stats
stats.chi2_contingency(data)

# Intervalo de confianza
import scipy.stats as st
st.norm.interval(0.95, loc=mean, scale=std)

# ANOVA
from scipy import stats
stats.f_oneway(a, b, c)

# Correlación de Pearson  
from scipy import stats
stats.pearsonr(x, y)

# Correlación de Spearman
from scipy import stats
stats.spearmanr(x, y)

# Regresión lineal  
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x, y)

# Regresión logística
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(x, y)
```

