# Estadística aplicada

La estadística es una rama de las matemáticas que se encarga de recolectar, analizar e interpretar datos. En la estadística aplicada, utilizamos estas herramientas para tomar decisiones informadas en el mundo real.

#### Algunos conceptos básicos

Antes de comenzar a analizar datos, es importante tener una comprensión clara de algunos conceptos básicos de la estadística. Estos incluyen:

<ul> 
  <li>Población: es el conjunto completo de individuos, objetos, eventos o medidas que estamos estudiando. Por ejemplo, si estamos interesados en estudiar el rendimiento académico de los estudiantes universitarios, la población sería todos los estudiantes universitarios en el mundo.</li>
   <li>Muestra: es una porción representativa de la población que hemos seleccionado para estudiar. En el ejemplo anterior, podríamos seleccionar una muestra de estudiantes universitarios de una o varias universidades para estudiar su rendimiento académico.</li>
   <li>Variable: es una característica o atributo que medimos en cada individuo de la población o la muestra. En el ejemplo anterior, la variable sería el rendimiento académico de los estudiantes universitarios.</li>
   <li>Datos: son los valores que obtenemos al medir la variable en cada individuo de la población o la muestra.</li>
</ul>
    
  

### Distribuciones de probabilidad

Una distribución de probabilidad describe la forma en que se distribuyen los valores de una variable en una población o muestra. Algunos ejemplos comunes de distribuciones de probabilidad incluyen la distribución normal y la distribución binomial.

Para trabajar con distribuciones de probabilidad en Python, podemos utilizar la librería SymPy. A continuación, se muestra un ejemplo de cómo crear una distribución normal utilizando SymPy:

In [1]:
from sympy import *
from sympy.stats import Normal

# Creamos una variable aleatoria normal con media 0 y desviación estándar 1
X = Normal('X', 0, 1)

### Estadística descriptiva

Se utiliza para resumir y describir los datos que se han recolectado. Algunas medidas comunes de la estadística descriptiva incluyen la media, la mediana y la desviación estándar.

Para calcular estas medidas en Python, podemos utilizar la librería NumPy. A continuación, se muestra un ejemplo de cómo calcular la media y la desviación estándar de una muestra de datos utilizando NumPy:

In [20]:
import numpy as np

# Creamos una muestra de datos aleatorios
data = np.random.normal(0, 1, 100)
data = data[data > 0]

# Calculamos la media y la desviación estándar de la muestra
mean = np.mean(data)
std = np.std(data)

# Valores de la muestra
print("Muestra de datos aleatorios:")
print(data[:50])


print(f"Media: {mean}")
print(f"Desviación estándar: {std}")


Muestra de datos aleatorios:
[0.37280993 0.01989574 0.51839282 0.53186266 0.22768832 0.33743887
 2.04368314 1.44990838 1.06346246 1.09009537 0.58430592 1.30122747
 1.16339078 0.11435206 1.19485672 0.40062012 0.8064122  0.28163039
 0.22500745 0.92039841 0.0625046  0.4154492  0.30073741 0.18829405
 0.78971321 1.1950981  0.14870314 0.36325849 0.18364471 0.25906843
 1.75468023 0.17842956 0.09388832 0.92692231 1.2487923  0.29698232
 0.71668366 0.56022595 1.81862078 1.86142285 0.43950496 1.77930481
 1.75245987 0.87568842 0.47479834 0.12947828 0.01204131 1.02219483
 0.87635114 1.85566806]
Media: 0.7582949144807428
Desviación estándar: 0.5861358153007462


### Inferencia estadística

La inferencia estadística se utiliza para hacer generalizaciones sobre una población a partir de una muestra de datos. Esto implica utilizar las herramientas de la estadística para estimar parámetros desconocidos de la población, como la media o la proporción.

Una técnica común de inferencia estadística es el intervalo de confianza, que nos proporciona un rango de valores dentro del cual podemos estar seguros de que se encuentra el verdadero valor del parámetro con un cierto nivel de confianza.

Para calcular intervalos de confianza en Python, podemos utilizar la librería SciPy. A continuación, se muestra un ejemplo de cómo calcular un intervalo de confianza para la media de una población a partir de una muestra de datos utilizando SciPy:

In [27]:
from scipy import stats

# Creamos una muestra de datos aleatorios
data = np.random.normal(0, 1, 50)
data = data[data > 0]

# Calculamos el intervalo de confianza del 95% para la media poblacional
ci = stats.norm.interval(0.95, loc=np.mean(data), scale=stats.sem(data))

# Valores de la muestra
print("Muestra de datos aleatorios:")
print(data[:30])

print(f"Intervalo de confianza del 95% para la media poblacional: {ci}")


Muestra de datos aleatorios:
[0.76845365 1.96842414 0.52627048 0.09987524 0.66044461 1.09938746
 1.07592051 0.27426042 0.27184328 0.50946624 2.22240871 2.20020612
 0.06225586 0.2691279  0.31762115 0.53087738 0.10314211 0.69602726]
Intervalo de confianza del 95% para la media poblacional: (0.4351536329032178, 1.0821810917681047)


### Variables aleatorias

Una variable aleatoria es una variable cuyo valor depende del resultado de un experimento aleatorio. Por ejemplo, si lanzamos un dado, la variable aleatoria sería el resultado del lanzamiento. Podemos clasificar las variables aleatorias en dos categorías: discretas y continuas.

En este Notebook de Jupyter hemos repasado algunos conceptos básicos de la estadística aplicada, incluyendo población, muestra, variable, datos, distribuciones de probabilidad, estadística descriptiva e inferencia estadística. Además, hemos utilizado herramientas de programación simbólica como SymPy y librerías de Python como NumPy y SciPy para aplicar estos conceptos en la práctica. 