| **Inicio** | **atrás 3** | **Siguiente 5** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./3.Algebra_Lineal.ipynb)| [⏩](./5.Resumen.ipynb)|

# **4. Estadísticas**

## **Medidas de Tendencia central y dispersión**

En estadística, las medidas de tendencia central y dispersión son herramientas esenciales para analizar conjuntos de datos y obtener información valiosa acerca de su distribución. En Python, existen múltiples librerías que permiten calcular estas medidas de manera sencilla.

1. **Medidas de tendencia central**

Las medidas de tendencia central son valores que representan la ubicación central de los datos. Las medidas de tendencia central más comunes son la media, la mediana y la moda.

* **Media**

La media es el promedio aritmético de los valores en un conjunto de datos. Se calcula sumando todos los valores y dividiendo el resultado entre el número de elementos en el conjunto.

In [1]:
import numpy as np

# Conjunto de datos
datos = [4, 6, 8, 10, 12]

# Media
media = np.mean(datos)

print("Media:", media)

Media: 8.0


* **Mediana**

La mediana es el valor que divide el conjunto de datos en dos partes iguales, es decir, el `50%` de los valores son mayores o iguales a la mediana y el `50%` restante son menores o iguales a la mediana. Para calcular la mediana, es necesario ordenar los datos de manera ascendente o descendente y elegir el valor que ocupa la posición central.

In [2]:
# Conjunto de datos
datos = [4, 6, 8, 10, 12]

# Mediana
mediana = np.median(datos)

print("Mediana:", mediana)

Mediana: 8.0


* **Moda**

La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. Si no hay un valor que se repita más que los demás, se dice que el conjunto de datos no tiene moda.

In [1]:
# Conjunto de datos
datos = [4, 6, 8, 10, 12, 8]

# Moda
from statistics import mode

moda = mode(datos)

print("Moda:", moda)

Moda: 8


2.  **Medidas de dispersión**

Las medidas de dispersión indican la variabilidad o dispersión de los datos. Las medidas de dispersión más comunes son el rango, la varianza y la desviación estándar.

* **Rango**

El rango es la diferencia entre el valor máximo y el valor mínimo en un conjunto de datos.

In [3]:
import numpy as np

# Conjunto de datos
datos = [4, 6, 8, 10, 12]

# Rango
rango = np.max(datos) - np.min(datos)

print("Rango:", rango)

Rango: 8


* **Varianza**

La varianza es una medida de la dispersión de los datos con respecto a su media. Se calcula como la media aritmética de las diferencias al cuadrado entre cada valor y la media.

In [4]:
# Conjunto de datos
datos = [4, 6, 8, 10, 12]

# Varianza
varianza = np.var(datos)

print("Varianza:", varianza)

Varianza: 8.0


* **Desviación estándar**

La desviación estándar es la raíz cuadrada de la varianza y se utiliza para describir la dispersión

In [5]:
# Conjunto de datos
datos = [4, 6, 8, 10, 12]

# Desviación estándar
desviacion = np.std(datos)

print("Desviación estándar:", desviacion)

Desviación estándar: 2.8284271247461903


En resumen, en Python se pueden utilizar diversas librerías, como `numpy` y `statistics`, para calcular medidas de tendencia central y dispersión en un conjunto de datos. Las medidas de tendencia central incluyen la media, la mediana y la moda, mientras que las medidas de dispersión incluyen el rango, la varianza y la desviación estándar. Estas medidas son muy útiles para entender la distribución de los datos y tomar decisiones informadas a partir de ellos.

## **Promedios**

Los promedios son medidas de tendencia central que permiten resumir un conjunto de datos en un solo valor que representa un `"valor típico"` o `"representativo"` del conjunto. En Python, se pueden calcular diferentes tipos de promedios, como la media, la mediana y la moda.

* **Media**

La media es el promedio aritmético de los datos y se calcula sumando todos los valores y dividiendo por el número total de valores. En Python, se puede calcular fácilmente la media de un conjunto de datos utilizando la función `mean()` de la librería `NumPy`.

In [6]:
import numpy as np

# Conjunto de datos
datos = [4, 6, 8, 10, 12]

# Media
media = np.mean(datos)

print("Media:", media)

Media: 8.0


* **Mediana**

La mediana es el valor central en un conjunto de datos ordenados. En otras palabras, la mitad de los valores son iguales o menores que la mediana, y la otra mitad son iguales o mayores. En Python, se puede calcular la mediana de un conjunto de datos utilizando la función `median()` de la librería `NumPy`.

In [7]:
import numpy as np

# Conjunto de datos
datos = [4, 6, 8, 10, 12]

# Mediana
mediana = np.median(datos)

print("Mediana:", mediana)

Mediana: 8.0


En este ejemplo, la mediana es igual a la media ya que el conjunto de datos es simétrico.

* **Moda**

La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. En Python, se puede calcular la moda de un conjunto de datos utilizando la función `mode()` de la librería `statistics`.

In [8]:
import statistics

# Conjunto de datos
datos = [4, 6, 8, 10, 12, 8]

# Moda
moda = statistics.mode(datos)

print("Moda:", moda)

Moda: 8


En este ejemplo, la moda es igual a `8` ya que es el valor que aparece con mayor frecuencia en el conjunto de datos.

En resumen, en Python se pueden calcular diferentes tipos de promedios, como la media, la mediana y la moda, utilizando funciones de librerías como `NumPy` y `statistics`. Estas medidas permiten resumir un conjunto de datos en un solo valor representativo, lo que es útil para entender la distribución de los datos y tomar decisiones informadas a partir de ellos.

## **Varianza**

La varianza es una medida de dispersión que indica qué tan alejados están los valores de un conjunto de datos con respecto a su media. Una varianza alta indica que los valores están muy dispersos, mientras que una varianza baja indica que los valores están más agrupados en torno a la media.

En Python, se puede calcular la varianza utilizando la función `var()` de la librería `NumPy`. La fórmula para calcular la varianza es:

$varianza = sum((x - media)**2) / (n - 1)$

donde `x` es cada valor del conjunto de datos, media es la `media` del conjunto de datos, y `n` es el número total de valores.

A continuación se presenta un ejemplo de cómo calcular la varianza en Python:

In [9]:
import numpy as np

# Conjunto de datos
datos = [4, 6, 8, 10, 12]

# Media
media = np.mean(datos)

# Varianza
varianza = np.var(datos, ddof=1)  # ddof=1 para utilizar n-1 en el denominador

print("Varianza:", varianza)

Varianza: 10.0


En este ejemplo, la varianza es igual a `8.0`, lo que indica que los valores están bastante dispersos con respecto a la media (que es igual a 8.0).

También es importante mencionar que la varianza puede ser afectada por valores atípicos (outliers) en el conjunto de datos, lo que puede resultar en una medida de dispersión no muy representativa. Para mitigar este problema, se puede utilizar la desviación estándar, que es simplemente la raíz cuadrada de la varianza, y que proporciona una medida de dispersión más robusta.

En Python, se puede calcular la desviación estándar utilizando la función `std()` de la librería `NumPy`. La fórmula para calcular la desviación estándar es:

$desv_estandar = sqrt(sum((x - media)**2) / (n - 1))$

A continuación se presenta un ejemplo de cómo calcular la desviación estándar en Python:

In [10]:
import numpy as np

# Conjunto de datos
datos = [4, 6, 8, 10, 12]

# Media
media = np.mean(datos)

# Desviación estándar
desv_estandar = np.std(datos, ddof=1)  # ddof=1 para utilizar n-1 en el denominador

print("Desviación estándar:", desv_estandar)

Desviación estándar: 3.1622776601683795


En este ejemplo, la desviación estándar es igual a `2.8284`, lo que indica que los valores están bastante dispersos con respecto a la media.

## **Tablas de frecuencias**

Las tablas de frecuencias son una forma de resumir y visualizar la distribución de un conjunto de datos en términos de la cantidad de veces que aparece cada valor en el conjunto. En Python, se pueden crear tablas de frecuencias utilizando la librería `pandas`.

Para crear una tabla de frecuencias, se debe seguir los siguientes pasos:

* Crear una serie o un arreglo de pandas con los datos.
* Utilizar la función `value_counts()` para contar la frecuencia de cada valor.
* Opcionalmente, se puede ordenar los valores por frecuencia o por valor utilizando la función `sort_index()` o `sort_values()`.

A continuación, se presenta un ejemplo de cómo crear una tabla de frecuencias en Python utilizando la librería pandas:

In [11]:
import pandas as pd

# Conjunto de datos
datos = [4, 6, 8, 10, 12, 8, 6, 4, 10, 8]

# Crear una serie de pandas con los datos
serie_datos = pd.Series(datos)

# Crear la tabla de frecuencias
tabla_frecuencias = serie_datos.value_counts().sort_index()

print(tabla_frecuencias)

4     2
6     2
8     3
10    2
12    1
dtype: int64


En este ejemplo, se crea una serie de `pandas` con los datos `[4, 6, 8, 10, 12, 8, 6, 4, 10, 8]`. Luego, se utiliza la función `value_counts()` para contar la frecuencia de cada valor en la serie y se ordenan los valores utilizando la función `sort_index()`. La tabla de frecuencias resultante muestra que el valor `4` aparece dos veces, el valor `6` aparece dos veces, el valor `8` aparece tres veces, el valor `10` aparece dos veces, y el valor `12` aparece una vez.

También es posible crear tablas de frecuencias acumuladas, que muestran la frecuencia acumulada de cada valor en el conjunto de datos. En Python, se puede crear una tabla de frecuencias acumuladas utilizando la función `cumsum()` de `pandas`. A continuación, se presenta un ejemplo de cómo crear una tabla de frecuencias acumuladas en Python:

In [12]:
import pandas as pd

# Conjunto de datos
datos = [4, 6, 8, 10, 12, 8, 6, 4, 10, 8]

# Crear una serie de pandas con los datos
serie_datos = pd.Series(datos)

# Crear la tabla de frecuencias
tabla_frecuencias = serie_datos.value_counts().sort_index()

# Crear la tabla de frecuencias acumuladas
tabla_frecuencias_acum = tabla_frecuencias.cumsum()

print(tabla_frecuencias_acum)

4      2
6      4
8      7
10     9
12    10
dtype: int64


En este ejemplo, se crea primero la tabla de frecuencias como en el ejemplo anterior. Luego, se utiliza la función `cumsum()` para crear la tabla de frecuencias acumuladas. La tabla de frecuencias acumuladas resultante muestra la frecuencia acumulada de cada valor en el conjunto de datos.

## **Probabilidades**

La probabilidad es una medida numérica que cuantifica la posibilidad de que un evento ocurra. En estadística, la probabilidad se utiliza para modelar y analizar fenómenos aleatorios.

En Python, existen varias librerías para trabajar con probabilidades, tales como `NumPy`, `SciPy`, `Pandas` y `Scikit-Learn`. A continuación, se presentan algunos conceptos y ejemplos básicos de cómo trabajar con probabilidades en Python:

* **Definir un espacio muestral:**

 El espacio muestral es el conjunto de todos los posibles resultados de un experimento aleatorio. En Python, se puede representar un espacio muestral utilizando una lista o un arreglo de `NumPy`.

In [13]:
import numpy as np

# Definir un espacio muestral
espacio_muestral = np.array([1, 2, 3, 4, 5, 6])

* **Definir una distribución de probabilidad:**

 Una distribución de probabilidad es una función que asigna a cada resultado de un experimento aleatorio una probabilidad. En Python, se pueden definir distribuciones de probabilidad utilizando las funciones de distribución de probabilidad de la librería `SciPy`.

In [14]:
from scipy.stats import norm

# Definir una distribución normal
distribucion_normal = norm(loc=0, scale=1)

* **Calcular la probabilidad de un evento:**

 La probabilidad de un evento es la suma de las probabilidades de todos los resultados que satisfacen el evento. En Python, se puede calcular la probabilidad de un evento utilizando las funciones de la librería `SciPy`.

In [15]:
from scipy.stats import norm

# Definir una distribución normal
distribucion_normal = norm(loc=0, scale=1)

# Calcular la probabilidad de que X > 1
probabilidad = 1 - distribucion_normal.cdf(1)

print("La probabilidad de que X > 1 es:", probabilidad)

La probabilidad de que X > 1 es: 0.15865525393145707


En este ejemplo, se define una distribución normal con media `0` y desviación estándar `1` utilizando la función `norm()`. Luego, se calcula la probabilidad de que una variable aleatoria `X` de esta distribución sea mayor que `1` utilizando la función `cdf()` (función de distribución acumulada). La probabilidad resultante se imprime por pantalla.

* **Simular eventos aleatorios:**

 La simulación de eventos aleatorios es una herramienta importante en estadística para evaluar la incertidumbre y la variabilidad de un fenómeno aleatorio. En Python, se pueden simular eventos aleatorios utilizando las funciones de generación de números aleatorios de la librería `NumPy`.

In [16]:
import numpy as np

# Generar 10 números aleatorios entre 0 y 1
numeros_aleatorios = np.random.rand(10)

print("Números aleatorios generados:", numeros_aleatorios)

Números aleatorios generados: [0.91531465 0.31878028 0.08701824 0.20474422 0.27126248 0.81190506
 0.05972631 0.99685071 0.42881643 0.39299751]


En este ejemplo, se generan 10 números aleatorios entre 0 y 1 utilizando la función `rand()` de `NumPy`. Los números aleatorios resultantes se imprimen por pantalla.

En resumen, Python cuenta con diversas herramientas para trabajar con probabilidades y estadística, lo que permite modelar y analizar fenómenos aleatorios de manera eficiente y flexible.

## **Probabilidad condicional**

La probabilidad condicional es la probabilidad de que un evento ocurra dado que otro evento ha ocurrido. En otras palabras, es la probabilidad de un evento `A` dado que se sabe que un evento `B` ha ocurrido. La probabilidad condicional se denota como `P(A|B)` y se lee como `"la probabilidad de A dado B"`.

En Python, se puede calcular la probabilidad condicional utilizando la regla de `Bayes` o utilizando la definición de probabilidad condicional.

* **Regla de Bayes:**

 La regla de Bayes es una fórmula que permite calcular la probabilidad condicional utilizando la probabilidad de los eventos y la probabilidad de que un evento ocurra dado que otro evento ha ocurrido. En Python, se puede calcular la probabilidad condicional utilizando la fórmula de Bayes y las funciones de la librería `SciPy`.

In [17]:
from scipy.stats import norm

# Definir distribuciones normales
distribucion_normal1 = norm(loc=0, scale=1)
distribucion_normal2 = norm(loc=1, scale=1)

# Calcular la probabilidad de que X > 1 dado que Y > 0
probabilidad_y_positivo = 1 - distribucion_normal2.cdf(0)
probabilidad_x_positivo_y_positivo = distribucion_normal1.cdf(1)
probabilidad_y_positivo_dado_x_positivo = probabilidad_x_positivo_y_positivo / probabilidad_y_positivo

print("La probabilidad de que X > 1 dado que Y > 0 es:", probabilidad_y_positivo_dado_x_positivo)

La probabilidad de que X > 1 dado que Y > 0 es: 1.0


En este ejemplo, se definen dos distribuciones normales utilizando la función `norm()`. Luego, se calcula la probabilidad de que `Y` sea mayor que `0` utilizando la función `cdf()`. A continuación, se calcula la probabilidad de que `X` sea mayor que `1` dado que `Y` es mayor que `0` utilizando la fórmula de Bayes.

* **Definición de probabilidad condicional:**

 La probabilidad condicional también se puede calcular utilizando la definición de probabilidad condicional. En Python, se puede calcular la probabilidad condicional utilizando las funciones de la librería `NumPy`.

In [18]:
import numpy as np

# Generar dos variables aleatorias X e Y
x = np.random.normal(0, 1, 1000)
y = np.random.normal(1, 1, 1000)

# Calcular la probabilidad de que X > 1 dado que Y > 0
muestra = (y > 0) & (x > 1)
probabilidad_y_positivo_dado_x_positivo = np.mean(muestra)

print("La probabilidad de que X > 1 dado que Y > 0 es:", probabilidad_y_positivo_dado_x_positivo)

La probabilidad de que X > 1 dado que Y > 0 es: 0.141


En este ejemplo, se generan dos variables aleatorias `X` e `Y` utilizando la función `normal()` de `NumPy`. Luego, se calcula la probabilidad de que `X` sea mayor que `1` dado que `Y` es mayor que `0` utilizando la definición de probabilidad condicional y la función `mean()` de `NumPy`.

En resumen, la probabilidad condicional es una herramienta importante en estadística para modelar y analizar eventos aleatorios condicionados a la ocurrencia de otro evento. En Python, se pueden calcular la probabilidad condicional utilizando la regla de Bayes o la definición de probabilidad condicional y las funciones de las librerias.

## **Teorema de Bayes**

El Teorema de Bayes es una herramienta fundamental en el campo de la estadística que nos permite actualizar la probabilidad de un evento a medida que se reciben nuevos datos o información. En Python, podemos utilizar diversas librerías para aplicar este teorema, como `NumPy` o `SciPy`.

La fórmula del Teorema de Bayes es la siguiente:

$P(A|B) = P(B|A) * P(A) / P(B)$

**Donde:**

* $P(A|B)$ es la probabilidad de que `A` ocurra dado que ha ocurrido `B`.

* $P(B|A)$ es la probabilidad de que `B` ocurra dado que ha ocurrido `A`.

* $P(A)$ es la probabilidad de que `A` ocurra.

* $P(B)$ es la probabilidad de que `B` ocurra.

Para entender mejor el Teorema de Bayes, veamos un ejemplo práctico:

Supongamos que en una ciudad se ha detectado una enfermedad que afecta al `1%` de la población. Además, se sabe que la prueba utilizada para detectar esta enfermedad tiene una tasa de falsos positivos del `5%`, es decir, que un `5%` de las personas que no tienen la enfermedad obtienen un resultado positivo en la prueba. También se sabe que la tasa de falsos negativos de la prueba es del `10%`, es decir, que un `10%` de las personas que tienen la enfermedad obtienen un resultado negativo en la prueba.

Ahora, si una persona ha dado positivo en la prueba, ¿cuál es la probabilidad de que realmente tenga la enfermedad?

Para aplicar el Teorema de Bayes, podemos utilizar las siguientes probabilidades:

* $P(enfermedad) = 0.01$

* $P(positivo | enfermedad) = 0.9$ (ya que la tasa de falsos negativos es del `10%`)

* $P(positivo | no enfermedad) = 0.05$ (ya que la tasa de falsos positivos es del `5%`)

Entonces, podemos calcular la probabilidad de que la persona tenga la enfermedad dado que ha dado positivo en la prueba utilizando la fórmula del Teorema de Bayes:

$P(enfermedad | positivo) = P(positivo | enfermedad) * P(enfermedad) / P(positivo)$

$P(enfermedad | positivo) = 0.9 * 0.01 / P(positivo)$

Ahora, necesitamos calcular la probabilidad de que la persona haya dado positivo en la prueba, independientemente de si tiene o no la enfermedad. Podemos hacer esto utilizando la Regla de la Probabilidad Total:

$P(positivo) = P(positivo | enfermedad) * P(enfermedad) + P(positivo | no enfermedad) * P(no enfermedad)$

$P(positivo) = 0.9 * 0.01 + 0.05 * 0.99$

$P(positivo) = 0.0585$

Por lo tanto, podemos calcular la probabilidad de que la persona tenga la enfermedad dado que ha dado positivo en la prueba:

$P(enfermedad | positivo) = 0.9 * 0.01 / 0.0585$

$P(enfermedad | positivo) = 0.154$

Es decir, la probabilidad de que la persona realmente tenga la enfermedad dado que ha dado positivo en la prueba es del `15.4%`.

## **Probabilidad total**

La Regla de la Probabilidad Total es una herramienta utilizada en estadística para calcular la probabilidad de un evento a partir de información de eventos relacionados. En Python, podemos utilizar diversas librerías para aplicar esta regla, como `NumPy` o `SciPy`.

La Regla de la Probabilidad Total establece que si tenemos dos o más eventos `A1`, `A2`, ..., `An` que son mutuamente excluyentes y exhaustivos, es decir, que uno y solo uno de ellos debe suceder, entonces la probabilidad de un evento `B` puede ser calculada sumando las probabilidades de `B` condicionado a cada uno de los eventos `Ai`, multiplicadas por la probabilidad de cada evento `Ai`. Es decir:

$P(B) = Σ P(B|Ai) * P(Ai)$ para `i=1` a `n`

**donde:**

* $P(B)$ es la probabilidad de que ocurra el evento `B`.

* $P(Ai)$ es la probabilidad de que ocurra el evento `Ai`.

* $P(B|Ai)$ es la probabilidad de que ocurra el evento `B` dado que ha ocurrido el evento `Ai`.

Veamos un ejemplo práctico:

Supongamos que una tienda de ropa vende tres tipos de camisas: rojas, verdes y azules. El `40%` de las camisas vendidas son rojas, el `30%` son verdes y el `30%` son azules. Además, se sabe que el `10%` de las camisas rojas están en oferta, el `20%` de las camisas verdes están en oferta y el `15%` de las camisas azules están en oferta.

Si un cliente compra una camisa en la tienda, ¿cuál es la probabilidad de que esté en oferta?

Para aplicar la Regla de la Probabilidad Total, podemos utilizar las siguientes probabilidades:

$P(roja) = 0.4

$P(verde) = 0.3

$P(azul) = 0.3$

$P(oferta | roja) = 0.1$

$P(oferta | verde) = 0.2$

$P(oferta | azul) = 0.15$

Entonces, podemos calcular la probabilidad de que una camisa esté en oferta utilizando la Regla de la Probabilidad Total:

$P(oferta) = P(oferta | roja) * P(roja) + P(oferta | verde) * P(verde) + P(oferta | azul) * P(azul)$

$P(oferta) = 0.1 * 0.4 + 0.2 * 0.3 + 0.15 * 0.3$

$P(oferta) = 0.105$

Por lo tanto, la probabilidad de que una camisa esté en oferta es del `10.5%`.

En Python, podemos calcular esta probabilidad utilizando las siguientes líneas de código:

In [1]:
P_roja = 0.4
P_verde = 0.3
P_azul = 0.3

P_oferta_dado_roja = 0.1
P_oferta_dado_verde = 0.2
P_oferta_dado_azul = 0.15

P_oferta = P_oferta_dado_roja * P_roja + P_oferta_dado_verde * P_verde + P_oferta_dado_azul * P_azul

print("La probabilidad de que una camisa esté en oferta es:", P_oferta)

La probabilidad de que una camisa esté en oferta es: 0.14500000000000002


## **Distribución Normal**

La distribución normal es una distribución de probabilidad continua que es muy común en estadística debido a su capacidad para describir muchos fenómenos naturales, como la altura de las personas, el peso de los objetos y el tiempo que tardan en completarse ciertas tareas. En Python, podemos utilizar la librería `SciPy` para trabajar con la distribución normal.

La distribución normal tiene una forma de campana y es simétrica en torno a su media. La media `(mu)` determina el punto donde se encuentra el centro de la campana, mientras que la desviación estándar `(sigma)` determina qué tan extendida es la campana. La probabilidad de que un valor se encuentre dentro de cierto rango en una distribución normal puede ser calculada utilizando la función de densidad de probabilidad `(PDF)` o la función de distribución acumulada `(CDF)`.

En Python, podemos generar una muestra aleatoria de una distribución normal utilizando la función `numpy.random.normal()` de la librería `NumPy`. Por ejemplo, para generar una muestra aleatoria de tamaño `100` con una media de `0` y una desviación estándar de `1`, podemos escribir lo siguiente:

In [2]:
import numpy as np

muestra = np.random.normal(0, 1, 100)
print(muestra)

[-2.78499259e-02  6.86758560e-01 -5.28589446e-01 -1.21155773e+00
 -2.01690635e-01  3.72853893e-01 -2.76735848e-01 -1.14368839e+00
 -1.31857677e+00 -1.73496776e-01 -5.72207352e-01 -1.07712351e+00
 -2.65010573e+00 -2.62916074e+00 -6.19783011e-01  2.38227949e-01
 -4.27442960e-01 -1.09099905e+00 -5.02699402e-01 -1.24189162e+00
  2.48885508e+00  8.44725850e-02  1.25531182e+00  3.81460786e-01
 -6.15587622e-01  2.14790131e+00  9.52744631e-01  9.44394012e-01
 -2.82669816e-01 -8.41776206e-01  9.18913762e-01 -1.38258538e-01
 -6.08374613e-01  3.44811156e-01  5.47971231e-01 -2.17209119e-01
  1.06414078e+00  2.03357942e+00  3.99683393e-01 -4.49179150e-01
  8.31983075e-01 -1.14325972e+00  1.28385821e+00 -2.83963778e-02
 -1.18616846e+00  1.45995896e+00  1.42476849e+00  1.59684113e+00
  7.16121820e-01  1.09330021e+00 -1.80243818e-03 -1.10192108e-01
 -2.03561966e+00  2.33667945e+00 -1.61802884e+00 -6.97007611e-01
  5.67445165e-01  7.44176867e-01 -1.65911341e-01 -1.65599720e+00
 -2.07164855e-01 -2.59440

Esto generará una lista de `100` números aleatorios que siguen una distribución normal con media `0` y desviación estándar `1`.

También podemos utilizar la función de densidad de probabilidad `(PDF)` y la función de distribución acumulada `(CDF)` para calcular probabilidades en una distribución normal. En Python, podemos utilizar las funciones `scipy.stats.norm.pdf()` y `scipy.stats.norm.cdf()` de la librería `SciPy`, respectivamente.

Por ejemplo, para calcular la probabilidad de que un valor aleatorio de una distribución normal con media `0` y desviación estándar `1` se encuentre entre `-1` y `1`, podemos escribir lo siguiente:

In [3]:
from scipy.stats import norm

probabilidad = norm.cdf(1) - norm.cdf(-1)
print(probabilidad)

0.6826894921370859


Esto imprimirá la probabilidad de que un valor aleatorio de la distribución normal se encuentre entre `-1` y `1`. La salida será:

`0.682689492137`

Esto significa que hay un `68.3%` de probabilidad de que un valor aleatorio de la distribución normal se encuentre entre `-1` y `1` desviaciones estándar de la media.

También podemos utilizar la función de densidad de probabilidad `(PDF)` para calcular la densidad de probabilidad en un punto específico de la distribución normal. Por ejemplo, para calcular la densidad de probabilidad en `x=0` en una distribución normal con media `0` y desviación estándar `1`, podemos escribir lo siguiente:



In [4]:
from scipy.stats import norm

densidad = norm.pdf(0)
print(densidad)

0.3989422804014327


Esto imprimirá la densidad de probabilidad en el punto `x=0` de la distribución normal. La salida será:

`0.398942280401`

## **Estadísticos muestrales TLC**

El Teorema del Límite Central `(TLC)` es un resultado importante en estadística que establece que, para cualquier población con una media finita `(mu)` y una desviación estándar finita `(sigma)`, la distribución de la media muestral se aproximará a una distribución normal a medida que el tamaño muestral aumenta. En otras palabras, esto significa que si tomamos muestras aleatorias de una población y calculamos las medias de esas muestras, la distribución de esas medias será una distribución normal.

En Python, podemos utilizar el `TLC` para hacer inferencias sobre una población desconocida utilizando una muestra aleatoria de esa población. Por ejemplo, si queremos estimar la media de una población, podemos tomar una muestra aleatoria de esa población y calcular la media muestral. Dado que la distribución de la media muestral se aproxima a una distribución normal, podemos utilizar la distribución normal para calcular intervalos de confianza y realizar pruebas de hipótesis.

En Python, podemos utilizar la librería `NumPy` para generar muestras aleatorias de una población y calcular estadísticos muestrales como la media y la desviación estándar. Por ejemplo, para generar una muestra aleatoria de tamaño `1000` de una población con media `0` y desviación estándar `1`, podemos escribir lo siguiente:

In [7]:
import numpy as np

muestra = np.random.normal(0, 1, 1000)
print(muestra)

[-0.8160827  -0.47689513 -1.29272641 -0.46213432 -1.7667101  -0.76971813
 -0.44931068 -0.41486142  1.17567293 -0.20437424  0.79990894  0.59646347
  1.04202189 -0.45925527  2.13145576 -0.87746549 -0.66492062 -0.85829881
  0.43412278  0.71942562  0.94347714  2.78250477  0.96259579 -1.29914443
 -0.04946851 -1.23873016 -0.10398239  0.28296325  0.33821635  0.81720171
  0.47442673  0.31258909  0.34096603  0.41436544  0.75806263 -1.04475237
  0.61092583  0.09863773 -0.69756316 -0.4224592   1.63968009  1.5730033
 -0.73883108  0.43418128 -1.11584257 -2.20509196  0.92873187  1.52066195
 -0.65380278 -0.29500747 -1.02783808 -0.47727999 -1.22544636  1.20035419
 -1.55631536  2.01915382  0.31133179  0.02322644 -2.21787102  0.55724903
 -0.22919307 -0.78181381  0.27089675  0.54821961  0.37625937  1.1689861
 -1.44505353  0.2411782   0.39484746  0.8833146  -0.14842075  0.42340176
 -0.91773914 -2.0515454  -0.96087126 -1.12496432  0.56211773 -0.65305419
 -1.20200234  1.04812746 -0.6907243   1.68408545 -0.0

Esto generará una lista de `1000` números aleatorios que siguen una distribución normal con media `0` y desviación estándar `1`.

A continuación, podemos calcular la media y la desviación estándar de esta muestra utilizando las funciones `numpy.mean()` y `numpy.std()`, respectivamente:

In [8]:
media = np.mean(muestra)
desviacion_estandar = np.std(muestra)
print(desviacion_estandar)

0.9322928682804769


También podemos utilizar el `TLC` para calcular intervalos de confianza y realizar pruebas de hipótesis. Por ejemplo, para calcular un intervalo de confianza del `95%` para la media de una población con media desconocida y desviación estándar conocida, podemos utilizar la distribución normal estándar y la fórmula:

$intervalo de confianza = media muestral +/- (valor crítico)*(desviación estándar/sqrt(n))$

Donde el valor crítico es el valor de la distribución normal estándar que corresponde al nivel de confianza deseado. En este caso, el valor crítico es `1.96` para un nivel de confianza del `95%`. Entonces, para calcular el intervalo de confianza, podemos escribir lo siguiente:

In [9]:
from scipy.stats import norm

n = 1000
nivel_confianza = 0.95
valor_critico = norm.ppf((1 + nivel_confianza) / 2)

intervalo_superior = media + (valor_critico * (desviacion_estandar / np.sqrt(n)))
intervalo_inferior = media - (valor_critico * (desviacion_estandar / np.sqrt(n)))

print("Intervalo de confianza del 95% para la media de la población:", intervalo_inferior, "-", intervalo_superior)

Intervalo de confianza del 95% para la media de la población: -0.02399654143529474 - 0.09156955624734736


## **Calculo de estadísticos muestrales**

El cálculo de estadísticos muestrales es una parte importante del análisis estadístico que nos permite resumir y entender las propiedades de una muestra de datos. Los estadísticos muestrales son valores numéricos calculados a partir de una muestra de datos que se utilizan para hacer inferencias sobre la población subyacente de la cual se extrajo la muestra.

En Python, podemos utilizar la librería `NumPy` para calcular estadísticos muestrales como la media, la mediana, la moda, la varianza y la desviación estándar. A continuación se muestran algunos ejemplos de cómo calcular estos estadísticos muestrales en Python.

* **Media:**

La media muestral es simplemente la suma de los valores en la muestra dividida por el tamaño de la muestra. Podemos calcular la media en Python utilizando la función `numpy.mean()`. Por ejemplo, para calcular la media de una muestra de `100` valores aleatorios de una distribución normal con media `0` y desviación estándar `1`, podemos escribir lo siguiente:

In [10]:
import numpy as np

muestra = np.random.normal(0, 1, 100)
media = np.mean(muestra)
print("La media de la muestra es:", media)

La media de la muestra es: 0.17810315935506946


* **Mediana:**

La mediana es el valor medio en una muestra ordenada. Podemos calcular la mediana en Python utilizando la función `numpy.median()`. Por ejemplo, para calcular la mediana de una muestra de `100` valores aleatorios de una distribución normal con media `0` y desviación estándar `1`, podemos escribir lo siguiente:

In [11]:
import numpy as np

muestra = np.random.normal(0, 1, 100)
mediana = np.median(muestra)
print("La mediana de la muestra es:", mediana)

La mediana de la muestra es: -0.12391524821406771


* **Moda:**

La moda es el valor más común en una muestra. Podemos calcular la moda en Python utilizando la función `scipy.stats.mode()`. Por ejemplo, para calcular la moda de una muestra de `100` valores aleatorios de una distribución normal con media `0` y desviación estándar `1`, podemos escribir lo siguiente:

In [12]:
import numpy as np
from scipy.stats import mode

muestra = np.random.normal(0, 1, 100)
moda = mode(muestra)
print("La moda de la muestra es:", moda.mode)

La moda de la muestra es: [-2.9288559]


* **Varianza y desviación estándar:**

La varianza es una medida de la dispersión de los valores en una muestra, mientras que la desviación estándar es simplemente la raíz cuadrada de la varianza. Podemos calcular la varianza y la desviación estándar en Python utilizando las funciones `numpy.var()` y `numpy.std()`, respectivamente. Por ejemplo, para calcular la varianza y la desviación estándar de una muestra de `100` valores aleatorios de una distribución normal con media `0` y desviación estándar `1`, podemos escribir lo siguiente:

In [13]:
import numpy as np

muestra = np.random.normal(0, 1, 100)
varianza = np.var(muestra)
desviacion_estandar = np.std(muestra)
print("La varianza de la muestra es:", varianza)
print("La desviación estándar de la muestra es:", desviacion_estandar)

La varianza de la muestra es: 0.9503731954650145
La desviación estándar de la muestra es: 0.9748708609169804


## **Prueba de Hipótesis**

La prueba de hipótesis es una técnica estadística que se utiliza para determinar si una afirmación sobre una población es verdadera o no, basándose en la evidencia proporcionada por una muestra de datos. El proceso consiste en plantear dos hipótesis: una hipótesis nula `(H0)` y una hipótesis alternativa `(H1)`. La hipótesis nula es una afirmación que se supone que es verdadera hasta que se demuestre lo contrario, mientras que la hipótesis alternativa es una afirmación que se desea demostrar. Luego, se recolecta una muestra de datos y se utiliza esta muestra para evaluar la probabilidad de que la hipótesis nula sea verdadera.

En Python, podemos utilizar la librería `scipy.stats` para realizar pruebas de hipótesis. A continuación, se muestra un ejemplo de cómo realizar una prueba de hipótesis para la media de una población.

Supongamos que se tiene una muestra de `50` observaciones de una población normal con una media desconocida. Queremos probar si la media de la población es igual a `5`. Para hacerlo, planteamos las siguientes hipótesis:

* `H0:` la media de la población es igual a 5.

* `H1:` la media de la población es diferente de 5.

Podemos utilizar una prueba `t` de una muestra para evaluar estas hipótesis. Para hacerlo, podemos utilizar la función `scipy.stats.ttest_1samp()` de la siguiente manera:

In [14]:
import numpy as np
from scipy.stats import ttest_1samp

# Definimos nuestra muestra
muestra = np.random.normal(4.8, 1, 50)

# Realizamos la prueba de hipótesis
resultado_prueba = ttest_1samp(muestra, 5)

# Imprimimos el resultado de la prueba
print("Estadístico de prueba:", resultado_prueba.statistic)
print("Valor p:", resultado_prueba.pvalue)

Estadístico de prueba: -1.119695424054004
Valor p: 0.26830213250661944


En este ejemplo, la función `ttest_1samp()` toma dos argumentos: la muestra de datos y el valor de la hipótesis nula (en este caso, 5). La función devuelve dos valores: el estadístico de prueba y el valor `p`. El estadístico de prueba se utiliza para calcular el valor `p`, que es la probabilidad de obtener una muestra como la que se observó si la hipótesis nula fuera verdadera. Si el valor `p` es menor que un nivel de significancia predefinido (por ejemplo, `0.05`), entonces se rechaza la hipótesis nula y se acepta la hipótesis alternativa.

En este ejemplo, el valor `p` es mayor que `0.05`, lo que significa que no hay suficiente evidencia para rechazar la hipótesis nula de que la media de la población es igual a `5`. Por lo tanto, podemos concluir que no hay suficiente evidencia para afirmar que la media de la población es diferente de `5`.

## **Hipótesis nula**

En estadística, la hipótesis nula `(H0)` es una afirmación que se supone que es verdadera hasta que se demuestre lo contrario. Es la hipótesis que se contrasta con la hipótesis alternativa `(H1)` en una prueba de hipótesis. En general, se utiliza la hipótesis nula para establecer un punto de partida, y la hipótesis alternativa para afirmar lo que se desea demostrar.

Por ejemplo, supongamos que se desea evaluar si un nuevo tratamiento para reducir la presión arterial es efectivo. La hipótesis nula en este caso podría ser que el nuevo tratamiento no tiene ningún efecto en la reducción de la presión arterial, mientras que la hipótesis alternativa podría ser que el nuevo tratamiento es efectivo para reducir la presión arterial.

En Python, podemos utilizar la librería `scipy.stats` para realizar pruebas de hipótesis y evaluar la hipótesis nula. A continuación, se muestra un ejemplo de cómo evaluar la hipótesis nula para una prueba de hipótesis de dos muestras.

Supongamos que se tienen dos muestras de datos de dos poblaciones diferentes, y se desea evaluar si las medias de estas dos poblaciones son iguales. La hipótesis nula en este caso es que las medias de las dos poblaciones son iguales, mientras que la hipótesis alternativa es que las medias son diferentes. Podemos utilizar la prueba `t` de dos muestras para evaluar estas hipótesis. Para hacerlo, podemos utilizar la función `scipy.stats.ttest_ind()` de la siguiente manera:

In [15]:
import numpy as np
from scipy.stats import ttest_ind

# Definimos nuestras dos muestras
muestra1 = np.random.normal(5, 1, 50)
muestra2 = np.random.normal(4.5, 1, 50)

# Realizamos la prueba de hipótesis
resultado_prueba = ttest_ind(muestra1, muestra2)

# Imprimimos el resultado de la prueba
print("Estadístico de prueba:", resultado_prueba.statistic)
print("Valor p:", resultado_prueba.pvalue)

Estadístico de prueba: 2.3676200978734525
Valor p: 0.019866877383392916


En este ejemplo, la función `ttest_ind()` toma dos argumentos: las dos muestras de datos que se desean comparar. La función devuelve dos valores: el estadístico de prueba y el valor `p`. Si el valor `p` es menor que un nivel de significancia predefinido (por ejemplo, 0.05), entonces se rechaza la hipótesis nula y se acepta la hipótesis alternativa.

En este ejemplo, si el valor `p` es mayor que `0.05`, entonces no hay suficiente evidencia para rechazar la hipótesis nula de que las medias de las dos poblaciones son iguales. Por lo tanto, podemos concluir que no hay suficiente evidencia para afirmar que las medias son diferentes. La hipótesis nula es la afirmación que se mantiene en este caso.

## **Prueba de hipótesis**

En estadística, la prueba de hipótesis es un proceso mediante el cual se evalúa la evidencia a favor o en contra de una afirmación (hipótesis) sobre un parámetro poblacional utilizando los datos de una muestra. El objetivo de una prueba de hipótesis es determinar si los datos proporcionan suficiente evidencia para rechazar la hipótesis nula `(H0)` en favor de una hipótesis alternativa `(H1)`.

En Python, podemos utilizar la librería `scipy.stats` para realizar pruebas de hipótesis. A continuación, se muestra un ejemplo de cómo realizar una prueba de hipótesis de una muestra utilizando la prueba `t`.

Supongamos que se tiene una muestra de datos de una población y se desea evaluar si la media de esta población es igual a un valor específico. La hipótesis nula en este caso es que la media de la población es igual al valor específico, mientras que la hipótesis alternativa es que la media es diferente. Podemos utilizar la prueba `t` para evaluar estas hipótesis. Para hacerlo, podemos utilizar la función `scipy.stats.ttest_1samp()` de la siguiente manera:

In [16]:
import numpy as np
from scipy.stats import ttest_1samp

# Definimos nuestra muestra de datos
muestra = np.random.normal(10, 2, 100)

# Realizamos la prueba de hipótesis
resultado_prueba = ttest_1samp(muestra, 9)

# Imprimimos el resultado de la prueba
print("Estadístico de prueba:", resultado_prueba.statistic)
print("Valor p:", resultado_prueba.pvalue)

Estadístico de prueba: 6.945813914266085
Valor p: 4.0080313563549304e-10


En este ejemplo, la función `ttest_1samp()` toma dos argumentos: la muestra de datos y el valor de la hipótesis nula. La función devuelve dos valores: el estadístico de prueba y el valor `p`. Si el valor `p` es menor que un nivel de significancia predefinido (por ejemplo, 0.05), entonces se rechaza la hipótesis nula y se acepta la hipótesis alternativa.

En este ejemplo, si el valor `p` es menor que `0.05`, entonces hay suficiente evidencia para rechazar la hipótesis nula de que la media de la población es igual a `9`. Por lo tanto, podemos concluir que la media de la población es diferente de `9`. La hipótesis alternativa es la afirmación que se acepta en este caso.

Es importante tener en cuenta que el nivel de significancia es un umbral predefinido que se utiliza para determinar cuándo se debe rechazar la hipótesis nula. Este umbral generalmente se establece en `0.05`, lo que significa que si el valor `p` es menor que `0.05`, se rechaza la hipótesis nula. Sin embargo, el nivel de significancia también puede ser ajustado para aumentar o disminuir la probabilidad de cometer un error de tipo `I` (rechazar la hipótesis nula cuando es verdadera) o un error de tipo `II` (aceptar la hipótesis nula cuando es falsa).

| **Inicio** | **atrás 3** | **Siguiente 5** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./3.Algebra_Lineal.ipynb)| [⏩](./5.Resumen.ipynb)|