 # **<font color="DarkBlue">Generación de muestras aleatorias</font>**

<p align="center">
<img src="https://numpy.org/images/logo.svg" width="80" height="">
</p>


https://numpy.org

<p align="justify">
✅ La generación de números aleatorios es fundamental en estadística y simulación de experimentos. <code>NumPy</code> proporciona una amplia gama de funciones en el módulo <code>numpy.random</code> para generar muestras aleatorias de diferentes distribuciones.
<br><br>
👀 A continuación, se presentan algunas distribuciones comunes y ejemplos de su aplicación:

<p align="justify"> 👀 Por convención, de esta manera se importa <code>Numpy</code> y se importa <code>plotly</code> que vamos a utilizar para visualizar:  </p>

In [None]:
import numpy as np

In [None]:
import plotly.express as px

 ## **<font color="DarkBlue">Distribución uniforme</font>**

<p align="justify">
✅ La distribución uniforme genera números aleatorios en un rango especificado con igual probabilidad. Esto puede ser útil para simular eventos donde todas las posibilidades son igualmente probables.
<br><br>
La distribución uniforme es un tipo de distribución de probabilidad en la que todos los valores dentro de un rango específico son igualmente probables. Para una variable aleatoria \( X \) con una distribución uniforme continua en el intervalo \([a, b]\), la función de densidad de probabilidad (pdf) se define como:
<br><br>
$$ f(x) =
\begin{cases}
\frac{1}{b - a} & \text{si } a \leq x \leq b \\
0 & \text{en otro caso}
\end{cases}
$$
<br><br>
donde \( a \) y \( b \) son los límites inferior y superior del intervalo, respectivamente. La distribución uniforme puede ser discreta o continua, dependiendo de si los valores posibles de la variable aleatoria son finitos o infinitos.
<br><br>
La distribución uniforme puede ser utilizada para modelar situaciones en las que todos los resultados posibles son igualmente probables. Un ejemplo común es la simulación de precios de mercado en ausencia de información sobre la demanda y la oferta, donde se asume que cualquier precio dentro de un rango específico es igualmente probable. Esto puede ayudar en la evaluación de riesgos y en la toma de decisiones bajo incertidumbre.


<p align="justify">
👀 Por ejemplo, supongamos que queremos modelar la distribución de tiempos de espera de los clientes en una tienda, donde los clientes pueden llegar en cualquier momento dentro de un intervalo de tiempo específico.

In [None]:
np.random.seed(0)

In [None]:
# Generar datos de tiempos de espera de los clientes (distribución uniforme)

tiempos_espera = np.random.uniform(low=0, high=30, size=1000)  # Tiempos de espera en minutos, de 0 a 30 minutos

In [None]:
px.histogram(x = tiempos_espera,
             title="Distribución Uniforme de tiempos de espera de clientes",
             labels={"x":"Tiempo de Espera (minutos)"},
             template="gridon").update_layout(bargap=0.2)

 ## **<font color="DarkBlue">Distribución normal</font>**

✅ La distribución normal es una de las distribuciones más importantes en estadística y modelado de datos. Puede representar muchos fenómenos en la naturaleza y los negocios, como la altura de las personas o los ingresos de una población.
<br><br>
La distribución normal, también conocida como distribución de Gauss, es una distribución de probabilidad continua que se caracteriza por su forma de campana simétrica. Para una variable aleatoria $X $ con una distribución normal, la función de densidad de probabilidad se define como:
<br><br>
$$ f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2 \sigma^2}\right) $$
<br>
donde:
- $ \mu $ es la media de la distribución,
- $ \sigma $ es la desviación estándar,
- $ \sigma^2 $ es la varianza,
- $ \exp $ es la función exponencial.

<p align="justify">
<br>
La distribución normal es fundamental en la estadística y la probabilidad debido a su relación con el teorema central del límite, que establece que, bajo ciertas condiciones, la suma de muchas variables aleatorias independientes y identicamente distribuidas tiende a una distribución normal, independientemente de la distribución original de las variables.
<br><br>
La distribución normal es ampliamente utilizada en diversas áreas para modelar fenómenos naturales y procesos industriales. Un ejemplo común es la modelación de los retornos de inversión en mercados financieros, donde se asume que los retornos siguen una distribución normal. Esto permite realizar análisis de riesgo y optimización de carteras, basados en la probabilidad de diferentes niveles de retorno y la volatilidad asociada.
<br><br>
👀 Por ejemplo, supongamos que queremos simular los ingresos anuales de una muestra de empleados de una empresa:


In [None]:
# Simular ingresos anuales de una muestra de empleados
np.random.seed(0)
ingresos_anuales = np.random.normal(loc=90000, scale=10000, size=400).round(2)

In [None]:
px.histogram(x = ingresos_anuales,
             title="Distribución ingresos anuales de empleados",
             labels={"x":"Ingresos anuales"},
             template="gridon").update_layout(bargap=0.2)

<p align="justify">
👀 Otro ejemplo, supongamos que queremos modelar la distribución de la altura de los clientes de una tienda de camisas para determinar el tamaño promedio que deberíamos tener en stock....

In [None]:
# Generar datos de altura de los clientes (distribución normal)
altura_clientes = np.random.normal(loc=170, scale=10, size=1000)

In [None]:
px.histogram(x=altura_clientes,
             nbins=30,
             title="Distribución de altura de los clientes",
             labels={"x":"Altura (cm)"},
             template="gridon").update_layout(bargap=0.2)

 ## **<font color="DarkBlue">Distribución binomial</font>**

<p align="justify">
✅ La distribución binomial modela el número de éxitos en una serie de ensayos independientes con una probabilidad de éxito constante.
<br><br>
La distribución binomial es una distribución de probabilidad discreta que describe el número de éxitos en una secuencia de $ n $ experimentos de Bernoulli independientes, cada uno con una probabilidad de éxito $ p $. La función de masa de probabilidad  para una variable aleatoria $ X $ con una distribución binomial se define como:
<br><br>
\[ P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k} \]
<br><br>
donde:

- $ \binom{n}{k} $ es el coeficiente binomial, que se calcula como $ \frac{n!}{k!(n - k)!} $,
- $ n $ es el número de experimentos,
- $ k $ es el número de éxitos,
- $ p $ es la probabilidad de éxito en cada experimento,
- $ 1 - p $ es la probabilidad de fracaso.

<p align="justify">
<br>
La distribución binomial es útil para modelar situaciones en las que hay dos posibles resultados (éxito o fracaso) en una serie de experimentos repetidos de manera independiente.
<br><br>
Un ejemplo común es la evaluación del número de ventas exitosas en una serie de llamadas de telemarketing, donde cada llamada puede resultar en una venta (éxito) o no (fracaso), y la probabilidad de éxito es constante para cada llamada. Esto puede ayudar en la planificación de estrategias de ventas y en la estimación de ingresos futuros basados en la probabilidad de éxito y el número de intentos.
<br><br>
👀 Por ejemplo, supongamos que queremos simular el número de clientes que compran un producto en una tienda en línea durante una hora:


In [None]:
# Simular el número de clientes que compran un producto en una tienda en línea durante una hora
np.random.seed(0)
num_clientes = np.random.binomial(n=100, p=0.1, size=1)
num_clientes

array([10])

<p align="justify">
👀 Otro ejemplo, supongamos que queremos modelar la probabilidad de que un cliente realice una compra en una tienda en línea, donde la probabilidad de compra es del 30% y realizamos 100 intentos de compra...

In [None]:
# Simular el número de clientes que compran un producto en una tienda en línea
num_clientes_compran = np.random.binomial(n=100, p=0.3, size=800)

In [None]:
px.histogram(x = num_clientes_compran,
             nbins = 20,
             title="Número de clientes que compran un producto",
             labels={"x":"Número de Clientes que Compran"},
             template="gridon").update_layout(bargap=0.2)

 ## **<font color="DarkBlue">Distribución de Poisson</font>**

<p align="justify">
✅ La distribución de Poisson modela el número de eventos que ocurren en un intervalo de tiempo o espacio fijo, dado que los eventos ocurren a una tasa constante e independientemente del tiempo o espacio.
<br><br>
La distribución de Poisson es una distribución de probabilidad discreta que describe el número de eventos que ocurren en un intervalo de tiempo o espacio fijo, cuando estos eventos ocurren con una tasa promedio constante y de manera independiente unos de otros. La función de masa de probabilidad para una variable aleatoria $ X $ con una distribución de Poisson se define como:
<br><br>
\[ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} \]

donde:
- $ \lambda $ es la tasa promedio de ocurrencia de eventos,
- $ k $ es el número de eventos,
- $ e $ es la base del logaritmo natural (aproximadamente 2.71828),
- $ k! $ es el factorial de $ k $.

<p align="justify">
<br>
La distribución de Poisson es útil para modelar situaciones en las que se cuenta el número de eventos que ocurren en un intervalo determinado.
<br><br>
Un ejemplo común es la modelación del número de llegadas de clientes a un banco en una hora determinada, donde se asume que las llegadas son independientes y ocurren con una tasa promedio constante. Esto puede ayudar en la planificación de recursos, como la dotación de personal, para asegurar un servicio eficiente basado en la tasa esperada de llegadas.
<br><br>
👀 Por ejemplo, supongamos que queremos simular el número de llamadas de servicio al cliente recibidas en una hora`


In [None]:
# Simular el número de llamadas de servicio al cliente recibidas en una hora
np.random.seed(0)
num_llamadas = np.random.poisson(lam=10, size=1)
num_llamadas

array([6])

- **lam $=10$**: Este es el parámetro λ de la distribución de Poisson, que representa la tasa promedio de ocurrencia de eventos. En este caso, se asume que, en promedio, se reciben 10 llamadas de servicio al cliente por hora.
- **size $=1$**: Esto especifica el número de muestras a generar. En este caso, se genera una sola muestra.

<p align="justify">
👀 Otro ejemplo, supongamos que queremos modelar el número de llamadas de servicio al cliente recibidas en una hora, donde recibimos un promedio de 10 llamadas por hora, pero generamos 1000 muestras.


In [None]:
# Simular el número de llamadas de servicio al cliente recibidas en una hora
np.random.seed(0)
num_llamadas = np.random.poisson(lam=10, size=1000)

In [None]:
px.histogram(x = num_llamadas,
             nbins=20,
             title="Distribución de Poisson de llamadas de Servicio al Cliente",
             labels={"x":"Número de llamadas"},
             template="gridon").update_layout(bargap=0.2)

 # **<font color="DarkBlue">Cálculo de medidas de tendencia central y dispersión</font>**

<p align="justify">
✅ Las medidas de tendencia central y dispersión son fundamentales en estadística para resumir y comprender la distribución de los datos. NumPy proporciona funciones para calcular estas medidas de manera eficiente. Son herramientas estadísticas fundamentales que se utilizan para describir y resumir conjuntos de datos.
<br><br>
A continuación, se presenta cómo calcular y utilizar estas medidas en contextos empresariales:
</p>

 ## **<font color="DarkBlue">Medidas de tendencia central</font>**

 ### **<font color="DarkBlue">Media (Promedio)</font>**

<p align="justify">
✅ La media es la suma de todos los valores dividida por el número de valores. Es útil para calcular el valor promedio de un conjunto de datos.
<br><br>
  $$
  \text{Media} = \frac{\sum_{i=1}^{n} x_i}{n}
  $$

<br>

donde:
- $ x_i $ son los valores del conjunto y
- $ n $ es el número total de valores.

<p align="justify">
<br>
👀 Por ejemplo, para calcular el promedio de las ventas mensuales de una empresa...


In [None]:
# Ventas mensuales de una empresa en miles de dólares

ventas_mensuales = np.array([100, 120, 110, 130, 140])
ventas_mensuales

array([100, 120, 110, 130, 140])

In [None]:
# Calcular la media de las ventas mensuales

media_ventas = np.mean(ventas_mensuales)
media_ventas

120.0

 ### **<font color="DarkBlue">Mediana</font>**

<p align="justify">
✅ La mediana es el valor que se encuentra en el centro de un conjunto de datos ordenados. Es útil cuando los datos están sesgados o tienen valores atípicos. Es el valor que se encuentra en el medio de un conjunto de datos ordenados.
<br><br>
Si el número de observaciones es impar, la mediana es el valor central. Si es par, la mediana se calcula como el promedio de los dos valores centrales.
<br><br>
  $$
  \text{Mediana} =
  \begin{cases}
  x_{\frac{n+1}{2}} & \text{si } n \text{ es impar} \\
  \frac{x_{\frac{n}{2}} + x_{\frac{n}{2} + 1}}{2} & \text{si } n \text{ es par}
  \end{cases}
  $$
<br><br>
👀 Por ejemplo, para calcular la mediana de los ingresos anuales de una muestra de empleados...


In [None]:
# Ingresos anuales de una muestra de empleados en miles de dólares

ingresos_anuales = np.array([40000, 50000, 60000, 70000, 80000, 90000, 100000])
ingresos_anuales

array([ 40000,  50000,  60000,  70000,  80000,  90000, 100000])

In [None]:
# Calcular la mediana de los ingresos anuales

mediana_ingresos = np.median(ingresos_anuales)
mediana_ingresos

70000.0

 ### **<font color="DarkBlue">Moda</font>**

<p align="justify">
✅ La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. Es útil para identificar patrones de comportamiento.
<br><br>
👀 Por ejemplo, para calcular la moda de los productos más vendidos en una tienda:


In [None]:
# Número de ventas diarias de diferentes productos en una tienda

ventas_diarias = np.array([20, 30, 25, 25, 40, 30, 30, 25, 40, 25, 30, 30, 45, 45, 30])
ventas_diarias

array([20, 30, 25, 25, 40, 30, 30, 25, 40, 25, 30, 30, 45, 45, 30])

In [None]:
# Calcular la moda de las ventas diarias

moda_ventas = np.argmax(np.bincount(ventas_diarias))
moda_ventas

30

 ## **<font color="DarkBlue">Medidas de dispersión</font>**

 ### **<font color="DarkBlue">Varianza</font>**

<p align="justify">
✅ La varianza mide la dispersión de los datos con respecto a la media. Es útil para comprender la dispersión de los datos. Mide la variabilidad de los datos respecto a la media. Se calcula como el promedio de las diferencias al cuadrado entre cada valor y la media.
<br><br>
  $$
  \text{Varianza} = \frac{\sum_{i=1}^{n} (x_i - \text{Media})^2}{n}
  $$
<br>
👀 Por ejemplo, para calcular la varianza de los tiempos de entrega de los pedidos de una empresa:


In [None]:
# Tiempos de entrega de los pedidos en días

tiempos_entrega = np.array([2, 3, 2, 4, 3, 5, 2, 5, 3, 6, 3, 2, 5, 4])
tiempos_entrega

array([2, 3, 2, 4, 3, 5, 2, 5, 3, 6, 3, 2, 5, 4])

In [None]:
# Calcular la varianza de los tiempos de entrega

varianza_tiempos_entrega = np.var(tiempos_entrega)
varianza_tiempos_entrega.round(2)

1.68

 ### **<font color="DarkBlue">Desviación estándar</font>**

<p align="justify">
✅ La desviación estándar es la raíz cuadrada de la varianza. Proporciona una medida de dispersión en la misma unidad que los datos originales. Una desviación estándar alta indica que los datos están más dispersos.
<br><br>
  $$
  \text{Desviación Estándar} = \sqrt{\text{Varianza}}
  $$
<br>
👀 Por ejemplo, para calcular la desviación estándar de los precios de los productos en una tienda...


In [None]:
# Precios de los productos en una tienda en dólares

precios_productos = np.array([20, 25, 30, 35, 40, 35, 40, 20])
precios_productos

array([20, 25, 30, 35, 40, 35, 40, 20])

In [None]:
# Calcular la desviación estándar de los precios de los productos

desviacion_precios = np.std(precios_productos)
desviacion_precios.round(2)

7.68

<br>
<br>
<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro colab, a seguir codeando en NumPy...
</font>
</p>
