# Distribución Normal

## Objetivos

Aplicar herramientas estadísticas para analizar si una variable se distribuye normalmente y calcular probabilidades, utilizando Python como apoyo.

## Actividad 1

Una empresa de telecomunicaciones está evaluando los pagos mensuales realizados por sus clientes en los últimos 12 meses. Los datos provienen de distintas compañías y abarcan una muestra de más de 500 clientes. El equipo de analistas necesita saber si el pago mensual se comporta como una variable normalmente distribuida, ya que algunas decisiones estadísticas y operativas requieren este supuesto.

Descarga **<a href="https://docs.google.com/spreadsheets/d/1eJ_4kf_vWJ9PVIzxiq7cN_B7qdZRFy21/export?format=xlsx
">base de datos aquí</a>** y responde las siguientes preguntas:

In [None]:
import pandas as pd
df_1 = pd.read_excel('Base8_1.xlsx')
df_1.head()

Unnamed: 0,id Cliente,Pago mensual ($),Género,Compañía,Permanencia en la compañía (años),Gama
0,28866,23209,Femenino,ENTEL,2,Baja
1,18840,19454,Femenino,ENTEL,5,Media
2,52883,17353,Femenino,ENTEL,3,Media
3,86965,19341,Femenino,ENTEL,1,Baja
4,57092,20582,Masculino,WOM,1,Baja


1. Calcula la media, la mediana y la moda de la variable Pago mensual. ¿Los valores obtenidos son similares entre sí? Analiza lo que esto indica sobre la simetría de la distribución de los datos.

In [None]:
#Cálculo de media, mediana y moda
media_1 = df_1['Pago mensual ($)'].mean()
mediana_1 = df_1['Pago mensual ($)'].median()
moda_1 = df_1['Pago mensual ($)'].mode()

print(f'Media: ${media_1:.0f}\nMediana: ${mediana_1}')

#Para comprobar si la moda es única utilizaremos un condicional en el print
if len(moda_1) == 1:
  print(f'Moda: ${moda_1.to_list()[0]}') # .to_list() convierte la Serie guardada en moda_1
                                         #en una lista (así podemos acceder a sus valores, como el primero con [0]).
else:
  print(f'Moda: ${moda_1.to_list()}')

#Calcularemos además el máximo y mínimo del pago mensual
minimo_1 = df_1['Pago mensual ($)'].min()
maximo_1 = df_1['Pago mensual ($)'].max()

print(f'\nMínimo: ${minimo_1}\nMáximo: ${maximo_1}')

Media: $21308
Mediana: $21324.0
Moda: $22564

Mínimo: $10676
Máximo: $32221


Considerando que el rango de la variable va entre \$10.676 y \$32.221, las medidas de tendencia central (media: \$21.308, mediana: \$ 21.324, moda: \$22.564) son relativamente cercanas entre sí, lo que sugiere que los valores del Pago mensual distribuyen de forma simétrica en torno al centro de la distribución. Además, la variable tiene solo una moda, lo que es coherente con el comportamiento de una distribución normal.

Estos resultados sugieren que la variable Pago mensual podría seguir una distribución aproximadamente normal, aunque es necesario analizar el coeficiente de asimetría y curtosis para confirmarlo.

2. Calcula e interpreta el coeficiente de asimetría y el coeficiente de curtosis para la variable Pago mensual. ¿Estos valores son consistentes con los esperados en una distribución normal? Justifica tu respuesta.

In [None]:
#Importamos las funciones para calcular la asimetría y la curtosis
from scipy.stats import skew, kurtosis

asimetria_1 = skew(df_1['Pago mensual ($)'])
curtosis_1 = kurtosis(df_1['Pago mensual ($)'])

print(f'Asimetría: {asimetria_1:.2f}\nCurtosis: {curtosis_1:.2f}')

Asimetría: 0.03
Curtosis: 0.10


El coeficiente de asimetría (0,03) está entre -0,5 y 0,5, lo que indica que la distribución es aproximadamente simétrica con respecto a su media: hay aproximadamente la misma cantidad de datos por debajo y por encima del promedio.

El coeficiente de curtosis (0,10) también está entre -0,5 y 0,5, por lo tanto, la variable es mesocúrtica. Esto quiere decir que la forma de la distribución, en términos de altura, es similar a una distribución normal.

Por lo tanto, ambas medidas sugieren que la variable cumple los criterios de simetría y altura esperados en una distribución normal.

3. Observa el siguiente histograma correspondiente a la variable Pago mensual. ¿Los resultados obtenidos en los incisos anteriores son coherentes con forma del gráfico?  Describe brevemente su simetría y la forma de la distribución.

<center>

<img src = "https://i.ibb.co/VY8CgNZB/Captura-de-pantalla-2025-10-07-155703.png" width = "800"/>
</center>

La forma del gráfico es simétrica y se asemeja a una campana. La mayor concentración de datos está en el centro del gráfico, y la distribución es unimodal. Esto es coherente con lo analizado en los incisos anteriores, por lo tanto, se puede concluir que la variable Pago mensual se aproxima a una distribución normal.

4. Considerando que la variable Pago mensual sigue una distribución aproximadamente normal, responde las siguientes preguntas:

$\hspace{1cm}$ a)  ¿Cuál es la probabilidad de que un cliente pague menos de \$18.000 al mes?

$\hspace{1cm}$ b) ¿Cuál es la probabilidad de que un cliente pague más de \$25.000 al mes?

$\hspace{1cm}$ c) ¿Cuál es la probabilidad de que un cliente pague entre \$20.000 y \$24.000 al mes?

In [None]:
#Para calcular probabilidades utilizaremos la función norm de scipy.stats
from scipy.stats import norm

media_1 = df_1['Pago mensual ($)'].mean()
desviacion_1 = df_1['Pago mensual ($)'].std()

#Inciso 4 a) P(X < $18.000)
p_menor_18000 = norm.cdf(18000, media_1, desviacion_1) * 100

#Inciso 4 b) P(X > $25.000)
p_mayor_25000 = (1 - norm.cdf(25000, media_1, desviacion_1)) * 100

#Inciso 4 c) P($20.000 <= X <= $24.000)
p_entre_1 = (norm.cdf(24000, media_1, desviacion_1) - norm.cdf(20000, media_1, desviacion_1)) * 100

print(f'P(x < 18000): {p_menor_18000:.1f}%')
print(f'P(x > 25000): {p_mayor_25000:.1f}%')
print(f'P(20000 \u2264 x \u2264 24000): {p_entre_1:.1f}%')

P(x < 18000): 17.1%
P(x > 25000): 14.5%
P(20000 ≤ x ≤ 24000): 42.6%


La probabilidad de que un cliente pague menos de \$18.000 mensuales es de 17,1%.

La probabilidad de que un cliente pague más de \$25.000 al mes es de 14,5%.

La probabilidad de que un cliente pague entre \$20.000 y \$24.000 es de 42,6%.

5. La empresa desea lanzar un nuevo plan promocional dirigido a clientes cuyo pago mensual se encuentra entre \$20.000 y \$24.000. Con base en los resultados obtenidos, estima qué porcentaje de clientes pertenece a este rango. ¿Consideras adecuada esta segmentación desde el punto de vista del alcance? Justifica tu respuesta en función del comportamiento de la distribución de los datos.

El plan estaría dirigido al 42,6% de los clientes. Esta segmentación es adecuada porque abarca un grupo representativo de la distribución: se concentra cerca del promedio y reúne cerca de la mitad de los clientes.



## Actividad 2

Una consultora de datos está analizando los ingresos mensuales (en miles de pesos) de trabajadores independientes del sector tecnológico, con el objetivo de describir el comportamiento de esta variable y evaluar las características de su distribución. Esta información permitirá identificar patrones en los ingresos del sector y apoyar la toma de decisiones basada en datos.

Puedes descargar la **<a href="https://docs.google.com/spreadsheets/d/1swwzoHtZu_e_MELga14aekX4iax8Wawq/export?format=xlsx
">base de datos aquí</a>**, para responder las siguientes preguntas:

1. Calcula la media, mediana y moda del ingreso mensual. Considerando el rango de la distribución, ¿los valores están cercanos entre sí? ¿La moda es única?

In [1]:
#Importamos la base de datos al DF y mostramos el nombre de las columnas
import pandas as pd
df_2 = pd.read_excel('Base8_2.xlsx')
print(df_2.columns)

Index(['ID', 'Ingreso mensual (miles de pesos)'], dtype='object')


In [10]:
#Cálculo de medidas de tendencia central
media_2 = df_2['Ingreso mensual (miles de pesos)'].mean()
mediana_2 = df_2['Ingreso mensual (miles de pesos)'].median()
moda_2 = df_2['Ingreso mensual (miles de pesos)'].mode()

print(f'Media: {media_2:.0f} miles de pesos.\nMediana: {mediana_2:.0f} miles de pesos.')

#Para comprobar si la moda es única utilizaremos un condicional en el print
if len(moda_2) == 1:
  print(f'Moda: {moda_2.to_list()[0]} miles de pesos.') # .to_list() convierte la Serie guardada en moda_2
                                                        #en una lista (así podemos acceder a sus valores,
                                                        #como el primero con [0]).
else:
  print(f'Moda: {moda_2.to_list()} miles de pesos.')

#Calcularemos además el máximo y mínimo del ingreso mensual
minimo_2 = df_2['Ingreso mensual (miles de pesos)'].min()
maximo_2 = df_2['Ingreso mensual (miles de pesos)'].max()

print(f'\nMínimo: {minimo_2} miles de pesos.\nMáximo: {maximo_2} miles de pesos.')

Media: 1518 miles de pesos.
Mediana: 1345 miles de pesos.
Moda: [990.0, 1179.6, 1188.4, 1402.4, 1571.0, 1597.1, 1728.4, 2530.7] miles de pesos.

Mínimo: 264.2 miles de pesos.
Máximo: 9170.8 miles de pesos.


Considerando que el rango de la variable Ingreso mensual está entre 264,2 y 9170,8 miles de pesos, las medidas de tendencia central resultan relativamente cercanas entre sí. Sin embargo, la variable presenta varios valores con la misma frecuencia, por lo que no existe una moda claramente dominante.

En conjunto, estas medidas sugieren que la mayoría de los ingresos se concentran en valores inferiores al promedio, mientras que algunos valores altos elevan la media.

2. Calcula e interpreta el coeficiente de asimetría y el coeficiente de curtosis de la variable.
¿Qué sugieren estos valores sobre la forma y concentración de los datos?

In [11]:
#Importamos las funciones para calcular la asimetría y la curtosis
from scipy.stats import skew, kurtosis

asimetria_2 = skew(df_2['Ingreso mensual (miles de pesos)'])
curtosis_2 = kurtosis(df_2['Ingreso mensual (miles de pesos)'])

print(f'Asimetría: {asimetria_2:.2f}\nCurtosis: {curtosis_2:.2f}')

Asimetría: 2.67
Curtosis: 15.04


El coeficiente de asimetría (2,67) es superior a 0,5, lo que sugiere una asimetría positiva: la mayoría de los ingresos se concentran por debajo del promedio, mientras que algunos valores altos generan una cola extendida hacia la derecha.

El coeficiente de curtosis (15,04) es considerablemente superior a 0,5, lo que indica una alta concentración de observaciones en torno a valores centrales, junto con la presencia de valores extremos.

En conjunto, los coeficientes entregan una visión general de la forma, pero es importante complementarlos con la observación del gráfico para comprender mejor la distribución.

3. Observa el siguiente histograma correspondiente a la variable Ingreso mensual. ¿Los resultados obtenidos en los incisos anteriores son coherentes con la forma del gráfico? Describe brevemente su simetría y la forma de la distribución.

<center>

<img src = "https://i.ibb.co/jPV93rxG/Captura-de-pantalla-2025-10-17-123234.png" width = "800"/>
</center>

El histograma muestra una asimetría positiva, con la mayoría de los datos concentrados en los ingresos más bajos y algunos valores altos que forman una extensión de datos hacia la derecha (cola derecha). Esta forma es coherente con los resultados de los incisos anteriores, donde la media resultó mayor que la mediana y el coeficiente de asimetría fue mayor que 0,5, lo que indica una mayor concentración de datos en los rangos inferiores de ingresos.

4. Considerando los análisis realizados en los incisos anteriores, ¿piensas que sería adecuado utilizar herramientas basadas en la distribución normal para tomar decisiones estadísticas? Justifica tu respuesta.

No sería adecuado aplicar herramientas basadas en la distribución normal, ya que el ingreso mensual presenta una distribución multimodal, asimétrica y presenta una curtosis elevada. Estas características no cumplen los supuestos de simetría y forma de campana necesarios para usar funciones como norm.cdf().

En su lugar, se podría ajustar a una distribución más adecuada al comportamiento de los datos, o utilizar un enfoque frecuentista, estimando probabilidades a partir de las frecuencias observadas.


## Actividad 3

Una empresa de servicios tecnológicos ofrece soporte técnico remoto a sus clientes. El área de operaciones desea analizar los tiempos promedio de atención remota por trabajador, medidos en segundos, para tomar decisiones estratégicas.

La empresa ha determinado que esta variable se distribuye normalmente, con una media de 600,5 segundos y una desviación estándar de 78,4 segundos, en base a los registros de los últimos seis meses.

Importa la **<a href="https://drive.google.com/uc?export=download&id=10evq5_VmY1Mim6NCl9hugGGzjm5pTE-A
">base de datos</a>** y responde las siguientes preguntas:

1. La empresa está evaluando entregar un bono de eficiencia a los trabajadores cuyo tiempo de atención sea menor a 500 segundos. ¿Cuál es la probabilidad de que un trabajador seleccionado al azar cumpla con ese criterio?

In [2]:
import pandas as pd
df_3 = pd.read_csv('Base8_3.csv')
df_3.columns

Index(['Tiempo de atención (segundos)'], dtype='object')

In [3]:
#importamos la función norm
from scipy.stats import norm

#Calculamos la media y desviación estándar
media_3 = df_3['Tiempo de atención (segundos)'].mean()
desviacion_3 = df_3['Tiempo de atención (segundos)'].std(ddof=0) #ddof=0 indica que se está calculando la desviación estándar poblacional
print(f'Media: {media_3:.1f} segundos. \nDesviación estándar: {desviacion_3:.1f} segundos.')

Media: 600.5 segundos. 
Desviación estándar: 78.4 segundos.


In [4]:
#Calculamos la probabilidad P(x < 500)
p_menor_500 = norm.cdf(500, media_3, desviacion_3) * 100
print(f'P(x < 500): {round(p_menor_500,1)}%')

P(x < 500): 10.0%


La probabilidad de que un trabajador cumpla con el criterio es 10%. Lo que significa que, 1 de cada 10 trabajadores cumpliría con el criterio para recibir el bono de eficiencia.

2. Con base en la probabilidad obtenida anteriormente, determine el número estimado de trabajadores beneficiados e interprete este valor en relación con la implementación del bono de eficiencia.

In [7]:
#Calculamos la cantidad de trabajadores que serán beneficiados
muestra_3 = df_3.shape[0]
trabajadores_3 = (muestra_3 * p_menor_500) / 100
print(f'Cantidad de trabajadores: {round(trabajadores_3, 0)}')

Cantidad de trabajadores: 50.0


Aproximadamente 50 trabajadores recibirán el bono de eficiencia. Esto indica que el beneficio está enfocado en un grupo reducido de trabajadores, lo que podría hacerlo más exclusivo, pero también más exigente.

3. ¿Piensas que es un umbral razonable para otorgar el bono? Justifica.

El umbral de 500 segundos es exigente, considerando que el promedio de atención es de 601 segundos aproximadamente. Solo el 10% de los trabajadores logra ese tiempo, lo que indica que el bono está pensado para un grupo muy eficiente.

Si la empresa busca reconocer la excelencia operativa, este umbral es razonable. Sin embargo, si el objetivo es motivar a una mayor parte del equipo, podría evaluarse un umbral menos exigente para que un mayor porcentaje de trabajadores puedan ganar el bono.

4. Se considera implementar una capacitación obligatoria dirigida a los trabajadores con tiempos de atención superiores a 660 segundos. Según este criterio, ¿cuál es la probabilidad de que un trabajador deba participar en dicha capacitación?

In [5]:
#Calculmos la probabilidad P(x > 660)
p_mayor_660 = (1 - norm.cdf(660, media_3, desviacion_3)) * 100
print(f'P(x > 660): {round(p_mayor_660,1)}%')

P(x > 660): 22.4%


La probabilidad de que un trabajador asista a la capacitación es de 22,4%.

5. ¿La capacitación obligatoria afecta a un grupo reducido o amplio de trabajadores? Fundamenta tu respuesta con base en la probabilidad calculada y la distribución de los tiempos de atención.

In [8]:
#Calculamos la cantidad de trabajadores que deberán asistir a la capacitación
trabajadores_4 = (muestra_3 * p_mayor_660) / 100
print(f'Cantidad de trabajadores: {round(trabajadores_4, 0)}')

Cantidad de trabajadores: 112.0


El umbral de 660 segundos corresponde a un tiempo que está moderadamente por encima del promedio (601 segundos).
Este criterio selecciona a casi un cuarto de los trabajadores, 112 trabajadores aproximadamente, lo que representa un grupo significativo.

Desde el punto de vista estadístico, puede ser una medida efectiva si se busca generar un impacto a nivel organizacional.

6. La empresa desea optimizar sus procesos enfocándose en el grupo más representativo de trabajadores, es decir, aquellos que presentan tiempos de atención cercanos a lo habitual. ¿Cuál es la probabilidad de que un trabajador registre un tiempo de atención entre 520 y 680 segundos?

In [9]:
#Calculmos la probabilidad P(520 < x < 680)
p_entre_520y680 = (norm.cdf(680, media_3, desviacion_3) - norm.cdf(520, media_3, desviacion_3)) * 100
print(f'P(520 \u2264 x \u2264 680): {round(p_entre_520y680,1)}%')

P(520 ≤ x ≤ 680): 69.2%


La probabilidad de que un trabajador tenga un tiempo de atención entre 520 y 680 segundos es de 69,2%.

## Actividad 4

Una tienda en línea que vende una amplia variedad de productos analiza el tiempo de entrega (en días), el costo de transporte (en miles de pesos) y el peso (en kilogramos) de sus pedidos para mejorar su eficiencia operativa y la satisfacción del cliente. La tienda está interesada en estudiar la distribución del tiempo de entrega para poder predecir mejor los plazos de entrega y optimizar sus procesos logísticos. Las variables costo de transporte y peso siguen una distribución normal.

Importa la **<a href="https://drive.google.com/uc?export=download&id=1x83rV02Af-8UrWEYX1tkQ_Y9w_bS7f_k
">base de datos</a>** y responde las siguientes preguntas:

1. El Gerente de Logística necesita de tu asesoría para corroborar que la variable Costo de Transporte sigue una distribución normal. ¿Qué análisis realizarías para asesorar al gerente?

Para asesorar al gerente sobre si la variable Costo de Transporte sigue una distribución normal, realizaría un análisis que incluya los siguientes elementos:

* Histograma: para observar visualmente la forma de la distribución. Si la variable es normal, el gráfico debería mostrar una forma de campana simétrica.

* Medidas de tendencia central: comprobar si la media, mediana y moda son cercanas entre sí, lo que sugiere simetría. Si además se observa una única moda, eso refuerza la idea de una distribución normal.

* Coeficiente de asimetría: en una distribución normal, este valor debería estar entre -0,5 y 0,5.

* Coeficiente de curtosis: en una distribución normal, este valor debería estar entre -0,5 y 0,5.


2. El gerente sostiene que la probabilidad de que un pedido tenga un peso mayor a 5 kilogramos supera el 10%. ¿Está en lo correcto? Justifica tu respuesta.

In [None]:
import pandas as pd
df_4 = pd.read_csv('Base8_4.csv')
df_4.columns

Index(['SKU', ' Producto   ', ' Método transporte ', ' Tiempo entrega (días)',
       'Costo transporte (miles de pesos)', 'Peso (kg)'],
      dtype='object')

In [None]:
#Importamos la función norm
from scipy.stats import norm

#Calculamos la media y desviación estándar del peso
media_4 = df_4['Peso (kg)'].mean()
desviacion_4 = df_4['Peso (kg)'].std()

#Calculamos la probabilidad P(x > 5kg)
p_mayor_5 = (1 - norm.cdf(5, media_4, desviacion_4)) * 100
print(f'P(x > 5kg): {p_mayor_5:.1f}%')

P(x > 5kg): 14.3%


La probabilidad de que un pedido pese más de 5 kilogramos es 14,3%, por lo que el gerente está en lo correcto.

3. En un mes con 10.000 entregas, el gerente te solicita calcular el número esperado de pedidos con un peso superior a 5 kilogramos. ¿Cuál sería tu respuesta?

In [None]:
mas_de_5kg = (10000 * p_mayor_5) / 100
print(f'Cantidad de encomiendas mayores a 5kg: {mas_de_5kg:.0f}')

Cantidad de encomiendas mayores a 5kg: 1432


Se estima que en un mes con 10.000 entregas, aproximadamente 1.432 pesan más de 5 kilos.

4. El área de planificación sostiene que la probabilidad de que un pedido pese menos de 3 kilogramos es baja, es decir, entre un 5% y un 20%, ya que la mayoría de los productos son medianos o grandes. ¿Es correcta esta afirmación? Justifique su respuesta con base en el análisis de los datos.

In [None]:
#Calculamos la probabilidad P(x < 3kg)
p_menor_3 = norm.cdf(3, media_4, desviacion_4) * 100
print(f'P(x < 3kg): {p_menor_3:.1f}%')

P(x < 3kg): 14.3%


Aproximadamente un 14,3% de los pedidos pesan menos de 3 kilogramos, por lo tanto, la afirmación del área de planificación es correcta.

5. Si la probabilidad de que una entrega tenga un costo de transporte superior a 280 mil pesos es menor al 30%, el gerente entregará un bono de 100 mil pesos a los trabajadores. ¿Corresponde entregar el bono? Justifique su respuesta.

In [None]:
#Calculamos la media y desviación estándar del costo de transporte
media_5 = df_4['Costo transporte (miles de pesos)'].mean()
desviacion_5 = df_4['Costo transporte (miles de pesos)'].std()

#Calculamos la probabilidad P(x > 5kg)
p_mayor_280 = (1 - norm.cdf(280, media_5, desviacion_5)) * 100
print(f'P(x > 280 mil pesos): {p_mayor_280:.1f}%')

P(x > 280 mil pesos): 3.9%


La probabilidad de que una entrega tenga un costo de transporte superior a 280 mil pesos es un 3,9%, por lo que corresponde entregar el bono de 100 mil pesos.

6. El gerente desea identificar el rango de pedidos que representan el “comportamiento típico” en términos de costo de transporte. Se estima que este rango se encuentra entre 240 mil y 280 mil pesos. ¿Cuál es la probabilidad de que una entrega se ubique dentro de este intervalo? ¿Consideras que este rango refleja efectivamente el comportamiento más común?

In [None]:
#Calculamos la probabilidad P(240 < x < 280)
p_entre_240y280 = (norm.cdf(280, media_5, desviacion_5) - norm.cdf(240, media_5, desviacion_5)) * 100
print(f'P(240 \u2264 x \u2264 280 mil pesos): {p_entre_240y280:.1f}%')

P(240 ≤ x ≤ 280 mil pesos): 15.0%


Aunque este rango fue planteado como representativo del comportamiento típico, el análisis muestra que solo 15% de las entregas está entre \$240 y \$280 mil pesos. Esto sugiere que el rango propuesto no refleja el comportamiento más común, por lo que sería recomendable revisar los datos y ajustar el criterio para definir los valores que representan un costo típico.

7. En el análisis se utilizaron herramientas estadísticas para evaluar las afirmaciones realizadas por el equipo de logística. ¿Qué importancia tiene contar con evidencia basada en datos para la toma de decisiones en una operación real? ¿Qué riesgos podrían presentarse si las decisiones se fundamentaran únicamente en la intuición o la experiencia?

Contar con evidencia basada en datos permite tomar decisiones más objetivas, fundamentadas y eficientes. En este caso, el análisis estadístico permitió confirmar y refutar afirmaciones del equipo de logística con argumentos concretos.

Si las decisiones se tomaran solo por intuición o experiencia, existe el riesgo de sobreestimar o subestimar situaciones clave, lo que puede afectar negativamente la eficiencia operativa, los costos y la satisfacción del cliente.

La estadística no reemplaza la experiencia, pero la complementa y reduce la incertidumbre al momento de tomar decisiones.