<a href="https://colab.research.google.com/github/JCaballerot/Statistics-DataScience/blob/main/02-Distribuciones-de-Probabilidad.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


<img src="https://storage.googleapis.com/kaggle-datasets-images/916586/1553068/ddd9373754b16217a54a513f0d94628a/dataset-cover.png?t=2020-10-12-00-50-47" alt="HTML5 Icon" style="width: 600px; height: 450px;">
<div style="text-align: center"></div>

# Laboratorio: Distribuciones de Probabilidad


**Introducción**

En este laboratorio, trabajaremos con conceptos de distribuciones de probabilidad utilizando Python. Exploraremos distribuciones discretas y continuas, haremos pruebas de normalidad y utilizaremos el concepto de z-score para interpretar distribuciones. Además, realizaremos cálculos de intervalos de confianza.

## Tabla de Contenidos

1. [Ejercicio de Distribución Normal](#ejercicio-de-distribución-normal)
2. [Prueba de Normalidad (Prueba Omnibus)](#prueba-de-normalidad-prueba-omnibus)
3. [Estandarización de Datos](#estandarización-de-datos)
4. [Análisis de Z-Score](#análisis-de-z-score)
5. [Intervalos de Confianza](#intervalos-de-confianza)


## 1. Ejercicio de Distribución Normal


Generaremos datos simulados para obtener una distribución basada en la suma de dos dados, con lo que exploraremos la tendencia de las distribuciones.

In [None]:
import random
import pandas as pd

In [None]:
resultados = []

# Simulamos 10 millones de lanzamientos de dos dados y sumamos sus resultados.
for i in range(1, 10_000_001):
  dado1 = random.randrange(1, 7)
  dado2 = random.randrange(1, 7)
  resultado = dado1 + dado2
  resultados.append(resultado)


In [None]:
# Verificamos el número de resultados generados
print(f"Número de resultados generados: {len(resultados)}")

In [None]:
# Creamos un DataFrame y mostramos la distribución de la suma de los dados
df_dados = pd.DataFrame({'resultado': resultados})
df_dados['resultado'].hist(bins=11)
plt.title('Distribución de la suma de dos dados')
plt.xlabel('Suma de dados')
plt.ylabel('Frecuencia')
plt.show()


Este ejercicio genera una distribución basada en la suma de dos dados, que debería aproximarse a una distribución normal debido al Teorema del Límite Central, dado el gran número de simulaciones.

## 2. Prueba de Normalidad (Prueba Omnibus)


Ahora realizamos una prueba de normalidad sobre los datos de edad (age) del dataset de Bank Marketing para verificar si siguen una distribución normal.



In [None]:
import pandas as pd
from scipy.stats import normaltest
from math import log


In [None]:
# Cargamos el dataset de Bank Marketing
pddd = pd.read_csv('bank.csv')

In [None]:
# Visualizamos la distribución de la edad
pddd.age.hist(bins=20)
plt.title('Distribución de la edad')
plt.show()


In [None]:
# Aplicamos una transformación logarítmica para ver cómo cambia la distribución
pddd.age.apply(lambda x: log(x)).hist(bins=20)
plt.title('Distribución de la edad transformada logarítmicamente')
plt.show()

In [None]:
# Prueba Omnibus para verificar la normalidad de los datos de edad
stat, p_val = normaltest(pddd['age'])
print(f'Estadístico: {stat}, p-valor: {p_val}')


In [None]:
# Función para interpretar los resultados de la prueba de normalidad
def check_p_val(p_val, alpha):
    if p_val < alpha:
        print('Tenemos evidencia suficiente para rechazar la hipótesis nula.')
    else:
        print('No tenemos evidencia suficiente para rechazar la hipótesis nula.')

# Verificamos la normalidad con un nivel de confianza del 95%
alpha = 0.05
check_p_val(p_val, alpha)

Utilizamos la Prueba Omnibus para verificar si los datos de edad siguen una distribución normal. La hipótesis nula (H0) es que los datos son normales. Si el p-valor es menor que 0.05, rechazamos la hipótesis de normalidad.

## 3. Estandarización de Datos


La estandarización es una técnica para convertir datos a una distribución con media 0 y desviación estándar 1. Aquí estandarizamos la variable age para normalizarla.

In [None]:
# Estandarizamos la variable age
pddd['age_estandar'] = (pddd['age'] - pddd['age'].mean()) / pddd['age'].std()

In [None]:
# Comparamos la distribución original y la estandarizada
plt.figure(figsize=(12,6))
plt.subplot(1, 2, 1)
pddd['age'].hist(bins=20)
plt.title('Distribución original de la edad')

plt.subplot(1, 2, 2)
pddd['age_estandar'].hist(bins=20)
plt.title('Distribución estandarizada de la edad')
plt.show()

Estandarizamos los datos de age para obtener una distribución con media 0 y desviación estándar 1, lo que facilita la comparación entre diferentes variables.

## 4. Análisis de Z-Score


El z-score nos permite calcular la probabilidad de que un valor específico ocurra en una distribución normal. Vamos a calcular la probabilidad de que un niño tenga un ritmo cardíaco mayor a 120 usando el dataset de Fetal Health.

In [None]:
# Cargamos el dataset de Fetal Health
pddf = pd.read_csv('fetal_health.csv')

In [None]:
# Calculamos el z-score para un ritmo cardíaco mayor a 120
media = pddf['baseline value'].mean()
desv_est = pddf['baseline value'].std()

z = (120 - media) / desv_est
print(f'Z-score: {z}')

In [None]:
# La probabilidad de tener un ritmo mayor a 120 se calcula restando el valor p del z-score de 1
p_menor = 0.088  # Dado por la tabla de z-scores
p_mayor = 1 - p_menor
print(f'Probabilidad de tener un ritmo mayor a 120: {p_mayor}')

Usamos el z-score para calcular la probabilidad de que el ritmo cardíaco de un niño sea mayor a 120.



## 5. Intervalos de Confianza

Calculemos los intervalos de confianza del 95% para el ritmo cardíaco promedio de los niños.



In [None]:
# Cálculo del intervalo de confianza al 95%
LS = 1.96 * desv_est + media
LI = -1.96 * desv_est + media

print(f'Intervalo de confianza al 95%: [{LI}, {LS}]')

# Desafíos:
# 1. Calcula el intervalo de confianza al 99% para los datos.
# 2. Determina el umbral sobre el cual se encuentra el 95% de los datos.


Calculamos el intervalo de confianza al 95% utilizando el z-score de 1.96, lo cual es típico para intervalos de confianza del 95%.

## Conclusión:

Has completado el laboratorio sobre Distribuciones de Probabilidad utilizando Python. A lo largo del análisis, hemos aplicado diversas técnicas para entender la distribución de los datos, verificar su normalidad, calcular intervalos de confianza y utilizar el z-score para interpretar resultados. Las herramientas y métodos presentados en este laboratorio son fundamentales para realizar análisis estadísticos avanzados en cualquier contexto de Ciencia de Datos, facilitando la toma de decisiones basadas en probabilidades.



## Reto: Desafíos sobre Distribuciones de Probabilidad

A continuación, tienes seis preguntas para que pongas en práctica lo que has aprendido sobre distribuciones de probabilidad, pruebas de normalidad, z-scores, y la construcción de intervalos de confianza en Python. Utiliza los datasets proporcionados para resolverlas. ¡Manos a la obra!

**1. Prueba de Normalidad sobre el ritmo cardíaco**

Realiza una prueba de normalidad (Prueba Omnibus) sobre la variable baseline value (ritmo cardíaco fetal). ¿Los datos siguen una distribución normal? Interpreta el resultado de la prueba y discute qué implicaciones tendría si los datos no fueran normales.

**2. Intervalos de Confianza para el ritmo cardíaco fetal**

Calcula el intervalo de confianza del 95% para la media del ritmo cardíaco de los fetos utilizando la variable baseline value. Luego, interpreta el intervalo en un contexto clínico: ¿Qué nos dice este intervalo sobre la variabilidad del ritmo cardíaco fetal en la población?


**3. Z-Score y probabilidad para un ritmo cardíaco elevado**

Utilizando los datos de la variable baseline value, calcula el z-score para un ritmo cardíaco de 130. A partir de este z-score, determina la probabilidad de que un feto tenga un ritmo cardíaco mayor a 130. Explica cada paso del cálculo y discute las posibles implicaciones médicas de este resultado.

---
## Gracias por completar este laboratorio!