## Estadística 

### Librerias

In [None]:
import numpy as np # importando numpy
from scipy import stats # importando scipy.stats
import pandas as pd #importando pandas
import matplotlib.pyplot as plt # importando matplotlib
import seaborn as sns # importando seaborn
from scipy.stats import norm # importando norm de scipy.stats

### Histogramas

In [None]:
data = [1,2,2,3,5,6,7,8,8,9,9]

frecuencias, extremos = np.histogram(data, bins=5)
print(frecuencias, extremos)

plt.hist(x=data, bins=5, color='#F2AB6D', rwidth=0.85)
plt.title('Histograma ejemplo')
plt.xlabel('Data')
plt.ylabel('Frecuencia')
plt.show() 

In [None]:
# Distribucion normal
datosN = [
    98.3, 102.1, 87.5, 115.6, 103.4, 96.7, 101.2, 99.8, 105.3, 92.4,
    108.9, 97.1, 100.5, 94.6, 106.2, 89.7, 111.3, 95.8, 104.7, 90.2,
    99.1, 107.6, 93.3, 113.8, 88.9, 100.0, 97.9, 109.5, 91.7, 103.0
]

plt.hist(datosN, bins=8, edgecolor='black')
plt.title('Histograma de datos con distribución normal aproximada')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.grid(True)
plt.show()


### Medidas de tendencia central y de posición
#### Media aritmética

In [None]:
print('Media:', np.mean(data)) #Media numpy

#### Mediana

In [None]:
print('Mediana:', np.median(data)) # Mediana numpy

#### Moda

In [None]:
print('Moda:', stats.mode(data)) #Moda de stats en scipy 

### La dispersión

In [None]:
# Dispersion
print('Varianza:', np.var(data)) # Varianza numpy

#### La Desviación Estándar

In [None]:
# Desviación Estándar
print('Desviación Estándar:', np.std(data)) # Desviación estándar numpy

In [None]:
df = pd.read_csv('datasets/colesterol.csv', sep=';')
print(df[(df['sexo']=='H') & (df['colesterol'] > 260)])

In [None]:
# La desviacion estandar significa que tanto se alejan los datos del valor promedio (media).
datos_normal = np.random.normal(loc=50, scale=10, size=1000)
plt.hist(datos_normal, bins=30, color='skyblue', edgecolor='black', alpha=0.7)
plt.title('Histograma de Datos con Distribución Normal')
plt.xlabel('Valor')

# Desviación Estándar
plt.axvline(np.mean(datos_normal), color='red', linestyle='dashed', linewidth=1, label='Media')
plt.axvline(np.mean(datos_normal) + np.std(datos_normal), color='green', linestyle='dashed', linewidth=1, label='+1 Desviación Estándar')
plt.axvline(np.mean(datos_normal) - np.std(datos_normal), color='green', linestyle='dashed', linewidth=1, label='-1 Desviación Estándar')
plt.axvline(np.mean(datos_normal) + 2*np.std(datos_normal), color='orange', linestyle='dashed', linewidth=1, label='+2 Desviaciones Estándar')
plt.axvline(np.mean(datos_normal) - 2*np.std(datos_normal), color='orange', linestyle='dashed', linewidth=1, label='-2 Desviaciones Estándar')
plt.legend()
plt.ylabel('Frecuencia')
plt.show()

#### Concepto Desviación Estándar 
- 1 Desviación Estándar: Aproximadamente el 68% de los datos caen dentro de una desviación estándar de la media.
- 2 Desviaciones Estándar: Aproximadamente el 95% de los datos caen dentro de dos desviaciones estándar de la media.
- 3 Desviaciones Estándar: Aproximadamente el 99.7% de los datos caen dentro de tres desviaciones estándar de la media.


In [None]:
# Ejemplo avanzado de visualización con zonas de desviación estándar

# Generar datos con distribución normal
datos_normal = np.random.normal(loc=50, scale=10, size=1000)
# Convertir a dataframe para análisis adicional
df_normal = pd.DataFrame(datos_normal, columns=['Valores'])
# Visualización avanzada con zonas de desviación estándar   
datos = df_normal['Valores']
# Calcular media y desviación estándar reales
mu = datos.mean()
sigma = datos.std()
# Crear rango de valores para la curva
x = np.linspace(mu - 4*sigma, mu + 4*sigma, 1000)
# Calcular la función de densidad de probabilidad (PDF)
pdf = norm.pdf(x, mu, sigma)
# Crear la figura y los ejes
plt.figure(figsize=(10, 6))
# Graficar la curva de distribución normal
plt.plot(x, pdf, color='blue', lw=2, label='Distribución Normal')
# Rellenar áreas de desviación estándar
plt.fill_between(x, pdf, where=(x >= mu - sigma) & (x <= mu + sigma), color='green', alpha=0.5, label='±1 Desviación Estándar')
plt.fill_between(x, pdf, where=(x >= mu - 2*sigma) & (x <= mu + 2*sigma), color='yellow', alpha=0.5, label='±2 Desviaciones Estándar')
plt.fill_between(x, pdf, where=(x >= mu - 3*sigma) & (x <= mu + 3*sigma), color='red', alpha=0.5, label='±3 Desviaciones Estándar')
# Añadir títulos y etiquetas
plt.title('Distribución Normal con Zonas de Desviación Estándar')
plt.xlabel('Valor')
plt.ylabel('Densidad de Probabilidad')
plt.legend()
plt.grid(True)
plt.show()  
