#Librerías de Python para Estadísticas

##SciPy.stats

Proporciona funciones para análisis estadísticos.

Funciones incluyen distribuciones de probabilidad, pruebas estadísticas e intervalos de confianza.

##Statsmodels

Herramientas para análisis avanzados.

Características: regresiones, modelos lineales, y análisis de series de tiempo.

##Pandas

Fundamental para manipulación y análisis de datos tabulares.

Permite limpiar, transformar datos, y trabajar con series de tiempo.

##Seaborn

Visualización de datos estadísticos.

Incluye gráficos de correlación, pruebas estadísticas, y estimaciones de densidad de kernel.

In [7]:
import numpy as np


# ------- media : promedio -----------
notas = [4, 5, 7, 6, 9]
media = np.mean(notas)
print("media : ", round(media, 2))


#--------- mediana -------------
# valor en la mitad de un conjunto ordenado
# si el número de observaciones es par se promedian los dos valores
mediana = np.median(notas)
print("mediana : ", mediana)

otras_notas = [4, 5, 6, 7, 8, 9]
otra_mediana = np.median(otras_notas)
print(f'mediana : {otra_mediana}')

#---------- moda : mayor frecuencia-------------
from scipy import stats

mas_notas = [4, 7, 5, 7, 6]
moda = stats.mode(mas_notas)[0]
print(f'moda : {moda}')

#---------- cuatiles y percentiles --------------
# son herramientas estadísticas para resumir dataframes, identificar outliers (valores extremos)
# y entender la variabilidad en los datos

#cuartiles : dividen un conjunto de datos en 4
# Q1 primer cuartil: el 25% de los datos qudedan bajo este cuartil,
# Q2 segundo cuartil: distribuye ell conjunto en dos mitades,
# Q3 tercer cuartil : el 75% de los datos esta debajo de este cuartil.

puntuaciones = [56, 74, 68, 82, 90, 62, 78, 84, 88, 95, 56, 74, 68, 82, 90, 62, 78, 84, 88, 95]

Q1 = np.percentile(puntuaciones, 25)
Q2 = np.percentile(puntuaciones, 50)
Q3 = np.percentile(puntuaciones, 75)

print(f'primer cuartil : {Q1}')
print(f'segundo cuartil : {Q2} --> es igual a calcular la mediana : {np.median(puntuaciones)}')
print(f'tercer cuartil : {Q3}')

# ----------- rango intercuartil (RIC o IQR)---------------
# medida de disperción de la mitad central
# se calcula --> Q3 - Q1
# medida de variabilidad, buena medida de dispersión para distribuciones sesgadas
IQR = Q3 - Q1
print(f'RIC o IQR : {IQR}')

media :  6.2
mediana :  6.0
mediana : 6.5
moda : 7
primer cuartil : 68.0
segundo cuartil : 80.0 --> es igual a calcular la mediana : 80.0
tercer cuartil : 88.0
RIC o IQR : 20.0


# BOXPLOT : DIAGRAMA DE CAJA Y BIGOTES
 - es un gráfico que muestra cómo se distribuyen los datos.
 - muestra la mediana y los quartiles.
 identifica valores atípicos.
 - permite intuir la morfología y simetría de los datos.

 ## Componentes
 - cajas : representan el rango intercuartilico (IQR).
 - bigotes : son líneas que se extienden desde ambos extremos de la caja
 - valores atípicos : puntos fuera de los bigotes, considerados inusuales.
 - gorros : líneas perpendiculares en los extremos de los bigotes.

In [8]:
# ----------- percentiles --------------
# dividen al conjunto de datos en 100 partes iguales.
# p50 es la mediana, donde el 50% de los datos es menor a ese valor.
# p25 o p75, serian el primer y el tercer cuartil respectivamente.

p10 = np.percentile(puntuaciones, 10)
p25 = np.percentile(puntuaciones, 25)
p50 = np.percentile(puntuaciones, 50)
p75 = np.percentile(puntuaciones, 75)
p80 = np.percentile(puntuaciones, 80)
p90 = np.percentile(puntuaciones, 90)

print(f'p10 :  {p10}')
print(f'p25 :  {p25}')
print(f'p50 :  {p50}')
print(f'p75 :  {p75}')
print(f'p80 :  {p80}')
print(f'p90 :  {p90}')

p10 :  61.4
p25 :  68.0
p50 :  80.0
p75 :  88.0
p80 :  88.4
p90 :  90.5


# Medidas de disperción :
 - brindan información sobre la variabilidad de los datos: cuan alejados están de la tendencia central.
 Rango, varianza y desviación standard.

In [9]:
# ---------- Rango -----------------

# es la diferencia entre el valor máximo y el mínimo.
import numpy as np

notas = [4, 5, 7, 6, 9]

rango = np.max(notas) - np.min(notas)
print(f'rango : {rango}')

# -------- Desviación -----------
# diferencia entre cada dato y la media o promedio.
# Desviación media : promedio de los valores absolutos de todas las desviaciones.

# -------- Varianza ----------------
# mide cuán dispersos están los valores respecto a la media.
# Cálculo : el promedio de las diferencias al cuadrado entre cada valor y la media.
varianza = np.var(notas)
media = np.mean(notas)
print(f'media : {media}')
desviacion = [round((n - media), 2) for n in notas]
miVarianza_parcial = [n**2 for n in desviacion]  #promedio de los cuadrados
miVarianza = np.mean(miVarianza_parcial)
print(f'mi varianza : {miVarianza}')
print(f'varianza : {varianza} ')

# -------- Desviación Standard --------------
# mide la dispersión o cuánto se alejan los datos de un conjunto respecto a su media o promedio.
# Un valor bajo indica que los datos están agrupados cerca de la media, mientras que un valor alto significa que están más dispersos.
desviacionStandard = np.std(notas)
print(f'desviación standard: {desviacionStandard}')

rango : 5
media : 6.2
mi varianza : 2.96
varianza : 2.96 
desviación standard: 1.7204650534085253
