# **Análisis Estadístico en Python**
Este notebook contiene una práctica básica de **estadística descriptiva** utilizando el módulo estándar `statistics` de Python. Se trabaja sobre una lista de datos para calcular medidas como:

- Media
- Mediana
- Moda
- Desviación estándar
- Varianza
- Cuartiles (Q1, Q2, Q3)

El objetivo es aplicar funciones estadísticas fundamentales para familiarizarse con su uso en análisis de datos, sin necesidad de librerías externas como NumPy o pandas. Es un ejercicio ideal para quienes inician en análisis de datos con Python y desean entender cómo obtener **resúmenes estadísticos clave** de manera sencilla.

👉 Ideal como primer paso antes de usar bibliotecas más avanzadas como `pandas` o `scikit-learn`.



In [1]:
# libreria de python
import statistics

**1º Calcular la media (promedio)**

Se obtiene sumando todos los valores y dividiendo dicha suma por el número de valores que tenemos

In [15]:
# en este caso decidi usar como ejemplo, mis calificaciones finales del semestre Ene-Junio 2025
calificaciones = [9.97, 7.03, 9.19, 9.36, 9.02, 9.82]
promedio= statistics.mean(calificaciones)
# redondearlo a 2 decimales
promedio= round(promedio,2)
print("Calificaciones del semestre Enero-Julio del 2025: ", "[9.97, 7.03, 9.19, 9.36, 9.02, 9.82]")
print("Promedio general del semestre Enero-Juio del 2025:",promedio)

Calificaciones del semestre Enero-Julio del 2025:  [9.97, 7.03, 9.19, 9.36, 9.02, 9.82]
Promedio general del semestre Enero-Juio del 2025: 9.06


**2º Calcular la mediana**

Es el valor central de un conjunto de datos ordenados de menor a mayor, donde la mitad de los datos están por encima y la otra mitad por debajo


¿Cómo se calcula?

  

1.  Ordenar los datos: Primero, se deben ordenar los datos de menor a mayor.
2.  Número impar de datos: Si hay un número impar de datos, la mediana es el dato que se encuentra en el centro de la lista ordenada.
3. Número par de datos: Si hay un número par de datos, la mediana es el promedio de los dos datos centrales.


Ejemplos:

    Datos impares: 1, 3, 5, 7, 9. La mediana es 5.

    Datos pares: 2, 4, 6, 8. La mediana es (4 + 6) / 2 = 5.


  
  
    
  


In [16]:
mediana= [1, 6, 11, 17, 39, 49, 50, 51, 57, 69, 76, 80, 84, 94, 98]
mediana= statistics.median(mediana)
print("Datos: ", "[1, 6, 11, 17, 39, 49, 50, 51, 57, 69, 76, 80, 84, 94, 98]")
print("Mediana:", mediana)

Datos:  [1, 6, 11, 17, 39, 49, 50, 51, 57, 69, 76, 80, 84, 94, 98]
Mediana: 51


**3º Calcular la Moda**

Es el valor que aparece con mayor frecuencia en un conjunto de datos

In [17]:
moda = [1, 2, 2, 3, 4, 4, 4, 5]
moda = statistics.mode(moda)
print("Datos: ", "[1, 2, 2, 3, 4, 4, 4, 5]")
print("Moda:", moda)

Datos:  [1, 2, 2, 3, 4, 4, 4, 5]
Moda: 4


**4º Calcular la varianza**

La varianza estadística es una medida que indica la dispersión de un conjunto de datos con respecto a su media. Es decir, mide cuánto se alejan los valores individuales de la media, en promedio. Cuanto mayor sea la varianza, más dispersos estarán los datos.


Para una muestra, la varianza se calcula como:
s² = Σ ( xᵢ - x̄ )² / (n - 1) donde:

          Σ es la sumatoria (la suma de todos los valores que se evalúan)
          s² es la varianza de la muestra.
          xᵢ es el valor individual de la i-ésima observación.
          x̄ es la media de la muestra.
          n es el tamaño de la muestra.


Supongamos que tenemos los siguientes datos: 2, 4, 6, 8, 10.

    Calculamos la media: (2 + 4 + 6 + 8 + 10) / 5 = 6
    Calculamos la varianza:
        (2 - 6)² = 16
        (4 - 6)² = 4
        (6 - 6)² = 0
        (8 - 6)² = 4
        (10 - 6)² = 16
        (16 + 4 + 0 + 4 + 16) / (5 - 1) = 40 / 4 = 10

La varianza de estos datos es 10




In [20]:
varianza= [1, 8, 15, 17, 39, 45, 50, 51, 63, 69, 70, 81, 84, 94, 100]
varianza= statistics.variance(varianza)
print("Datos: ", "[1, 8, 15, 17, 39, 45, 50, 51, 63, 69, 70, 81, 84, 94, 100]")
print("Varianza:", varianza)

Datos:  [1, 8, 15, 17, 39, 45, 50, 51, 63, 69, 70, 81, 84, 94, 100]
Varianza: 1001.2666666666667


**5º Calcular la desviación estandar**

Es una medida estadística que describe la dispersión de un conjunto de datos en relación con su media. Indica la cantidad promedio que los datos se desvían de la media. En términos sencillos, mide la variabilidad de los datos.

La fórmula para calcular la desviación estándar de una muestra (desviación estándar muestral) es: s = √(∑(xᵢ - x̄)² / (n-1))

donde:

    s es la desviación estándar de la muestra.
    xᵢ es cada valor individual en la muestra.
    x̄ es la media de la muestra.
    n es el tamaño de la muestra (el número total de valores en la muestra).
    ∑ representa la suma de los valores dentro del paréntesis.


Pasos para calcular la desviación estándar muestral:


*  Calcula la media de la muestra (x̄): Suma todos los valores de la muestra y divídela por el tamaño de la muestra (n).
*  Calcula la diferencia al cuadrado entre cada valor y la media (xᵢ - x̄)²: Resta la media de cada valor individual y eleva el resultado al cuadrado.
*   Suma todos los resultados del paso anterior: Suma los valores cuadrados obtenidos en el paso 2.
*   Divide la suma por el tamaño de la muestra menos uno (n-1): Divide la suma total de los cuadrados por (n-1).
*   Extrae la raíz cuadrada del resultado del paso anterior: Calcula la raíz cuadrada del resultado obtenido en el paso 4. Este resultado es la desviación estándar muestral.


Ejemplo:
Supongamos que tenemos la siguiente muestra de datos: {2, 4, 6, 8, 10}

    Media: (2 + 4 + 6 + 8 + 10) / 5 = 6
    Diferencias: {2-6, 4-6, 6-6, 8-6, 10-6} = {-4, -2, 0, 2, 4}
    Cuadrados de las diferencias: {16, 4, 0, 4, 16}
    Suma de los cuadrados: 16 + 4 + 0 + 4 + 16 = 40
    Dividir entre (n-1): 40 / (5-1) = 40 / 4 = 10
    Raíz cuadrada: √10 ≈ 3.16

Por lo tanto, la desviación estándar de la muestra es aproximadamente 3.16


In [21]:
desvi_estandar= [1, 8, 15, 17, 39, 45, 50, 51, 63, 69, 70, 81, 84, 94, 100]
desvi_estandar= statistics.stdev(desvi_estandar)
print("Datos: ", "[1, 8, 15, 17, 39, 45, 50, 51, 63, 69, 70, 81, 84, 94, 100]")
print("Desviación Estandar:", desvi_estandar)

Datos:  [1, 8, 15, 17, 39, 45, 50, 51, 63, 69, 70, 81, 84, 94, 100]
Desviación Estandar: 31.642798022088165


**6º Calcular los cuartiles**

 Los cuartiles son valores que dividen un conjunto de datos ordenados en cuatro partes iguales. Son medidas de posición que ayudan a entender la distribución de los datos y cómo se dispersan


Definición:

*   Cuartiles: Son tres valores (Q1, Q2, Q3) que dividen un conjunto de datos ordenados de menor a mayor en cuatro partes iguales.
*   Q1 (Primer Cuartil): El valor que deja el 25% de los datos por debajo de él.
* Q2 (Segundo Cuartil): El valor que coincide con la mediana, dejando el 50% de los datos por debajo de él.
* Q3 (Tercer Cuartil): El valor que deja el 75% de los datos por debajo de él.


Calculo:

    Ordenar los datos: Se deben ordenar los datos de menor a mayor.

    Calcular la posición de cada cuartil:

    - Q1: (N+1)/4, donde N es el número total de datos.
    - Q2: (N+1)/2, donde N es el número total de datos.
    - Q3: 3(N+1)/4, donde N es el número total de datos.

Si la posición es un número entero: El valor del cuartil será el dato que se encuentra en esa posición.

Si la posición es un número decimal: Se debe interpolar linealmente entre los dos datos cercanos.

Interpretación:

    Q1: Indica que el 25% de los datos son menores o iguales a este valor.
    Q2: Indica que el 50% de los datos son menores o iguales a este valor (mediana).
    Q3: Indica que el 75% de los datos son menores o iguales a este valor.


Ejemplo:
Considera el siguiente conjunto de datos: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.

    Q1: (10+1)/4 = 2.75, Q1 = 3 (interpolar entre 2 y 3).
    Q2 (mediana): (10+1)/2 = 5.5, Q2 = 6 (interpolar entre 5 y 6).
    Q3: 3(10+1)/4 = 8.25, Q3 = 8 (interpolar entre 8 y 9).




In [30]:
cuartiles= [1, 8, 15, 17, 39, 45, 50, 51, 63, 69, 70, 81, 84, 94, 100]
# calcular los cuartiles
cuartiles= statistics.quantiles(cuartiles,n=4)
q1= cuartiles[0]
q2= cuartiles[1] # tambien se puede calcular directamente usando median -> q2= statistics.median(cuartiles)
q3= cuartiles[2] # tambien se puede usar [-1] ya que este accede a la última elemento de la lista, que es Q3
print("Datos: ", "[1, 8, 15, 17, 39, 45, 50, 51, 63, 69, 70, 81, 84, 94, 100]")
print("Primer cuartil Q1:", q1)
print("Segundo cuartil Q2:", q2)
print("Tercer cuartil Q3:", q3)

Datos:  [1, 8, 15, 17, 39, 45, 50, 51, 63, 69, 70, 81, 84, 94, 100]
Primer cuartil Q1: 17.0
Segundo cuartil Q2: 51.0
Tercer cuartil Q3: 81.0


**7º Coeficiente de Correlación**

El coeficiente de correlación es una medida estadística que cuantifica la intensidad y dirección de la relación lineal entre dos variables. Se simboliza con la letra "r" y puede variar de -1 a +1.


Interpretar el coeficiente de correlación:

    r = +1: Correlación positiva perfecta. A medida que una variable aumenta, la otra también lo hace en una proporción constante.
    r = -1: Correlación negativa perfecta. A medida que una variable aumenta, la otra disminuye en una proporción constante.
    r = 0: No hay correlación lineal. Las variables no están relacionadas linealmente
    r entre 0.5 y 1: Correlación positiva fuerte.
    r entre 0.3 y 0.5: Correlación positiva moderada.
    r entre 0.1 y 0.3: Correlación positiva débil.
    r entre 0 y -0.1: Correlación inexistente.
    r entre -0.1 y -0.3: Correlación negativa débil.
    r entre -0.3 y -0.5: Correlación negativa moderada.
    r entre -0.5 y -1: Correlación negativa fuerte
  
  Para calcularlo, se puede utilizar la fórmula del coeficiente de correlación de Pearson: (covarianza(X, Y)) / (desviación estándar(X) * desviación estándar(Y)).

Pasos para calcular el coeficiente de correlación de Pearson:

    Calcular la covarianza entre las variables X e Y: La covarianza mide cómo cambian las dos variables juntas.
    Calcular la desviación estándar de X y Y: La desviación estándar mide la dispersión de cada variable alrededor de su media.
    Dividir la covarianza entre el producto de las desviaciones estándar: Este resultado es el coeficiente de correlación.


In [54]:
data1= [1, 6, 15, 17, 39, 45, 46, 51, 63, 65, 70, 81, 84, 98, 100]
data2= [12, 15, 29, 31, 33, 35, 37, 38, 41, 43, 45, 47, 49, 51, 55]
coef_corre= statistics.correlation(data1,data2)
# redodearlo
coef_corre= round(coef_corre,2)
print("Coeficiente de correlación:", coef_corre)

Coeficiente de correlación: 0.96
