Dataset

In [2]:
import pandas as pd
import numpy as np

# Datos simulados: encuesta a 10 personas
df = pd.DataFrame({
    "edad": [22, 25, 25, 30, 30, 30, 35, 40, 45, 60],
    "satisfaccion": [2, 3, 3, 4, 4, 4, 5, 5, 4, 5],
    "zona": ["Norte", "Centro", "Centro", "Sur", "Sur",
             "Centro", "Norte", "Centro", "Sur", "Centro"]
})

df

Unnamed: 0,edad,satisfaccion,zona
0,22,2,Norte
1,25,3,Centro
2,25,3,Centro
3,30,4,Sur
4,30,4,Sur
5,30,4,Centro
6,35,5,Norte
7,40,5,Centro
8,45,4,Sur
9,60,5,Centro


1.  Identificación y clasificación de variables
    * edad → cuantitativa continua
    * satisfaccion (1–5) → ordinal
    * zona → nominal

2.  Elegir una variable cuantitativa: edad

3. Tabla de frecuencia (absoluta y relativa)

In [3]:
tabla_frec = (
    df["edad"]
    .value_counts()
    .sort_index()
    .to_frame(name="f")
)

tabla_frec["fr"] = tabla_frec["f"] / tabla_frec["f"].sum()

tabla_frec

Unnamed: 0_level_0,f,fr
edad,Unnamed: 1_level_1,Unnamed: 2_level_1
22,1,0.1
25,2,0.2
30,3,0.3
35,1,0.1
40,1,0.1
45,1,0.1
60,1,0.1


4.  Media, mediana y moda

In [4]:
edad = df["edad"]

media = edad.mean()
mediana = edad.median()
moda = edad.mode()

print(f"Media: {media:.2f}")
print(f"Mediana: {mediana}")
print(f"Moda(s): {moda.tolist()}")

Media: 34.20
Mediana: 30.0
Moda(s): [30]


5. Pregunte: ¿Qué nos dicen estas medidas? ¿Representan bien el conjunto?

In [6]:
edad = df["edad"]

rango = edad.max() - edad.min()
varianza = edad.var()
desv_std = edad.std()

print(f"Rango: {rango}")
print(f"Varianza: {varianza:.2f}")
print(f"Desviación estándar: {desv_std:.2f}")

Rango: 38
Varianza: 131.96
Desviación estándar: 11.49


6. Conecte con un mini-debate: ¿Qué pasaría si hubiese un valor extremo?

* Rango = 38

Esto nos dice que entre la persona más joven y la más mayor del grupo hay 38 años de diferencia.

Interpretación:

- El rango solo mira dos valores: el mínimo y el máximo.
- Es útil para saber qué tan lejos están los extremos.
- Pero no dice nada sobre cómo se distribuyen las edades entre medio.

En este caso ya anticipa que el grupo no es homogéneo en edad.

* Varianza ≈ 131.96

La varianza mide cuánto se alejan las edades, en promedio, respecto de la media… pero al cuadrado.

Interpretación:
- El número es alto porque:
-   hay bastante separación entre edades
-   y probablemente algún valor extremo empujó la dispersión

No se interpreta directamente en “años”, sino en años², por eso no es tan intuitiva.

La varianza sirve más como base de cálculo que como número para explicar.

* Desviación estándar ≈ 11.49

La desviación estándar vuelve la dispersión a la misma unidad de la edad: años.

Interpretación:
- Las edades del grupo suelen estar a unos 11–12 años de distancia, en promedio, respecto a la edad media.


Aunque haya una edad promedio, las personas están bastante dispersas alrededor de ella.