<a href="https://colab.research.google.com/github/financieras/math_for_ai/blob/main/estadistica/Leccion_1_1_Poblacion_Muestra_Variables.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lección 1.1. Población, muestra y tipos de variables

---

## 1. ¿Qué es la Estadística?

Imagina que trabajas en una empresa de streaming y quieres saber cuánto tiempo pasan los usuarios viendo series. ¿Preguntarías a todos los usuarios del planeta? Imposible, ¿verdad? Aquí es donde entra la **estadística**.

La **estadística** es la ciencia que se encarga de **recopilar, organizar, analizar e interpretar datos** para tomar decisiones informadas en situaciones de incertidumbre. Es el lenguaje fundamental de Data Science y Machine Learning, ya que nos permite:

- **Describir** patrones en los datos (estadística descriptiva)
- **Inferir** características de grandes poblaciones a partir de muestras pequeñas (estadística inferencial)
- **Predecir** comportamientos futuros basándonos en datos históricos
- **Tomar decisiones** basadas en evidencia, no en intuición

En el mundo del Machine Learning, la estadística es la base teórica que sustenta los algoritmos. Cada vez que entrenas un modelo, estás usando conceptos estadísticos, aunque no te des cuenta.

---

## 2. Población y muestra

### 2.1. Población

La **población** (denotada como $N$) es el **conjunto completo** de todos los elementos que queremos estudiar. Puede ser finita o infinita.

**Ejemplos:**
- Todos los usuarios registrados en Netflix
- Todas las transacciones bancarias realizadas en España en 2024
- Todos los tweets publicados sobre un tema específico
- Todas las imágenes de perros que existen en internet

**Importante:** Rara vez tenemos acceso a toda la población. Sería costoso, lento y, en muchos casos, imposible.

### 2.2. Muestra

Una **muestra** (denotada como $n$) es un **subconjunto** de la población que seleccionamos para estudiar. La idea es que este subconjunto sea **representativo** de la población completa.

**Ejemplos:**
- 10,000 usuarios de Netflix seleccionados aleatoriamente
- 5,000 transacciones bancarias de un mes específico
- 1,000 tweets sobre un tema
- 50,000 imágenes de perros para entrenar un modelo de clasificación

### 2.3. ¿Por qué trabajamos con muestras?

| Razón | Explicación |
|-------|-------------|
| **Coste** | Estudiar toda la población puede ser extremadamente caro |
| **Tiempo** | Recopilar datos de toda la población puede llevar años |
| **Imposibilidad práctica** | A veces la población es infinita o inaccesible |
| **Destrucción** | En pruebas de calidad (ej: probar bombillas hasta que se fundan) |

### 2.4. Relación entre población y muestra

```
┌─────────────────────────────────────────┐
│         POBLACIÓN (N)                   │
│  ┌───────────────────────────┐          │
│  │   MUESTRA (n)             │          │
│  │                           │          │
│  │   • n << N                │          │
│  │   • Debe ser              │          │
│  │     representativa        │          │
│  └───────────────────────────┘          │
└─────────────────────────────────────────┘
```

**Notación:**
- Usamos letras **griegas** para parámetros poblacionales: $\mu$ (media), $\sigma$ (desviación estándar)
- Usamos letras **latinas** para estadísticos muestrales: $\bar{x}$ (media muestral), $s$ (desviación estándar muestral)

---

## 3. Tipos de variables

Una **variable** es una característica o propiedad que puede tomar diferentes valores en los elementos de nuestra población o muestra.

### 3.1. Clasificación general

```
                    VARIABLES
                        |
        ┌───────────────┴───────────────┐
        |                               |
   CUALITATIVAS                    CUANTITATIVAS
   (Categóricas)                     (Numéricas)
        |                               |
   ┌────┴────┐                    ┌─────┴─────┐
   |         |                    |           |
Nominal  Ordinal              Discretas   Continuas
```

### 3.2. Variables cualitativas (categóricas)

Son variables que describen **cualidades o categorías** no numéricas.

#### a) Variables nominales

No tienen un orden natural entre las categorías.

**Ejemplos:**
- Color de ojos: {azul, verde, marrón, negro}
- Género de película: {acción, comedia, drama, terror}
- Sistema operativo: {Windows, Mac, Linux}
- Método de pago: {tarjeta, efectivo, transferencia}

In [1]:
import pandas as pd

datos = pd.DataFrame({
    'usuario_id': [1, 2, 3, 4, 5],
    'genero_favorito': ['acción', 'comedia', 'drama', 'acción', 'terror']
})

# Las variables nominales se suelen codificar con pd.Categorical o con One-Hot Encoding
print(datos['genero_favorito'].value_counts())

genero_favorito
acción     2
comedia    1
drama      1
terror     1
Name: count, dtype: int64


#### b) Variables ordinales

Tienen un **orden natural** entre las categorías, pero la distancia entre ellas no es necesariamente igual.

**Ejemplos:**
- Nivel educativo: {primaria < secundaria < universidad < posgrado}
- Satisfacción del cliente: {muy insatisfecho < insatisfecho < neutral < satisfecho < muy satisfecho}
- Talla de ropa: {XS < S < M < L < XL}

In [2]:
# Variable ordinal con orden definido
satisfaccion = pd.Categorical(
    ['satisfecho', 'muy satisfecho', 'neutral', 'insatisfecho'],
    categories=['muy insatisfecho', 'insatisfecho', 'neutral', 'satisfecho', 'muy satisfecho'],
    ordered=True
)

print(satisfaccion)
# Se puede comparar: satisfaccion[0] > satisfaccion[2]

['satisfecho', 'muy satisfecho', 'neutral', 'insatisfecho']
Categories (5, object): ['muy insatisfecho' < 'insatisfecho' < 'neutral' < 'satisfecho' < 'muy satisfecho']


### 3.3. Variables cuantitativas (numéricas)

Son variables que toman **valores numéricos** y sobre las que tiene sentido realizar operaciones matemáticas.

#### a) Variables discretas

Toman valores **contables** y aislados (generalmente números enteros).

**Ejemplos:**
- Número de hijos: {0, 1, 2, 3, ...}
- Número de clicks en una web: {0, 1, 2, 3, ...}
- Cantidad de productos vendidos: {0, 1, 2, 3, ...}
- Número de errores en un código

In [3]:
import numpy as np

# Simulamos número de clicks diarios (variable discreta)
clicks_diarios = np.random.poisson(lam=50, size=100)  # Media de 50 clicks/día

print(f"Valores únicos: {np.unique(clicks_diarios)}")
print(f"Media de clicks: {clicks_diarios.mean():.2f}")

Valores únicos: [35 36 37 38 39 40 41 42 43 45 46 47 48 49 50 51 52 53 54 55 56 57 59 60
 61 62 63 67]
Media de clicks: 49.27


#### b) Variables continuas

Pueden tomar **cualquier valor** dentro de un intervalo (incluyen decimales).

**Ejemplos:**
- Peso: 65.5 kg, 70.234 kg, ...
- Temperatura: 23.5°C, 24.1°C, ...
- Tiempo de respuesta de una API: 0.234 segundos, 1.567 segundos, ...
- Precio de una acción: 45.67€, 45.68€, ...

In [4]:
# Simulamos tiempos de carga de una página web (variable continua)
tiempos_carga = np.random.normal(loc=2.5, scale=0.5, size=1000)  # Media 2.5s, SD 0.5s

print(f"Algunos valores: {tiempos_carga[:5]}")
print(f"Tiempo medio de carga: {tiempos_carga.mean():.3f} segundos")

Algunos valores: [2.67060614 2.2075716  1.96483878 1.85642936 2.75495812]
Tiempo medio de carga: 2.512 segundos


---

## 4. Tabla resumen de tipos de variables

| Tipo | Subtipo | Características | Operaciones | Ejemplos |
|------|---------|----------------|-------------|----------|
| **Cualitativa** | Nominal | Categorías sin orden | Contar, moda | Color, género |
| **Cualitativa** | Ordinal | Categorías con orden | Contar, moda, mediana | Satisfacción, nivel educativo |
| **Cuantitativa** | Discreta | Valores contables | Todas las operaciones | Nº de hijos, clicks |
| **Cuantitativa** | Continua | Valores en un rango | Todas las operaciones | Peso, temperatura, tiempo |

---

## 5. ¿Por qué es importante identificar el tipo de variable?

Identificar correctamente el tipo de variable es **crucial** porque:

1. **Determina qué análisis estadísticos podemos aplicar**
   - No tiene sentido calcular la media de colores de ojos
   - No podemos hacer regresión lineal con variables nominales directamente

2. **Influye en la visualización adecuada**
   - Variables categóricas → gráficos de barras, pie charts
   - Variables continuas → histogramas, boxplots, scatter plots

3. **Afecta al preprocesamiento en Machine Learning**
   - Variables categóricas necesitan encoding (One-Hot, Label Encoding)
   - Variables continuas pueden necesitar normalización o estandarización

4. **Condiciona la elección de modelos**
   - Regresión logística para variables objetivo categóricas
   - Regresión lineal para variables objetivo continuas

---

## 6. Ejemplo práctico completo

Imagina que tienes un dataset de usuarios de una app de fitness:

In [5]:
import pandas as pd
import numpy as np

# Creamos un dataset de ejemplo
np.random.seed(42)

datos_fitness = pd.DataFrame({
    'usuario_id': range(1, 101),                                    # ID (identificador)
    'edad': np.random.randint(18, 65, 100),                        # Cuantitativa discreta
    'peso': np.random.normal(70, 15, 100).round(1),                # Cuantitativa continua
    'altura': np.random.normal(170, 10, 100).round(1),             # Cuantitativa continua
    'genero': np.random.choice(['M', 'F'], 100),                   # Cualitativa nominal
    'nivel_actividad': np.random.choice(                           # Cualitativa ordinal
        ['bajo', 'medio', 'alto'], 100
    ),
    'dias_uso_semanal': np.random.randint(1, 8, 100)              # Cuantitativa discreta
})

# Identificamos tipos de variables
print("Tipos de variables en el dataset:")
print(datos_fitness.dtypes)
print("\n" + "="*50 + "\n")

# Análisis según el tipo
print("Variables cuantitativas - Estadísticas descriptivas:")
print(datos_fitness[['edad', 'peso', 'altura', 'dias_uso_semanal']].describe())
print("\n" + "="*50 + "\n")

print("Variables cualitativas - Distribución de frecuencias:")
print("Género:")
print(datos_fitness['genero'].value_counts())
print("\nNivel de actividad:")
print(datos_fitness['nivel_actividad'].value_counts())

Tipos de variables en el dataset:
usuario_id            int64
edad                  int64
peso                float64
altura              float64
genero               object
nivel_actividad      object
dias_uso_semanal      int64
dtype: object


Variables cuantitativas - Estadísticas descriptivas:
            edad        peso      altura  dias_uso_semanal
count  100.00000  100.000000  100.000000        100.000000
mean    40.88000   71.029000  169.395000          4.160000
std     13.99082   14.966503   10.037157          1.983365
min     18.00000   40.900000  146.800000          1.000000
25%     30.50000   58.550000  163.000000          2.750000
50%     41.00000   69.850000  168.750000          4.000000
75%     53.25000   81.275000  175.775000          6.000000
max     64.00000  114.200000  200.600000          7.000000


Variables cualitativas - Distribución de frecuencias:
Género:
genero
F    55
M    45
Name: count, dtype: int64

Nivel de actividad:
nivel_actividad
bajo     41
alto    

---

## 7. Conceptos clave para recordar
$$
\boxed{
\begin{align}
&\text{Población (N)}: \text{ Conjunto completo de elementos} \\
&\text{Muestra (n)}: \text{ Subconjunto representativo de la población} \\
&\text{Variable}: \text{ Característica que varía entre individuos}
\end{align}
}
$$

**Tipos de variables:**

$$
\text{Variables} =
\begin{cases}
\text{Cualitativas}
\begin{cases}
\text{Nominales (sin orden)} \\
\text{Ordinales (con orden)}
\end{cases} \\
\text{Cuantitativas}
\begin{cases}
\text{Discretas (contables)} \\
\text{Continuas (en intervalos)}
\end{cases}
\end{cases}
$$

---

## 8. Ejercicios propuestos

**Ejercicio 1:** Clasifica las siguientes variables:
- a) Temperatura corporal
- b) Número de likes en un post
- c) Marca de smartphone
- d) Calificación de una película (1-5 estrellas)

**Ejercicio 2:** Crea un pequeño dataset en Python con al menos 4 tipos diferentes de variables y realiza un análisis exploratorio básico.

**Ejercicio 3:** ¿Por qué el código postal se considera una variable cualitativa nominal aunque contenga números?

In [6]:
# Espacio para resolver los ejercicios


---

**Siguiente lección:** Escalas de medición: nominal, ordinal, intervalo y razón