<a href="https://colab.research.google.com/github/financieras/math_for_ai/blob/main/410_estadistica_descriptiva.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 4.1.1 Tipos de Variables en Estadística

En estadística y machine learning, la naturaleza de las variables que estudiamos determina qué tipos de análisis y modelos podemos aplicar. Las variables se clasifican principalmente en dos grandes grupos: cualitativas y cuantitativas.

## Variables Cualitativas (Categóricas)

Las variables cualitativas representan características o cualidades que no pueden medirse numéricamente. Se dividen en:

### 1. Variables Nominales
- Representan categorías sin orden natural
- Ejemplo: colores = {rojo, verde, azul, rosa}
- Ejemplos: color de ojos, género, tipo de sistema operativo
- Operaciones permitidas: igual (=), diferente (≠)
- Medidas estadísticas aplicables: moda, frecuencias

### 2. Variables Ordinales
- Representan categorías con un orden natural
- Ejemplos: nivel profesional (inten, junior, middle, senior), nivel de satisfacción (bajo, medio, alto), platos en la comida (primer plato, segundo plato, postre)
- Operaciones permitidas: igual (=), diferente (≠), mayor que (>), menor que (<)
- Medidas estadísticas aplicables: moda, mediana, frecuencias

## Variables Cuantitativas (Numéricas)

Las variables cuantitativas representan cantidades numéricas. Se dividen en:

### 1. Variables Discretas
- Toman valores enteros o contables
- Ejemplos: número de hijos, número de errores en un programa
- Operaciones permitidas: todas las operaciones matemáticas
- Medidas estadísticas aplicables: todas

### 2. Variables Continuas
- Pueden tomar cualquier valor dentro de un intervalo
- Ejemplos: altura, peso, temperatura, tiempo
- Operaciones permitidas: todas las operaciones matemáticas
- Medidas estadísticas aplicables: todas

## Ejemplos prácticos en Python

In [4]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo con diferentes tipos de variables
data = {
    'nombre': ['Ana', 'Juan', 'María', 'Pedro'],            # Nominal
    'nivel_profesional': ['Senior', 'Junior',
                         'Junior', 'Intern'],               # Ordinal
    'edad': [25, 30, 22, 35],                               # Discreta
    'altura': [1.65, 1.78, 1.70, 1.82],                     # Continua
    'peso': [65.5, 80.2, 58.7, 77.8]                        # Continua
}

df = pd.DataFrame(data)

# Mostrar información sobre los tipos de datos
print("Información del DataFrame:")
print(df.info())

# Estadísticas básicas para variables numéricas
print("\nEstadísticas básicas de variables numéricas:")
print(df.describe())

# Frecuencias para variables cualitativas
print("\nFrecuencias de nivel educativo (Variable Ordinal):")
print(df['nivel_profesional'].value_counts())

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   nombre             4 non-null      object 
 1   nivel_profesional  4 non-null      object 
 2   edad               4 non-null      int64  
 3   altura             4 non-null      float64
 4   peso               4 non-null      float64
dtypes: float64(2), int64(1), object(2)
memory usage: 288.0+ bytes
None

Estadísticas básicas de variables numéricas:
            edad    altura       peso
count   4.000000  4.000000   4.000000
mean   28.000000  1.737500  70.550000
std     5.715476  0.076757  10.191663
min    22.000000  1.650000  58.700000
25%    24.250000  1.687500  63.800000
50%    27.500000  1.740000  71.650000
75%    31.250000  1.790000  78.400000
max    35.000000  1.820000  80.200000

Frecuencias de nivel educativo (Variable Ordinal):
nivel_profesional
Junior 

## Importancia en Machine Learning

La identificación correcta del tipo de variable es crucial en machine learning por varias razones:

1. **Preprocesamiento de datos**:
   - Las variables categóricas suelen requerir codificación (one-hot encoding, label encoding)
   - Las variables numéricas suelen requerir normalización o estandarización

2. **Selección de modelos**:
   - Regresión: requiere variable objetivo continua
   - Clasificación: requiere variable objetivo categórica

3. **Evaluación de modelos**:
   - Métricas diferentes según el tipo de variable objetivo
   - RMSE (Root Mean Squared Error), MAE (Mean Absolute Error) para variables continuas
   $$RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_{real} - y_{pred})^2} \qquad \qquad MAE = \frac{1}{n} \sum_{i=1}^{n} |y_{real} - y_{pred}|$$
   - Accuracy, F1-score para variables categóricas

## Ejemplo de preprocesamiento según el tipo de variable

In [12]:
from sklearn.preprocessing import LabelEncoder, StandardScaler

# Preprocesamiento para variables categóricas
le = LabelEncoder()
df['nivel_profesional_encoded'] = le.fit_transform(df['nivel_profesional'])

# Preprocesamiento para variables numéricas
scaler = StandardScaler()
df['altura_scaled'] = scaler.fit_transform(df[['altura']])
df['peso_scaled'] = scaler.fit_transform(df[['peso']])

print("DataFrame con variables procesadas:")
print(df)

DataFrame con variables procesadas:
  nombre nivel_profesional  edad  altura  peso  nivel_profesional_encoded  \
0    Ana            Senior    25    1.65  65.5                          2   
1   Juan            Junior    30    1.78  80.2                          1   
2  María            Junior    22    1.70  58.7                          1   
3  Pedro            Intern    35    1.82  77.8                          0   

   altura_scaled  peso_scaled  
0      -1.316310    -0.572158  
1       0.639351     1.093331  
2      -0.564133    -1.342588  
3       1.241093     0.821414  


# 4.1.2 Distribución de Frecuencias y Tablas de Frecuencias

La distribución de frecuencias nos permite organizar y resumir conjuntos de datos, mostrando el número de veces que aparece cada valor o categoría.

## Conceptos Básicos

- **Frecuencia absoluta ($f_i$)**: Número de veces que aparece un valor en el conjunto de datos.
- **Frecuencia relativa ($fr_i$)**: Proporción que representa cada frecuencia absoluta respecto al total.
  $$fr_i = \frac{f_i}{n}$$
- **Frecuencia absoluta acumulada ($F_i$)**: Suma de las frecuencias absolutas hasta un valor dado.
- **Frecuencia relativa acumulada ($Fr_i$)**: Suma de las frecuencias relativas hasta un valor dado.
  $$Fr_i = \frac{F_i}{n}$$

## Construcción de Tablas de Frecuencias

### Para Variables Cualitativas

In [11]:
import pandas as pd
import numpy as np

# Crear datos de ejemplo: nivel profesional de 50 empleados
np.random.seed(42)
niveles = ['Junior', 'Middle', 'Senior', 'Intern']
pesos = [0.3, 0.4, 0.2, 0.1]  # Probabilidades para cada nivel
datos = np.random.choice(niveles, size=50, p=pesos)

# Crear tabla de frecuencias
tabla_freq = pd.DataFrame({
    'Nivel': niveles,
    'Frecuencia Absoluta': [sum(datos == nivel) for nivel in niveles],
})

# Calcular frecuencias relativas y acumuladas
n = len(datos)
tabla_freq['Frecuencia Relativa'] = tabla_freq['Frecuencia Absoluta'] / n
tabla_freq['Frec. Abs. Acumulada'] = tabla_freq['Frecuencia Absoluta'].cumsum()
tabla_freq['Frec. Rel. Acumulada'] = tabla_freq['Frecuencia Relativa'].cumsum()

print("Tabla de Frecuencias para Niveles Profesionales:")
print(tabla_freq.round(3).to_markdown(index=False))     # salida a Markdown

Tabla de Frecuencias para Niveles Profesionales:
| Nivel   |   Frecuencia Absoluta |   Frecuencia Relativa |   Frec. Abs. Acumulada |   Frec. Rel. Acumulada |
|:--------|----------------------:|----------------------:|-----------------------:|-----------------------:|
| Junior  |                    19 |                  0.38 |                     19 |                   0.38 |
| Middle  |                    20 |                  0.4  |                     39 |                   0.78 |
| Senior  |                     6 |                  0.12 |                     45 |                   0.9  |
| Intern  |                     5 |                  0.1  |                     50 |                   1    |


Tabla de Frecuencias para Niveles Profesionales:

| Nivel   |   Frecuencia Absoluta |   Frecuencia Relativa |   Frec. Abs. Acumulada |   Frec. Rel. Acumulada |
|:--------|----------------------:|----------------------:|-----------------------:|-----------------------:|
| Junior  |                    19 |                  0.38 |                     19 |                   0.38 |
| Middle  |                    20 |                  0.4  |                     39 |                   0.78 |
| Senior  |                     6 |                  0.12 |                     45 |                   0.9  |
| Intern  |                     5 |                  0.1  |                     50 |                   1    |