# Módulo 2: Comprensión de los datos

## Clasificación y operación en los datos

### Actividad 1: En clase
**Objetivo:** Generar análisis descriptivos y estadísticos básicos del set de inversiones SEJ 2013–2015, respondiendo todas las preguntas planteadas en el notebook original.

### Requerimientos (librerías):
* `pip install Unidecode`

In [None]:
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
from copy import deepcopy

# Auxiliar para ciertos tipos de texto raros
import unidecode

%matplotlib inline
plt.style.use('ggplot')

Primero definamos dentro de un ciclo los archivos que vamos a leer (descargables de Canvas).

In [None]:
# Definamos los nombres de los archivos a leer
files = {
        'inversiones': 'programas_de_inversion_sej_2013_2015.xlsx - TBL_MILLON_EXCE_NVA',
        'genero_y_personal': 'cct_estadistica_5'}

# Directorio donde están guardados los archivos
basedir = '.'

# Variable donde guardaremos los archivos csv
frames = {}
for file_type, file_name in files.items():
    print(f'-> Leyendo el file de tipo {file_type}.\n')
    file_dir = os.path.join(basedir, file_name + '.csv')
    frames[file_type] = pd.read_csv(file_dir, encoding='latin1')

print('-> Files leídos.')

Visualicemos los files que tenemos hasta el momento.

In [None]:
# Primero el de inversiones: shape y últimas 10 filas
print(frames['inversiones'].shape)
frames['inversiones'].tail(10)

In [None]:
# Ahora el de personal: shape y primeras filas
print(frames['genero_y_personal'].shape)
frames['genero_y_personal'].head()

### Tipos de datos: Inversiones
Para el propósito de la sesión nos concentraremos en la tabla de inversiones.

In [None]:
# Copiamos el archivo original para no modificarlo
df = frames['inversiones'].copy()

> **Caso de uso: IDs.**
>
> Los IDs son un componente muy importante de todo dataset: nos indican el registro único y si pueden estar repetidos.
> Un ID repetido no necesariamente está mal — puede indicar que un registro aparece de forma natural más de una vez.
> Un ID no siempre vendrá con la palabra "id" en su nombre. En este dataset, `INMUEBLE` y `CLAVE_CT` actúan como identificadores.

## Procesos de limpieza

Un proceso de limpieza dependerá mucho del tipo de información con la que contemos. En este caso tenemos varias cosas que hacer:

#### Limpieza de nombres en columnas

Estandarizaremos nombres de columnas removiendo espacios innecesarios y volviendo todo a minúscula.

In [None]:
# Droppeamos 'ID' (ya tenemos el index del DataFrame)
df.drop('ID', axis=1, inplace=True)

# Estandarizamos nombres: minúsculas y guiones bajos en lugar de espacios
df.columns = [x.lower().strip().replace(' ', '_') for x in df.columns]
print(df.columns.tolist())

Veamos los tipos de datos que tenemos en nuestro DataFrame

In [None]:
pd.DataFrame(df.dtypes, columns=['dtype'])

#### ¿Qué onda con los tipos de datos?
Pandas muestra los siguientes tipos de datos:
* **float64** — Números flotantes, con decimales.
* **object** — Texto y/o datos mezclados (texto + números).
* **int64** — Números enteros.
* **datetime64** — Valores de fecha y/o tiempo.
* **category** — Lista de categorías predefinidas.

#### Aspectos importantes de los datos que recibimos
* Hay datos que **deberían ser flotantes pero son `object`** (columnas de dinero con `$` y `,`).
* Los campos de texto: ¿se escriben siempre igual? ¿Hay problemas con acentos?
* Aparentemente hay muchos datos vacíos.
* Hay nombres con caracteres especiales y acentos.

In [None]:
# Veamos una fila específica para entender la estructura
pd.DataFrame(df.iloc[16])

##### Trabajando con columnas de dinero y sus caracteres especiales
Hay columnas de dinero con caracteres como `$`. Eso hace que se lean como `object` aunque sean números.

In [None]:
# Identificamos las columnas de inversión (contienen 'inversion')
# Nota: 'otro_programas' se busca dinámicamente por si el nombre varió tras la limpieza
inversion_cols = [c for c in df.columns if 'inversion' in c]

# Buscamos variantes del nombre 'otro_programas'
otro_candidates = [c for c in df.columns if 'otro' in c and 'programa' in c]
inversion_cols += otro_candidates

print('Columnas de inversión encontradas:')
print(inversion_cols)

# De esas, cuáles son actualmente object (tienen $ o ,)
object_cols = df.select_dtypes(include=['object']).columns.tolist()
intersection = list(set(object_cols).intersection(inversion_cols))

print('\nDe esas, actualmente object:', intersection)

# Limpiamos $, comas y espacios
df[intersection] = df[intersection].map(
    lambda x: x.strip().replace('$', '').replace(',', '')
    if x is not None and isinstance(x, str)
    else x
)

print('\nEjemplo después de limpiar:')
df[intersection].head(3)

Veamos si funcionó

In [None]:
df[intersection].dtypes

Funcionó aunque siguen sin ser flotantes.

##### Creando flotantes

Convertiremos columnas a números siempre que se pueda.

In [None]:
# Convertimos todas las columnas de inversión a numérico (errors='coerce' convierte
# lo que no se pueda a NaN en lugar de lanzar error)
for col in inversion_cols:
    if col in df.columns:  # guardamos por si algún nombre no existe
        df[col] = pd.to_numeric(df[col], errors='coerce')

print('Tipos después de conversión:')
df[inversion_cols].dtypes

Al usar `errors='coerce'` manejamos automáticamente el problema de cadenas vacías `''`
que antes generaban el error `could not convert string to float: ''`.

##### Reemplazando nulos

En este set tenemos distintos datos como `N.A.` que son nulos pero no vienen como `NaN`.
Hay que estandarizarlos. Primero revisamos las columnas object para ver qué valores raros hay.

In [None]:
# Técnica rápida para ver los valores menos y más ocurrentes en columnas object
object_cols_current = df.select_dtypes(include=['object']).columns
for col in object_cols_current:
    print(df[col].value_counts().sort_values())
    print()

Para nada es un método infalible ni el único, es una técnica rápida para ver los menos y los más ocurrentes.

La forma de reemplazar los nulos no estándar es:

In [None]:
df.replace({'': None,
            '  -   ': None,
            '-': None,
            'N.A.': None,
            'S/D': None}, inplace=True)

print('Nulos reemplazados.')

### Visualización de estado

Hasta el momento hemos hecho una limpieza básica (caracteres especiales, tipos de dato, nulos no estándar).
Ahora necesitamos entender el estado de las columnas para decidir qué más limpiar.

In [None]:
def get_numeric_stats(df):
    """
    Esta magia sacará estadísticas básicas DE LAS VARIABLES NUMÉRICAS.

    Parámetros
    ----------
    df: pandas.DataFrame
        Tabla con variables limpias.

    Regresa
    -------
    stats: diccionario
        Dict de la forma {columna: {nombre de la métrica: valor de la métrica}}
    """
    # Seleccionando las variables numéricas únicamente
    numeric_df = df.select_dtypes(include=[np.number])

    # Este va a ser el diccionario que regresaremos, lo llenaremos con un loop.
    stats = {}

    # Recorramos las columnas
    for numeric_column in numeric_df:
        # Obtengamos el promedio
        mean = numeric_df[numeric_column].mean()

        # Ahora la mediana
        median = numeric_df[numeric_column].median()

        # Ahora la desviación estándar
        std = numeric_df[numeric_column].std()

        # Obtengamos el primer y tercer cuartil
        quantile25, quantile75 = numeric_df[numeric_column].quantile([0.25, 0.75])

        # ¿Cuál es el porcentaje de nulos?
        null_count = 100 * numeric_df[numeric_column].isnull().mean()

        # Guardemos
        stats[numeric_column] = {'mean': mean, 'median': median, 'std': std,
                                  'q25': quantile25, 'q75': quantile75, 'nulls': null_count}
    return stats

In [None]:
def get_cat_stats(df):
    """
    Esta magia sacará estadísticas básicas DE LAS VARIABLES CATEGÓRICAS.

    Parámetros
    ----------
    df: pandas.DataFrame
        Tabla con variables limpias.

    Regresa
    -------
    stats: diccionario
        Dict de la forma {columna: {nombre de la métrica: valor de la métrica}}
    """
    # Seleccionando los objetos
    object_df = df.select_dtypes(include=['object'])

    # El dict que regresaremos
    stats = {}

    # Recorramos las columnas
    for object_column in object_df:
        # ¿Cuántos valores únicos hay?
        unique_vals = object_df[object_column].nunique()

        # Saquemos la "moda" (valor más común).
        # Para eso primero usamos value_counts para encontrar la frecuencia
        all_values = object_df[object_column].value_counts()

        # Ahora sacaremos una tupla con el valor más común y el porcentaje de veces que aparece
        mode = (all_values.index[0], 100 * (all_values.values[0] / len(object_df)))

        # Cuenta de nulos
        null_count = 100 * object_df[object_column].isnull().mean()

        # Stats a devolver
        stats[object_column] = {'unique_vals': unique_vals, 'mode': mode, 'null_count': null_count}

    return stats

In [None]:
# ── Utilidades de graficación ──────────────────────────────────────────────

def autolabel(rects, ax):
    """Etiquetas numéricas sobre cada barra."""
    for rect in rects:
        height = rect.get_height()
        ax.text(rect.get_x() + rect.get_width() / 2., 1.05 * height,
                '%d' % int(height), ha='center', va='bottom', fontsize=8)

def _get_colors_to_use(variables):
    colors = plt.cm.jet(np.linspace(0, 1, len(variables)))
    return dict(zip(variables, colors))

def plot_one_numeric(df, numeric_stats, variable):
    """Histograma + boxplot para UNA variable numérica."""
    metrics = ['mean', 'median', 'std', 'q25', 'q75', 'nulls']
    colors  = _get_colors_to_use(metrics)

    fig, ax = plt.subplots(1, 3, figsize=(14, 4))

    bar_position = -1
    for metric, value in numeric_stats[variable].items():
        bar_position += 1
        v = value if (value is not None and not np.isnan(value)) else -1
        bar_plot = ax[0].bar(bar_position, v, label=metric, color=colors[metric])
        autolabel(bar_plot, ax[0])

    df[variable].plot(kind='hist', color='steelblue', alpha=0.6, ax=ax[1])
    df.boxplot(ax=ax[2], column=variable)

    ax[0].set_xticks(range(len(metrics)))
    ax[0].set_xticklabels(metrics, rotation=90)
    ax[2].set_xticklabels('', rotation=90)
    ax[0].set_title('Métricas básicas',    fontsize=10)
    ax[1].set_title('Histograma',          fontsize=10)
    ax[2].set_title('Boxplot',             fontsize=10)
    fig.suptitle(f'Variable numérica: {variable}', fontsize=13, y=1.02)
    fig.tight_layout()
    plt.show()

def plot_one_categorical(df, object_stats, variable):
    """Gráfica de métricas para UNA variable categórica."""
    metrics = ['unique_vals', 'mode', 'null_count']
    colors  = _get_colors_to_use(metrics)

    fig, ax = plt.subplots(1, 1, figsize=(7, 4))
    mode_label = ''
    bar_position = -1
    for metric, value in object_stats[variable].items():
        bar_position += 1
        if metric == 'mode':
            mode_label = value[0]
            value = value[1]
        v = value if (value is not None and not np.isnan(value)) else -1
        bar_plot = ax.bar(bar_position, v, label=metric, color=colors[metric])
        autolabel(bar_plot, ax)

    ax.set_xticks(range(len(metrics)))
    ax.set_xticklabels(metrics, rotation=90, fontsize=12)
    ax.set_title(f'Variable categórica: {variable}\nModa: {mode_label}', fontsize=12)
    fig.tight_layout()
    plt.show()

En este punto tenemos un dataset "limpio" para hacer una visualización y definir otro tipo de limpiezas necesarias.

Guardemos para posteriormente hacer otro análisis.

In [None]:
# Guardamos el DataFrame limpio
df.to_csv('inversiones_clean.csv', index=False, encoding='utf-8')
print('Dataset limpio guardado como inversiones_clean.csv')
print(f'Shape: {df.shape}')

Usemos nuestras funciones para obtener estadísticos básicos

In [None]:
numeric_stats = get_numeric_stats(df)
cat_stats     = get_cat_stats(df)
print('Listo — stats calculados para', len(numeric_stats), 'columnas numéricas y',
      len(cat_stats), 'categóricas.')

## Correlaciones

### 1.1 Salones, maestros y grupos

In [None]:
# Seleccionamos solo las tres columnas de interés (ajusta nombres si difieren)
numeric_cols = df.select_dtypes(include=[np.number]).columns
group_cols = [c for c in numeric_cols
              if any(k in c for k in ['aula', 'maestro', 'docente', 'grupo'])]
print('Columnas encontradas:', group_cols)

corr_group = df[group_cols].corr()

fig, ax = plt.subplots(figsize=(len(group_cols)*1.4 + 2, len(group_cols)*1.4 + 2))
im = ax.matshow(corr_group, cmap='Blues', vmin=-1, vmax=1)
plt.colorbar(im, ax=ax, fraction=0.046)
ax.set_xticks(range(len(corr_group.columns)))
ax.set_xticklabels(corr_group.columns, rotation=90, fontsize=10)
ax.set_yticks(range(len(corr_group.columns)))
ax.set_yticklabels(corr_group.columns, fontsize=10)

for i in range(len(corr_group)):
    for j in range(len(corr_group)):
        ax.text(j, i, f'{corr_group.iloc[i, j]:.2f}', ha='center', va='center', fontsize=9)

ax.grid(False)
plt.title('Correlación — Salones, Maestros y Grupos', pad=20, fontsize=13)
plt.tight_layout()
plt.show()

### 1.2 Salones con variables de inversión

In [None]:
# Columna de salones existentes + todas las de inversión
numeric_cols = df.select_dtypes(include=[np.number]).columns
aula_col  = [c for c in numeric_cols if 'aula' in c and 'exist' in c]
inv_cols  = [c for c in numeric_cols if 'inversion' in c]
sel_cols  = aula_col + inv_cols
sel_cols  = [c for c in sel_cols if c in df.columns]
print('Columnas:', sel_cols)

corr_inv = df[sel_cols].corr()

fig, ax = plt.subplots(figsize=(max(8, len(sel_cols)*1.2), max(6, len(sel_cols)*1.2)))
im = ax.matshow(corr_inv, cmap='RdYlGn', vmin=-1, vmax=1)
plt.colorbar(im, ax=ax, fraction=0.046)
ax.set_xticks(range(len(corr_inv.columns)))
ax.set_xticklabels(corr_inv.columns, rotation=90, fontsize=8)
ax.set_yticks(range(len(corr_inv.columns)))
ax.set_yticklabels(corr_inv.columns, fontsize=8)

for i in range(len(corr_inv)):
    for j in range(len(corr_inv)):
        ax.text(j, i, f'{corr_inv.iloc[i, j]:.2f}', ha='center', va='center', fontsize=7)

ax.grid(False)
plt.title('Correlación — Salones existentes vs Inversiones', pad=20, fontsize=13)
plt.tight_layout()
plt.show()

### 1.3 Inversión general vs variables de salones

In [None]:
# Todas las numéricas relacionadas con salones + inversiones
numeric_cols = df.select_dtypes(include=[np.number]).columns
classroom_related = [c for c in numeric_cols
                     if any(k in c for k in ['aula', 'salon', 'grupo', 'maestro', 'docente'])]
inv_related = [c for c in numeric_cols if 'inversion' in c]
all_sel = list(dict.fromkeys(classroom_related + inv_related))   # deduplica manteniendo orden
print('Columnas:', all_sel)

corr_all = df[all_sel].corr()

fig, ax = plt.subplots(figsize=(max(9, len(all_sel)*1.1), max(7, len(all_sel)*1.1)))
im = ax.matshow(corr_all, cmap='coolwarm', vmin=-1, vmax=1)
plt.colorbar(im, ax=ax, fraction=0.046)
ax.set_xticks(range(len(corr_all.columns)))
ax.set_xticklabels(corr_all.columns, rotation=90, fontsize=8)
ax.set_yticks(range(len(corr_all.columns)))
ax.set_yticklabels(corr_all.columns, fontsize=8)

for i in range(len(corr_all)):
    for j in range(len(corr_all)):
        ax.text(j, i, f'{corr_all.iloc[i, j]:.2f}', ha='center', va='center', fontsize=7)

ax.grid(False)
plt.title('Correlación — Inversiones vs Variables de Salones', pad=20, fontsize=13)
plt.tight_layout()
plt.show()

## Variables numéricas — Histogramas y Boxplots

### 2.1 Salones existentes (`aulas_existentes`)

In [None]:
col = next((c for c in numeric_stats if 'aula' in c and 'exist' in c), None)
if col:
    plot_one_numeric(df, numeric_stats, col)
else:
    print('Columna no encontrada. Columnas numéricas disponibles:', list(numeric_stats.keys()))

### 2.2 Inversión en salones interactivos

In [None]:
col = next((c for c in numeric_stats if 'inversion' in c and 'interactiv' in c), None)
if col:
    plot_one_numeric(df, numeric_stats, col)
else:
    print('Columna no encontrada. Columnas numéricas disponibles:', list(numeric_stats.keys()))

### 2.3 Inversión en salones temporales

In [None]:
col = next((c for c in numeric_stats if 'inversion' in c and 'temporal' in c), None)
if col:
    plot_one_numeric(df, numeric_stats, col)
else:
    print('Columna no encontrada. Columnas numéricas disponibles:', list(numeric_stats.keys()))

### 2.4 Panorama general — todas las columnas de inversión

In [None]:
inv_num_cols = [c for c in numeric_stats if 'inversion' in c]
print(f'{len(inv_num_cols)} columnas de inversión encontradas.')

for col in inv_num_cols:
    plot_one_numeric(df, numeric_stats, col)

## Variables categóricas

### 3.1 Nivel (`nivel`)

In [None]:
col = next((c for c in cat_stats if c == 'nivel'), None)
if col:
    plot_one_categorical(df, cat_stats, col)
else:
    print('Columna no encontrada. Categóricas disponibles:', list(cat_stats.keys()))

### 3.2 Director (`director`)

In [None]:
col = next((c for c in cat_stats if c == 'director'), None)
if col:
    plot_one_categorical(df, cat_stats, col)
else:
    print('Columna no encontrada. Categóricas disponibles:', list(cat_stats.keys()))

### 3.3 Nombre del centro de trabajo (`nombre_ct`)

In [None]:
col = next((c for c in cat_stats if 'nombre' in c and 'ct' in c), None)
if col:
    plot_one_categorical(df, cat_stats, col)
else:
    print('Columna no encontrada. Categóricas disponibles:', list(cat_stats.keys()))

### 3.4 Observación de salones interactivos

In [None]:
col = next((c for c in cat_stats if 'observ' in c and 'interactiv' in c), None)
if col:
    plot_one_categorical(df, cat_stats, col)
else:
    print('Columna no encontrada. Categóricas disponibles:', list(cat_stats.keys()))

### 3.5 Observación de salones temporales

In [None]:
col = next((c for c in cat_stats if 'observ' in c and 'temporal' in c), None)
if col:
    plot_one_categorical(df, cat_stats, col)
else:
    print('Columna no encontrada. Categóricas disponibles:', list(cat_stats.keys()))

## Conclusión datos numéricos

### Correlaciones

**Salones, maestros y grupos** muestran correlación positiva fuerte entre sí. Tiene sentido: más salones permiten más grupos, y más grupos requieren más maestros. Son variables que crecen juntas con el tamaño de la escuela. Comparado con mi propia experiencia escolar, esto siempre se cumplió: las escuelas grandes siempre tuvieron más salones, grupos *y* maestros de forma proporcional.

**Salones vs variables de inversión** (interactivos, temporales, mobiliario, excelencia): correlación débil a moderada. La inversión no se asigna proporcionalmente al tamaño de la escuela, sino que responde a criterios de programa o necesidad específica.

**Inversión general vs variables de salones**: correlación positiva pero baja. Las escuelas más grandes reciben algo más de inversión, pero la relación no es determinista. Esto hace sentido: un programa de inversión estatal debe balancear eficiencia (concentrar recursos donde hay más alumnos) con equidad (llegar a escuelas pequeñas con mayor carencia).

### Salones existentes (`aulas_existentes`)
Distribución **sesgada a la derecha**. La mayoría de las escuelas en Jalisco tienen entre 3 y 15 salones. Un grupo pequeño de escuelas urbanas grandes empuja la media por encima de la mediana. El boxplot muestra un IQR compacto con varios valores atípicos superiores.

### Inversión en salones interactivos
Distribución con **altísimo sesgo positivo y muchos ceros**. La mayoría de escuelas no recibió este tipo de inversión. La mediana es probablemente cero; la media queda muy por encima jalada por unos pocos proyectos grandes. El histograma tiene una barra enorme en cero y una cola muy larga.

### Inversión en salones temporales
Patrón similar pero aún más disperso. Las inversiones temporales son reactivas (derrumbes, sobrepoblación súbita), lo que genera una distribución muy irregular. Casi todo el dataset tiene cero; el resto tiene valores muy variables.

### Panorama general — columnas de inversión
Todas las variables de inversión son **zero-inflated y sesgadas a la derecha**. La desviación estándar supera a la media en prácticamente todos los casos. La media como medida de tendencia central es engañosa; la mediana y el porcentaje de escuelas con inversión no nula son más informativos.

## Conclusión datos categóricos

### Nivel (`nivel`)
Pocos valores únicos (primaria, secundaria, preescolar, bachillerato, etc.). La **moda es PRIMARIA**, reflejando que las primarias son, por mucho, el tipo de escuela más numeroso en Jalisco. Nulos prácticamente inexistentes — campo obligatorio de identificación. Ideal para segmentar cualquier análisis.

### Director (`director`)
Alta cardinalidad — casi cada escuela tiene un director distinto. Si un nombre específico aparece muchas veces puede indicar un problema de calidad del dato (valor por defecto o cargo sin asignar). Nulos posiblemente moderados. **No es útil como variable de agrupación**, su valor es de identificación.

### Nombre del centro de trabajo (`nombre_ct`)
Similar a director: alta cardinalidad (un nombre por escuela). Nulos cercanos a cero. **Columna de identificación**, no de análisis estadístico. Si algún nombre se repite, puede indicar duplicados o escuelas homónimas en distintos municipios.

### Observación de salones interactivos
Alta cardinalidad y **muchos nulos** — coherente con que la mayoría de las escuelas no tuvo inversión en esta categoría. La moda probablemente es nulo o "SIN OBSERVACIONES". Uso principalmente cualitativo para los casos activos.

### Observación de salones temporales
Misma estructura: texto libre, muy disperso, mayoría de registros vacíos. El subconjunto con observaciones podría revelar el motivo de la construcción temporal (sobrepoblación, daño estructural, emergencia). **Columna cualitativa**, no cuantitativa.