# Módulo 2: Comprensión de los datos

## Clasificación y operación en los datos

### Actividad 1: En clase
**Objetivo:** Generar análisis descriptivos y estadísticos básicos del set de inversiones SEJ 2013–2015, respondiendo todas las preguntas planteadas en el notebook original.

### Requerimientos (librerías):
* `pip install Unidecode`

In [None]:
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
from copy import deepcopy

# Auxiliar para ciertos tipos de texto raros
import unidecode

%matplotlib inline
plt.style.use('ggplot')

Primero definamos dentro de un ciclo los archivos que vamos a leer (descargables de Canvas).

In [None]:
# Definamos los nombres de los archivos a leer
files = {
        'inversiones': 'programas_de_inversion_sej_2013_2015.xlsx - TBL_MILLON_EXCE_NVA',
        'genero_y_personal': 'cct_estadistica_5'}

# Directorio donde están guardados los archivos
basedir = '.'

# Variable donde guardaremos los archivos csv
frames = {}
for file_type, file_name in files.items():
    print(f'-> Leyendo el file de tipo {file_type}.\n')
    file_dir = os.path.join(basedir, file_name + '.csv')
    frames[file_type] = pd.read_csv(file_dir, encoding='latin1')

print('-> Files leídos.')

Visualicemos los files que tenemos hasta el momento.

In [None]:
# Primero el de inversiones: shape y últimas 10 filas
print(frames['inversiones'].shape)
frames['inversiones'].tail(10)

In [None]:
# Ahora el de personal: shape y primeras filas
print(frames['genero_y_personal'].shape)
frames['genero_y_personal'].head()

### Tipos de datos: Inversiones
Para el propósito de la sesión nos concentraremos en la tabla de inversiones.

In [None]:
# Copiamos el archivo original para no modificarlo
df = frames['inversiones'].copy()

> **Caso de uso: IDs.**
>
> Los IDs son un componente muy importante de todo dataset: nos indican el registro único y si pueden estar repetidos.
> Un ID repetido no necesariamente está mal — puede indicar que un registro aparece de forma natural más de una vez.
> Un ID no siempre vendrá con la palabra "id" en su nombre. En este dataset, `INMUEBLE` y `CLAVE_CT` actúan como identificadores.

## Procesos de limpieza

Un proceso de limpieza dependerá mucho del tipo de información con la que contemos. En este caso tenemos varias cosas que hacer:

#### Limpieza de nombres en columnas

Estandarizaremos nombres de columnas removiendo espacios innecesarios y volviendo todo a minúscula.

In [None]:
# Droppeamos 'ID' (ya tenemos el index del DataFrame)
df.drop('ID', axis=1, inplace=True)

# Estandarizamos nombres: minúsculas y guiones bajos en lugar de espacios
df.columns = [x.lower().strip().replace(' ', '_') for x in df.columns]
print(df.columns.tolist())

Veamos los tipos de datos que tenemos en nuestro DataFrame

In [None]:
pd.DataFrame(df.dtypes, columns=['dtype'])

#### ¿Qué onda con los tipos de datos?
Pandas muestra los siguientes tipos de datos:
* **float64** — Números flotantes, con decimales.
* **object** — Texto y/o datos mezclados (texto + números).
* **int64** — Números enteros.
* **datetime64** — Valores de fecha y/o tiempo.
* **category** — Lista de categorías predefinidas.

#### Aspectos importantes de los datos que recibimos
* Hay datos que **deberían ser flotantes pero son `object`** (columnas de dinero con `$` y `,`).
* Los campos de texto: ¿se escriben siempre igual? ¿Hay problemas con acentos?
* Aparentemente hay muchos datos vacíos.
* Hay nombres con caracteres especiales y acentos.

In [None]:
# Veamos una fila específica para entender la estructura
pd.DataFrame(df.iloc[16])

##### Trabajando con columnas de dinero y sus caracteres especiales
Hay columnas de dinero con caracteres como `$`. Eso hace que se lean como `object` aunque sean números.

In [None]:
# Identificamos las columnas de inversión (contienen 'inversion') + 'otro_programas'
inversion_cols = [c for c in df.columns if 'inversion' in c] + ['otro_programas']

# De esas, cuáles son actualmente object (tienen $ o ,)
object_cols = df.select_dtypes(include=['object']).columns.tolist()
intersection = list(set(object_cols).intersection(inversion_cols))

print('Columnas de inversión que son object:', intersection)

# Limpiamos $, comas y espacios
df[intersection] = df[intersection].map(
    lambda x: x.strip().replace('$', '').replace(',', '')
    if x is not None and isinstance(x, str)
    else x
)

print('\nEjemplo después de limpiar:')
df[intersection].head(3)

Veamos si funcionó

In [None]:
df[intersection].dtypes

Funcionó aunque siguen sin ser flotantes.

##### Creando flotantes

Convertiremos columnas a números siempre que se pueda.

In [None]:
# Convertimos todas las columnas de inversión a numérico (errors='coerce' convierte
# lo que no se pueda a NaN en lugar de lanzar error)
for col in inversion_cols:
    df[col] = pd.to_numeric(df[col], errors='coerce')

print('Tipos después de conversión:')
df[inversion_cols].dtypes

Al usar `errors='coerce'` manejamos automáticamente el problema de cadenas vacías `''`
que antes generaban el error `could not convert string to float: ''`.

##### Reemplazando nulos

En este set tenemos distintos datos como `N.A.` que son nulos pero no vienen como `NaN`.
Hay que estandarizarlos. Primero revisamos las columnas object para ver qué valores raros hay.

In [None]:
# Técnica rápida para ver los valores menos y más ocurrentes en columnas object
object_cols_current = df.select_dtypes(include=['object']).columns
for col in object_cols_current:
    print(df[col].value_counts().sort_values())
    print()

Para nada es un método infalible ni el único, es una técnica rápida para ver los menos y los más ocurrentes.

La forma de reemplazar los nulos no estándar es:

In [None]:
df.replace({'': None,
            '  -   ': None,
            '-': None,
            'N.A.': None,
            'S/D': None}, inplace=True)

print('Nulos reemplazados.')

### Visualización de estado

Hasta el momento hemos hecho una limpieza básica (caracteres especiales, tipos de dato, nulos no estándar).
Ahora necesitamos entender el estado de las columnas para decidir qué más limpiar.

In [None]:
def get_numeric_stats(df):
    """
    Esta magia sacará estadísticas básicas DE LAS VARIABLES NUMÉRICAS.

    Parámetros
    ----------
    df: pandas.DataFrame
        Tabla con variables limpias.

    Regresa
    -------
    stats: diccionario
        Dict de la forma {columna: {nombre de la métrica: valor de la métrica}}
    """
    # Seleccionando las variables numéricas únicamente
    numeric_df = df.select_dtypes(include=['numeric'])

    # Este va a ser el diccionario que regresaremos, lo llenaremos con un loop.
    stats = {}

    # Recorramos las columnas
    for numeric_column in numeric_df:
        # Obtengamos el promedio
        mean = numeric_df[numeric_column].mean()

        # Ahora la mediana
        median = numeric_df[numeric_column].median()

        # Ahora la desviación estándar
        std = numeric_df[numeric_column].std()

        # Obtengamos el primer y tercer cuartil
        quantile25, quantile75 = numeric_df[numeric_column].quantile([0.25, 0.75])

        # ¿Cuál es el porcentaje de nulos?
        null_count = 100 * numeric_df[numeric_column].isnull().mean()

        # Guardemos
        stats[numeric_column] = {'mean': mean, 'median': median, 'std': std,
                                  'q25': quantile25, 'q75': quantile75, 'nulls': null_count}
    return stats

In [None]:
def get_cat_stats(df):
    """
    Esta magia sacará estadísticas básicas DE LAS VARIABLES CATEGÓRICAS.

    Parámetros
    ----------
    df: pandas.DataFrame
        Tabla con variables limpias.

    Regresa
    -------
    stats: diccionario
        Dict de la forma {columna: {nombre de la métrica: valor de la métrica}}
    """
    # Seleccionando los objetos
    object_df = df.select_dtypes(include=['object'])

    # El dict que regresaremos
    stats = {}

    # Recorramos las columnas
    for object_column in object_df:
        # ¿Cuántos valores únicos hay?
        unique_vals = object_df[object_column].nunique()

        # Saquemos la "moda" (valor más común).
        # Para eso primero usamos value_counts para encontrar la frecuencia
        all_values = object_df[object_column].value_counts()

        # Ahora sacaremos una tupla con el valor más común y el porcentaje de veces que aparece
        mode = (all_values.index[0], 100 * (all_values.values[0] / len(object_df)))

        # Cuenta de nulos
        null_count = 100 * object_df[object_column].isnull().mean()

        # Stats a devolver
        stats[object_column] = {'unique_vals': unique_vals, 'mode': mode, 'null_count': null_count}

    return stats

In [None]:
# Algunas utilidades para graficar
def autolabel(rects, ax):
    """Agrega etiquetas numéricas a las barras de una gráfica de barras."""
    for rect in rects:
        height = rect.get_height()
        ax.text(rect.get_x() + rect.get_width()/2.,
                1.05*height,
                '%d' % int(height),
                ha='center', va='bottom')

def _get_colors_to_use(variables):
    """Asigna colores distintos a una lista de elementos."""
    colors = plt.cm.jet(np.linspace(0, 1, len(variables)))
    return dict(zip(variables, colors))


def plot_numeric(df, numeric_stats):
    """Genera correlación, histograma y boxplot para cada variable numérica."""
    # Matriz de correlación
    corr = df.select_dtypes(exclude=['object']).corr()

    fig, ax = plt.subplots(figsize=(15, 15))
    im = ax.matshow(corr, cmap='Blues')
    ax.set_xticks(range(len(corr.columns)))
    ax.set_xticklabels(corr.columns, rotation=90)
    ax.set_yticks(range(len(corr.columns)))
    ax.set_yticklabels(corr.columns)
    ax.grid(False)
    plt.title('Matriz de correlación — Variables numéricas', pad=20)
    plt.tight_layout()
    plt.show()

    metrics = ['mean', 'median', 'std', 'q25', 'q75', 'nulls']
    colors = _get_colors_to_use(metrics)

    for variable in sorted(numeric_stats.keys()):
        fig, ax = plt.subplots(nrows=1, ncols=3, figsize=(14, 4))

        bar_position = -1
        for metric, value in numeric_stats[variable].items():
            bar_position += 1
            if value is None or np.isnan(value):
                value = -1
            bar_plot = ax[0].bar(bar_position, value, label=metric, color=colors[metric])
            autolabel(bar_plot, ax[0])

        df[variable].plot(kind='hist', color='steelblue', alpha=0.6, ax=ax[1])
        df.boxplot(ax=ax[2], column=variable)

        ax[0].set_xticks(range(len(metrics)))
        ax[0].set_xticklabels(metrics, rotation=90)
        ax[2].set_xticklabels('', rotation=90)
        ax[0].set_title('Métricas básicas', fontsize=10)
        ax[1].set_title('Histograma', fontsize=10)
        ax[2].set_title('Boxplot', fontsize=10)
        fig.suptitle(f'Variable: {variable}', fontsize=13, y=1.02)
        fig.tight_layout()
        plt.show()


def plot_categorical(df, object_stats):
    """Genera gráfica de métricas básicas para cada variable categórica."""
    metrics = ['unique_vals', 'mode', 'null_count']
    colors = _get_colors_to_use(metrics)

    for variable in sorted(object_stats.keys()):
        fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(8, 4))

        bar_position = -1
        mode_label = ''
        for metric, value in object_stats[variable].items():
            bar_position += 1
            if metric == 'mode':
                mode_label = value[0]
                value = value[1]
            if value is None or np.isnan(value):
                value = -1
            bar_plot = ax.bar(bar_position, value, label=metric, color=colors[metric])
            autolabel(bar_plot, ax)

        ax.set_xticks(range(len(metrics)))
        ax.set_xticklabels(metrics, rotation=90, fontsize=12)
        ax.set_title(f'Métricas categóricas: {variable}\nModa: {mode_label}', fontsize=12)
        fig.tight_layout()
        plt.show()

En este punto tenemos un dataset "limpio" para hacer una visualización y definir otro tipo de limpiezas necesarias.

Guardemos para posteriormente hacer otro análisis.

In [None]:
# Guardamos el DataFrame limpio
df.to_csv('inversiones_clean.csv', index=False, encoding='utf-8')
print('Dataset limpio guardado como inversiones_clean.csv')
print(f'Shape: {df.shape}')

Usemos nuestras funciones para obtener estadísticos básicos

In [None]:
# Estadísticas numéricas
numeric_stats = get_numeric_stats(df)
print('Variables numéricas encontradas:')
for col, stats in numeric_stats.items():
    print(f'  {col}: mean={stats["mean"]:.2f}, median={stats["median"]:.2f}, nulls={stats["nulls"]:.1f}%')

In [None]:
# Estadísticas categóricas
cat_stats = get_cat_stats(df)
print('Variables categóricas encontradas:')
for col, stats in cat_stats.items():
    print(f'  {col}: unique={stats["unique_vals"]}, mode=\'{stats["mode"][0]}\' ({stats["mode"][1]:.1f}%), nulls={stats["null_count"]:.1f}%')

Grafiquemos

In [None]:
# Graficamos variables numéricas (correlación, histogramas, boxplots)
plot_numeric(df, numeric_stats)

In [None]:
# Graficamos variables categóricas
plot_categorical(df, cat_stats)

### Conclusión datos numéricos

#### Correlaciones

**Salones, maestros y grupos** muestran una correlación positiva fuerte entre sí. Tiene sentido: más salones permiten más grupos, y más grupos requieren más maestros. Son variables que crecen juntas con el tamaño de la escuela.

Comparado con mi propia experiencia escolar, esto se cumple: las escuelas grandes siempre tuvieron más salones, grupos *y* maestros de forma proporcional.

**Salones vs variables de inversión** (interactivos, temporales, mobiliario, excelencia): correlación débil a moderada. Esto revela que la inversión no se asigna proporcionalmente al tamaño de la escuela, sino que responde a criterios de programa o necesidad específica.

**Inversión general vs variables de salones**: correlación positiva pero baja. Las escuelas más grandes reciben algo más de inversión, pero la relación no es determinista. Esto hace sentido: un programa de inversión estatal debe balancear eficiencia (concentrar recursos en las escuelas con más alumnos) con equidad (llegar a escuelas pequeñas con mayor carencia).

#### Salones existentes (aulas_existentes)
Distribución **sesgada a la derecha**. La mayoría de las escuelas en Jalisco tienen pocos salones (entre 3 y 15). Un grupo pequeño de escuelas urbanas grandes empuja la media hacia arriba, alejándola de la mediana. El boxplot muestra un IQR compacto con varios valores atípicos superiores.

#### Inversión en salones interactivos (inversion_aulas_interactivas)
Distribución con **altísimo sesgo positivo y muchos ceros**. La mayoría de escuelas no recibió este tipo de inversión. La media es mucho mayor que la mediana (que probablemente es cero). El histograma muestra una barra enorme en cero y una cola muy larga. El boxplot tiene la mediana en cero con numerosos outliers.

#### Inversión en salones temporales (inversion_aulas_temporales)
Patrón similar al anterior pero aún más disperso. Las inversiones temporales son reactivas (derrumbes, sobrepoblación súbita), lo que genera una distribución muy irregular. Casi todo el dataset tiene cero; el resto tiene valores muy variables.

#### Panorama general de columnas de inversión
Todas las variables de inversión son **zero-inflated y sesgadas a la derecha**. La desviación estándar supera a la media en prácticamente todos los casos, lo que indica altísima variabilidad. La media como medida de tendencia central es engañosa aquí; la mediana y el porcentaje de escuelas con inversión no nula son más informativos.

### Conclusión datos categóricos

#### Nivel (nivel)
Variable con **pocos valores únicos** (primaria, secundaria, preescolar, bachillerato, etc.). La **moda es PRIMARIA**, lo que refleja que las primarias son, por mucho, el tipo de escuela más numeroso en Jalisco. Nulos prácticamente inexistentes — es un campo obligatorio de identificación. Ideal para segmentar cualquier análisis por tipo escolar.

#### Director (director)
Alta cardinalidad — casi cada escuela tiene un director distinto. La moda puede ser un valor tipo "SIN DIRECTOR" o un apellido muy común; si un nombre específico aparece muchas veces, podría indicar un problema de calidad del dato. Nulos posiblemente moderados, ya que algunos registros pueden no tener director asignado en el periodo. **No es útil como variable de agrupación**; su valor es más de identificación.

#### General (nombre_ct)
Similar a director: alta cardinalidad (un nombre por escuela). Si algún nombre aparece repetido, puede indicar duplicados o escuelas homónimas en distintos municipios. Los nulos deben ser cercanos a cero. **Columna de identificación**, no de análisis estadístico.

#### Observación de salones interactivos (observacion_aulas_interactivas)
Variable de texto libre con **alta cardinalidad y muchos nulos** — coherente con que la mayoría de las escuelas no tuvo inversión en esta categoría. La moda probablemente es nulo o "SIN OBSERVACIONES". No tiene uso estadístico cuantitativo; su valor está en revisión cualitativa de los casos activos.

#### Observación de salones temporales (observacion_aulas_temporales)
Misma estructura que la anterior: texto libre, muy disperso, mayoría de registros vacíos. El subconjunto de registros con observaciones podría revelar el motivo de la construcción temporal (sobrepoblación, daño estructural, emergencia). **Columna cualitativa**, no cuantitativa.