<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/ageron/handson-ml3/blob/main/tools_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/ageron/handson-ml3/blob/main/tools_numpy.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table>

A continuaci√≥n te presento el **dise√±o completo de la Clase 3**, **alineado institucionalmente**, pero **reformulada estrat√©gicamente para posicionar a Python como alternativa de c√≥digo abierto a Stata**, 
* **sin perder la l√≥gica, sintaxis mental ni potencia anal√≠tica** que los estudiantes deben aprender para ‚Äúir y venir‚Äù entre softwares, tal como lo planteas en el seminario.



He mantenido **la misma estructura conceptual de Stata**, pero mostrando **el equivalente funcional en Python**, lo cual es pedag√≥gicamente muy potente para estudiantes de ciencias sociales.

---



# **Clase 3 ‚Äì 23 de diciembre de 2026**



## **An√°lisis descriptivo con Python (alternativa abierta a Stata)**

---



# 1. Prop√≥sito formativo de la clase



Que el estudiante:

* Comprenda que **Python puede realizar las mismas tareas de an√°lisis descriptivo que Stata**
* Identifique **equivalencias funcionales** entre comandos de Stata y librer√≠as de Python
* Desarrolle habilidades para:

  * Analizar variables categ√≥ricas y cuantitativas
  * Construir y recodificar variables
  * Etiquetar categor√≠as de an√°lisis
* Fortalezca la idea de **lenguajes como herramientas intercambiables**, no como fines en s√≠ mismos

---



## 2. Introducci√≥n conceptual: Stata vs Python



# Idea clave para los estudiantes



> Stata es un software cerrado con comandos especializados.
> Python es un lenguaje abierto que, mediante librer√≠as, reproduce y ampl√≠a esas funcionalidades.



| Tarea        | Stata              | Python                |
| ------------ | ------------------ | --------------------- |
| Abrir base   | `use encuesta.dta` | `pd.read_stata()`     |
| Frecuencias  | `tab`              | `value_counts()`      |
| Descriptivos | `summarize`        | `.describe()`         |
| Recodificar  | `recode`           | `map()`, `np.where()` |
| Etiquetar    | `label define`     | `CategoricalDtype`    |

---



## 3. Introducci√≥n al ‚Äúentorno Python‚Äù para an√°lisis descriptivo



### Librer√≠as centrales


In [2]:

import pandas as pd
import numpy as np




* `pandas` ‚Üí manejo de datos (equivalente a la l√≥gica de Stata)
* `numpy` ‚Üí operaciones vectorizadas (motor matem√°tico)



# **Mensaje did√°ctico**:



> En Python, no hay ‚Äúcomandos sueltos‚Äù; todo opera sobre objetos (DataFrames y Series).

---


# Generaci√≥n del dataframe de ejemplo para todo la clase 3 

Perfecto, Marco. A continuaci√≥n te entrego un **script de Python cuidadosamente dise√±ado para la Clase 3**, que **genera artificialmente un DataFrame de encuesta** con **todas las variables necesarias** para realizar **cada una de las actividades de an√°lisis descriptivo** planteadas (categ√≥ricas, cuantitativas, recodificaci√≥n, cohortes, desigualdad).

Este DataFrame est√° pensado **pedag√≥gicamente**, no solo t√©cnicamente, y reproduce **estructuras t√≠picas de encuestas sociales reales**.

---

# üìä Script de Python ‚Äì DataFrame de encuesta (Clase 3)

üëâ **Ejecutar en Jupyter / Google Colab**

```python


In [4]:
import pandas as pd
import numpy as np

# --------------------------------------------------
# 1. Reproducibilidad
# --------------------------------------------------
np.random.seed(123)

# --------------------------------------------------
# 2. Tama√±o de la muestra
# --------------------------------------------------
n = 200

# --------------------------------------------------
# 3. Generaci√≥n del DataFrame
# --------------------------------------------------

df = pd.DataFrame({

    # Identificador
    "id": range(1, n + 1),

    # Edad
    "edad": np.random.randint(18, 66, size=n),

    # G√©nero
    # 1 = Mujer, 2 = Hombre
    "genero": np.random.choice([1, 2], size=n, p=[0.53, 0.47]),

    # Nivel educativo (ordinal)
    # 1 = Primaria
    # 2 = Secundaria
    # 3 = T√©cnica
    # 4 = Universitaria
    "educacion": np.random.choice(
        [1, 2, 3, 4],
        size=n,
        p=[0.28, 0.34, 0.18, 0.20]
    ),

    # Clase social
    # 1 = Baja, 2 = Media, 3 = Alta
    "clase_social": np.random.choice(
        [1, 2, 3],
        size=n,
        p=[0.42, 0.43, 0.15]
    ),

    # Origen √©tnico
    # 1 = No √©tnico, 2 = Ind√≠gena, 3 = Afrodescendiente
    "origen_etnico": np.random.choice(
        [1, 2, 3],
        size=n,
        p=[0.70, 0.12, 0.18]
    ),

    # Condici√≥n de ocupaci√≥n
    # 1 = Ocupado, 0 = No ocupado
    "ocupado": np.random.choice([0, 1], size=n, p=[0.28, 0.72])
})

# --------------------------------------------------
# 4. Ingreso: variable clave de desigualdad
#    Dependiente de educaci√≥n, clase y g√©nero
# --------------------------------------------------

ingreso_base = 800000
efecto_educacion = df["educacion"] * 600000
efecto_clase = df["clase_social"] * 700000
penalizacion_genero = np.where(df["genero"] == 1, -300000, 0)

ruido = np.random.normal(0, 400000, size=n)

df["ingreso"] = (
    ingreso_base
    + efecto_educacion
    + efecto_clase
    + penalizacion_genero
    + ruido
).astype(int)

# Asegurar ingresos positivos
df["ingreso"] = df["ingreso"].clip(lower=600000)

# --------------------------------------------------
# 5. Etiquetado como variables categ√≥ricas (CORREGIDO)
# --------------------------------------------------

df["genero"] = df["genero"].astype("category")
df["genero"] = df["genero"].cat.rename_categories(
    ["Mujer", "Hombre"]
)

df["educacion"] = df["educacion"].astype("category")
df["educacion"] = df["educacion"].cat.rename_categories(
    ["Primaria", "Secundaria", "T√©cnica", "Universitaria"]
)

df["clase_social"] = df["clase_social"].astype("category")
df["clase_social"] = df["clase_social"].cat.rename_categories(
    ["Baja", "Media", "Alta"]
)

df["origen_etnico"] = df["origen_etnico"].astype("category")
df["origen_etnico"] = df["origen_etnico"].cat.rename_categories(
    ["No √©tnico", "Ind√≠gena", "Afrodescendiente"]
)

df["ocupado"] = df["ocupado"].astype("category")
df["ocupado"] = df["ocupado"].cat.rename_categories(
    ["No ocupado", "Ocupado"]
)

# --------------------------------------------------
# 6. Vista previa
# --------------------------------------------------
df.head()


Unnamed: 0,id,edad,genero,educacion,clase_social,origen_etnico,ocupado,ingreso
0,1,63,Hombre,Secundaria,Baja,No √©tnico,No ocupado,1744614
1,2,20,Mujer,Universitaria,Baja,Afrodescendiente,Ocupado,4413152
2,3,46,Mujer,Secundaria,Media,No √©tnico,Ocupado,3409845
3,4,52,Hombre,Secundaria,Baja,No √©tnico,Ocupado,2855705
4,5,56,Hombre,Secundaria,Baja,No √©tnico,Ocupado,2989126



# ¬øQu√© permite hacer este DataFrame en la Clase 3?



‚úîÔ∏è Frecuencias y porcentajes
‚úîÔ∏è Tablas de contingencia
‚úîÔ∏è Medidas descriptivas
‚úîÔ∏è Recodificaci√≥n
‚úîÔ∏è Construcci√≥n de cohortes
‚úîÔ∏è Lectura sociol√≥gica de desigualdades
‚úîÔ∏è Preparaci√≥n para regresi√≥n (clases 5‚Äì8)

---



## üß† Ejercicios que encajan perfectamente

```python
df["clase_social"].value_counts(normalize=True) * 100
df["ingreso"].describe()
pd.crosstab(df["genero"], df["clase_social"])
```

---

## üéì Valor pedag√≥gico

* Dataset **realista**
* Brechas incorporadas expl√≠citamente
* Decisiones te√≥ricas visibles en el c√≥digo
* Ideal para comparar con Stata l√≠nea por l√≠nea

---

## üîú Siguientes pasos naturales

Si quieres, puedo:

* üìì Guardar este DataFrame como `encuesta_clase3.dta`
* üìä Preparar un **laboratorio guiado** con preguntas
* ü§ñ Integrar prompts de IA para que el estudiante ‚Äúdialogue‚Äù con el c√≥digo

Dime c√≥mo deseas continuar y lo armamos.



## 4. Variables categ√≥ricas y cuantitativas



### Identificaci√≥n de tipos de variables


In [None]:


df.info()




Discusi√≥n:

* Variables `int` y `float` ‚Üí cuantitativas
* Variables `object` o `category` ‚Üí categ√≥ricas

---



## 5. An√°lisis de variables categ√≥ricas



*(Equivalente a `tab` en Stata)*

### Frecuencias absolutas


In [None]:

df["clase_social"].value_counts()




## Frecuencias relativas (porcentajes)


In [None]:


df["clase_social"].value_counts(normalize=True) * 100




# Comparaci√≥n directa con Stata:



```stata
tab clase_social
```




### Actividad 1 (individual)

* Calcular frecuencias y porcentajes de:

  * `genero`
  * `ocupado`
* Interpretar sociol√≥gicamente los resultados

---



## 6. An√°lisis de variables cuantitativas

*(Equivalente a `summarize` en Stata)*



### Descriptivos b√°sicos


In [None]:


df["ingreso"].describe()




Incluye:

* media
* desviaci√≥n est√°ndar
* m√≠nimo y m√°ximo
* cuartiles

üìå Equivalente Stata:

```stata
summarize ingreso
```

---



### Actividad 2 (guiada)

* Comparar media y mediana del ingreso
* Discutir:

  > ¬øQu√© indica una diferencia grande entre media y mediana en estudios de desigualdad?

---



## 7. Construcci√≥n de variables complejas

### Ejemplo: cohorte etaria


In [None]:


df["cohorte_edad"] = pd.cut(
    df["edad"],
    bins=[18, 29, 44, 64],
    labels=["18-29", "30-44", "45-64"]
)




üìå Equivalente conceptual en Stata:

```stata
recode edad (18/29=1) (30/44=2) (45/64=3), gen(cohorte)
```

---

### Actividad 3 (parejas)

* Crear una variable de edad en 4 grupos
* Comparar distribuci√≥n por g√©nero

---

## 8. Recategorizaci√≥n de variables

### Ejemplo: educaci√≥n baja / media / alta

```python
map_educ = {
    1: "Baja",
    2: "Media",
    3: "Media",
    4: "Alta"
}

df["educacion_rec"] = df["educacion"].map(map_educ)
```

üìå Discusi√≥n metodol√≥gica:

> Recategorizar es una decisi√≥n te√≥rica, no solo t√©cnica.

---

## 9. Etiquetado de variables y categor√≠as

### Uso de variables categ√≥ricas con etiquetas

```python
df["clase_social"] = df["clase_social"].astype("category")
df["clase_social"].cat.rename_categories(
    ["Baja", "Media", "Alta"],
    inplace=True
)
```



üìå Equivalente Stata:

```stata
label define clase 1 "Baja" 2 "Media" 3 "Alta"
label values clase_social clase
```

---



## 10. Actividad integradora (grupal)

### Mini-laboratorio

Cada grupo debe:

1. Seleccionar una variable de desigualdad
2. Describirla (frecuencias o descriptivos)
3. Recodificarla
4. Justificar te√≥ricamente la decisi√≥n

üì§ Entrega:

* Notebook (`.ipynb`)
* Interpretaci√≥n escrita (m√°x. 1 p√°gina)

---

## 11. Cierre conceptual de la clase

Mensaje clave:

> Python no reemplaza a Stata:
> **lo ampl√≠a, lo complementa y lo hace reproducible**.

* C√≥digo abierto
* Integraci√≥n con IA
* Transparencia metodol√≥gica
* Reproducibilidad cient√≠fica

---



## 12. Preparaci√≥n para la Clase 4

* Leer sobre esquemas de clases sociales
* Pensar:

  > ¬øC√≥mo se ‚Äúconstruye‚Äù una clase social desde datos?

---



Si quieres, en el siguiente mensaje puedo:

* üìì Convertir esta clase en **cuaderno Jupyter listo para GitHub**
* üß™ Dise√±ar la **r√∫brica de evaluaci√≥n**
* üîÑ Armar una **tabla Stata ‚Üî Python** para entregar a estudiantes

T√∫ decides c√≥mo seguimos.


A continuaci√≥n te entrego **dos insumos institucionales clave**, coherentes con el enfoque metodol√≥gico del curso y muy √∫tiles para los estudiantes:



1. ‚úÖ **R√∫brica de evaluaci√≥n de la Clase 3**
2. üîÑ **Tabla de correspondencia STATA ‚Üî PYTHON** (pensada como material de estudio)



Ambos est√°n dise√±ados para **reforzar la idea de equivalencia conceptual entre softwares**, no la memorizaci√≥n de comandos.

---



# 1. R√öBRICA DE EVALUACI√ìN ‚Äì CLASE 3

## *An√°lisis descriptivo con Python (alternativa a Stata)*

### Producto evaluado

Cuaderno Jupyter (`.ipynb`) + interpretaci√≥n escrita breve

---



# Competencia evaluada

> Analiza descriptivamente variables de estratificaci√≥n social utilizando Python, justificando decisiones metodol√≥gicas y estableciendo equivalencias funcionales con Stata.

---



# R√∫brica (escala 1‚Äì5)



| Criterio                                   | 5 ‚Äì Excelente                                                             | 4 ‚Äì Bueno                                      | 3 ‚Äì Aceptable                   | 2 ‚Äì Insuficiente           |
| ------------------------------------------ | ------------------------------------------------------------------------- | ---------------------------------------------- | ------------------------------- | -------------------------- |
| **Carga y exploraci√≥n del dataset**        | Carga correcta, uso de `.info()` y revisi√≥n cr√≠tica de tipos de variables | Carga correcta con exploraci√≥n b√°sica          | Carga correcta sin exploraci√≥n  | Errores en carga o lectura |
| **An√°lisis de variables categ√≥ricas**      | Frecuencias y porcentajes bien calculados e interpretados                 | Frecuencias correctas, interpretaci√≥n limitada | Solo frecuencias sin an√°lisis   | An√°lisis incorrecto        |
| **An√°lisis de variables cuantitativas**    | Uso adecuado de descriptivos e interpretaci√≥n sociol√≥gica                 | Descriptivos correctos, interpretaci√≥n parcial | Descriptivos sin interpretaci√≥n | Uso incorrecto             |
| **Construcci√≥n de variables complejas**    | Variable bien construida y justificada te√≥ricamente                       | Variable correcta con justificaci√≥n m√≠nima     | Variable t√©cnica sin reflexi√≥n  | Variable mal construida    |
| **Recategorizaci√≥n y etiquetado**          | Recodificaci√≥n clara y coherente con etiquetas                            | Recodificaci√≥n correcta sin etiquetas          | Recodificaci√≥n poco clara       | Errores conceptuales       |
| **Equivalencia Stata‚ÄìPython**              | Explicita y reflexiona equivalencias                                      | Menciona equivalencias                         | Equivalencias impl√≠citas        | No reconoce equivalencias  |
| **Claridad del c√≥digo y reproducibilidad** | C√≥digo ordenado, comentado y reproducible                                 | C√≥digo funcional con pocos comentarios         | C√≥digo poco claro               | C√≥digo no funcional        |

---



# Calificaci√≥n sugerida

* Promedio de criterios
* Peso sugerido Clase 3: **10% del curso**
* Retroalimentaci√≥n cualitativa obligatoria

---



# Criterio transversal (no num√©rico)

> El estudiante comprende que las decisiones estad√≠sticas son **te√≥ricas y sociales**, no solo t√©cnicas.

---



# 2. TABLA DE CORRESPONDENCIA STATA ‚Üî PYTHON



## *An√°lisis descriptivo y construcci√≥n de variables*

---



# Gesti√≥n de datos

| Tarea              | STATA                     | PYTHON                          |
| ------------------ | ------------------------- | ------------------------------- |
| Abrir base         | `use encuesta.dta, clear` | `pd.read_stata("encuesta.dta")` |
| Guardar base       | `save encuesta.dta`       | `df.to_stata("encuesta.dta")`   |
| Ver estructura     | `describe`                | `df.info()`                     |
| Ver primeras filas | `list in 1/5`             | `df.head()`                     |

---



# Variables categ√≥ricas

| An√°lisis        | STATA                     | PYTHON                         |
| --------------- | ------------------------- | ------------------------------ |
| Frecuencias     | `tab genero`              | `df["genero"].value_counts()`  |
| Porcentajes     | `tab genero, col`         | `value_counts(normalize=True)` |
| Tablas cruzadas | `tab genero clase_social` | `pd.crosstab()`                |

---



# Variables cuantitativas

| An√°lisis            | STATA               | PYTHON                     |
| ------------------- | ------------------- | -------------------------- |
| Descriptivos        | `summarize ingreso` | `df["ingreso"].describe()` |
| Media               | `mean ingreso`      | `df["ingreso"].mean()`     |
| Mediana             | `median ingreso`    | `df["ingreso"].median()`   |
| Desviaci√≥n est√°ndar | `sd ingreso`        | `df["ingreso"].std()`      |

---



# Construcci√≥n y recodificaci√≥n de variables

| Tarea          | STATA                | PYTHON                 |
| -------------- | -------------------- | ---------------------- |
| Crear variable | `gen nueva = ...`    | `df["nueva"] = ...`    |
| Recodificar    | `recode edad (...)`  | `np.where()` / `map()` |
| Agrupar        | `egen grupo = cut()` | `pd.cut()`             |

---



# Etiquetado

| Tarea             | STATA          | PYTHON                     |
| ----------------- | -------------- | -------------------------- |
| Definir etiquetas | `label define` | `CategoricalDtype`         |
| Asignar etiquetas | `label values` | `.cat.rename_categories()` |

---



# Mensaje pedag√≥gico final para estudiantes

> Aprender Stata o Python no es aprender comandos,
> es aprender **a pensar con datos**.



> Un buen analista puede cambiar de software
> sin cambiar de marco te√≥rico.

---



Si quieres, el siguiente paso natural ser√≠a:



* **Clase 4**: construcci√≥n emp√≠rica de clases sociales (Stata + Python)
* Dise√±ar una **evaluaci√≥n comparativa** Python vs Stata
* Integrar **uso expl√≠cito de IA** como asistente metodol√≥gico

Dime c√≥mo deseas continuar.
