A continuaci√≥n te presento **la Clase 4 completa** **dise√±ada como un cuaderno Jupyter (`.ipynb`)**, **lista para copiar, pegar, ejecutar y publicar en GitHub**, coherente con el enfoque del curso y **articulada directamente con Stata** (conceptualmente) pero **implementada en Python**.



He estructurado el cuaderno **tal como debe verse pedag√≥gicamente**:
üëâ *celdas Markdown + celdas de c√≥digo + actividades + proyectos*.

---



# Clase 4 ‚Äì 6 de enero de 2026

## **Construcci√≥n de variables clave para el estudio de la desigualdad social**

### *Clases sociales, g√©nero, origen √©tnico y cohortes de edad*

---



# Objetivo de la clase



Que el estudiante sea capaz de:

* Construir **variables independientes centrales** para el estudio de la desigualdad social
* Comprender que dichas variables **no ‚Äúvienen dadas‚Äù**, sino que son **construcciones te√≥ricas**
* Implementar estas construcciones usando **Python como alternativa abierta a Stata**
* Preparar los datos para an√°lisis bivariado y modelos estad√≠sticos posteriores

---



# 1. Preparaci√≥n del entorno de trabajo


In [None]:


import pandas as pd
import numpy as np



# Crear dataset sint√©tico para esta clase  



A continuaci√≥n te dejo **el script de Python completo, corregido y robusto** para **crear el dataset sint√©tico `encuesta_clase3.dta`**, exactamente **alineado con la Clase 3 y que sirve directamente como insumo de la Clase 4**.

Este script:

* Genera una **encuesta social sint√©tica realista**
* Incorpora **desigualdades estructurales expl√≠citas**
* Produce un archivo **compatible 100 % con Stata**
* Evita problemas de versiones recientes de `pandas`

---



# Script de Python

## Generaci√≥n del dataset `encuesta_clase3.dta`

- **Ejecutar en Jupyter o Google Colab**


In [1]:
import pandas as pd
import numpy as np

# ==================================================
# 1. Reproducibilidad
# ==================================================
np.random.seed(2026)

# ==================================================
# 2. Tama√±o de la muestra
# ==================================================
n = 300

# ==================================================
# 3. Variables sociodemogr√°ficas b√°sicas
# ==================================================

df = pd.DataFrame({
    "id": range(1, n + 1),

    # Edad
    "edad": np.random.randint(18, 65, size=n),

    # G√©nero (codificado)
    # 1 = Mujer, 2 = Hombre
    "genero": np.random.choice([1, 2], size=n, p=[0.52, 0.48]),

    # Nivel educativo
    # 1 = Primaria, 2 = Secundaria, 3 = T√©cnica, 4 = Universitaria
    "educacion": np.random.choice(
        [1, 2, 3, 4],
        size=n,
        p=[0.30, 0.34, 0.18, 0.18]
    ),

    # Clase social
    # 1 = Baja, 2 = Media, 3 = Alta
    "clase_social": np.random.choice(
        [1, 2, 3],
        size=n,
        p=[0.45, 0.40, 0.15]
    ),

    # Origen √©tnico
    # 1 = No √©tnico, 2 = Ind√≠gena, 3 = Afrodescendiente
    "origen_etnico": np.random.choice(
        [1, 2, 3],
        size=n,
        p=[0.68, 0.12, 0.20]
    ),

    # Condici√≥n de ocupaci√≥n
    # 1 = Ocupado, 0 = No ocupado
    "ocupado": np.random.choice([0, 1], size=n, p=[0.30, 0.70])
})

# ==================================================
# 4. Ingreso: variable dependiente central
#    (con desigualdad estructural incorporada)
# ==================================================

ingreso_base = 700_000

efecto_educacion = df["educacion"] * 550_000
efecto_clase = df["clase_social"] * 650_000
penalizacion_genero = np.where(df["genero"] == 1, -280_000, 0)
penalizacion_etnica = np.where(df["origen_etnico"] != 1, -220_000, 0)
bono_ocupado = np.where(df["ocupado"] == 1, 300_000, 0)

ruido = np.random.normal(0, 350_000, size=n)

df["ingreso"] = (
    ingreso_base
    + efecto_educacion
    + efecto_clase
    + penalizacion_genero
    + penalizacion_etnica
    + bono_ocupado
    + ruido
).astype(int)

# Asegurar ingresos positivos
df["ingreso"] = df["ingreso"].clip(lower=600_000)

# ==================================================
# 5. Conversi√≥n a variables categ√≥ricas con etiquetas
#    (compatible con pandas modernos)
# ==================================================

df["genero"] = (
    df["genero"]
    .astype("category")
    .cat.rename_categories(["Mujer", "Hombre"])
)

df["educacion"] = (
    df["educacion"]
    .astype("category")
    .cat.rename_categories(["Primaria", "Secundaria", "T√©cnica", "Universitaria"])
)

df["clase_social"] = (
    df["clase_social"]
    .astype("category")
    .cat.rename_categories(["Baja", "Media", "Alta"])
)

df["origen_etnico"] = (
    df["origen_etnico"]
    .astype("category")
    .cat.rename_categories(["No √©tnico", "Ind√≠gena", "Afrodescendiente"])
)

df["ocupado"] = (
    df["ocupado"]
    .astype("category")
    .cat.rename_categories(["No ocupado", "Ocupado"])
)

# ==================================================
# 6. Guardar dataset en formato Stata
# ==================================================

df.to_stata("encuesta_clase3.dta", write_index=False)

# ==================================================
# 7. Verificaci√≥n r√°pida
# ==================================================
df.head()


Unnamed: 0,id,edad,genero,educacion,clase_social,origen_etnico,ocupado,ingreso
0,1,19,Mujer,T√©cnica,Media,Afrodescendiente,Ocupado,3646875
1,2,24,Mujer,Universitaria,Media,No √©tnico,No ocupado,4371353
2,3,44,Hombre,Primaria,Media,No √©tnico,No ocupado,2203061
3,4,31,Hombre,Secundaria,Media,No √©tnico,No ocupado,3783735
4,5,31,Mujer,Primaria,Alta,Ind√≠gena,Ocupado,2888008



# ‚úÖ ¬øQu√© garantiza este dataset?

‚úîÔ∏è Compatible con **Clase 3** (an√°lisis descriptivo)
‚úîÔ∏è Insumo directo de la **Clase 4** (construcci√≥n de variables)
‚úîÔ∏è Realista para **regresi√≥n lineal y log√≠stica**
‚úîÔ∏è Desigualdades **no triviales**, visibles desde descriptivos
‚úîÔ∏è Totalmente reproducible

---



# Uso inmediato



### En Python


In [2]:
df = pd.read_stata("encuesta_clase3.dta")
df.info()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   id             300 non-null    int32   
 1   edad           300 non-null    int32   
 2   genero         300 non-null    category
 3   educacion      300 non-null    category
 4   clase_social   300 non-null    category
 5   origen_etnico  300 non-null    category
 6   ocupado        300 non-null    category
 7   ingreso        300 non-null    int32   
dtypes: category(5), int32(3)
memory usage: 5.8 KB



### En Stata

```stata
use encuesta_clase3.dta, clear
describe
tab clase_social genero
summarize ingreso
```

---



# Nota pedag√≥gica para el curso

Este dataset **no es ‚Äúneutro‚Äù**:
las desigualdades est√°n **programadas expl√≠citamente**, lo que permite discutir:

> ‚Äú¬øQu√© parte del resultado es estructura y qu√© parte es azar?‚Äù




# 2. Carga del dataset de la encuesta


In [3]:


df = pd.read_stata("encuesta_clase3.dta")
df.head()



Unnamed: 0,id,edad,genero,educacion,clase_social,origen_etnico,ocupado,ingreso
0,1,19,Mujer,T√©cnica,Media,Afrodescendiente,Ocupado,3646875
1,2,24,Mujer,Universitaria,Media,No √©tnico,No ocupado,4371353
2,3,44,Hombre,Primaria,Media,No √©tnico,No ocupado,2203061
3,4,31,Hombre,Secundaria,Media,No √©tnico,No ocupado,3783735
4,5,31,Mujer,Primaria,Alta,Ind√≠gena,Ocupado,2888008



*Nota metodol√≥gica:*
Este dataset es una **simulaci√≥n de una encuesta social**, pero reproduce estructuras reales de datos muestrales.

---



# 3. Marco conceptual: ¬øqu√© es una variable de estratificaci√≥n?

> Las variables de estratificaci√≥n social no son simples atributos individuales.
> Son **expresiones emp√≠ricas de relaciones sociales estructurales**.

En este curso trabajaremos con:

* Clase social
* Estatus ocupacional
* G√©nero
* Origen √©tnico
* Cohortes de edad

---



# 4. Variable g√©nero


In [4]:

df["genero"].value_counts(normalize=True) * 100



genero
Mujer     50.0
Hombre    50.0
Name: proportion, dtype: float64


## Discusi√≥n guiada

* ¬øEl g√©nero es una variable individual o estructural?
* ¬øQu√© desigualdades puede capturar en modelos posteriores?

---



# Variable binaria para modelos


In [None]:


df["mujer"] = np.where(df["genero"] == "Mujer", 1, 0)
df[["genero", "mujer"]].head()




# *Equivalente Stata:*

```stata
gen mujer = genero == "Mujer"
```





# 5. Construcci√≥n de clase social (variable central)



## Clase social original


In [6]:


df["clase_social"].value_counts()



clase_social
Media    131
Baja     120
Alta      49
Name: count, dtype: int64


## Recodificaci√≥n te√≥rica (clase trabajadora vs no trabajadora)


In [7]:


df["clase_binaria"] = df["clase_social"].replace({
    "Baja": "Trabajadora",
    "Media": "No trabajadora",
    "Alta": "No trabajadora"
})

df["clase_binaria"].value_counts()



  df["clase_binaria"] = df["clase_social"].replace({


clase_binaria
No trabajadora    180
Trabajadora       120
Name: count, dtype: int64


# **Discusi√≥n clave**

> Esta recodificaci√≥n es una **decisi√≥n te√≥rica**, no t√©cnica.




# 6. Estatus ocupacional


In [8]:


df["ocupado"].value_counts(normalize=True) * 100



ocupado
Ocupado       68.666667
No ocupado    31.333333
Name: proportion, dtype: float64


## Variable dummy


In [9]:


df["ocupado_bin"] = np.where(df["ocupado"] == "Ocupado", 1, 0)




# 7. Origen √©tnico como eje de desigualdad


In [10]:


pd.crosstab(df["origen_etnico"], df["clase_social"], normalize="index") * 100



clase_social,Baja,Media,Alta
origen_etnico,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
No √©tnico,36.231884,46.859903,16.908213
Ind√≠gena,58.333333,27.777778,13.888889
Afrodescendiente,42.105263,42.105263,15.789474



üìå **Lectura sociol√≥gica**

* ¬øExisten patrones de desigualdad √©tnico-clasistas?
* ¬øC√≥mo se podr√≠an modelar estas diferencias?

---



# 8. Cohortes de edad

## Construcci√≥n de cohortes


In [14]:
df["cohorte_edad"] = pd.cut(
    df["edad"],
    bins=[18, 29, 44, 64],
    labels=["18-29", "30-44", "45-64"]
)

df["cohorte_edad"].value_counts()



cohorte_edad
45-64    128
30-44    100
18-29     64
Name: count, dtype: int64


üìå *Equivalente Stata:*

```stata
egen cohorte = cut(edad), at(18,30,45,65)
```

---



# 9. An√°lisis univariado de variables construidas


In [None]:


df[["ingreso"]].describe()



In [11]:


df.groupby("clase_binaria")["ingreso"].mean()



  df.groupby("clase_binaria")["ingreso"].mean()


clase_binaria
Trabajadora       2.558058e+06
No trabajadora    3.467531e+06
Name: ingreso, dtype: float64


üìå *Pregunta clave:*

> ¬øQu√© desigualdad aparece ya en el an√°lisis descriptivo?

---



# 10. An√°lisis bivariado inicial



## Clase social y g√©nero


In [12]:
pd.crosstab(df["clase_binaria"], df["genero"], normalize="index") * 100


genero,Mujer,Hombre
clase_binaria,Unnamed: 1_level_1,Unnamed: 2_level_1
Trabajadora,45.833333,54.166667
No trabajadora,52.777778,47.222222



## Cohorte de edad e ingreso


In [15]:


df.groupby("cohorte_edad")["ingreso"].mean()



  df.groupby("cohorte_edad")["ingreso"].mean()


cohorte_edad
18-29    3.046067e+06
30-44    3.099865e+06
45-64    3.127428e+06
Name: ingreso, dtype: float64


# 11. Actividad pr√°ctica individual (en clase)

## Tarea 1

1. Construir una nueva variable de estratificaci√≥n
2. Justificar te√≥ricamente la decisi√≥n
3. Mostrar su distribuci√≥n

  - Entrega: Notebook con comentarios

---



# 12. Proyecto corto grupal (para la semana)

## Proyecto: *‚ÄúDesigualdad social en datos de encuesta‚Äù*



Cada grupo debe:

1. Seleccionar **dos ejes de desigualdad**
2. Construir variables derivadas
3. Analizar desigualdad descriptiva
4. Proponer una hip√≥tesis explicativa



# Resultados esperados:

* Tablas
* Medias comparadas
* Interpretaci√≥n sociol√≥gica

---



##  13. Cierre conceptual de la clase

> Las variables no existen antes del an√°lisis.
> **Se construyen desde la teor√≠a y se validan con datos.**

Esta clase prepara directamente:

* Regresi√≥n lineal (Clases 5‚Äì6)
* Regresi√≥n log√≠stica (Clases 7‚Äì8)

---



# Preparaci√≥n para la Clase 5

* Pensar:

  > ¬øC√≥mo explicar el ingreso a partir de una sola variable?
* Lectura sugerida:

  * Introducci√≥n a la regresi√≥n lineal simple

---



# Recomendaci√≥n final para GitHub

Guarda este cuaderno como:

```text
clase_4_construccion_variables_estratificacion.ipynb
```

---
