<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/ageron/handson-ml3/blob/main/tools_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/ageron/handson-ml3/blob/main/tools_numpy.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table>

[Video de apoyo a la lectura de este cuaderno](https://www.youtube.com/watch?v=j6buYeCOZ14)


# Clase 2



# **Procesamiento y edici√≥n de bases de datos con Python**



## Traducci√≥n entre Python, Excel y Stata





# An√°lisis de datos sobre clases sociales y estratificaci√≥n  


## Clase 2: Procesamiento y edici√≥n de bases de datos con Python



**Curso:** An√°lisis de datos sobre clases sociales y estratificaci√≥n con Python, Stata e IA  


**Modalidad:** En video.   
**Fecha:**  2 de Enero de 2026  
**Docente:** Marco Julio Ca√±as  
**Duraci√≥n:** 30 minutos  

---



### Objetivos de la clase

Al finalizar esta sesi√≥n, el estudiante ser√° capaz de:

- Importar bases de datos en distintos formatos (CSV, Excel, Stata).
- Reconocer la estructura de una base de datos de encuesta.
- Editar, seleccionar y recodificar variables.
- Exportar datos para su uso en Stata.
- Comprender el flujo de trabajo Python ‚Üî Stata.




# 1. ¬øPor qu√© procesar datos antes de analizarlos?



En la investigaci√≥n social cuantitativa:

- Los datos **nunca** est√°n listos para analizar.
- El procesamiento es una etapa central del trabajo emp√≠rico.
- Decisiones t√©cnicas tienen consecuencias te√≥ricas.



En esta clase trabajaremos:
- Limpieza
- Selecci√≥n
- Recodificaci√≥n
- Traducci√≥n entre softwares

  - Python ser√° usado como **lenguaje de preparaci√≥n de datos**  
  - Stata ser√° usado luego como **lenguaje de an√°lisis estad√≠stico**



# 2. Importaci√≥n de librer√≠as (C√≥digo)


In [24]:


import pandas as pd
import numpy as np




# 3. Importaci√≥n de bases de datos



Python permite importar datos en m√∫ltiples formatos:

- CSV
- Excel
- Stata (.dta)

Trabajaremos con un ejemplo de encuesta simplificada.


---


# Generaci√≥n del archivo de encuesta ejemplo (C√≥digo)  



Vamos a generar el archivo `encuesta_ejemplo.csv` debe ser una **encuesta social simplificada**, con las variables que luego se usan para:

* exploraci√≥n (`head`, `info`)
* edici√≥n
* creaci√≥n de variables (p. ej. `cohorte_edad`)
* exportaci√≥n a Excel y Stata



En el notebook se trabaja expl√≠citamente con las siguientes columnas:

* `edad`
* `genero`
* `educacion`
* `ingreso`
* `ocupado`



# Script en Python para generar `encuesta_ejemplo.csv`




In [25]:
import numpy as np
import pandas as pd


In [26]:

# -----------------------------
# 1. Fijar semilla (reproducibilidad)
# -----------------------------
np.random.seed(42)

# -----------------------------
# 2. Tama√±o de la muestra
# -----------------------------
n = 120  # tama√±o t√≠pico para ejercicios de clase

# -----------------------------
# 3. Generaci√≥n de variables
# -----------------------------

# Edad: adultos j√≥venes y medios
edad = np.random.randint(low = 18, high = 60, size = n)

# G√©nero
genero = np.random.choice(
    ["Hombre", "Mujer"],
    size=n,
    p=[0.48, 0.52]
)

# Nivel educativo
educacion = np.random.choice(
    ["Primaria", "Secundaria", "T√©cnica", "Universitaria"],
    size=n,
    p=[0.20, 0.35, 0.20, 0.25]
)

# Ingreso mensual (en pesos colombianos, distribuci√≥n sesgada)
ingreso = np.random.normal(
    loc=1_800_000,  # ingreso promedio
    scale = 600_000, # dispersi√≥n
    size = n
).round(0)

# Evitar ingresos negativos
ingreso = np.clip(ingreso, min = 500000, max = None)

# Ocupaci√≥n (variable binaria)
ocupado = np.random.choice(
    ["S√≠", "No"],
    size=n,
    p=[0.65, 0.35]
)

# -----------------------------
# 4. Construcci√≥n del DataFrame
# -----------------------------
df = pd.DataFrame({
    "edad": edad,
    "genero": genero,
    "educacion": educacion,
    "ingreso": ingreso.astype(int),
    "ocupado": ocupado
})

# -----------------------------
# 5. Introducir algunos valores faltantes (did√°ctico)
# -----------------------------
for col in ["ingreso", "educacion"]:
    idx = np.random.choice(df.index, size=5, replace=False)
    df.loc[idx, col] = np.nan

# -----------------------------
# 6. Guardar archivo CSV
# -----------------------------
df.to_csv("encuesta_ejemplo.csv", index=False)

print("Archivo 'encuesta_ejemplo.csv' generado correctamente.")
df.head()


Archivo 'encuesta_ejemplo.csv' generado correctamente.


Unnamed: 0,edad,genero,educacion,ingreso,ocupado
0,56,Mujer,Secundaria,1657565.0,S√≠
1,46,Mujer,T√©cnica,2923203.0,No
2,32,Mujer,Secundaria,1788335.0,No
3,25,Mujer,Secundaria,1240445.0,S√≠
4,38,Hombre,T√©cnica,1023035.0,S√≠


# Coherencia con dise√±o de clase



Este dataset permite trabajar exactamente lo que propones en la **Clase 2**:

* ‚úî Importaci√≥n de CSV
* ‚úî Exploraci√≥n inicial (`head`, `info`, `describe`)
* ‚úî Variables categ√≥ricas y num√©ricas
* ‚úî Datos faltantes
* ‚úî Creaci√≥n de cohortes de edad con `pd.cut`
* ‚úî Exportaci√≥n a Excel y Stata (`.dta`) para la Clase 3



# 4. Cargar datos desde un archivo CSV (C√≥digo)


In [41]:

# Ejemplo: cargar un archivo CSV
# (en Colab, subir previamente el archivo)

df = pd.read_csv("encuesta_ejemplo.csv")
df.head()



Unnamed: 0,edad,genero,educacion,ingreso,ocupado
0,56,Mujer,Secundaria,1657565.0,S√≠
1,46,Mujer,T√©cnica,2923203.0,No
2,32,Mujer,Secundaria,1788335.0,No
3,25,Mujer,Secundaria,1240445.0,S√≠
4,38,Hombre,T√©cnica,1023035.0,S√≠



*(Si no se tiene archivo, se puede crear uno ficticio como sigue)*


In [28]:
df = pd.DataFrame({
    "edad": [23, 45, 34, 52, 29],
    "genero": [1, 2, 1, 2, 1],
    "educacion": [2, 4, 3, 1, 4],
    "ingreso": [1200000, 3500000, 2200000, 1800000, 2600000],
    "ocupado": [1, 1, 1, 0, 1]
})

df


Unnamed: 0,edad,genero,educacion,ingreso,ocupado
0,23,1,2,1200000,1
1,45,2,4,3500000,1
2,34,1,3,2200000,1
3,52,2,1,1800000,0
4,29,1,4,2600000,1



# 5. Exploraci√≥n inicial

Antes de analizar:
- ¬øCu√°ntos casos hay?
- ¬øQu√© variables existen?
- ¬øQu√© tipos de datos tenemos?




# 6. Exploraci√≥n b√°sica (C√≥digo)


In [29]:

df.shape



(5, 5)

In [30]:

df.columns



Index(['edad', 'genero', 'educacion', 'ingreso', 'ocupado'], dtype='object')

In [31]:

df.info()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   edad       5 non-null      int64
 1   genero     5 non-null      int64
 2   educacion  5 non-null      int64
 3   ingreso    5 non-null      int64
 4   ocupado    5 non-null      int64
dtypes: int64(5)
memory usage: 332.0 bytes



# 7. Selecci√≥n y renombrado de variables



En encuestas reales:
- Sobran variables
- Los nombres suelen ser poco claros

Buena pr√°ctica:
- Quedarse solo con lo necesario
- Usar nombres comprensibles



# 8. Selecci√≥n de variables (C√≥digo)


In [32]:

df = df[["edad", "genero", "educacion", "ingreso", "ocupado"]]
df


Unnamed: 0,edad,genero,educacion,ingreso,ocupado
0,23,1,2,1200000,1
1,45,2,4,3500000,1
2,34,1,3,2200000,1
3,52,2,1,1800000,0
4,29,1,4,2600000,1


# 9. Recodificaci√≥n de variables



Ejemplo:
- g√©nero: 1 = Mujer, 2 = Hombre
- ocupado: 1 = S√≠, 0 = No



Estas decisiones son **anal√≠ticas**, no solo t√©cnicas.




# 10. Recodificaci√≥n en Python (C√≥digo)


In [36]:
df.educacion.unique()

array(['Secundaria', 'T√©cnica', 'Universitaria', 'Primaria', nan],
      dtype=object)

In [42]:

df["genero"] = df["genero"].map({"Mujer":1, "Hombre":2})
df["ocupado"] = df["ocupado"].map({"S√≠":1, "No":0})
df['educacion'] = df['educacion'].map({'Primaria':1, 'Secundaria':2, 'T√©cnica':3, 'Universitaria':4})
df



Unnamed: 0,edad,genero,educacion,ingreso,ocupado
0,56,1,2.0,1657565.0,1
1,46,1,3.0,2923203.0,0
2,32,1,2.0,1788335.0,0
3,25,1,2.0,1240445.0,1
4,38,2,3.0,1023035.0,1
...,...,...,...,...,...
115,54,2,2.0,2017486.0,1
116,31,2,2.0,2142809.0,0
117,20,1,2.0,2382314.0,1
118,18,1,4.0,2245178.0,1



## 11. Creaci√≥n de nuevas variables

Ejemplo:
- Cohortes de edad
- Variables clave en estudios de desigualdad



# 12. Crear cohortes de edad (C√≥digo)


In [43]:

bins = [18, 30, 45, 60]
labels = ["18-29", "30-44", "45-59"]

df["cohorte_edad"] = pd.cut(df["edad"], bins=bins, labels=labels)
df


Unnamed: 0,edad,genero,educacion,ingreso,ocupado,cohorte_edad
0,56,1,2.0,1657565.0,1,45-59
1,46,1,3.0,2923203.0,0,45-59
2,32,1,2.0,1788335.0,0,30-44
3,25,1,2.0,1240445.0,1,18-29
4,38,2,3.0,1023035.0,1,30-44
...,...,...,...,...,...,...
115,54,2,2.0,2017486.0,1,45-59
116,31,2,2.0,2142809.0,0,30-44
117,20,1,2.0,2382314.0,1,18-29
118,18,1,4.0,2245178.0,1,


# ¬øPor qu√© al crear el atributo con pd.cut() se generaron 4 datos faltantes?


Muy buena pregunta, y adem√°s **did√°cticamente clave**. 


La respuesta est√° en **c√≥mo funciona exactamente `pd.cut()` respecto a los intervalos**.

---

## 1. Qu√© hace `pd.cut()` por defecto

Cuando escribes:


In [None]:

```python
bins = [18, 30, 45, 60]
labels = ["18-29", "30-44", "45-59"]

df["cohorte_edad"] = pd.cut(df["edad"], bins=bins, labels=labels)
```



Pandas construye **intervalos semiabiertos** del tipo:

$$
(a, b]
$$

Es decir:

| Intervalo real | Etiqueta |
| -------------- | -------- |
| (18, 30]       | "18-29"  |
| (30, 45]       | "30-44"  |
| (45, 60]       | "45-59"  |

üî¥ **El l√≠mite inferior NO se incluye**
üü¢ **El l√≠mite superior S√ç se incluye**

---



## 2. Qu√© edades quedan fuera (y generan `NaN`)

En el dataset que generamos:



```python
edad = np.random.randint(18, 60, size=n)
```



‚ö†Ô∏è `np.random.randint(18, 60)` **s√≠ incluye 18**, pero **no incluye 60**
Por tanto, algunas personas tienen:

```text
edad == 18
```



Ahora observa:

* 18 **NO pertenece** al intervalo `(18, 30]`
* Por tanto ‚Üí `NaN`

Si en tu dataset aparecen **4 personas con edad = 18**, obtienes exactamente:

```text
4 valores faltantes en cohorte_edad
```



‚úîÔ∏è El comportamiento es correcto
‚úîÔ∏è No es un error del script
‚úîÔ∏è Es un excelente ejemplo para ense√±anza

---



## 3. C√≥mo verificarlo emp√≠ricamente (muy pedag√≥gico)


In [None]:

```python
df[df["cohorte_edad"].isna()]["edad"].value_counts()
```



Ver√°s algo como:

```text
18    4
```

---



# 4. C√≥mo corregirlo (dos formas correctas)



## Opci√≥n A ‚Äî Incluir el l√≠mite inferior


In [None]:

df["cohorte_edad"] = pd.cut(
    df["edad"],
    bins=bins,
    labels=labels,
    include_lowest=True
)




Ahora los intervalos quedan:

| Intervalo |
| --------- |
| [18, 30]  |
| (30, 45]  |
| (45, 60]  |

‚úîÔ∏è El 18 ya queda incluido

---



## Opci√≥n B ‚Äî Redefinir los bins (m√°s expl√≠cito para estudiantes)


In [50]:


bins = [17, 29, 44, 59]
labels = ["18-29", "30-44", "45-59"]

df["cohorte_edad"] = pd.cut(df["edad"], bins=bins, labels=labels)




Aqu√≠ haces coincidir **exactamente** los valores enteros posibles con las cohortes.

---



## 5. Lectura conceptual (muy √∫til para tu curso)



Este fen√≥meno permite ense√±ar que:

> **La discretizaci√≥n no es neutra**
> Toda categorizaci√≥n implica decisiones matem√°ticas y conceptuales.

Puedes formularlo as√≠ en clase:

* ¬øQui√©n queda *dentro* y qui√©n queda *fuera*?
* ¬øPor qu√© los extremos importan?
* ¬øQu√© pasa si el dato es continuo vs. discreto?

---



## 6. Frase para el notebook (lista para pegar)

> *Los valores faltantes generados por `pd.cut()` no indican un error en los datos, sino una decisi√≥n impl√≠cita sobre los l√≠mites de los intervalos. Comprender esta decisi√≥n es parte esencial del an√°lisis de datos.*

Si quieres, en el siguiente mensaje puedo ayudarte a **convertir esto en una actividad guiada** o una **pregunta de evaluaci√≥n conceptual** para tus estudiantes de Licenciatura üìòüìä


# 13. Datos faltantes

En encuestas:
- Los datos faltantes son frecuentes
- Deben identificarse expl√≠citamente




# 14. Identificaci√≥n de valores faltantes (C√≥digo)


In [45]:
df['edad'].describe()

count    120.000000
mean      38.050000
std       12.444735
min       18.000000
25%       26.000000
50%       39.000000
75%       50.000000
max       59.000000
Name: edad, dtype: float64

In [46]:

df.isna().sum()



edad            0
genero          0
educacion       5
ingreso         5
ocupado         0
cohorte_edad    4
dtype: int64

# 15. Exportar datos para otros softwares



Una vez procesados los datos en Python:
- Se exportan para an√°lisis en Stata
- Se garantiza reproducibilidad




# 16. Exportar a Excel (C√≥digo)


In [48]:


df.to_excel("encuesta_procesada.xlsx", index=False)




# 17. Exportar a Stata (.dta) (C√≥digo)


In [49]:

df.to_stata("encuesta_procesada.dta", write_index=False)




- Este archivo ser√° usado **directamente en Stata** en la Clase 3.

---



## 18. Uso de IA en esta etapa

La IA puede ayudar a:
- Explicar c√≥digo
- Detectar errores
- Traducir sintaxis Python ‚Üî Stata

Ejemplo de consigna:
"Expl√≠cale a un estudiante de sociolog√≠a qu√© hace este script y por qu√© es importante."




# 19. Actividad pr√°ctica

1. Importar una base de datos (real o ficticia).
2. Seleccionar al menos 5 variables.
3. Recodificar:
   - una variable categ√≥rica
   - una variable binaria
4. Crear una variable nueva relevante para desigualdad social.
5. Exportar la base procesada a formato Stata (.dta).




## 20. Cierre

En esta clase aprendimos:
- A procesar bases de datos con Python
- A tomar decisiones anal√≠ticas en la limpieza
- A traducir datos entre Python, Excel y Stata

Pr√≥xima clase:
* An√°lisis descriptivo de variables con Stata  
* Construcci√≥n de variables complejas




# Nota pedag√≥gica final

Este cuaderno:

* Introduce el **flujo de trabajo real de investigaci√≥n**
* Prepara el terreno para Stata
* Refuerza la reproducibilidad
* Se integra naturalmente con IA

---
