<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/ageron/handson-ml3/blob/main/tools_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/ageron/handson-ml3/blob/main/tools_numpy.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table>

Ya te dej√© en el **canvas** un **dise√±o completo de cuaderno Jupyter** para aprender **de manera experimental e interactiva** el uso de `np.random.choice()` aplicado a la **generaci√≥n de atributos sociales artificiales**.



# Puntos fuertes del cuaderno



* Explica claramente **qu√© hace `np.random.choice()`**
* Distingue **dos marcos probabil√≠sticos clave**:

  * **Distribuci√≥n uniforme discreta** (cuando no se pasa `p`)
  * **Distribuci√≥n categ√≥rica** (cuando se pasa `p`)


* Usa **ejemplos sociales realistas**:

  * g√©nero
  * estrato socioecon√≥mico
  * nivel educativo


*  Incluye:

  * construcci√≥n de dataset artificial
  * visualizaci√≥n
  * experimentos guiados
  * errores conceptuales comunes



## Resumen conceptual clave (para enfatizar en clase)

* `np.random.choice()` **no genera n√∫meros**, genera **categor√≠as**
* El par√°metro `p` **controla la estructura social simulada**
* Es la herramienta central para:

  > *pasar de probabilidad te√≥rica a datos sociales artificiales*



Este cuaderno encaja muy bien con:

* tu enfoque de **pensamiento estad√≠stico**
* an√°lisis social con Python
* actividades tipo **ABP / Aula invertida**


# Lectura experimental e interactiva sobre `np.random.choice()`



## Generaci√≥n de atributos sociales artificiales con NumPy

---



## Objetivo del cuaderno



Aprender de manera **experimental**, **intuitiva** y con **buenos ejemplos** el uso de la funci√≥n:



```python
np.random.choice()
```



para la **generaci√≥n de atributos sociales artificiales**, tales como:

* g√©nero
* nivel educativo
* estrato socioecon√≥mico
* condici√≥n laboral
* pertenencia √©tnica (simulada)

El enfoque est√° orientado al **an√°lisis de datos sociales**, simulaci√≥n y experimentaci√≥n estad√≠stica.

---



## 1. ¬øQu√© hace `np.random.choice()`?



`np.random.choice()` selecciona valores **al azar** desde un conjunto discreto de categor√≠as.

Forma general:

```python
np.random.choice(a, size=None, replace=True, p=None)
```

Donde:

* `a`: conjunto de valores posibles (lista o array)
* `size`: n√∫mero de observaciones a generar
* `replace`: muestreo con o sin reemplazo
* `p`: probabilidades asociadas a cada categor√≠a

---



## 2. Tipo de distribuci√≥n que utiliza `np.random.choice()`

### üîπ Caso 1: sin especificar `p`

Si **no se especifica el par√°metro `p`**, el muestreo sigue una:

### üëâ **Distribuci√≥n uniforme discreta**

Es decir:

$$
P(X = x_i) = \frac{1}{k}
$$

para cada una de las $k$ categor√≠as posibles.

üìå Todas las categor√≠as tienen la **misma probabilidad**.

---

### üîπ Caso 2: especificando `p`

Si se proporciona un vector de probabilidades `p`, entonces:

### üëâ **Distribuci√≥n categ√≥rica (o multinomial de un ensayo)**

$$
P(X = x_i) = p_i, \quad \sum_i p_i = 1
$$

üìå Las categor√≠as **no son equiprobables**, lo que es esencial en simulaci√≥n social realista.

---

## 3. Preparaci√≥n del entorno

```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
```

---

## 4. Ejemplo 1: generaci√≥n de g√©nero (uniforme)

```python
np.random.seed(42)

n = 200

genero = np.random.choice(
    ["Hombre", "Mujer"],
    size=n
)

pd.Series(genero).value_counts()
```

### Discusi√≥n

* Este supuesto implica **paridad perfecta**.
* ¬øEs realista en todos los contextos sociales?

---

## 5. Ejemplo 2: g√©nero con distribuci√≥n no uniforme

```python
genero = np.random.choice(
    ["Hombre", "Mujer"],
    size=n,
    p=[0.48, 0.52]
)

pd.Series(genero).value_counts(normalize=True)
```

üìå Aqu√≠ estamos usando una **distribuci√≥n categ√≥rica**.

---

## 6. Ejemplo 3: estrato socioecon√≥mico

```python
estrato = np.random.choice(
    [1, 2, 3, 4, 5, 6],
    size=n,
    p=[0.35, 0.30, 0.20, 0.08, 0.05, 0.02]
)

pd.Series(estrato).value_counts().sort_index()
```

### Interpretaci√≥n social

* Mayor concentraci√≥n en estratos bajos
* Simulaci√≥n coherente con contextos latinoamericanos

---

## 7. Ejemplo 4: nivel educativo

```python
educacion = np.random.choice(
    ["Primaria", "Secundaria", "T√©cnica", "Universitaria", "Posgrado"],
    size=n,
    p=[0.25, 0.35, 0.15, 0.20, 0.05]
)

pd.Series(educacion).value_counts()
```

---

## 8. Construcci√≥n de un dataset social artificial

```python
df = pd.DataFrame({
    "genero": genero,
    "estrato": estrato,
    "educacion": educacion
})

df.head()
```

---

## 9. Visualizaci√≥n de distribuciones

```python
df["estrato"].value_counts().sort_index().plot(kind="bar")
plt.title("Distribuci√≥n del estrato socioecon√≥mico")
plt.xlabel("Estrato")
plt.ylabel("Frecuencia")
plt.show()
```

---

## 10. Experimentos guiados

1. Cambia el vector `p` y observa el efecto.
2. ¬øQu√© pasa si `replace=False`?
3. Aumenta `n` y analiza la estabilidad emp√≠rica.
4. Compara con `np.random.randint()`.

---

## 11. Errores conceptuales comunes

‚ùå Creer que `choice()` siempre es uniforme
‚ùå Usar probabilidades que no suman 1
‚ùå Confundir simulaci√≥n con datos reales

---

## 12. Cierre pedag√≥gico

* `np.random.choice()` es fundamental para **simulaci√≥n social**.
* Permite controlar expl√≠citamente la **estructura probabil√≠stica**.
* Es ideal para:

  * Ense√±anza
  * Experimentos
  * Pruebas de modelos estad√≠sticos

Este cuaderno fortalece el v√≠nculo entre:

$$
\text{Probabilidad} + \text{Programaci√≥n} + \text{Ciencias Sociales}
$$
