# Guía: IO + `pathlib` + Pandas


> Objetivo: practicar un flujo completo **archivos → DataFrame → selección → gráfico → exportar resultados**.


In [None]:
from pathlib import Path
import pandas as pd
import matplotlib.pyplot as plt

# Carpeta de trabajo para datos
data_dir = Path("data")
data_dir.mkdir(exist_ok=True)

# Configuración mínima de gráficos
plt.rcParams["figure.figsize"] = (7, 4)


## Sección A

En campañas de terreno es común recolectar muestras de sedimentos y registrar propiedades físicas.
En esta sección trabajarás con un conjunto pequeño de muestras, incluyendo tamaño de grano, porosidad y densidad.
El objetivo es practicar lectura desde disco, filtrado y un gráfico simple.


In [None]:
# Generación de datos (ejecutar primero)
import random

random.seed(7)

rows = []
sitios = ["A1", "A2", "B1", "B2", "C1"]
minerales = ["cuarzo", "feldespato", "arcilla"]

for i in range(18):
    sitio = random.choice(sitios)
    mineral = random.choice(minerales)
    grain_um = random.choice([40, 60, 80, 120, 180, 250]) + random.randint(-5, 5)
    porosity = round(random.uniform(0.08, 0.32), 3)
    density = round(random.uniform(2.35, 2.85), 3)  # g/cm^3
    rows.append({
        "sample_id": f"S{i+1:02d}",
        "site": sitio,
        "grain_um": grain_um,
        "porosity": porosity,
        "density_gcc": density,
        "dominant_mineral": mineral,
    })

df_geo = pd.DataFrame(rows)

out = data_dir / "geology_samples.csv"
df_geo.to_csv(out, index=False)

### Ejercicio A1 — IO + verificación de archivo (8–10 min)

**Meta:** confirmar que el archivo existe usando `pathlib`, leerlo con Pandas y mostrar 5 filas.

**Resultado esperado:** un `DataFrame` llamado `geo` y una vista de `geo.head()`.


In [None]:
# Tu código aquí


### Ejercicio A2

**Meta:** seleccionar muestras con:
- `porosity > 0.20` **y** `grain_um >= 120`

Luego:
- quédate solo con las columnas `sample_id`, `site`, `grain_um`, `porosity`
- crea un **scatter plot**: `grain_um` (x) vs `porosity` (y) usando `.plot(kind="scatter", ...)`

**Resultado esperado:** un DataFrame `geo_sel` y un gráfico.


In [None]:
# TODO:

geo_sel = None  # reemplazar

# Tu código aquí


## Sección B 

En un experimento de crecimiento microbiano se mide la densidad óptica (OD600) en distintos tiempos.
Aquí trabajarás con un dataset pequeño con dos cepas, dos temperaturas y réplicas.
Practicarás inspección, filtrado, un resumen simple y un gráfico de líneas.


In [None]:
# Generación de datos (ejecutar primero)
import random

random.seed(11)

times_h = [0, 1, 2, 3, 4, 5]
strains = ["WT", "MutA"]
temps = [30, 37]
replicates = [1, 2]

rows = []
for strain in strains:
    for temp in temps:
        for rep in replicates:
            base = 0.08 + random.uniform(-0.01, 0.01)
            growth = (0.18 if temp == 37 else 0.14) * (1.0 if strain == "WT" else 0.9)
            noise_scale = 0.02
            for t in times_h:
                od = base + growth * (t / max(times_h))**1.3 + random.uniform(-noise_scale, noise_scale)
                rows.append({
                    "time_h": t,
                    "od600": round(max(0.02, od), 3),
                    "temperature_C": temp,
                    "strain": strain,
                    "replicate": rep,
                })

df_micro = pd.DataFrame(rows)

out = data_dir / "micro_growth.csv"
df_micro.to_csv(out, index=False)

### Ejercicio B1

**Meta:** cargar `micro_growth.csv` y responder con código:

1) mostrar `head()`  
2) imprimir `shape`  
3) imprimir `columns`  
4) ejecutar `describe()` (solo numéricas)

**Resultado esperado:** un DataFrame `micro` y salidas de inspección.


In [None]:
# Tu código aquí


### Ejercicio B2:

**Meta:** para la cepa `WT` a `37°C`:

1) filtra el DataFrame  
2) calcula el **OD600 promedio por tiempo** (puedes usar `groupby("time_h")["od600"].mean()`; mantenlo corto)  
3) grafica una línea OD vs tiempo con `.plot(kind="line", marker="o", ...)`

**Resultado esperado:** una Serie o DataFrame `od_mean` y un gráfico de línea.


In [None]:
# TODO:

od_mean = None  # reemplazar

# Tu código aquí


## Sección C 

En encuestas urbanas es típico registrar variables categóricas y numéricas: ciudad, satisfacción, tiempos de viaje y días de teletrabajo.
En esta sección practicarás lectura, una limpieza mínima de tipos, comparación de grupos y un gráfico de barras.


In [None]:
# Generación de datos (ejecutar primero)
import random

random.seed(23)

cities = ["Concepción", "Santiago", "Valparaíso"]
age_groups = ["18-24", "25-34", "35-44", "45-54"]
rows = []

for i in range(22):
    city = random.choice(cities)
    age = random.choice(age_groups)
    commute = random.choice([10, 20, 30, 45, 60, 75]) + random.randint(-3, 3)
    remote_days = random.choice([0, 1, 2, 3, 4, 5])
    # satisfacción correlacionada débilmente: más teletrabajo => ligeramente más satisfacción, más commute => menos
    base = 6.0 + 0.3 * remote_days - 0.02 * commute + random.uniform(-0.8, 0.8)
    score = int(min(10, max(1, round(base))))
    rows.append({
        "respondent_id": f"R{i+1:02d}",
        "city": city,
        "age_group": age,
        "commute_min": commute,
        "remote_days": remote_days,
        "satisfaction": score,
    })

df_soc = pd.DataFrame(rows)

out = data_dir / "survey.csv"
df_soc.to_csv(out, index=False)

### Ejercicio C1

**Meta:** cargar `survey.csv` y asegurar que estas columnas sean numéricas:
- `commute_min`
- `remote_days`
- `satisfaction`

Pista: `pd.to_numeric(..., errors="raise")` o `astype(int)`.

**Resultado esperado:** `soc` con `dtypes` correctos (verifica con `soc.dtypes`).


In [None]:
# TODO:
# 1) Lee el CSV en soc
# 2) Convierte a numéricas las 3 columnas indicadas
# 3) Imprime soc.dtypes

soc = None  # reemplazar

# Tu código aquí


### Ejercicio C2 

**Meta:** comparar satisfacción promedio entre dos grupos:
- Grupo A: `remote_days >= 3`
- Grupo B: `remote_days < 3`

1) crea una columna `remote_group` con valores `">=3"` y `"<3"`  
2) calcula la satisfacción promedio por grupo  
3) grafica un **bar plot** de ese promedio

**Resultado esperado:** una tabla/serie `mean_by_group` y un gráfico de barras.


In [None]:
# TODO:
# 1) Crea soc["remote_group"] usando una condición
# 2) Calcula promedio de satisfaction por remote_group
# 3) Grafica en barras

mean_by_group = None  # reemplazar

# Tu código aquí


## Desafío final 

**Meta:** producir un mini-reporte en disco combinando **al menos dos** datasets.

Requisitos:
1) Carga **dos CSV** desde `data/` usando `pathlib`
2) Calcula **3 métricas simples** (ejemplos):
   -  porosidad media
   -  OD600 final promedio (tiempo máximo) para WT a 37°C
   -  satisfacción media en grupo `remote_days >= 3`
3) Construye un `DataFrame` de resumen con columnas `metric` y `value`.
4) Guarda el resumen en `data/summary_report.csv`.
5) Crea **1 gráfico** que apoye una comparación (elige uno):
   - barras de métricas del reporte (recomendado), o
   - un gráfico (promedio por grupo) o (OD vs tiempo).

**Resultado esperado:** archivo `data/summary_report.csv` creado y un gráfico.


In [None]:
# TODO:
# 1) Define paths a dos (o tres) CSV usando data_dir / "..."
# 2) Carga con pd.read_csv
# 3) Calcula 3 métricas simples (floats)
# 4) Arma un DataFrame summary con columnas: metric, value
# 5) Guarda en data_dir / "summary_report.csv"
# 6) Grafica una comparación simple (bar plot recomendado)

summary = None  

# Tu código aquí
