# Clase 3 — Control de flujo → Archivos → Pandas (mínimo viable)

**Temas**
Al final de la sesión deberías poder:
1) escribir programas con `if/elif/else`, `for` y `while`;
2) leer y escribir archivos simples (texto y CSV);
3) cargar un CSV con `pandas` y hacer un análisis básico (filtrar + contar + agrupar) y exportar resultados.

---

## Checklist cuando algo falla:
- ¿Qué dice la última línea del error?
- ¿En qué línea exacta ocurrió?
- ¿Qué tipo de error es? (`SyntaxError`, `NameError`, `TypeError`, `KeyError`, etc.)
- ¿Qué valor tienen mis variables justo antes de fallar? (usa `print(...)`)



# 1) Control de flujo: decisiones y repetición

## 1.1 `if / elif / else`
Sirve para ejecutar código **solo si** se cumple una condición.

**Ideas clave:**
- La condición debe ser algo que Python pueda interpretar como `True` o `False`.
- La indentación (espacios) define el bloque de código.

In [1]:
edad = 17

if edad >= 18:
    print("Puede entrar.")
else:
    print("No puede entrar.")


No puede entrar.


In [2]:
nota = 15

if nota >= 18:
    print("Excelente")
elif nota >= 14:
    print("Bueno")
elif nota >= 10:
    print("Aprobado")
else:
    print("Reprobado")


Bueno


In [3]:
if nota >= 18:
print("Excelente")

IndentationError: expected an indented block after 'if' statement on line 1 (195945662.py, line 2)

### Ejercicio
Escribe un bloque `if/elif/else` que clasifique un número:
- positivo
- cero
- negativo


In [4]:
x = -3

if x > 0:
    print("positivo")
elif x == 0:
    print("cero")
else:
    print("negativo")


negativo


## 1.2 `for`: repetir sobre una colección
Sirve para recorrer elementos (listas, strings, rangos).

Patrones típicos:
- recorrer lista
- recorrer `range(n)`
- recorrer con índice: `enumerate(...)`


In [5]:
frutas = ["manzana", "pera", "uva"]

for f in frutas:
    print("fruta:", f)


fruta: manzana
fruta: pera
fruta: uva


In [6]:
for i in range(5):  # 0,1,2,3,4
    print("i:", i)

for i, f in enumerate(frutas, start=1):
    print(i, "->", f)


i: 0
i: 1
i: 2
i: 3
i: 4
1 -> manzana
2 -> pera
3 -> uva


In [14]:
print(range(5))
print(type(range(5)))
print(len(range(5)))
print(list(range(5)))
print(range(2, 10))
print(range(5)[0])

range(0, 5)
<class 'range'>
5
[0, 1, 2, 3, 4]
range(2, 10)
0


## 1.3 `while`: repetir mientras una condición sea verdadera
Se usa cuando **no sabes cuántas iteraciones** necesitas.

**Cuidado:** si la condición nunca cambia → loop infinito.


In [15]:
contador = 0
while contador < 3:
    print("contador:", contador)
    contador += 1


contador: 0
contador: 1
contador: 2


## 1.4 `break` y `continue`
- `break`: sale del loop
- `continue`: salta a la siguiente iteración


In [16]:
for i in range(10):
    if i == 5:
        break
    print(i)


0
1
2
3
4


In [17]:
for i in range(6):
    if i % 2 == 0:
        continue
    print("impar:", i)


impar: 1
impar: 3
impar: 5


## 1.5 IA

**Prompt sugerido:**
> "Dame 3 ejemplos MUY simples de `if/elif/else`, `for` y `while` en Python, con prints, y explica en 1 frase qué hace cada uno."

**Tu tarea:**  
1) copia un ejemplo, ejecútalo  
2) cambia un valor y predice el output antes de correrlo


# 2) Ejercicio: “filtrar + contar”

Vamos a simular datos de pedidos (lista de diccionarios) y:
- quedarnos con pedidos grandes,
- contar por ciudad,
- obtener un resumen.


In [18]:
orders = [
    {"order_id": 1, "user_id": 10, "city": "Lima", "amount": 120.0},
    {"order_id": 2, "user_id": 11, "city": "Cusco", "amount": 35.5},
    {"order_id": 3, "user_id": 10, "city": "Lima", "amount": 80.0},
    {"order_id": 4, "user_id": 12, "city": "Arequipa", "amount": 220.0},
    {"order_id": 5, "user_id": 13, "city": "Cusco", "amount": 150.0},
]


In [19]:
# 2.1 Filtrar pedidos con amount >= 100
big_orders = []
for o in orders:
    if o["amount"] >= 100:
        big_orders.append(o)

big_orders


[{'order_id': 1, 'user_id': 10, 'city': 'Lima', 'amount': 120.0},
 {'order_id': 4, 'user_id': 12, 'city': 'Arequipa', 'amount': 220.0},
 {'order_id': 5, 'user_id': 13, 'city': 'Cusco', 'amount': 150.0}]

In [20]:
# 2.2 Contar cuántos big_orders hay por ciudad (diccionario contador)
counts = {}

for o in big_orders:
    city = o["city"]
    if city not in counts:
        counts[city] = 0
    counts[city] += 1

counts


{'Lima': 1, 'Arequipa': 1, 'Cusco': 1}

In [21]:
# 2.3 Encontrar la ciudad con más pedidos grandes (sin usar max todavía)
best_city = None
best_count = -1

for city, c in counts.items():
    if c > best_count:
        best_city = city
        best_count = c

best_city, best_count


('Lima', 1)

Este mismo patrón (recorrer → filtrar → contar) lo haremos con archivos y con pandas.


# 3) Archivos (lectura y escritura)

## 3.1 Leer un archivo de texto con `with open(...)`
`with` asegura que el archivo se cierra bien (incluso si algo falla).


In [22]:
# Creamos un archivo de texto de ejemplo
text = """order_id,user_id,city,amount
1,10,Lima,120.0
2,11,Cusco,35.5
3,10,Lima,80.0
4,12,Arequipa,220.0
5,13,Cusco,150.0
"""

with open("orders.csv", "w", encoding="utf-8") as f:
    f.write(text)

print("Archivo creado: orders.csv")


Archivo creado: orders.csv


In [23]:
# Leer todo el contenido
with open("orders.csv", "r", encoding="utf-8") as f:
    content = f.read()

print(content)


order_id,user_id,city,amount
1,10,Lima,120.0
2,11,Cusco,35.5
3,10,Lima,80.0
4,12,Arequipa,220.0
5,13,Cusco,150.0



In [24]:
print(type(content))
print(len(content))

<class 'str'>
113


In [25]:
with open("orders.csv", "r", encoding="utf-8") as f:
    for line in f:
        line = line.strip()
        print("LINE:", line)


LINE: order_id,user_id,city,amount
LINE: 1,10,Lima,120.0
LINE: 2,11,Cusco,35.5
LINE: 3,10,Lima,80.0
LINE: 4,12,Arequipa,220.0
LINE: 5,13,Cusco,150.0


## 3.3 Parsear un CSV “a mano” (expliquen el codigo)
Esto NO es lo más eficiente, pero sirve para aprender qué está pasando.

Pasos:
1) separar líneas
2) la primera línea son headers
3) el resto son filas


In [26]:
with open("orders.csv", "r", encoding="utf-8") as f:
    lines = [ln.strip() for ln in f.readlines()]

headers = lines[0].split(",")
rows = lines[1:]

data = []
for r in rows:
    parts = r.split(",")
    row_dict = dict(zip(headers, parts))
    # convertir amount a float
    row_dict["amount"] = float(row_dict["amount"])
    row_dict["order_id"] = int(row_dict["order_id"])
    row_dict["user_id"] = int(row_dict["user_id"])
    data.append(row_dict)

data[:2], headers


([{'order_id': 1, 'user_id': 10, 'city': 'Lima', 'amount': 120.0},
  {'order_id': 2, 'user_id': 11, 'city': 'Cusco', 'amount': 35.5}],
 ['order_id', 'user_id', 'city', 'amount'])

## Nota importante: ¿qué son las librerías en Python?

Hasta ahora hemos usado **Python “puro”**: variables, listas, diccionarios, `if`, `for`, funciones, etc.  
Eso ya nos permite hacer muchas cosas, pero **reinventar todo desde cero sería lento e ineficiente**.

### ¿Qué es una librería?
Una **librería** es un conjunto de código escrito por otras personas que:
- ya resolvió problemas comunes,
- está probado,
- y podemos reutilizar fácilmente.

Ejemplos:
- **pandas** → trabajar con datos en tablas
- **numpy** → cálculos numéricos eficientes
- **matplotlib** → gráficos
- **requests** → comunicarse con páginas web y APIs

### ¿Cómo se usan las librerías?
Primero se **importan**:
```python
import pandas as pd


# 4) Pandas intro

## 4.1 ¿Qué es un DataFrame?
Un DataFrame es una tabla: filas x columnas.

8 comandos que te resuelven el 80% de tareas iniciales:
- `pd.read_csv`
- `df.head()`
- `df.info()`
- `df["col"]` y `df[["col1","col2"]]`
- filtrar con condiciones
- `value_counts()`
- `groupby(...)`
- `to_csv(...)`


In [27]:
import pandas as pd

In [28]:
df = pd.read_csv("orders.csv")
df


Unnamed: 0,order_id,user_id,city,amount
0,1,10,Lima,120.0
1,2,11,Cusco,35.5
2,3,10,Lima,80.0
3,4,12,Arequipa,220.0
4,5,13,Cusco,150.0


In [30]:
df.head(3)

Unnamed: 0,order_id,user_id,city,amount
0,1,10,Lima,120.0
1,2,11,Cusco,35.5
2,3,10,Lima,80.0


In [31]:
df.head(3)


Unnamed: 0,order_id,user_id,city,amount
0,1,10,Lima,120.0
1,2,11,Cusco,35.5
2,3,10,Lima,80.0


In [32]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   order_id  5 non-null      int64  
 1   user_id   5 non-null      int64  
 2   city      5 non-null      object 
 3   amount    5 non-null      float64
dtypes: float64(1), int64(2), object(1)
memory usage: 292.0+ bytes


In [33]:
# Seleccionar columnas
df["city"]


0        Lima
1       Cusco
2        Lima
3    Arequipa
4       Cusco
Name: city, dtype: object

In [34]:
df[["order_id", "city", "amount"]].head()


Unnamed: 0,order_id,city,amount
0,1,Lima,120.0
1,2,Cusco,35.5
2,3,Lima,80.0
3,4,Arequipa,220.0
4,5,Cusco,150.0


In [35]:
# Filtrar (boolean indexing)
df_big = df[df["amount"] >= 100]
df_big


Unnamed: 0,order_id,user_id,city,amount
0,1,10,Lima,120.0
3,4,12,Arequipa,220.0
4,5,13,Cusco,150.0


In [36]:
# Conteo por categoría
df["city"].value_counts()


city
Lima        2
Cusco       2
Arequipa    1
Name: count, dtype: int64

In [37]:
# groupby: resumen numérico por ciudad
df.groupby("city")["amount"].mean()


city
Arequipa    220.00
Cusco        92.75
Lima        100.00
Name: amount, dtype: float64

In [39]:
print(type(df.groupby("city")["amount"].mean()))

<class 'pandas.core.series.Series'>


In [38]:
# groupby con varios agregados
summary = df.groupby("city")["amount"].agg(["count", "mean", "max"]).reset_index()
summary


Unnamed: 0,city,count,mean,max
0,Arequipa,1,220.0,220.0
1,Cusco,2,92.75,150.0
2,Lima,2,100.0,120.0


In [40]:
# Exportar resultados
summary.to_csv("summary_by_city.csv", index=False)
print("Exportado: summary_by_city.csv")


Exportado: summary_by_city.csv


# 5) Ejercicio
Con `df`:
1) crea una columna nueva `is_big` que sea True si amount >= 100  
2) calcula cuántos pedidos big hay por ciudad  
3) exporta el resultado a CSV

*Tip:* usa operaciones vectorizadas (sin for).


In [41]:
df2 = df.copy()
df2["is_big"] = df2["amount"] >= 100

result = df2.groupby("city")["is_big"].sum().reset_index()
result = result.rename(columns={"is_big": "n_big_orders"})
result


Unnamed: 0,city,n_big_orders
0,Arequipa,1
1,Cusco,1
2,Lima,1


# 6) Tarea grupal
Para trabajar con un dataset en equipo, mínimo:
- el repo tiene un notebook “limpio” y reproducible (Run All)
- el archivo de datos se lee con ruta relativa
- hay un `README` con: objetivo, cómo correr, outputs
- hay un output exportado (csv) en carpeta `results/` (si la tienes)

**Extra recomendado:** una función helper `load_data(path)` (lo haremos en la clase 4).
