# Capítulo 3 — Datos externos (leer y guardar archivos con pandas)

Ejecuta las celdas en orden y modifica el código para practicar.


In [None]:
# Setup del capítulo (mínimo)
import sys
print("Versión de Python:", sys.version.split()[0])


## Cómo leer la sintaxis (rápido)

- `pd.read_csv(...)` y `pd.read_table(...)` leen archivos a un `DataFrame`.
- `sep=` define el separador entre columnas.
- `header=None` indica que NO hay encabezados.
- `names=[...]` asigna nombres de columnas.
- `df.to_csv(..., index=False)` guarda sin columna extra de índice.


In [None]:
import pandas as pd
from io import StringIO


## 1) Leer texto y CSV (ejemplos locales)

In [None]:
# Texto simulado en memoria (como si fuera un .txt)
texto = '''year product1 product2 product3
2010  3        1        2
2011  4        2        2
2012  6        3        1
'''

# read_table sirve para texto separado por espacios/tab (u otro separador)
# sep=r"\s+" significa: uno o más espacios
df_txt = pd.read_table(StringIO(texto), sep=r"\s+")
df_txt


In [None]:
# CSV simulado en memoria (como si fuera un .csv)
csv = '''year,product1,product2,product3
2010,3,1,2
2011,4,2,2
2012,6,3,1
'''

# read_csv por defecto separa por comas
df_csv = pd.read_csv(StringIO(csv))
df_csv


In [None]:
# CSV sin encabezado (sin nombres de columnas)
csv_sin_header = '''2010,3,1,2
2011,4,2,2
2012,6,3,1
'''

# header=None -> no hay fila de nombres
# names=[...] -> ponemos nombres manualmente
df_csv2 = pd.read_csv(
    StringIO(csv_sin_header),
    header=None,
    names=["year", "product1", "product2", "product3"]
)
df_csv2


## 2) Guardar datos (exportar)

In [None]:
# Guardar CSV (sin índice)
df_csv2.to_csv("salida_ejemplo.csv", index=False)

# Guardar Excel (sin índice)
df_csv2.to_excel("salida_ejemplo.xlsx", index=False)

print("Archivos guardados: salida_ejemplo.csv y salida_ejemplo.xlsx")


## 3) Excel en memoria (sin internet)

In [None]:
from io import BytesIO

df_base = pd.DataFrame({"A": [1, 2, 3], "B": [10, 20, 30]})
buffer = BytesIO()

# Guardamos un Excel en memoria
with pd.ExcelWriter(buffer, engine="openpyxl") as writer:
    df_base.to_excel(writer, sheet_name="Hoja1", index=False)

buffer.seek(0)

# Leemos desde memoria
df_excel = pd.read_excel(buffer, sheet_name="Hoja1")
df_excel


## 4) Online (opcional)

Esta parte depende de internet. En Colab suele funcionar mejor.


In [None]:
# (Opcional) wooldridge
# !pip -q install wooldridge
# import wooldridge as woo
# wage1 = woo.dataWoo("wage1")
# wage1.head()


In [None]:
# (Opcional) FRED / Stooq / Yahoo Finance
# !pip -q install pandas_datareader yfinance
# import pandas_datareader as pdr
# import yfinance as yf
#
# wti = pdr.data.DataReader("DCOILWTICO", "fred", start="2014-01-01", end="2024-12-31")
# aapl = pdr.data.DataReader("AAPL", "stooq", start="2017-01-01", end="2024-12-31")
# btc = yf.download("BTC-USD", start="2017-01-01", end="2024-12-31", auto_adjust=False)
#
# wti.tail(), aapl.head(), btc.head()


## Ejercicios propuestos

1) **Lectura sin encabezado**  
Crea un CSV sin encabezado con 4 columnas y 3 filas. Léelo con `read_csv` y asigna los nombres `["a","b","c","d"]`.

**Respuesta esperada:** un `DataFrame` con columnas `a, b, c, d` y 3 filas.


In [None]:
# Escribe tu solución aquí


2) **Separadores “raros”**  
Crea un texto donde las columnas estén separadas por varios espacios. Léelo con `read_table` usando `sep=r"\s+"`.

**Respuesta esperada:** un `DataFrame` con varias columnas (no una sola columna gigante).


In [None]:
# Escribe tu solución aquí


3) **Exportación consistente**  
Guarda un `DataFrame` en CSV y en Excel usando `index=False`.

**Respuesta esperada:** dos archivos creados sin columna extra de índice.


In [None]:
# Escribe tu solución aquí


4) **Excel con hojas**  
Crea un Excel en memoria con dos hojas (`Hoja1`, `Hoja2`) y lee solo `Hoja2`.

**Respuesta esperada:** `read_excel(..., sheet_name="Hoja2")` devuelve exactamente la tabla de `Hoja2`.


In [None]:
# Escribe tu solución aquí


5) **Mini-proyecto**  
Crea un `DataFrame` con `ventas` y `clientes`, calcula `ventas_por_cliente`, y guarda el resultado a CSV.

**Respuesta esperada:** una tabla con 3 columnas y un CSV con esas mismas columnas.


In [None]:
# Escribe tu solución aquí


## Glosario

- **DataFrame**: tabla de datos en `pandas`.
- **CSV**: archivo de texto con valores separados por comas.
- **sep / delimiter**: separador entre columnas.
- **header**: indica si el archivo trae nombres de columnas.
- **ruta**: ubicación del archivo.
