# 📊 Pandas Data I/O Cheat Sheet — Capítulo 6
**Data Loading, Storage, and File Formats**

Guía rápida pensada para *Jupyter Notebook* y exposiciones.

## 🔹 Lectura de archivos de texto

In [None]:
import pandas as pd

# CSV con encabezado
# df = pd.read_csv('archivo.csv')

# CSV sin encabezado (genera nombres automáticos)
# df = pd.read_csv('archivo.csv', header=None)

# Especificar nombres de columnas
# df = pd.read_csv('archivo.csv', names=['a','b','c','d','msg'])

# Usar columna como índice
# df = pd.read_csv('archivo.csv', index_col='msg')

# Delimitadores personalizados (por espacios en blanco)
# df = pd.read_table('archivo.txt', sep='\s+')

## 🔹 Opciones comunes en `read_csv` / `read_table`

- `sep` → delimitador (`,`, `;`, `\t`, `\s+`)
- `names` → lista de nombres de columnas
- `index_col` → columnas como índice
- `skiprows` → filas a saltar
- `na_values` → definir valores faltantes
- `nrows` → leer solo X filas
- `chunksize` → leer en bloques


In [None]:
# Ejemplo de parseo con opciones
# df = pd.read_csv('data.csv', skiprows=[0,2], na_values=['NULL'])

## 🔹 Lectura en piezas (archivos grandes)

In [None]:
# Leer solo 5 filas
# sample = pd.read_csv('data.csv', nrows=5)
# print(sample)

# Iterar en bloques de 1000 filas
# chunker = pd.read_csv('data.csv', chunksize=1000)
# for piece in chunker:
#     print(piece.head(2))

## 🔹 Escritura a texto

In [None]:
# df.to_csv('out.csv')                      # a CSV
# df.to_csv('out.csv', sep='|')             # separador custom
# df.to_csv('out.csv', na_rep='NULL')       # representar NaN
# df.to_csv('out.csv', index=False)         # sin índices

## 🔹 JSON

In [None]:
import json

# De string JSON a dict
# obj = json.loads(json_string)

# De dict a JSON
# json_str = json.dumps(obj)

# JSON a DataFrame (lista/dict)
# df = pd.DataFrame(obj['items'], columns=['col1','col2'])

## 🔹 HTML / XML (web scraping básico con `lxml`)

In [None]:
# from lxml.html import parse
# from urllib.request import urlopen

# parsed = parse(urlopen('https://ejemplo.com'))
# doc = parsed.getroot()
# links = [lnk.get('href') for lnk in doc.findall('.//a')]
# links[:5]

## 🔹 Formatos binarios

In [None]:
# Pickle (rápido; corto plazo)
# df.to_pickle('data.pkl')
# df = pd.read_pickle('data.pkl')

# HDF5 (grandes volúmenes, compresión)
# store = pd.HDFStore('data.h5')
# store['df1'] = df
# print(store['df1'])
# store.close()

## 🔹 Excel

In [None]:
# xls = pd.ExcelFile('data.xlsx')
# df = xls.parse('Hoja1')

## 🔹 Bases de datos SQL

In [None]:
import sqlite3

# con = sqlite3.connect(':memory:')
# df = pd.read_sql('SELECT 1 as a, 2 as b', con)
# df

## 🔹 APIs / Web (requests + JSON)

In [None]:
import requests

# resp = requests.get('https://api.github.com/users/octocat')
# data = resp.json()
# df = pd.DataFrame([data])
# df[['login','id','public_repos']]


## ✅ Resumen
- Usa `read_csv` / `to_csv` para texto.
- Usa **Pickle** solo en el corto plazo.
- Usa **HDF5** para datos grandes.
- Usa **ExcelFile** para `.xlsx`.
- Usa `requests` + `json` para APIs.
- Usa `read_sql` para bases de datos.
