# 📘 Introducción al Análisis de Datos

En análisis de datos, todo comienza con **leer datos** 📊.  
Sin embargo, los datos pueden venir en **múltiples formatos** y cada uno requiere técnicas específicas para manejarlos.

---

## 🔹 Principales fuentes y formatos de datos

### 1. Lectura y escritura de datos en **formato texto**
- Uso de funciones como **`read_csv`** de `pandas`.
- Manejo de **delimitadores** (`,` `;` `\t`).
- Configuración de **encabezados y tipos de datos**.
- Opciones para trabajar con **archivos grandes** y **manejar errores** en la lectura.

---

### 2. Formatos de datos **binarios**
- Formatos de datos binario como **Pickle**, **HDF5** y **Apache Parquet**.
- HDF5 puede trabajar con **grandes volúmenes de datos**.
- Procesos de **serialización y deserialización** (guardar y recuperar objetos de Python).

---

### 3. Interacción con **APIs web**
- Consumo de datos en **JSON** mediante **APIs REST**.
- Procesamiento de las respuestas directamente con `pandas`.
- Manejo de **autenticación**, **paginación** y otras consideraciones al consumir APIs.

---

### 4. Interacción con **bases de datos**
- Conexión a bases de datos **SQL** (SQLite, MySQL, PostgreSQL, etc.).
- Ejecución de consultas y carga de resultados en un **DataFrame**.
- Uso de **SQLAlchemy** para integración fluida con `pandas`.

---

## 🚀 Primer paso: trabajar con CSV
En esta primera parte veremos un ejemplo con **CSV**,  
uno de los formatos más **comunes, simples y fáciles de entender** para empezar a trabajar con datos.


Para trabajar con datos en Python, vamos a utilizar la librería **pandas** que nos permite leer datos de muchos formatos diferentes (CSV, Excel, JSON, SQL, etc.).

## Opciones útiles de `read_csv`

- **`sep`** → define el delimitador (`,` por defecto, puede ser `;`, `|`, `\s+`, etc.) 
- **`header`** → fila usada como encabezado, por defecto es 0 (`None` si no hay)
- **`names`** → lista de nombres de columnas para el resultado
- **`index_col`** → nombre columna que se usará como índice de fila en el resultado
- **`skiprows`** → lista de numeros filas que se saltan al leer
- **`na_values`** → valores a considerar como `NaN`
- **`nrows`** → número de filas a leer desde el principio del archivo (sin contar el encabezado)
- **`chunksize`** → leer el archivo por partes (útil en archivos grandes)