# 📘 Introducción al Análisis de Datos

En análisis de datos, todo comienza con **leer datos** 📊.  
Sin embargo, los datos pueden venir en **múltiples formatos** y cada uno requiere técnicas específicas para manejarlos.

---

## 🔹 Principales fuentes y formatos de datos

### 1. Lectura y escritura de datos en **formato texto**
- Uso de funciones **`read_csv`** y **`read_table`** de `pandas`.
- Manejo de **delimitadores** (`,` `;` `\t`).
- Configuración de **encabezados y tipos de datos**.
- Opciones para trabajar con **archivos grandes** y **manejar errores** en la lectura.

---

### 2. Formatos de datos **binarios**
- Ventajas de formatos como **Pickle**, **HDF5** y **Parquet**.
- Optimización para trabajar con **grandes volúmenes de datos**.
- Procesos de **serialización y deserialización** (guardar y recuperar objetos de Python).

---

### 3. Interacción con **APIs web**
- Consumo de datos en **JSON** mediante **APIs REST**.
- Procesamiento de las respuestas directamente con `pandas`.
- Manejo de **autenticación**, **paginación** y otras consideraciones al consumir APIs.

---

### 4. Interacción con **bases de datos**
- Conexión a bases de datos **SQL** (SQLite, MySQL, PostgreSQL, etc.).
- Ejecución de consultas y carga de resultados en un **DataFrame**.
- Uso de **SQLAlchemy** para integración fluida con `pandas`.

---

## 🚀 Primer paso: trabajar con CSV
En esta primera parte veremos un ejemplo con **CSV**,  
uno de los formatos más **comunes, simples y fáciles de entender** para empezar a trabajar con datos.


Para trabajar con datos en Python, vamos a utilizar la librería **pandas** que nos permite leer datos de muchos formatos diferentes (CSV, Excel, JSON, SQL, etc.).

## Opciones útiles de `read_csv`

- **`sep`** → define el delimitador (`,` por defecto, puede ser `;`, `|`, `\s+`, etc.)
- **`header`** → fila usada como encabezado (`None` si no hay)
- **`names`** → lista de nombres de columnas
- **`index_col`** → columna que se usará como índice
- **`skiprows`** → filas que se saltan al leer
- **`na_values`** → valores a considerar como `NaN`
- **`nrows`** → número de filas a leer
- **`chunksize`** → leer el archivo por partes (útil en archivos grandes)

In [5]:
import pandas as pd # Importa la librería pandas, la más usada en Python para análisis y manipulación de datos. 
from io import StringIO #una utilidad de Python que permite tratar cadenas de texto como si fueran archivos. Se usa mucho para cargar datos directamente desde un string en memoria


In [6]:
df = pd.read_csv("datasets/CarsDatasets2025.csv", encoding="latin1") #encoding="latin1" → Especifica la codificación de caracteres.


In [7]:
df.head(10) 


Unnamed: 0,Company Names,Cars Names,Engines,CC/Battery Capacity,HorsePower,Total Speed,Performance(0 - 100 )KM/H,Cars Prices,Fuel Types,Seats,Torque
0,FERRARI,SF90 STRADALE,V8,3990 cc,963 hp,340 km/h,2.5 sec,"$1,100,000",plug in hyrbrid,2,800 Nm
1,ROLLS ROYCE,PHANTOM,V12,6749 cc,563 hp,250 km/h,5.3 sec,"$460,000",Petrol,5,900 Nm
2,Ford,KA+,1.2L Petrol,"1,200 cc",70-85 hp,165 km/h,10.5 sec,"$12,000-$15,000",Petrol,5,100 - 140 Nm
3,MERCEDES,GT 63 S,V8,"3,982 cc",630 hp,250 km/h,3.2 sec,"$161,000",Petrol,4,900 Nm
4,AUDI,AUDI R8 Gt,V10,"5,204 cc",602 hp,320 km/h,3.6 sec,"$253,290",Petrol,2,560 Nm
5,BMW,Mclaren 720s,V8,"3,994 cc",710 hp,341 km/h,2.9 sec,"$499,000",Petrol,2,770 Nm
6,ASTON MARTIN,VANTAGE F1,V8,"3,982 cc",656 hp,314 km/h,3.6 sec,"$193,440",Petrol,2,685 Nm
7,BENTLEY,Continental GT Azure,V8,"3,996 cc",550 hp,318 km/h,4.0 sec,"$311,000",Petrol,4,900 Nm
8,LAMBORGHINI,VENENO ROADSTER,V12,"6,498 cc",750 hp,356 km/h,2.9 sec,"$4,500,000",Petrol,2,690 Nm
9,FERRARI,F8 TRIBUTO,V8,"3,900 cc",710 hp,340 km/h,2.9 sec,"$280,000",Petrol,2,770 Nm


### 📄 Creación de un CSV de ejemplo

Vamos a crear un **string multilínea** que simula un archivo CSV:

- 🏷️ **Primera línea** → contiene los **nombres de las columnas** (`a, b, c, d, message`).  
- 🔢 **Filas siguientes** → contienen los **valores de cada columna**, separados por comas (`,`).  

Así se vería el archivo en crudo:


In [6]:
#1. CSV simple con encabezado



csv_text = """a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo"""

df = pd.read_csv(StringIO(csv_text)) #lo transforma directamente en una tabla (DataFrame).
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [8]:
#2. CSV sin encabezado
csv_noheader = """1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo"""


Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [9]:
# pandas asigna nombres genéricos a las columnas
df_noheader = pd.read_csv(StringIO(csv_noheader), header=None)
df_noheader

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [10]:

# También podemos asignar nombres personalizados:
names = ['a', 'b', 'c', 'd', 'message']
df_named = pd.read_csv(StringIO(csv_noheader), names=names)
df_named

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [12]:
#3. Usar una columna como índice
df_indexed = pd.read_csv(StringIO(csv_noheader), names=names, index_col='message')
df_indexed

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [13]:
#4. CSV con delimitador distinto (ejemplo con ;)
csv_semicolon = """a;b;c;d;message
1;2;3;4;hello
5;6;7;8;world"""

df_semicolon = pd.read_csv(StringIO(csv_semicolon), sep=";")
df_semicolon

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world


In [14]:
#5. CSV con espacios como separador


csv_space = """A   B   C
aaa -0.2 -1.0
bbb  0.9  0.3
ccc -0.2 -0.3"""

# Usamos una expresión regular para separar por uno o más espacios
df_space = pd.read_csv(StringIO(csv_space), sep=r"\s+")
df_space


Unnamed: 0,A,B,C
0,aaa,-0.2,-1.0
1,bbb,0.9,0.3
2,ccc,-0.2,-0.3


In [15]:

csv_skip = """# comentario
a,b,c,d
1,2,3,4
5,6,7,8"""

df_skip = pd.read_csv(StringIO(csv_skip), skiprows=[0])
df_skip

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,5,6,7,8


In [5]:
#7. Manejo de valores faltantes (NA)

csv_na = """something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo"""

df_na = pd.read_csv(StringIO(csv_na))
df_na

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [7]:
#1. Lectura de un archivo completo

result = pd.read_csv('datasets/lc_10000_rows.csv')
print(result)

     Unnamed: 0       X       id  load_entry_id file_descriptor  member_id  \
0        296192  296192  3316245    -2140141508              3c        NaN   
1        219806  219806  3855783    -2140141507              3d        NaN   
2        142772  142772  3710061    -2140141507              3d        NaN   
3        433148  433148  3471924    -2140141508              3c        NaN   
4        429639  429639  3468046    -2140141508              3c        NaN   
..          ...     ...      ...            ...             ...        ...   
995      611200  611200  3173716    -2140141509              3b        NaN   
996      455023  455023  3496047    -2140141508              3c        NaN   
997      586249  586249  3147029    -2140141509              3b        NaN   
998      195032  195032  3810868    -2140141507              3d        NaN   
999      573506  573506  3133282    -2140141509              3b        NaN   

     loan_amnt  funded_amnt  funded_amnt_inv       term  ... ha

# 📝 ¿Por qué mi DataFrame se ve así con `...`?

Cuando cargamos un CSV grande con **pandas**, muchas veces la salida aparece truncada:  

- `...` → significa que pandas **recortó filas o columnas** para no saturar la pantalla.  
- La tabla aparece **partida en bloques** porque hay demasiadas columnas para el ancho disponible.  
- Columnas como **`Unnamed: 0`** aparecen porque el CSV fue guardado con el índice y pandas lo leyó como una columna más.  

---



In [11]:
## 👀 Cómo mejorar la visualización

#Podemos cambiar las opciones de display de pandas:


#pd.set_option("display.max_columns", None)   # mostrar todas las columnas
#pd.set_option("display.max_rows", 50)        # hasta 50 filas
#pd.set_option("display.width", 0)            # usa todo el ancho de la pantalla
#pd.set_option("display.max_colwidth", None)  # no cortar strings
#pd.set_option("display.expand_frame_repr", False)  # evita partir la tabla en bloques

pd.set_option("display.max_rows", 50)        # hasta 50 filas
result.head(50)

## 📂 Leer archivos grandes en partes con `pandas`

Cuando trabajamos con **archivos CSV muy grandes**, cargarlos completos puede ser ineficiente o incluso imposible si no entran en memoria.  
Para resolver esto, `pandas` ofrece dos opciones muy útiles: **`nrows`** y **`chunksize`**.

---

### 1. Leer solo una muestra con `nrows`

Podemos cargar únicamente unas pocas filas del archivo, por ejemplo, para inspeccionar la estructura y los tipos de datos.


In [8]:
# Leer solo las primeras 5 filas de un CSV grande
small_sample = pd.read_csv("datasets/CarsDatasets2025.csv", encoding="latin1",  nrows=5)
print(small_sample)

  Company Names     Cars Names      Engines CC/Battery Capacity HorsePower  \
0       FERRARI  SF90 STRADALE           V8             3990 cc     963 hp   
1   ROLLS ROYCE        PHANTOM          V12             6749 cc     563 hp   
2          Ford            KA+  1.2L Petrol            1,200 cc   70-85 hp   
3      MERCEDES        GT 63 S           V8            3,982 cc     630 hp   
4          AUDI     AUDI R8 Gt          V10            5,204 cc     602 hp   

  Total Speed Performance(0 - 100 )KM/H      Cars Prices       Fuel Types  \
0    340 km/h                   2.5 sec      $1,100,000   plug in hyrbrid   
1    250 km/h                   5.3 sec        $460,000            Petrol   
2    165 km/h                  10.5 sec  $12,000-$15,000           Petrol   
3    250 km/h                   3.2 sec        $161,000            Petrol   
4    320 km/h                   3.6 sec        $253,290            Petrol   

   Seats        Torque  
0      2        800 Nm  
1      5        90

### 2. Leer en bloques con `chunksize`

Cuando un archivo es demasiado grande para cargarlo completo en memoria,  
podemos leerlo **por partes** utilizando el parámetro `chunksize`.

- Cada **chunk** (bloque) contiene la cantidad de filas que definamos.  
- Esto permite procesar archivos grandes de forma **eficiente y sin saturar la memoria**. 

In [9]:
# Leer el archivo en partes de 1000 filas
ruta = "datasets/CarsDatasets2025.csv"

# Crear iterador que lee el archivo en bloques de 100 filas
chunker = pd.read_csv(ruta, encoding="latin1", chunksize=100)

# Recorrer y mostrar cada bloque de 100
for i, piece in enumerate(chunker, start=1):
    print(f"\n--- Bloque {i} ---")
    print(piece)


--- Bloque 1 ---
   Company Names          Cars Names         Engines CC/Battery Capacity  \
0        FERRARI       SF90 STRADALE              V8             3990 cc   
1    ROLLS ROYCE             PHANTOM             V12             6749 cc   
2           Ford                 KA+     1.2L Petrol            1,200 cc   
3       MERCEDES             GT 63 S              V8            3,982 cc   
4           AUDI          AUDI R8 Gt             V10            5,204 cc   
..           ...                 ...             ...                 ...   
95      MERCEDES         BENZ GLE 53              V6            2,996 cc   
96      MERCEDES  BENZ S-CLASS S 350              I4            1,991 cc   
97      MERCEDES         BENZ EQS 53  ELECTRIC MOTOR                 NaN   
98      MERCEDES  BENZ MAYBACH S 680             V12            5,980 cc   
99           BMW               M5 CS              V8            4,395 cc   

   HorsePower Total Speed Performance(0 - 100 )KM/H      Cars Prices 

In [10]:
# Creamos un DataFrame desde un CSV
df = pd.read_csv("datasets/CarsDatasets2025.csv", encoding="latin1")
print(df)

# Guardamos en formato binario (pickle)
df.to_pickle("frame_pickle.pkl")

# Leemos el archivo binario nuevamente
df = pd.read_pickle("frame_pickle.pkl")
print(df)

     Company Names         Cars Names                             Engines  \
0          FERRARI      SF90 STRADALE                                  V8   
1      ROLLS ROYCE            PHANTOM                                 V12   
2             Ford                KA+                         1.2L Petrol   
3         MERCEDES            GT 63 S                                  V8   
4             AUDI         AUDI R8 Gt                                 V10   
...            ...                ...                                 ...   
1213        Toyota       Crown Signia                      2.5L Hybrid I4   
1214        Toyota  4Runner (6th Gen)  2.4L Turbo I4 (i-FORCE MAX Hybrid)   
1215        Toyota      Corolla Cross              2.0L Gas / 2.0L Hybrid   
1216        Toyota             C-HR+                   1.8L / 2.0L Hybrid   
1217        Toyota     RAV4 (6th Gen)        2.5L Hybrid / Plug-in Hybrid   

        CC/Battery Capacity    HorsePower Total Speed  \
0                 

### ¿Por qué usar binario y no CSV/Excel?

- 💨 Guardar en **binario** es mucho más **rápido y eficiente** (especialmente para datos grandes).  
- 🗂️ Conserva la **estructura interna de pandas** (índices, tipos de datos).  
- ⚠️ Sin embargo, **no es recomendable como almacenamiento a largo plazo**, porque una versión futura de pandas podría no ser compatible con un archivo **pickle** creado hoy.

###  Pickle es rápido y simple, ideal para trabajo temporal.
---

### 📘 JSON en Python (interactuar con API WEB)

**JSON (JavaScript Object Notation)** es un formato estándar para enviar datos por HTTP entre aplicaciones  
(por ejemplo, entre un navegador y una API).



### Ventajas
- Es más flexible que formatos tabulares como **CSV**.
- Permite estructuras **jerárquicas** y **anidadas**.



### Tipos básicos de JSON

- **Objetos** → equivalen a **diccionarios (`dict`)** en Python.
- **Arreglos (arrays)** → equivalen a **listas (`list`)** en Python.
- **Cadenas (strings)**  
- **Números**  
- **Booleanos (`true` / `false`)**  
- **null** → en Python se convierte en **`None`**.

### Uso en Python con `requests` y `pandas`

- `response.json()` → convierte el **JSON** en un **diccionario de Python**  
  (igual que en el ejemplo del PDF con `json.loads()`).

- A partir de ahí, puedes extraer una **lista** de objetos JSON (por ejemplo, `"products"`)  
  y convertirla en un **DataFrame de pandas**.

- Con el DataFrame puedes **explorar columnas** y **analizar los datos** fácilmente.

In [11]:
import json ##
import requests

print(" Obteniendo datos de productos desde DummyJSON...")

try:
    # 1. Obtener lista de productos
    url = "https://dummyjson.com/products"
    response = requests.get(url, timeout=10)
    
    if response.status_code == 200:
        data = response.json()
        
        # DummyJSON devuelve los datos en formato: {"products": [...], "total": N, "skip": 0, "limit": 30}
        products = data.get('products', [])
        
        print(f"✅ {len(products)} productos obtenidos exitosamente")
        print(f"📊 Total en la API: {data.get('total', 'N/A')} productos")
        
        # Convertir a DataFrame
        df_products = pd.DataFrame(products)
        
        print(f"📋 Columnas disponibles: {list(df_products.columns)}")
        print(f"📏 Dimensiones: {df_products.shape}")
        
        # Mostrar primeros productos
        print("\n🔍 Primeros 5 productos:")
        columns_to_show = ['id', 'title', 'price', 'category', 'brand', 'rating']
        print(df_products[columns_to_show].head())
        
    else:
        print(f"❌ Error: {response.status_code} - {response.text}")
        
except requests.exceptions.RequestException as e:
    print(f"❌ Error de conexión: {e}")
except Exception as e:
    print(f"❌ Error inesperado: {e}")

print("\n" + "="*60)

 Obteniendo datos de productos desde DummyJSON...
✅ 30 productos obtenidos exitosamente
📊 Total en la API: 194 productos
📋 Columnas disponibles: ['id', 'title', 'description', 'category', 'price', 'discountPercentage', 'rating', 'stock', 'tags', 'brand', 'sku', 'weight', 'dimensions', 'warrantyInformation', 'shippingInformation', 'availabilityStatus', 'reviews', 'returnPolicy', 'minimumOrderQuantity', 'meta', 'images', 'thumbnail']
📏 Dimensiones: (30, 22)

🔍 Primeros 5 productos:
   id                          title  price category           brand  rating
0   1  Essence Mascara Lash Princess   9.99   beauty         Essence    2.56
1   2  Eyeshadow Palette with Mirror  19.99   beauty  Glamour Beauty    2.86
2   3                Powder Canister  14.99   beauty    Velvet Touch    4.64
3   4                   Red Lipstick  12.99   beauty  Chic Cosmetics    4.36
4   5                Red Nail Polish   8.99   beauty    Nail Couture    4.32



---
### Interactuando con bases de datos 

En muchas aplicaciones los datos rara vez provienen de archivos de texto, siendo bastante ineficiente para grandes volúmenes. Por eso se usan bases de datos SQL como SQL Server, PostgreSQL, MySQL, o SQLite…


1. **Vamos a crear y consultar una base de datos SQL (SQLite en memoria)**  
muestra cómo **cargar datos en un DataFrame de pandas** para analizarlos de manera más sencilla.

In [12]:
import sqlite3

# 🚀 Crear base de datos en memoria
con = sqlite3.connect(":memory:")

# Crear tabla de películas
query = """
CREATE TABLE peliculas (
    titulo VARCHAR(50),
    genero VARCHAR(20),
    rating REAL,
    anio INTEGER
);
"""
con.execute(query)
con.commit()

# Insertar datos
data = [
    ("Inception", "Sci-Fi", 8.8, 2010),
    ("The Godfather", "Crime", 9.2, 1972),
    ("Interstellar", "Sci-Fi", 8.6, 2014),
    ("Parasite", "Thriller", 8.6, 2019),
    ("Coco", "Animation", 8.4, 2017)
]
con.executemany("INSERT INTO peliculas VALUES (?, ?, ?, ?)", data)
con.commit()

# 📊 Consultar datos y pasarlos a un DataFrame
cursor = con.execute("SELECT * FROM peliculas")
rows = cursor.fetchall()
cols = [desc[0] for desc in cursor.description]

df_sql = pd.DataFrame(rows, columns=cols)
df_sql

Unnamed: 0,titulo,genero,rating,anio
0,Inception,Sci-Fi,8.8,2010
1,The Godfather,Crime,9.2,1972
2,Interstellar,Sci-Fi,8.6,2014
3,Parasite,Thriller,8.6,2019
4,Coco,Animation,8.4,2017


Creamos una tabla peliculas en memoria (similar a lo que haríamos en cualquier base de datos real).

Insertamos registros (título, género, rating, año).

Consultamos los datos y los transformamos en un DataFrame de pandas, que es mucho más práctico para analizarlos.

---

In [None]:
from pymongo import MongoClient  # Importa la librería para conectar a MongoDB
import pandas as pd  # Importa pandas para crear DataFrames

# URL de conexión a MongoDB Atlas (base de datos en la nube)
MONGO_URI = "mongodb+srv://leandro:LwNEUhSqRRaqP9Iw@cluster0.9zswgmv.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

try:
    # 🚀 Conectar a MongoDB Atlas usando la URL
    client = MongoClient(MONGO_URI) 
    
    # Seleccionar base de datos llamada "ejemplo_db"
    db = client["ejemplo_db"]
    
    # Seleccionar colección (equivale a tabla en SQL) llamada "libros"
    coleccion = db["libros"]

    # Lista de libros famosos con sus datos
    libros_data = [
        {"titulo": "Cien Años de Soledad", "autor": "Gabriel García Márquez", "ventas_millones": 50},
        {"titulo": "Don Quijote de la Mancha", "autor": "Miguel de Cervantes", "ventas_millones": 500},
        {"titulo": "Harry Potter y la Piedra Filosofal", "autor": "J.K. Rowling", "ventas_millones": 120},
        {"titulo": "El Principito", "autor": "Antoine de Saint-Exupéry", "ventas_millones": 140},
        {"titulo": "It", "autor": "Stephen King", "ventas_millones": 35}
    ]

    # Borrar todos los documentos anteriores de la colección (para evitar duplicados)
    coleccion.delete_many({})
    
    # Insertar todos los libros de una vez en MongoDB
    result = coleccion.insert_many(libros_data)
    print(f"✅ {len(result.inserted_ids)} libros insertados")

    # 📊 Consultar todos los documentos de la colección
    cursor = coleccion.find({})  # find({}) = traer todos los documentos
    
    # Convertir los documentos de MongoDB en un DataFrame de pandas
    df_mongo = pd.DataFrame(list(cursor))
    
    # Eliminar la columna '_id' porque es técnica y no nos interesa
    if '_id' in df_mongo.columns:
        df_mongo = df_mongo.drop('_id', axis=1)
    
    print("\n📚 Libros en MongoDB:")
    print(df_mongo)  # Mostrar como texto
    
    # Mostrar el DataFrame en formato visual (tabla bonita)
    df_mongo

except Exception as e:
    # Si algo sale mal, mostrar el error
    print(f"❌ Error de conexión: {e}")
    print("💡 Verifica tu conexión a internet y las credenciales")



ServerSelectionTimeoutError: localhost:27017: [WinError 10061] No se puede establecer una conexión ya que el equipo de destino denegó expresamente dicha conexión (configured timeouts: socketTimeoutMS: 20000.0ms, connectTimeoutMS: 20000.0ms), Timeout: 30s, Topology Description: <TopologyDescription id: 68ae10231d060b35fd14f94d, topology_type: Unknown, servers: [<ServerDescription ('localhost', 27017) server_type: Unknown, rtt: None, error=AutoReconnect('localhost:27017: [WinError 10061] No se puede establecer una conexión ya que el equipo de destino denegó expresamente dicha conexión (configured timeouts: socketTimeoutMS: 20000.0ms, connectTimeoutMS: 20000.0ms)')>]>

Conectamos a MongoDB con MongoClient.

Insertamos una lista de libros famosos como documentos.

Consultamos con find() y convertimos el resultado en DataFrame.