# <div style="background-color: #b74ff8ff; padding:10px; border-radius:10px; color: #ffffffff; font-weight: bold"> 📘 Carga, Almacenamiento y Formatos de Archivo </div>

> **⚠️ IMPORTANTE!**
> Para ejecutar este notebook se debe crear el entorno que esta especificado en el archivo `README.md`

En análisis de datos, todo comienza con **leer datos** 📊.  
Sin embargo, los datos pueden venir en **múltiples formatos** y cada uno requiere técnicas específicas para manejarlos.

## <div style= "color: #d85050ff; font-weight: bold"> Objetivo principal </div>
El notebook explora las distintas **estrategias de entrada de datos (I/O)** en **pandas** para **convertir fuentes externas en objetos DataFrame**.  
Esto corresponde a la fase inicial de un **pipeline de ciencia de datos**: la **ingesta de datos**.

<div style="background-color: #27c6e639; padding: 6px; border-radius: 6px;"> 

**Los principales temas en este notebook son los siguientes:**

1️⃣ Lectura y escritura de datos en **formato texto**  
2️⃣ Formatos de datos **binarios**  
3️⃣ Interacción con **APIs web**  
4️⃣ Interacción con **bases de datos**
</div>


### <div style="color: #d89332ff;"> 1. Lectura y escritura de datos en **formato texto** </div>
- Uso de funciones **`read_csv`** y **`read_table`** de `pandas`.
- Manejo de **delimitadores** (`,` `;` `\t`).
- Configuración de **encabezados y tipos de datos**.


### <div style="color: #d89332ff;"> 2. Formatos de datos **binarios** </div>
- Ventajas de formatos como **Pickle** y **Parquet**.
- Optimización para trabajar con **grandes volúmenes de datos**.
- Procesos de **serialización y deserialización** (guardar y recuperar objetos de Python).


### <div style="color: #d89332ff;">3. Interacción con **APIs web**</div>

- Consumo de datos en **formato JSON** mediante **APIs REST**.  
- Procesamiento de las respuestas directamente con **pandas** para análisis y transformación de datos.  


### <div style="color: #d89332ff;">4. Interacción con **bases de datos**</div>

- Conexión a bases de datos **SQL** (SQLite, MySQL, PostgreSQL, etc.) y ejecución de consultas.  
- Carga de resultados directamente en un **DataFrame** para análisis con pandas.  
- Conexión a bases de datos **NoSQL**, como **MongoDB**, utilizando librerías como `pymongo`.  
- Extracción de documentos de MongoDB y transformación a DataFrame para análisis.  .
---



## <div style="background-color: #e0ff57ff; padding: 6px; border-radius: 6px"> ¿Qué es un DataFrame? </div>
Un **DataFrame** es la **estructura de datos central de pandas**, pensada para representar **datos tabulares** (como si fueran planillas de Excel o tablas de SQL) en memoria.

**Características principales:**
-  **Bidimensional**: tiene filas y columnas.  
-  **Etiquetas**: tanto filas (índice) como columnas tienen nombres para acceder fácilmente.  
-  **Heterogéneo**: cada columna puede tener un tipo de dato distinto (enteros, floats, strings, fechas, booleanos…).  


### <div style="color: #3056d5ff"> ¿Por qué es útil convertir todo a DataFrame? </div>

####  1. Unificación de formatos
- Los datos reales pueden venir en **CSV, Excel, JSON, HTML, SQL, APIs**, etc.  
- Cada fuente tiene **estructuras y reglas distintas**.  
- Con **pandas** no hace falta aprender decenas de librerías: todo se unifica en un **DataFrame homogéneo y manejable**.  

#### 2. Exportación flexible
Un DataFrame no es un callejón sin salida:  
- Se puede **exportar de nuevo** a diferentes formatos: **CSV, Excel, SQL, JSON**, entre otros.  
- Cada formato tiene sus **ventajas y desventajas** (por ejemplo, CSV es liviano pero no guarda tipos, HDF5 es robusto pero más complejo).

## <div style="background-color: #e0ff57ff; padding: 6px; border-radius: 6px"> ¿Qué es pandas? </div>

**pandas** es una librería de Python especializada en **análisis y manipulación de datos**.  

**Aporta:**
- Estructuras de datos de alto nivel (`Series` y `DataFrame`).  
- Herramientas rápidas para **cargar, limpiar, transformar, analizar y visualizar datos**.  
- Integración con NumPy (cálculo eficiente) y con múltiples formatos de entrada/salida.

### <div style="color: #3056d5ff"> ¿Por qué es tan importante en ciencia de datos? </div>

- 📊 **Unifica** datos de diferentes fuentes en un solo formato estándar: el DataFrame.  
- 🛠️ **Reduce esfuerzo**: muchas operaciones que serían complejas en Python puro se hacen en una sola línea.  
- 📈 **Escalable**: permite trabajar tanto con pequeños datasets como con millones de filas.  
- 🔄 **Flexible**: lectura, limpieza, transformación, análisis y exportación de datos en un mismo flujo de trabajo.  

---

## <div style="background-color: #57ffcfff; padding: 6px; border-radius: 6px"> 1. Lectura y escritura de datos en **formato texto** </div>

En esta primera parte veremos un ejemplo con **CSV**, uno de los formatos más **comunes, simples y fáciles de entender** para empezar a trabajar con datos.

Para trabajar con datos en Python, vamos a utilizar la librería **pandas** que nos permite leer datos de muchos formatos diferentes (CSV, Excel, JSON, SQL, etc.).

#### Opciones mas comunes y útiles de `read_csv`
1. **`sep`** → define el delimitador (`,` por defecto, puede ser `;`, `|`, `\s+`, etc.)
2. **`header`** → fila usada como encabezado (`None` si no hay)
3. **`names`** → lista de nombres de columnas
4. **`index_col`** → columna que se usará como índice
5. **`skiprows`** → filas que se saltan al leer
6. **`na_values`** → valores a considerar como `NaN`
7. **`nrows`** → número de filas a leer
8. **`chunksize`** → leer el archivo por partes (útil en archivos grandes)

La libreria **pd** de pandas es la libreria más usada en Python para análisis y manipulación de datos.

**StringIO** es una utilidad de Python que permite tratar cadenas de texto como si fueran archivos. Se usa mucho para cargar datos directamente desde un string en memoria.

Con ambas estructuras es posible visualizar datos de un archivo CSV. *En este caso solo se mostraran los 10 primeros elementos del documento.*

In [2]:
import pandas as pd
from io import StringIO 
df = pd.read_csv("datasets/CarsDatasets2025.csv", encoding="latin1") #encoding="latin1" → Especifica la codificación de caracteres.
df.head(10) #Muestra las primeras 10 filas del DataFrame.

Unnamed: 0,Company Names,Cars Names,Engines,CC/Battery Capacity,HorsePower,Total Speed,Performance(0 - 100 )KM/H,Cars Prices,Fuel Types,Seats,Torque
0,FERRARI,SF90 STRADALE,V8,3990 cc,963 hp,340 km/h,2.5 sec,"$1,100,000",plug in hyrbrid,2,800 Nm
1,ROLLS ROYCE,PHANTOM,V12,6749 cc,563 hp,250 km/h,5.3 sec,"$460,000",Petrol,5,900 Nm
2,Ford,KA+,1.2L Petrol,"1,200 cc",70-85 hp,165 km/h,10.5 sec,"$12,000-$15,000",Petrol,5,100 - 140 Nm
3,MERCEDES,GT 63 S,V8,"3,982 cc",630 hp,250 km/h,3.2 sec,"$161,000",Petrol,4,900 Nm
4,AUDI,AUDI R8 Gt,V10,"5,204 cc",602 hp,320 km/h,3.6 sec,"$253,290",Petrol,2,560 Nm
5,BMW,Mclaren 720s,V8,"3,994 cc",710 hp,341 km/h,2.9 sec,"$499,000",Petrol,2,770 Nm
6,ASTON MARTIN,VANTAGE F1,V8,"3,982 cc",656 hp,314 km/h,3.6 sec,"$193,440",Petrol,2,685 Nm
7,BENTLEY,Continental GT Azure,V8,"3,996 cc",550 hp,318 km/h,4.0 sec,"$311,000",Petrol,4,900 Nm
8,LAMBORGHINI,VENENO ROADSTER,V12,"6,498 cc",750 hp,356 km/h,2.9 sec,"$4,500,000",Petrol,2,690 Nm
9,FERRARI,F8 TRIBUTO,V8,"3,900 cc",710 hp,340 km/h,2.9 sec,"$280,000",Petrol,2,770 Nm


> #### 📄 Creación de un CSV de ejemplo
>Vamos a crear un **string multilínea** que simula un archivo CSV para mostrar cada una de las opciones mas comunes usadas:
>- 🏷️ **Primera línea** → contiene los **nombres de las columnas** (`a, b, c, d, message`).  
>- 🔢 **Filas siguientes** → contienen los **valores de cada columna**, separados por comas (`,`).  
>Así se vería el archivo en crudo:

### <div style="color: #3056d5ff;"> CSV simple con encabezado </div>

In [3]:
csv_text = """a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo"""

df = pd.read_csv(StringIO(csv_text)) #lo transforma directamente en una tabla (DataFrame).
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### <div style="color: #3056d5ff;"> CSV con encabezado usando `header`</div>
Si solamente se usa `header`pandas asigna nombres genericos a las columnas

In [4]:
csv_noheader = """1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo"""

df_noheader = pd.read_csv(StringIO(csv_noheader), header=None)
df_noheader

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### <div style="color: #3056d5ff;"> CSV con encabezados personalizados usando `names` </div>
Con el uso de `names` es posible asignar nombres personalizados a cada una de las columnas.

In [5]:
names = ['a', 'b', 'c', 'd', 'message']
df_named = pd.read_csv(StringIO(csv_noheader), names=names)
df_named

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### <div style="color: #3056d5ff;"> CSV con una columna definida como indice usando `index_col` </div>

In [6]:
df_indexed = pd.read_csv(StringIO(csv_noheader), names=names, index_col='message')
df_indexed

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


### <div style="color: #3056d5ff;"> Definir delimitador en CSV con delimitadores variados usando `sep` </div>

**Ejemplo con ";"**

In [7]:
csv_semicolon = """a;b;c;d;message
1;2;3;4;hello
5;6;7;8;world"""

df_semicolon = pd.read_csv(StringIO(csv_semicolon), sep=";")
df_semicolon

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world


**Ejemplo con "espacio"**

*Usa una expresión regular para separar por uno o más espacios*

In [8]:
csv_space = """A   B   C
aaa -0.2 -1.0
bbb  0.9  0.3
ccc -0.2 -0.3"""
df_space = pd.read_csv(StringIO(csv_space), sep=r"\s+")
df_space

Unnamed: 0,A,B,C
0,aaa,-0.2,-1.0
1,bbb,0.9,0.3
2,ccc,-0.2,-0.3


### <div style="color: #3056d5ff;"> Filas que se saltan al leer en un CSV usando `skiprows` </div>

In [9]:
csv_skip = """# comentario
a,b,c,d
1,2,3,4
5,6,7,8"""

df_skip = pd.read_csv(StringIO(csv_skip), skiprows=[0])
df_skip

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,5,6,7,8


### <div style="color: #3056d5ff;"> Manejo de valores faltantes (NaN) en un CSV</div>

In [10]:
csv_na = """something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo"""

df_na = pd.read_csv(StringIO(csv_na))
df_na

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


### <div style="color: #3056d5ff;"> Leer un CSV completo</div>

In [11]:
result = pd.read_csv('datasets/lc_10000_rows.csv')
print(result)

     Unnamed: 0       X       id  load_entry_id file_descriptor  member_id  \
0        296192  296192  3316245    -2140141508              3c        NaN   
1        219806  219806  3855783    -2140141507              3d        NaN   
2        142772  142772  3710061    -2140141507              3d        NaN   
3        433148  433148  3471924    -2140141508              3c        NaN   
4        429639  429639  3468046    -2140141508              3c        NaN   
..          ...     ...      ...            ...             ...        ...   
995      611200  611200  3173716    -2140141509              3b        NaN   
996      455023  455023  3496047    -2140141508              3c        NaN   
997      586249  586249  3147029    -2140141509              3b        NaN   
998      195032  195032  3810868    -2140141507              3d        NaN   
999      573506  573506  3133282    -2140141509              3b        NaN   

     loan_amnt  funded_amnt  funded_amnt_inv       term  ... ha

#### **📝 ¿Por qué mi DataFrame se ve así con `...`?**
Cuando cargamos un CSV grande con **pandas**, muchas veces la salida aparece truncada:  
- `...` → significa que pandas **recortó filas o columnas** para no saturar la pantalla.  
- La tabla aparece **partida en bloques** porque hay demasiadas columnas para el ancho disponible.  
- Columnas como **`Unnamed: 0`** aparecen porque el CSV fue guardado con el índice y pandas lo leyó como una columna más. 
  
#### **¿👀 Cómo mejorar la visualización?**
Podemos cambiar las opciones de display de pandas:

* pd.set_option("display.max_columns", None)   # mostrar todas las columnas
* pd.set_option("display.max_rows", 50)        # hasta 50 filas
* pd.set_option("display.width", 0)            # usa todo el ancho de la pantalla
* pd.set_option("display.max_colwidth", None)  # no cortar strings
* pd.set_option("display.expand_frame_repr", False)  # evita partir la tabla en bloques

In [12]:
pd.set_option("display.max_rows", 50)        # hasta 50 filas
result.head(50)

Unnamed: 0.1,Unnamed: 0,X,id,load_entry_id,file_descriptor,member_id,loan_amnt,funded_amnt,funded_amnt_inv,term,...,hardship_amount,hardship_start_date,hardship_end_date,payment_plan_start_date,hardship_length,hardship_dpd,hardship_loan_status,orig_projected_additional_accrued_interest,hardship_payoff_balance_amount,hardship_last_payment_amount
0,296192,296192,3316245,-2140141508,3c,,17600,17600,17600,36 months,...,,,,,,,,,,
1,219806,219806,3855783,-2140141507,3d,,3600,3600,3600,36 months,...,,,,,,,,,,
2,142772,142772,3710061,-2140141507,3d,,20000,20000,20000,36 months,...,,,,,,,,,,
3,433148,433148,3471924,-2140141508,3c,,12000,12000,12000,36 months,...,,,,,,,,,,
4,429639,429639,3468046,-2140141508,3c,,13075,13075,13075,36 months,...,,,,,,,,,,
5,32492,32492,4257023,-2140141504,2016Q3,,12000,12000,12000,36 months,...,,,,,,,,,,
6,129099,129099,3681149,-2140141507,3d,,8925,8925,8925,36 months,...,,,,,,,,,,
7,258046,258046,3920195,-2140141507,3d,,11000,11000,11000,36 months,...,,,,,,,,,,
8,642811,642811,3207025,-2140141509,3b,,14400,14400,14375,36 months,...,,,,,,,,,,
9,593146,593146,3154446,-2140141509,3b,,21000,21000,21000,60 months,...,,,,,,,,,,


Cuando trabajamos con **archivos CSV muy grandes**, cargarlos completos puede ser ineficiente o incluso imposible si no entran en memoria.  
Para resolver esto, `pandas` ofrece dos opciones muy útiles: **`nrows`** y **`chunksize`**.

### <div style="color: #3056d5ff;"> Leer solo las primeras 5 filas de un CSV grande usando `nrows`</div>

In [13]:
small_sample = pd.read_csv("datasets/CarsDatasets2025.csv", encoding="latin1",  nrows=5)
print(small_sample)

  Company Names     Cars Names      Engines CC/Battery Capacity HorsePower  \
0       FERRARI  SF90 STRADALE           V8             3990 cc     963 hp   
1   ROLLS ROYCE        PHANTOM          V12             6749 cc     563 hp   
2          Ford            KA+  1.2L Petrol            1,200 cc   70-85 hp   
3      MERCEDES        GT 63 S           V8            3,982 cc     630 hp   
4          AUDI     AUDI R8 Gt          V10            5,204 cc     602 hp   

  Total Speed Performance(0 - 100 )KM/H      Cars Prices       Fuel Types  \
0    340 km/h                   2.5 sec      $1,100,000   plug in hyrbrid   
1    250 km/h                   5.3 sec        $460,000            Petrol   
2    165 km/h                  10.5 sec  $12,000-$15,000           Petrol   
3    250 km/h                   3.2 sec        $161,000            Petrol   
4    320 km/h                   3.6 sec        $253,290            Petrol   

   Seats        Torque  
0      2        800 Nm  
1      5        90

### <div style="color: #3056d5ff;"> Leer un CSV en bloques usando `chunksize` </div>

Cuando un archivo es demasiado grande para cargarlo completo en memoria, podemos leerlo **por partes** utilizando el parámetro `chunksize`.

- Cada **chunk** (bloque) contiene la cantidad de filas que definamos.  
- Esto permite procesar archivos grandes de forma **eficiente y sin saturar la memoria**.

In [14]:
ruta = "datasets/CarsDatasets2025.csv"
chunker = pd.read_csv(ruta, encoding="latin1", chunksize=250) # Crear iterador que lee el archivo en bloques de 100 filas
for i, piece in enumerate(chunker, start=1): # Recorrer y mostrar cada bloque de 100
    print(f"\n--- Bloque {i} ---")
    print(piece)


--- Bloque 1 ---
    Company Names             Cars Names                     Engines  \
0         FERRARI          SF90 STRADALE                          V8   
1     ROLLS ROYCE                PHANTOM                         V12   
2            Ford                    KA+                 1.2L Petrol   
3        MERCEDES                GT 63 S                          V8   
4            AUDI             AUDI R8 Gt                         V10   
..            ...                    ...                         ...   
245        TOYOTA  PROACE VERSO ELECTRIC              ELECTRIC MOTOR   
246        TOYOTA            CENTURY SUV      3.5L,V6,PLUG IN HYBRID   
247        TOYOTA   COROLLA SEDAN HYBRID                 1.8L,HYBRID   
248        TOYOTA                    BZ3              ELECTRIC MOTOR   
249        TOYOTA               GR YARIS  1.6L,TURBOCHARGED INLINE-3   

    CC/Battery Capacity HorsePower Total Speed Performance(0 - 100 )KM/H  \
0               3990 cc     963 hp    340

---
## <div style="background-color: #57ffcfff; padding: 6px; border-radius: 6px"> 2. Formatos de datos **binarios** </div>

Los **formatos binarios** almacenan la información en una representación **compacta** que:  

- No es legible directamente para las personas.  
- Es mucho más eficiente para las computadoras.  

### <div style="color: #3056d5ff;"> Componentes principales </div>

1. **Serialización**  → Guardar un objeto en disco (transformarlo en bytes).  

2. **Deserialización**  → Recuperar el objeto desde el archivo (volver a tenerlo en memoria).  


### <div style="color: #3056d5ff;"> Leer un CSV usando `Pickle` </div>
Permite guardar **objetos completos de Python** (listas, diccionarios, DataFrames, modelos de Machine Learning). Es **muy rápido** para guardar y recuperar datos (serializar y deserializar).

> **Pickle** es como una “foto exacta” de un objeto en Python que después podés volver a usar sin perder nada.

In [15]:
# Leemos un CSV
df = pd.read_csv("datasets/CarsDatasets2025.csv", encoding="latin1")

# =============================
# 🔹 Guardar y leer con Pickle
# =============================
df.to_pickle("frame_pickle.pkl")     # Serializamos en formato binario
df_pickle = pd.read_pickle("frame_pickle.pkl")  # Deserializamos
print("\nLeído desde Pickle:")
print(df_pickle.head())



Leído desde Pickle:
  Company Names     Cars Names      Engines CC/Battery Capacity HorsePower  \
0       FERRARI  SF90 STRADALE           V8             3990 cc     963 hp   
1   ROLLS ROYCE        PHANTOM          V12             6749 cc     563 hp   
2          Ford            KA+  1.2L Petrol            1,200 cc   70-85 hp   
3      MERCEDES        GT 63 S           V8            3,982 cc     630 hp   
4          AUDI     AUDI R8 Gt          V10            5,204 cc     602 hp   

  Total Speed Performance(0 - 100 )KM/H      Cars Prices       Fuel Types  \
0    340 km/h                   2.5 sec      $1,100,000   plug in hyrbrid   
1    250 km/h                   5.3 sec        $460,000            Petrol   
2    165 km/h                  10.5 sec  $12,000-$15,000           Petrol   
3    250 km/h                   3.2 sec        $161,000            Petrol   
4    320 km/h                   3.6 sec        $253,290            Petrol   

  Seats        Torque  
0     2        800 Nm  

### <div style="color: #3056d5ff;"> Leer un CSV usando `Parquet` </div>
Permite leer solo las columnas que se necesita **es muy eficiente**.

#### <div style="color: #40d530ff;"> Ventajas de **Parquet** </div>
- Diseñado para **almacenar grandes volúmenes de datos** de manera eficiente.  
- Usa **almacenamiento por columnas** y soporta **compresión** → ocupa menos espacio y es más rápido que CSV o Excel.  
- Permite **leer solo las columnas necesarias** sin cargar todo el dataset.  

> Ejemplo: Si tenés un dataset con **100 columnas** y solo necesitás 3, **Parquet** carga solo esas 3 → mucho más rápido que CSV, que obliga a leer todo.

In [16]:
import pandas as pd

df = pd.read_csv("datasets/CarsDatasets2025.csv", encoding="latin1")

# =============================
# 🔹 Guardar y leer con Parquet
# =============================

#Guardar el DataFrame en formato Parquet (binario, rápido y comprimido)
df.to_parquet("frame_parquet.parquet", engine="pyarrow", compression="snappy")
#Leer el archivo Parquet y volver a tenerlo en memoria como DataFrame
df_parquet = pd.read_parquet("frame_parquet.parquet", engine="pyarrow")
print("\nLeído desde Parquet:")
print(df_parquet.head())

# Ejemplo: leer solo una columna desde parquet (optimizado)
df_columna = pd.read_parquet("frame_parquet.parquet", columns=["Company Names"])
print("\nLectura optimizada (solo la columna 'Company Names'):")
print(df_columna.head())


Leído desde Parquet:
  Company Names     Cars Names      Engines CC/Battery Capacity HorsePower  \
0       FERRARI  SF90 STRADALE           V8             3990 cc     963 hp   
1   ROLLS ROYCE        PHANTOM          V12             6749 cc     563 hp   
2          Ford            KA+  1.2L Petrol            1,200 cc   70-85 hp   
3      MERCEDES        GT 63 S           V8            3,982 cc     630 hp   
4          AUDI     AUDI R8 Gt          V10            5,204 cc     602 hp   

  Total Speed Performance(0 - 100 )KM/H      Cars Prices       Fuel Types  \
0    340 km/h                   2.5 sec      $1,100,000   plug in hyrbrid   
1    250 km/h                   5.3 sec        $460,000            Petrol   
2    165 km/h                  10.5 sec  $12,000-$15,000           Petrol   
3    250 km/h                   3.2 sec        $161,000            Petrol   
4    320 km/h                   3.6 sec        $253,290            Petrol   

  Seats        Torque  
0     2        800 Nm 

### <div style="color: #3056d5ff"> ¿Por qué usar binario en lugar de CSV/Excel? </div> 
- **Rendimiento**: guardar y cargar en binario es mucho más rápido y consume menos recursos.  
- **Fidelidad de los datos**: se conserva toda la estructura interna de pandas (índices, tipos y formatos) sin pérdida de información.  

#### <div style="background-color: #fff457ff; padding: 6px; border-radius: 6px;"> <div style="color: #3056d5ff; font-weight: bold"> ⚠️ Consideración </div> El formato binario es muy eficiente para trabajar dentro de pandas, pero **no siempre es el más conveniente para almacenamiento o intercambio a largo plazo**, ya que depende de la compatibilidad entre versiones. </div> 

---
## <div style="background-color: #57ffcfff; padding: 6px; border-radius: 6px"> 3. Interacción con **APIs web** JSON en Python</div>

**JSON (JavaScript Object Notation)** es un formato estándar para enviar datos por HTTP entre aplicaciones (por ejemplo, entre un navegador y una API).

### <div style="color: #d89332ff;"> Ventajas </div>
- Es más flexible que formatos tabulares como **CSV**.
- Permite estructuras **jerárquicas** y **anidadas**.

### <div style="color: #d89332ff;"> Tipos básicos de JSON </div>

- **Objetos** → equivalen a **diccionarios (`dict`)** en Python.
- **Arreglos (arrays)** → equivalen a **listas (`list`)** en Python.
- **Cadenas (strings)**  
- **Números**  
- **Booleanos (`true` / `false`)**  
- **null** → en Python se convierte en **`None`**.

### <div style="color: #d89332ff;"> Uso en Python con `requests` y `pandas` </div> 

- `response.json()` → convierte el **JSON** en un **diccionario de Python** (igual que en el ejemplo del PDF con `json.loads()`).
- A partir de ahí, puedes extraer una **lista** de objetos JSON (por ejemplo, `"products"`) y convertirla en un **DataFrame de pandas**.
- Con el DataFrame puedes **explorar columnas** y **analizar los datos** fácilmente.

In [64]:
import json ##
import requests

print(" Obteniendo datos de productos desde DummyJSON...")

try:
    # 1. Obtener lista de productos
    url = "https://dummyjson.com/products"
    response = requests.get(url, timeout=10)
    
    if response.status_code == 200:
        data = response.json()
        
        # DummyJSON devuelve los datos en formato: {"products": [...], "total": N, "skip": 0, "limit": 30}
        products = data.get('products', [])
        
        print(f"✅ {len(products)} productos obtenidos exitosamente")
        print(f"📊 Total en la API: {data.get('total', 'N/A')} productos")
        
        # Convertir a DataFrame
        df_products = pd.DataFrame(products)
        
        print(f"📋 Columnas disponibles: {list(df_products.columns)}")
        print(f"📏 Dimensiones: {df_products.shape}")
        
        # Mostrar primeros productos
        print("\n🔍 Primeros 5 productos:")
        columns_to_show = ['id', 'title', 'price', 'category', 'brand', 'rating']
        print(df_products[columns_to_show].head())
        
    else:
        print(f"❌ Error: {response.status_code} - {response.text}")
        
except requests.exceptions.RequestException as e:
    print(f"❌ Error de conexión: {e}")
except Exception as e:
    print(f"❌ Error inesperado: {e}")


 Obteniendo datos de productos desde DummyJSON...
✅ 30 productos obtenidos exitosamente
📊 Total en la API: 194 productos
📋 Columnas disponibles: ['id', 'title', 'description', 'category', 'price', 'discountPercentage', 'rating', 'stock', 'tags', 'brand', 'sku', 'weight', 'dimensions', 'warrantyInformation', 'shippingInformation', 'availabilityStatus', 'reviews', 'returnPolicy', 'minimumOrderQuantity', 'meta', 'images', 'thumbnail']
📏 Dimensiones: (30, 22)

🔍 Primeros 5 productos:
   id                          title  price category           brand  rating
0   1  Essence Mascara Lash Princess   9.99   beauty         Essence    2.56
1   2  Eyeshadow Palette with Mirror  19.99   beauty  Glamour Beauty    2.86
2   3                Powder Canister  14.99   beauty    Velvet Touch    4.64
3   4                   Red Lipstick  12.99   beauty  Chic Cosmetics    4.36
4   5                Red Nail Polish   8.99   beauty    Nail Couture    4.32


---
## <div style="background-color: #57ffcfff; padding: 6px; border-radius: 6px"> 4. Interaccion con **Bases de datos** </div>
En muchas aplicaciones los datos rara vez provienen de archivos de texto, siendo bastante ineficiente para grandes volúmenes. Por eso se usan bases de datos SQL como SQL Server, PostgreSQL, MySQL, o SQLite…

df = pd.read_csv("datasets/CarsDatasets2025.csv", encoding="latin1")

# =============================
# 🔹 Guardar y leer con Parquet
# =============================

# ¿Qué es "engine"? 
# → Es la librería que hace el trabajo pesado. "pyarrow" es la más común y rápida.
# ¿Qué es "compression"? 
# → Es como "comprimir un ZIP". "snappy" es rápido, "gzip" comprime más pero es más lento.

df.to_parquet("frame_parquet.parquet", engine="pyarrow", compression="snappy")
df_parquet = pd.read_parquet("frame_parquet.parquet", engine="pyarrow")
print("\nLeído desde Parquet:")
print(df_parquet.head())

# Ejemplo: leer solo una columna desde parquet (optimizado)
# Ventaja: Parquet permite leer solo las columnas que necesitas (muy eficiente)
df_columna = pd.read_parquet("frame_parquet.parquet", columns=["Marca"])
print("\nLectura optimizada (solo la columna 'Marca'):")
print(df_columna.head())

In [18]:
import sqlite3

# 🚀 Crear base de datos en memoria
con = sqlite3.connect(":memory:")

# Crear tabla de películas
query = """
CREATE TABLE peliculas (
    titulo VARCHAR(50),
    genero VARCHAR(20),
    rating REAL,
    anio INTEGER
);
"""
con.execute(query)
con.commit()

# Insertar datos
data = [
    ("Inception", "Sci-Fi", 8.8, 2010),
    ("The Godfather", "Crime", 9.2, 1972),
    ("Interstellar", "Sci-Fi", 8.6, 2014),
    ("Parasite", "Thriller", 8.6, 2019),
    ("Coco", "Animation", 8.4, 2017)
]
con.executemany("INSERT INTO peliculas VALUES (?, ?, ?, ?)", data)
con.commit()

# 📊 Consultar datos y pasarlos a un DataFrame
cursor = con.execute("SELECT * FROM peliculas")
rows = cursor.fetchall()
cols = [desc[0] for desc in cursor.description]

df_sql = pd.DataFrame(rows, columns=cols)
df_sql

Unnamed: 0,titulo,genero,rating,anio
0,Inception,Sci-Fi,8.8,2010
1,The Godfather,Crime,9.2,1972
2,Interstellar,Sci-Fi,8.6,2014
3,Parasite,Thriller,8.6,2019
4,Coco,Animation,8.4,2017


### <div style="color: #3056d5ff;"> Ejemplo con MongoDB usando `MongoClient` </div>
**Vamos a crear y consultar una base de datos SQL (SQLite en memoria)** y mostrar cómo **cargar datos en un DataFrame de pandas** para analizarlos de manera más sencilla.

Estos son los pasos que debemos seguir:
1. Conectamos a MongoDB con MongoClient.
2. Insertamos una lista de libros famosos como documentos.
3. Consultamos con find() y convertimos el resultado en DataFrame.

In [19]:
from pymongo import MongoClient  # Importa la librería para conectar a MongoDB
import pandas as pd  # Importa pandas para crear DataFrames

# URL de conexión a MongoDB Atlas (base de datos en la nube)
MONGO_URI = "mongodb+srv://leandro:LwNEUhSqRRaqP9Iw@cluster0.9zswgmv.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

try:
    # 🚀 Conectar a MongoDB Atlas usando la URL
    client = MongoClient(MONGO_URI) 
    
    # Seleccionar base de datos llamada "ejemplo_db"
    db = client["ejemplo_db"]
    
    # Seleccionar colección (equivale a tabla en SQL) llamada "libros"
    coleccion = db["libros"]

    # Lista de libros famosos con sus datos
    libros_data = [
        {"titulo": "Cien Años de Soledad", "autor": "Gabriel García Márquez", "ventas_millones": 50},
        {"titulo": "Don Quijote de la Mancha", "autor": "Miguel de Cervantes", "ventas_millones": 500},
        {"titulo": "Harry Potter y la Piedra Filosofal", "autor": "J.K. Rowling", "ventas_millones": 120},
        {"titulo": "El Principito", "autor": "Antoine de Saint-Exupéry", "ventas_millones": 140},
        {"titulo": "It", "autor": "Stephen King", "ventas_millones": 35}
    ]

    # Borrar todos los documentos anteriores de la colección (para evitar duplicados)
    coleccion.delete_many({})
    
    # Insertar todos los libros de una vez en MongoDB
    result = coleccion.insert_many(libros_data)
    print(f"✅ {len(result.inserted_ids)} libros insertados")

    # 📊 Consultar todos los documentos de la colección
    cursor = coleccion.find({})  # find({}) = traer todos los documentos
    
    # Convertir los documentos de MongoDB en un DataFrame de pandas
    df_mongo = pd.DataFrame(list(cursor))
    
    # Eliminar la columna '_id' porque es técnica y no nos interesa
    if '_id' in df_mongo.columns:
        df_mongo = df_mongo.drop('_id', axis=1)
    
    print("\n📚 Libros en MongoDB:")
    print(df_mongo)  # Mostrar como texto
    
    # Mostrar el DataFrame en formato visual (tabla bonita)
    df_mongo

except Exception as e:
    # Si algo sale mal, mostrar el error
    print(f"❌ Error de conexión: {e}")
    print("💡 Verifica tu conexión a internet y las credenciales")



✅ 5 libros insertados

📚 Libros en MongoDB:
                               titulo                     autor  \
0                Cien Años de Soledad    Gabriel García Márquez   
1            Don Quijote de la Mancha       Miguel de Cervantes   
2  Harry Potter y la Piedra Filosofal              J.K. Rowling   
3                       El Principito  Antoine de Saint-Exupéry   
4                                  It              Stephen King   

   ventas_millones  
0               50  
1              500  
2              120  
3              140  
4               35  
