## 1. Archivos CSV (Comma-Separated Values)

    Extensión: .csv

    Características:

        Es un formato de texto plano donde los datos están separados por comas (u otros delimitadores como ; o |).

        Es muy común para intercambiar datos tabulares.

        No soporta tipos de datos complejos (solo texto y números).

    Librerías para manipular:

        Pandas: La librería más utilizada para leer y manipular archivos CSV.

        CSV: Módulo estándar de Python para leer/escribir archivos CSV.

    Ejemplo en Jupyter:

In [None]:
import pandas as pd

# Leer un archivo CSV
df = pd.read_csv('archivo.csv')

# Mostrar las primeras filas
print(df.head())

### 2. Archivos Excel (XLSX, XLS)

    Extensión: .xlsx (moderno) o .xls (antiguo)

    Características:

        Formato binario utilizado por Microsoft Excel.

        Soporta múltiples hojas, formatos de celda, fórmulas, etc.

    Librerías para manipular:

        Pandas: Puede leer y escribir archivos Excel.

        OpenPyXL: Librería especializada para manipular archivos Excel.

    Ejemplo en Jupyter:

In [None]:
import pandas as pd

# Leer un archivo Excel
df = pd.read_excel('archivo.xlsx', sheet_name='Hoja1')

# Mostrar las primeras filas
print(df.head())

### 3. Archivos JSON (JavaScript Object Notation)

    Extensión: .json

    Características:

        Formato de texto basado en la sintaxis de JavaScript.

        Es ligero y fácil de leer tanto para humanos como para máquinas.

        Soporta estructuras de datos anidadas (listas, diccionarios, etc.).

    Librerías para manipular:

        Pandas: Puede leer JSON en un DataFrame.

        json: Módulo estándar de Python para manipular JSON.

    Ejemplo en Jupyter:

In [None]:
import pandas as pd

# Leer un archivo JSON
df = pd.read_json('archivo.json')

# Mostrar las primeras filas
print(df.head())

### 4. Archivos SQLite (Base de datos SQL embebida)

    Extensión: .sqlite, .db, .sqlite3

    Características:

        Es una base de datos relacional ligera y embebida en un solo archivo.

        Soporta consultas SQL estándar.

    Librerías para manipular:

        sqlite3: Módulo estándar de Python para interactuar con bases de datos SQLite.

        Pandas: Puede ejecutar consultas SQL y cargar los resultados en un DataFrame.

    Ejemplo en Jupyter:

In [None]:
import sqlite3
import pandas as pd

# Conectar a la base de datos
conn = sqlite3.connect('archivo.sqlite')

# Leer datos en un DataFrame
df = pd.read_sql_query("SELECT * FROM tabla", conn)

# Mostrar las primeras filas
print(df.head())

# Cerrar la conexión
conn.close()

### 5. Archivos de Bases de Datos (MySQL, PostgreSQL, etc.)

    Extensiones: Dependen del sistema de gestión de bases de datos (no son archivos simples).

    Características:

        Bases de datos relacionales completas que requieren un servidor.

        Se accede a través de conexiones (no son archivos que puedas abrir directamente).

    Librerías para manipular:

        SQLAlchemy: Para conectarse a bases de datos y ejecutar consultas.

        Pandas: Puede cargar datos desde una base de datos a un DataFrame.

        psycopg2: Para PostgreSQL.

        mysql-connector-python: Para MySQL.

    Ejemplo en Jupyter (PostgreSQL):

In [None]:
import pandas as pd
from sqlalchemy import create_engine

# Crear conexión
engine = create_engine('postgresql://usuario:contraseña@localhost:5432/basedatos')

# Leer datos en un DataFrame
df = pd.read_sql_query("SELECT * FROM tabla", engine)

# Mostrar las primeras filas
print(df.head())

### 6. Archivos Parquet

    Extensión: .parquet

    Características:

        Formato binario optimizado para almacenar datos tabulares.

        Es muy eficiente en términos de espacio y velocidad.

        Ideal para grandes volúmenes de datos.

    Librerías para manipular:

        Pandas: Puede leer y escribir archivos Parquet.

        PyArrow: Librería de bajo nivel para trabajar con Parquet.

    Ejemplo en Jupyter:

In [None]:
import pandas as pd

# Leer un archivo Parquet
df = pd.read_parquet('archivo.parquet')

# Mostrar las primeras filas
print(df.head())

### 7. Archivos HDF5

    Extensión: .h5, .hdf5

    Características:

        Formato diseñado para almacenar grandes cantidades de datos científicos.

        Soporta datos multidimensionales y metadatos.

    Librerías para manipular:

        Pandas: Puede leer y escribir archivos HDF5.

        h5py: Librería de bajo nivel para trabajar con HDF5.

    Ejemplo en Jupyter:

In [None]:
import pandas as pd

# Leer un archivo HDF5
df = pd.read_hdf('archivo.h5', key='datos')

# Mostrar las primeras filas
print(df.head())

### 8. Archivos Pickle (Serialización de Python)

    Extensión: .pkl, .pickle

    Características:

        Formato binario para serializar objetos de Python.

        Útil para guardar y cargar DataFrames o modelos de machine learning.

    Librerías para manipular:

        Pandas: Puede leer y escribir archivos Pickle.

        pickle: Módulo estándar de Python para serialización.

    Ejemplo en Jupyter:

In [None]:
import pandas as pd

# Leer un archivo Pickle
df = pd.read_pickle('archivo.pkl')

# Mostrar las primeras filas
print(df.head())

###  Resumen de Librerías Recomendadas

    Pandas: Esencial para trabajar con datos tabulares en casi cualquier formato.

    SQLAlchemy: Para conectarse a bases de datos relacionales.

    PyArrow: Para trabajar con formatos como Parquet.

    h5py: Para archivos HDF5.

    json: Para manipular archivos JSON.

    sqlite3: Para bases de datos SQLite.