# Extracción de Datos desde Múltiples Fuentes - Día 2

## Importar librerías necesarias

In [1]:
# Importar librerías
import pandas as pd
import sqlite3
import json

## Creación de datos de múltiples fuentes

In [2]:
# Crear CSV
ventas_csv = pd.DataFrame({
    'id_venta': range(1, 6),
    'producto': ['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Audífonos'],
    'precio': [1200, 25, 80, 300, 150]
})
ventas_csv.to_csv('ventas.csv', index=False)

In [3]:
# Crear Excel con múltiples hojas
clientes_df = pd.DataFrame({
    'id_cliente': [1, 2, 3],
    'nombre': ['Ana', 'Carlos', 'María'],
    'ciudad': ['Madrid', 'Barcelona', 'Valencia']
})

with pd.ExcelWriter('datos.xlsx') as writer:
    ventas_csv.to_excel(writer, sheet_name='Ventas', index=False)
    clientes_df.to_excel(writer, sheet_name='Clientes', index=False)

In [4]:
# Crear JSON
productos_json = [
    {'id': 101, 'nombre': 'Laptop', 'categoria': 'Electrónica'},
    {'id': 102, 'nombre': 'Mouse', 'categoria': 'Accesorios'}
]
with open('productos.json', 'w') as f:
    json.dump(productos_json, f)

In [5]:
# Crear base de datos SQLite
conn = sqlite3.connect('ventas.db')
pedidos_df = pd.DataFrame({
    'id_pedido': [1, 2, 3],
    'id_cliente': [1, 2, 1],
    'fecha': ['2024-01-15', '2024-01-16', '2024-01-17'],
    'total': [1225, 25, 380]
})
pedidos_df.to_sql('pedidos', conn, index=False, if_exists='replace')
conn.close()

## Extración de cada fuente

In [6]:
# Desde CSV
df_csv = pd.read_csv('ventas.csv')
print("Desde CSV:")
print(df_csv.head())

Desde CSV:
   id_venta   producto  precio
0         1     Laptop    1200
1         2      Mouse      25
2         3    Teclado      80
3         4    Monitor     300
4         5  Audífonos     150


In [7]:
# Desde Excel (hoja específica)
df_excel_ventas = pd.read_excel('datos.xlsx', sheet_name='Ventas')
df_excel_clientes = pd.read_excel('datos.xlsx', sheet_name='Clientes')
print("\nDesde Excel - Ventas:")
print(df_excel_ventas.head())


Desde Excel - Ventas:
   id_venta   producto  precio
0         1     Laptop    1200
1         2      Mouse      25
2         3    Teclado      80
3         4    Monitor     300
4         5  Audífonos     150


In [8]:
# Desde JSON
df_json = pd.read_json('productos.json')
print("\nDesde JSON:")
print(df_json)


Desde JSON:
    id  nombre    categoria
0  101  Laptop  Electrónica
1  102   Mouse   Accesorios


In [9]:
# Desde SQLite
conn = sqlite3.connect('ventas.db')
df_sql = pd.read_sql('SELECT * FROM pedidos', conn)
conn.close()
print("\nDesde SQLite:")
print(df_sql)


Desde SQLite:
   id_pedido  id_cliente       fecha  total
0          1           1  2024-01-15   1225
1          2           2  2024-01-16     25
2          3           1  2024-01-17    380


## API simulada (usando requests si está disponible)

In [10]:
# Simular API response
api_response = {
    'status': 'success',
    'data': [
        {'id': 201, 'producto': 'Webcam', 'stock': 15},
        {'id': 202, 'producto': 'Micrófono', 'stock': 8}
    ]
}
# Simular consumo de API
df_api = pd.DataFrame(api_response['data'])
print("\nDesde API simulada:")
print(df_api)


Desde API simulada:
    id   producto  stock
0  201     Webcam     15
1  202  Micrófono      8


## Verificación: Confirma que todos los métodos de extracción funcionan correctamente y producen DataFrames consistentes.

In [11]:
print(type(df_csv))

<class 'pandas.core.frame.DataFrame'>


In [12]:
print(type(df_excel_ventas))

<class 'pandas.core.frame.DataFrame'>


In [13]:
print(type(df_excel_clientes))


<class 'pandas.core.frame.DataFrame'>


In [14]:
print(type(df_json))


<class 'pandas.core.frame.DataFrame'>


In [15]:
print(type(df_sql))


<class 'pandas.core.frame.DataFrame'>


In [16]:
print(type(df_api))

<class 'pandas.core.frame.DataFrame'>


Se confirma la verificación, todos los metodos de extracción son consistentes (class 'pandas.core.frame.DataFrame')

## Conclusión

Como conclusión, se logró comprender el proceso teórico y práctico de la extracción de datos provenientes de múltiples fuentes heterogéneas. Estas fuentes incluyeron archivos CSV, Excel, JSON, una base de datos SQLite y una API simulada. La realización de este proceso puso en práctica el manejo de la librería Pandas para la lectura de diferentes formatos, la gestión de conexiones a bases de datos mediante SQL, y la transformación de estructuras de datos semiestructuradas en DataFrames. Este ejercicio resalta la importancia fundamental de la estandarización y normalización en la etapa de extracción (dentro de un pipeline ETL), garantizando que los datos sean consistentes y estén listos para su posterior transformación y análisis.