# 🧪 Notebook 2 – ETL: Fase de Extracción (Extract)

## 🎯 Objetivo:
Aprender diferentes formas de extraer datos usando Python y pandas, desde archivos locales y estructuras en memoria, hasta datos descargados desde internet.

In [7]:
import pandas as pd
import json
import requests

## 🟡 1. Extracción desde un archivo CSV

In [5]:
df_csv = pd.read_csv("data/datos.csv") 
print(df_csv.head())

                     nombre ventas
0   Alondra Guillén Fuertes   1110
1                Flor Amigó    778
2      Toño Pinto Domínguez  error
3     Esteban Tenorio Acero  error
4  Marita Guardiola Company   1469


## 🟢 2. Extracción desde archivo Excel

In [8]:
# Leer archivo Excel (requiere openpyxl)
df_excel = pd.read_excel("data/datos_ventas.xlsx")
print(df_excel.head())


  Nombre Departamento  Ventas
0    Ana       Ventas    1200
1   Luis    Marketing     950
2  Carla       Ventas    1600
3   José      Soporte     870
4  María       Ventas    1550


## 🔵 3. Extracción desde JSON local

In [11]:
with open("data/datos.json", "w") as f:
    json.dump([{"nombre": "Ana", "ventas": 1200}, {"nombre": "Luis", "ventas": 950}], f)

# Leer JSON con pandas
df_json = pd.read_json("data/datos.json")
print(df_json)


  nombre  ventas
0    Ana    1200
1   Luis     950


## 🔶 4. Extracción desde estructura en memoria (simulación de API)

In [13]:
# Simular datos de una API
api_data = [
    {"nombre": "Carlos", "ventas": 1300},
    {"nombre": "Laura", "ventas": 980}
]

df_api = pd.DataFrame(api_data)
print(df_api)


   nombre  ventas
0  Carlos    1300
1   Laura     980


## 🌐 5. Descargar archivo desde una URL externa (ejemplo con CSV)

In [14]:
url = "https://people.sc.fsu.edu/~jburkardt/data/csv/airtravel.csv"
df_url = pd.read_csv(url)
print("🌍 Datos descargados desde internet (airtravel dataset):")
print(df_url.head())

🌍 Datos descargados desde internet (airtravel dataset):
  Month   "1958"   "1959"   "1960"
0   JAN      340      360      417
1   FEB      318      342      391
2   MAR      362      406      419
3   APR      348      396      461
4   MAY      363      420      472
