# Mini-Proyecto ETL Python → BigQuery
Este proyecto muestra cómo leer un dataset con **pandas**, realizar una pequeña transformación y cargar el resultado en **Google BigQuery**.

**Objetivo:** practicar un flujo ETL simple (Extract → Transform → Load) usando Python y GCP.

## 1️⃣ Dependencias y configuración inicial

In [1]:
#  Verificación de carga en BigQuery

from google.cloud import bigquery

# Si el cliente no existe, lo reimportamos con credenciales
try:
    client
except NameError:
    from google.auth import load_credentials_from_file
    path = r"C:\Users\casco\AppData\Roaming\gcloud\application_default_credentials.json"
    creds, _ = load_credentials_from_file(path)
    project_id = "eloquent-hangar-474417-t1"
    client = bigquery.Client(credentials=creds, project=project_id)

# Tabla creada en el paso anterior
dataset_id = "demo_dataset"
table_id = "iris_summary"
table_ref = f"{project_id}.{dataset_id}.{table_id}"

# Ejecutar consulta
query = f"SELECT * FROM `{table_ref}`"
result = client.query(query).to_dataframe()

print(" Vista previa de los datos cargados:")
display(result.head())




 Vista previa de los datos cargados:


Unnamed: 0,species,sepal_length,sepal_width,petal_length,petal_width
0,setosa,5.006,3.428,1.462,0.246
1,setosa,5.006,3.428,1.462,0.246
2,setosa,5.006,3.428,1.462,0.246
3,setosa,5.006,3.428,1.462,0.246
4,setosa,5.006,3.428,1.462,0.246


## 2️⃣ Lectura del dataset de ejemplo

In [2]:
import pandas as pd


In [3]:
url = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv'
df = pd.read_csv(url)
print('Filas y columnas:', df.shape)
df.head()

Filas y columnas: (150, 5)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


## 3️⃣ Transformación de datos con pandas

In [4]:
# Agrupamos por especie y calculamos la media de las columnas numéricas
agg = df.groupby('species', as_index=False).mean()
print('Datos transformados:')
agg

Datos transformados:


Unnamed: 0,species,sepal_length,sepal_width,petal_length,petal_width
0,setosa,5.006,3.428,1.462,0.246
1,versicolor,5.936,2.77,4.26,1.326
2,virginica,6.588,2.974,5.552,2.026


## 4️⃣ Carga en BigQuery

In [5]:
# Verificación de carga en BigQuery
from google.cloud import bigquery

# Usa el mismo cliente que ya creaste con credenciales
project_id = "eloquent-hangar-474417-t1"
dataset_id = "demo_dataset"
table_id = "iris_summary"

table_ref = f"{project_id}.{dataset_id}.{table_id}"

# Ejecuta la consulta
query = f"SELECT * FROM `{table_ref}`"
result = client.query(query).to_dataframe()

print("Vista previa de los datos cargados:")
result.head()



Vista previa de los datos cargados:


Unnamed: 0,species,sepal_length,sepal_width,petal_length,petal_width
0,setosa,5.006,3.428,1.462,0.246
1,setosa,5.006,3.428,1.462,0.246
2,setosa,5.006,3.428,1.462,0.246
3,setosa,5.006,3.428,1.462,0.246
4,setosa,5.006,3.428,1.462,0.246


In [6]:
from google.cloud import bigquery

project_id = "eloquent-hangar-474417-t1"
client = bigquery.Client(project=project_id)

dataset_id = 'demo_dataset'
table_id = 'iris_summary'
table_ref = f'{client.project}.{dataset_id}.{table_id}'

# Cargar el DataFrame en BigQuery
job = client.load_table_from_dataframe(agg, table_ref)
job.result()  # Espera a que termine

print('Tabla cargada correctamente en BigQuery')




Tabla cargada correctamente en BigQuery


## 5️⃣ Verificación de carga en BigQuery

In [7]:
!pip install db-dtypes




In [8]:
#  Verificación de carga en BigQuery
from google.cloud import bigquery

project_id = "eloquent-hangar-474417-t1"
dataset_id = "demo_dataset"
table_id = "iris_summary"
table_ref = f"{project_id}.{dataset_id}.{table_id}"

# Ejecuta la consulta correcta
query = f"SELECT * FROM `{table_ref}`"
result = client.query(query).to_dataframe()

print(" Vista previa de los datos cargados:")
display(result.head())




 Vista previa de los datos cargados:


Unnamed: 0,species,sepal_length,sepal_width,petal_length,petal_width
0,setosa,5.006,3.428,1.462,0.246
1,versicolor,5.936,2.77,4.26,1.326
2,virginica,6.588,2.974,5.552,2.026
3,setosa,5.006,3.428,1.462,0.246
4,setosa,5.006,3.428,1.462,0.246


##  Conclusión
He completado un flujo **ETL simple** con Python y Google BigQuery:
- **Extract:** lectura de datos desde un CSV público.
- **Transform:** agregación con pandas.
- **Load:** carga en BigQuery mediante la API oficial.