# Trabajando con Pandas, MySQL y Google BigQuery

En este ejercicio, vamos a aprender cómo interactuar con una base de datos MySQL utilizando Pandas y luego cargar los datos en Google BigQuery. Siga las instrucciones a continuación para completar el ejercicio.

## Paso 1: Instalación de paquetes

Instale los siguientes paquetes utilizando `pip`:

1. mysql-connector-python
2. google-cloud

In [1]:
!pip install mysql-connector-python
!pip install google-cloud-bigquery
!pip install pandas
!pip install pyarrow

Collecting mysql-connector-python
  Downloading mysql_connector_python-8.0.33-cp311-cp311-win_amd64.whl (9.6 MB)
                                              0.0/9.6 MB ? eta -:--:--
                                              0.0/9.6 MB ? eta -:--:--
                                              0.0/9.6 MB 330.3 kB/s eta 0:00:29
                                              0.1/9.6 MB 491.5 kB/s eta 0:00:20
                                              0.1/9.6 MB 656.4 kB/s eta 0:00:15
                                              0.2/9.6 MB 958.4 kB/s eta 0:00:10
     -                                        0.3/9.6 MB 1.1 MB/s eta 0:00:09
     --                                       0.5/9.6 MB 1.7 MB/s eta 0:00:06
     --                                       0.6/9.6 MB 1.9 MB/s eta 0:00:05
     ---                                      0.9/9.6 MB 2.4 MB/s eta 0:00:04
     ----                                     1.1/9.6 MB 2.7 MB/s eta 0:00:04
     -----                         

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
mysql-connector-python 8.0.33 requires protobuf<=3.20.3,>=3.11.0, but you have protobuf 4.23.4 which is incompatible.


Collecting pyarrow
  Downloading pyarrow-12.0.1-cp311-cp311-win_amd64.whl (21.5 MB)
                                              0.0/21.5 MB ? eta -:--:--
                                              0.0/21.5 MB ? eta -:--:--
                                             0.0/21.5 MB 325.1 kB/s eta 0:01:06
                                             0.1/21.5 MB 465.5 kB/s eta 0:00:46
                                             0.1/21.5 MB 595.3 kB/s eta 0:00:36
                                             0.2/21.5 MB 958.4 kB/s eta 0:00:23
                                              0.2/21.5 MB 1.0 MB/s eta 0:00:22
                                              0.4/21.5 MB 1.4 MB/s eta 0:00:16
                                              0.5/21.5 MB 1.6 MB/s eta 0:00:13
     -                                        0.6/21.5 MB 1.7 MB/s eta 0:00:12
     -                                        0.8/21.5 MB 2.1 MB/s eta 0:00:10
     --                                       1.1/21.5 MB

## Paso 2: Importar paquetes necesarios

Importe los siguientes paquetes:

1. mysql
2. pandas
3. mysql.connector
4. google.cloud.bigquery
5. os

In [2]:
import pandas as pd
import mysql.connector as connection
from google.cloud import bigquery
import os

## Paso 3: Establecer la conexión con la base de datos MySQL

Complete el siguiente código para establecer una conexión con la base de datos MySQL:

In [3]:
mydb = connection.connect(
    host="34.16.158.146",
    user="root",
    passwd="root",
    database="retail_db"
    )


# Complete el siguiente código para establecer la conexión con la base de datos MySQL
```
mydb = mysql.connector.connect(
    host="",
    user="",
    passwd="",
    database=""
)
```



## Paso 4: Leer los datos de la base de datos MySQL utilizando Pandas

Escriba el código para leer los datos de la tabla `categories` de la base de datos MySQL utilizando Pandas y almacenarlos en un DataFrame llamado `df`. No olvide cerrar la conexión a la base de datos después de realizar la consulta.


In [4]:
sql = "SELECT * FROM retail_db.categories"
df = pd.read_sql(sql, mydb)
mydb.close()
df.head()

  df = pd.read_sql(sql, mydb)


Unnamed: 0,category_id,category_department_id,category_name
0,1,2,Football
1,2,2,Soccer
2,3,2,Baseball & Softball
3,4,2,Basketball
4,5,2,Lacrosse


## Paso 5: Configurar las credenciales de Google Cloud

Agregue el archivo JSON de las credenciales de su cuenta de Google Cloud al entorno de ejecución y establezca la variable de entorno `GOOGLE_APPLICATION_CREDENTIALS` con la ruta al archivo JSON.


In [5]:
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = 'service.json'

## Paso 6: Crear un cliente de BigQuery

Escriba el código para crear un objeto cliente de BigQuery.


In [6]:
client = bigquery.Client()

## Paso 7: Escribir los datos del DataFrame en Google BigQuery

Escriba el código necesario para escribir los datos del DataFrame `df` en la tabla `sysven_categories_raw` en Google BigQuery. Utilice la opción "WRITE_TRUNCATE" para sobrescribir cualquier dato existente en la tabla.


In [11]:
tabla_id = 'storied-box-393201.proyecto_raw.categories'
tabla_property = client.get_table(tabla_id)

In [13]:
job_configuration = bigquery.LoadJobConfig(
    schema=tabla_property.schema,
    write_disposition='WRITE_TRUNCATE'
)

In [14]:
job = client.load_table_from_dataframe(
    df, tabla_id, job_config=job_configuration
)

job.result() # Esperar que se complete la carga

print('Carga Completada')

Carga Completada
