**MAESTRÍA EN INTELIGENCIA ARTIFICIAL APLICADA**

**Curso: TC4029 - Ciencia y analítica de datos**

Tecnológico de Monterrey

Prof Grettel Barceló Alonso

**Semana 3**
Bases, almacenes y manipulación de datos

---

*   NOMBRE: ALMA DIANA GARCIA RODRIGUEZ
*   MATRÍCULA: A01325224


---

En esta actividad usarás la base de datos relacional `classicmodels` (MySQL), compuesta por las siguientes tablas:

*   `Customers`: almacena los datos de los clientes.
*   `Products`: almacena una lista de modelos de coches a escala.
*   `ProductLines`: almacena una lista de categorías de líneas de productos.
*   `Orders`: almacena los pedidos de venta realizados por los clientes.
*   `OrderDetails`: almacena elementos de línea de pedidos de ventas para cada pedido de ventas.
*   `Payments`: almacena los pagos realizados por los clientes en función de sus cuentas.
*   `Employees`: almacena toda la información de los empleados, así como la estructura de la organización, como quién informa a quién.
*   `Offices`: almacena los datos de la oficina de ventas.

Revisa con detalle su esquema para que comprendas cómo se relacionan las tablas anteriores.


Recuerda que:


*   Una **clave primaria** es un atributo (o conjunto) que identifica unívocamente a cada registro en la tabla.
*   Una **clave foránea** (externa o ajena) es un atributos (o conjunto) en una tabla que es una clave primaria en otra (o posiblemente la misma) tabla.
*   Las **relaciones** son las líneas que conectan una tabla con otra y el extremo determina la cardinalidad. Las relaciones con línea continua (identificadora) representan una transformación donde la clave primaria de una tabla pasa a ser foránea y primaria (al mismo tiempo) de otra. Las relaciones con línea discontinua (no identificadora) representan una transformación donde la clave primaria de una tabla pasa a ser sólo foránea en otra.

# **Parte 1**. SQLAlchemy y SQL básico

In [27]:
pip install pymysql



In [28]:
import sqlalchemy as sqla
import pymysql
import pandas as pd

1.	Crea el motor `sqlalchemy`, con el método `create_engine()` y una conexión con `connect()` como se muestra a continuación:

In [37]:

db = sqla.create_engine('mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.106.217.214:3306/classicmodels', pool_recycle=3600)

# Crea una conexión para luego invocar declaraciones SQL
conn = db.connect()


OperationalError: (pymysql.err.OperationalError) (1040, 'Too many connections')
(Background on this error at: https://sqlalche.me/e/20/e3q8)

Escribe las consultas en SQL para obtener:

2.	La información de las líneas de productos.

In [35]:
query = sqla.text ("SELECT * FROM ProductLines")
df = pd.read_sql(query, conn)
df

PendingRollbackError: Can't reconnect until invalid transaction is rolled back.  Please rollback() fully before proceeding (Background on this error at: https://sqlalche.me/e/20/8s2b)

3.	La información de los empleados ordenados por nombre (`firstName`).

In [38]:


import pandas as pd
query = sqla.text("SELECT * FROM Employees ORDER BY firstName")
df = pd.read_sql(query, conn)
df


PendingRollbackError: Can't reconnect until invalid transaction is rolled back.  Please rollback() fully before proceeding (Background on this error at: https://sqlalche.me/e/20/8s2b)

4.	Los países donde hay oficinas (sin duplicar).

In [None]:
query = sqla.text("SELECT DISTINCT country FROM offices")
df = pd.read_sql(query, conn)
df

5.	El nombre y teléfono de los clientes de la ciudad de Nueva York (*NYC*).

In [None]:
query = sqla.text("SELECT customerName, phone FROM customers WHERE city = 'New York'")
df = pd.read_sql(query, conn)
df

6.	El código y nombre de los productos del vendedor *Gearbox Collectibles* que tengan menos de 1000 unidades en stock.

In [None]:
query = sqla.text(SELECT productCode, productName)
FROM products
WHERE productLine = 'Gearbox Collectibles' AND quantityInStock < 1000
df = pd.read_sql(query, conn)
df

7.	Los tres productos más caros, desde el punto de visto de los comercializadores (`buyPrice`).

In [None]:
query = sqla.text (SELECT * FROM products)
ORDER BY buyPrice DESC
LIMIT 3
df = pd.read_sql(query, conn)
df

8.	La cantidad de productos por línea de producto (no las existencias en inventario)

In [None]:
SELECT productLine, COUNT(*) AS productCount
FROM products
GROUP BY productLine;

9.	La cantidad de empleados por país (tomando en cuenta la ubicación de la oficina).

In [None]:
SELECT o.country, COUNT(e.employeeNumber) AS employeeCount
FROM offices o
JOIN employees e ON o.officeCode = e.officeCode
GROUP BY o.country;

10.	El promedio de los pagos de cada uno de los clientes de España (sin incluir aquellos que no poseen ningún pago).

In [None]:
SELECT c.customerName, AVG(p.amount) AS averagePayment
FROM customers c
JOIN payments p ON c.customerNumber = p.customerNumber
WHERE c.country = 'Spain'
GROUP BY c.customerName;

# **Parte 2**. Manipulación de datos con Pandas

11.	Carga las tablas empleadas en dataframes con el mismo nombre y resuelve las consultas anteriores con las funciones de Pandas (NO con SQL). Cuida no sobreescribir los dataframes originales al resolver las consultas. Debes obtener los mismos resultados que con SQL.

In [39]:
import pandas as pd


productlines = pd.read_sql('SELECT * FROM productlines;', conn)
employees = pd.read_sql('SELECT * FROM employees;', conn)
offices = pd.read_sql('SELECT * FROM offices;', conn)
customers = pd.read_sql('SELECT * FROM customers;', conn)
products = pd.read_sql('SELECT * FROM products;', conn)
payments = pd.read_sql('SELECT * FROM payments;', conn)


PendingRollbackError: Can't reconnect until invalid transaction is rolled back.  Please rollback() fully before proceeding (Background on this error at: https://sqlalche.me/e/20/8s2b)

In [None]:
productlines_df = productlines.copy()


In [None]:
employees_sorted = employees.sort_values(by='firstName')

In [None]:
countries_offices = offices['country'].unique()

In [None]:
nyc_customers = customers[customers['city'] == 'New York'][['customerName', 'phone']]


In [None]:
gearbox_products = products[(products['productLine'] == 'Gearbox Collectibles') & (products['quantityInStock'] < 1000)][['productCode', 'productName']]


In [None]:
top_three_expensive = products.nlargest(3, 'buyPrice')


In [None]:
product_count_by_line = products.groupby('productLine').size().reset_index(name='productCount')


In [None]:
employee_count_by_country = employees.merge(offices, on='officeCode').groupby('country').size().reset_index(name='employeeCount')


In [None]:
average_payments_spain = customers[customers['country'] == 'Spain'].merge(payments, on='customerNumber').groupby('customerName')['amount'].mean().reset_index(name='averagePayment')


In [None]:
conn.close()


# **Parte 3**. Cliente de Python Firestore

En esta fase te conectarás a una base de datos no relacional de Firestore desde Python. Para ello utilizarás los módulos `credentials` y `firestore` de la biblioteca `firebase_admin`.

In [40]:
import firebase_admin
from firebase_admin import credentials
from firebase_admin import firestore

El archivo `veterinary.json` almacena la clave privada para autenticar una cuenta y autorizar el acceso a los servicios de Firebase. A través de la función `Certificate()`, se regresa una credencial inicializada, que puedes utilizar para crear una nueva instancia de la aplicación. Después de eso, tu conexión a Firestore utilizará las reglas de seguridad establecidas para la base de datos y el usuario autenticado.

In [41]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import os
DIR = "/content/drive/MyDrive/Colab Notebooks/MNA/TC4029 - Ciencia y analítica de datos/Semana 3/Actividad3_BD_Manipulacion"
os.chdir(DIR)

In [None]:
cred = credentials.Certificate('veterinary.json')
firebase_admin.initialize_app(cred)
db = firestore.client()

12.	Investiga cómo leer la colección `PET_OWNER` y mostrar su contenido en un dataframe. Asegúrate de incluir el id en el resultado

In [None]:
pip install pymongo pandas


In [None]:
import pandas as pd
from pymongo import MongoClient

# Conectar a MongoDB
client = MongoClient('mongodb://<usuario>:<contraseña>@<host>:<puerto>/<base_de_datos>')
db = client['nombre_de_tu_base_de_datos']  # Reemplaza con el nombre de tu base de datos
collection = db['PET_OWNER']  # Reemplaza con el nombre de tu colección

# Leer la colección en un dataframe
df_pet_owners = pd.DataFrame(list(collection.find()))

# Mostrar el contenido del dataframe, asegurándote de incluir el id
print(df_pet_owners)


In [None]:
firebase_admin.delete_app(firebase_admin.get_app())