**MAESTRÍA EN INTELIGENCIA ARTIFICIAL APLICADA**

**Curso: TC4029 - Ciencia y analítica de datos**

Tecnológico de Monterrey

Prof Grettel Barceló Alonso

**Semana 3**
Bases, almacenes y manipulación de datos

---

*   NOMBRE: David A. Serrano Garcia
*   MATRÍCULA: A01795935


---

En esta actividad usarás la base de datos relacional `classicmodels` (MySQL), compuesta por las siguientes tablas:

*   `Customers`: almacena los datos de los clientes.
*   `Products`: almacena una lista de modelos de coches a escala.
*   `ProductLines`: almacena una lista de categorías de líneas de productos.
*   `Orders`: almacena los pedidos de venta realizados por los clientes.
*   `OrderDetails`: almacena elementos de línea de pedidos de ventas para cada pedido de ventas.
*   `Payments`: almacena los pagos realizados por los clientes en función de sus cuentas.
*   `Employees`: almacena toda la información de los empleados, así como la estructura de la organización, como quién informa a quién.
*   `Offices`: almacena los datos de la oficina de ventas.

Revisa con detalle su esquema para que comprendas cómo se relacionan las tablas anteriores.


Recuerda que:


*   Una **clave primaria** es un atributo (o conjunto) que identifica unívocamente a cada registro en la tabla.
*   Una **clave foránea** (externa o ajena) es un atributos (o conjunto) en una tabla que es una clave primaria en otra (o posiblemente la misma) tabla.
*   Las **relaciones** son las líneas que conectan una tabla con otra y el extremo determina la cardinalidad. Las relaciones con línea continua (identificadora) representan una transformación donde la clave primaria de una tabla pasa a ser foránea y primaria (al mismo tiempo) de otra. Las relaciones con línea discontinua (no identificadora) representan una transformación donde la clave primaria de una tabla pasa a ser sólo foránea en otra.

# **Parte 1**. SQLAlchemy y SQL básico

In [4]:
pip install pymysql



In [5]:
import sqlalchemy as sqla
import pymysql
import pandas as pd

1.	Crea el motor `sqlalchemy`, con el método `create_engine()` y una conexión con `connect()` como se muestra a continuación:

In [6]:
# Crear el motor (dialecto://usuarioBD:clave@ipHostDBMS:puerto/esquema
db = sqla.create_engine('mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.106.217.214:3306/classicmodels', pool_recycle=3600)

# Crea una conexión para luego invocar declaraciones SQL
conn = db.connect()

Escribe las consultas en SQL para obtener:

2.	La información de las líneas de productos.

In [7]:
query_product_lines = sqla.text('SELECT * FROM productlines')
pf_product_lines = pd.read_sql(query_product_lines, conn)
pf_product_lines

Unnamed: 0,productLine,textDescription,htmlDescription,image
0,Classic Cars,Attention car enthusiasts: Make your wildest c...,,
1,Motorcycles,Our motorcycles are state of the art replicas ...,,
2,Planes,"Unique, diecast airplane and helicopter replic...",,
3,Ships,The perfect holiday or anniversary gift for ex...,,
4,Trains,Model trains are a rewarding hobby for enthusi...,,
5,Trucks and Buses,The Truck and Bus models are realistic replica...,,
6,Vintage Cars,Our Vintage Car models realistically portray a...,,


3.	Los empleados ordenados por nombre (`firstName`).

In [8]:
products_query = sqla.text('SELECT * FROM employees ORDER BY firstName asc')
df_products_by_firstName = pd.read_sql(products_query, conn)
df_products_by_firstName

Unnamed: 0,employeeNumber,lastName,firstName,extension,email,officeCode,reportsTo,jobTitle
0,1611,Fixter,Andy,x101,afixter@classicmodelcars.com,6,1088.0,Sales Rep
1,1143,Bow,Anthony,x5428,abow@classicmodelcars.com,1,1056.0,Sales Manager (NA)
2,1504,Jones,Barry,x102,bjones@classicmodelcars.com,7,1102.0,Sales Rep
3,1002,Murphy,Diane,x5800,dmurphy@classicmodelcars.com,1,,President
4,1286,Tseng,Foon Yue,x2248,ftseng@classicmodelcars.com,3,1143.0,Sales Rep
5,1323,Vanauf,George,x4102,gvanauf@classicmodelcars.com,3,1143.0,Sales Rep
6,1102,Bondur,Gerard,x5408,gbondur@classicmodelcars.com,4,1056.0,Sale Manager (EMEA)
7,1370,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep
8,1076,Firrelli,Jeff,x9273,jfirrelli@classicmodelcars.com,1,1002.0,VP Marketing
9,1188,Firrelli,Julie,x2173,jfirrelli@classicmodelcars.com,2,1143.0,Sales Rep


4.	Los países donde hay oficinas (sin duplicar).

In [9]:
offices_query = sqla.text('SELECT DISTINCT country FROM offices')
df_offices = pd.read_sql(offices_query, conn)
df_offices

Unnamed: 0,country
0,USA
1,France
2,Japan
3,Australia
4,UK


5.	El nombre y teléfono de los clientes de la ciudad de Nueva York (*NYC*).

In [10]:
query_customers_by_city = sqla.text(
"""
SELECT
  customerName,
  phone
FROM customers
WHERE city = :city
"""
)

df_nyc_customers = pd.read_sql(query_customers_by_city, conn, params={'city':'NYC'})
df_nyc_customers

Unnamed: 0,customerName,phone
0,Land of Toys Inc.,2125557818
1,Muscle Machine Inc,2125557413
2,Vitachrome Inc.,2125551500
3,Classic Legends Inc.,2125558493
4,Microscale Inc.,2125551957


6.	El código y nombre de los productos del vendedor *Gearbox Collectibles* que tengan menos de 1000 unidades en stock.

In [11]:

query_products_by_vendor = sqla.text("""
SELECT
  productCode,
  productName
FROM products
WHERE productVendor = :vendor
AND quantityInStock < :stock_limit
""")

df_gearbox_products = pd.read_sql(query_products_by_vendor, conn,params= {
    'vendor': 'Gearbox Collectibles',
    'stock_limit': 1000
})
df_gearbox_products

Unnamed: 0,productCode,productName
0,S18_2581,P-51-D Mustang
1,S18_2795,1928 Mercedes-Benz SSK


7.	Los tres productos más caros, desde el punto de visto de los comercializadores (`buyPrice`).

In [12]:
query_expensive_products = sqla.text("""
SELECT
  productCode,
  productName,
  buyPrice
FROM products
ORDER BY buyPrice DESC
LIMIT 3
""")
pf_expensive_products = pd.read_sql(query_expensive_products, conn)
pf_expensive_products

Unnamed: 0,productCode,productName,buyPrice
0,S10_4962,1962 LanciaA Delta 16V,103.42
1,S18_2238,1998 Chrysler Plymouth Prowler,101.51
2,S10_1949,1952 Alpine Renault 1300,98.58


8.	La cantidad de productos por línea de producto (no las existencias en inventario)

In [13]:
query_product_line_count = sqla.text("""
SELECT
  productLine,
  COUNT(*) AS productCount
FROM products
GROUP BY productLine
""")
pf_product_line_count = pd.read_sql(query_product_line_count, conn)
pf_product_line_count

Unnamed: 0,productLine,productCount
0,Classic Cars,38
1,Motorcycles,13
2,Planes,12
3,Ships,9
4,Trains,3
5,Trucks and Buses,11
6,Vintage Cars,24


9.	La cantidad de empleados por país (tomando en cuenta la ubicación de la oficina).

In [14]:
query_employees_per_country = sqla.text("""
SELECT
  country,
  COUNT(*) AS employeeCount
FROM employees
JOIN offices USING (`officeCode`)
GROUP BY country
""")
df_employees_per_country = pd.read_sql(query_employees_per_country, conn)
df_employees_per_country

Unnamed: 0,country,employeeCount
0,Australia,4
1,France,5
2,Japan,2
3,UK,2
4,USA,10


10.	El promedio de los pagos de cada uno de los clientes de España (sin incluir aquellos que no poseen ningún pago).

In [15]:
query_customer_avg_payment_by_country = sqla.text("""
  SELECT
    customerName,
    AVG(amount)
  FROM customers
  JOIN payments USING (`customerNumber`)
  WHERE customers.country = :country
  GROUP BY customers.`customerName`;
"""
)
products_df = pd.read_sql(query_customer_avg_payment_by_country, conn, params={'country':'Spain'})
products_df

Unnamed: 0,customerName,AVG(amount)
0,CAF Imports,23375.57
1,"Corrida Auto Replicas, Ltd",37480.03
2,Enaco Distributors,22840.156667
3,Euro+ Shopping Channel,55056.844615
4,"Iberia Gift Imports, Corp.",25493.925


# **Parte 2**. Manipulación de datos con Pandas

11.	Carga las tablas empleadas en dataframes con el mismo nombre y resuelve las consultas anteriores con las funciones de Pandas (NO con SQL). Cuida no sobreescribir los dataframes originales al resolver las consultas. Debes obtener los mismos resultados que con SQL.

In [16]:
# 2.2 - La información de las líneas de productos.
pf_p2_product_lines = pd.read_sql(sqla.text('SELECT * FROM productlines'), conn)
pf_p2_product_lines

Unnamed: 0,productLine,textDescription,htmlDescription,image
0,Classic Cars,Attention car enthusiasts: Make your wildest c...,,
1,Motorcycles,Our motorcycles are state of the art replicas ...,,
2,Planes,"Unique, diecast airplane and helicopter replic...",,
3,Ships,The perfect holiday or anniversary gift for ex...,,
4,Trains,Model trains are a rewarding hobby for enthusi...,,
5,Trucks and Buses,The Truck and Bus models are realistic replica...,,
6,Vintage Cars,Our Vintage Car models realistically portray a...,,


In [17]:
# 2.3 - Los empleados ordenados por nombre (firstName).
df_p2_products_by_firstName = (pd.read_sql(sqla.text('SELECT * FROM employees'), conn)
                              .sort_values(by='firstName', ascending=True)
                              )
df_p2_products_by_firstName

Unnamed: 0,employeeNumber,lastName,firstName,extension,email,officeCode,reportsTo,jobTitle
17,1611,Fixter,Andy,x101,afixter@classicmodelcars.com,6,1088.0,Sales Rep
5,1143,Bow,Anthony,x5428,abow@classicmodelcars.com,1,1056.0,Sales Manager (NA)
16,1504,Jones,Barry,x102,bjones@classicmodelcars.com,7,1102.0,Sales Rep
0,1002,Murphy,Diane,x5800,dmurphy@classicmodelcars.com,1,,President
10,1286,Tseng,Foon Yue,x2248,ftseng@classicmodelcars.com,3,1143.0,Sales Rep
11,1323,Vanauf,George,x4102,gvanauf@classicmodelcars.com,3,1143.0,Sales Rep
13,1370,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep
4,1102,Bondur,Gerard,x5408,gbondur@classicmodelcars.com,4,1056.0,Sale Manager (EMEA)
2,1076,Firrelli,Jeff,x9273,jfirrelli@classicmodelcars.com,1,1002.0,VP Marketing
8,1188,Firrelli,Julie,x2173,jfirrelli@classicmodelcars.com,2,1143.0,Sales Rep


In [18]:
# 2.4 Los países donde hay oficinas (sin duplicar).
df_p2_offices = (pd.read_sql(sqla.text('SELECT * FROM offices'), conn)
                  [['country']].drop_duplicates()
                )
df_p2_offices

Unnamed: 0,country
0,USA
3,France
4,Japan
5,Australia
6,UK


In [19]:
# 2.5 El nombre y teléfono de los clientes de la ciudad de Nueva York (NYC).
df_p2_nyc_customers = (pd.read_sql(sqla.text('SELECT * FROM customers'), conn)
                        [lambda df: df['city'] == 'NYC']
                        [['customerName', 'phone']]
                      )
df_p2_nyc_customers

Unnamed: 0,customerName,phone
9,Land of Toys Inc.,2125557818
15,Muscle Machine Inc,2125557413
27,Vitachrome Inc.,2125551500
98,Classic Legends Inc.,2125558493
105,Microscale Inc.,2125551957


In [20]:
# 2.6 El código y nombre de los productos del vendedor Gearbox Collectibles que tengan menos de 1000 unidades en stock.
df_p2_gearbox_products = (pd.read_sql(sqla.text('SELECT * FROM products'), conn)
                            [lambda df: (df['productVendor'] == 'Gearbox Collectibles') & (df['quantityInStock'] < 1000)]
                            [['productCode', 'productName']]
                          )
df_p2_gearbox_products

Unnamed: 0,productCode,productName
30,S18_2581,P-51-D Mustang
32,S18_2795,1928 Mercedes-Benz SSK


In [21]:
# 2.7 Los tres productos más caros, desde el punto de visto de los comercializadores (buyPrice).
df_p2_expensive_products = (pd.read_sql(sqla.text('SELECT * FROM products'), conn)
                              .sort_values(by='buyPrice', ascending=False)
                              .head(3)
                              [['productCode', 'productName', 'buyPrice']]
                            )

df_p2_expensive_products

Unnamed: 0,productCode,productName,buyPrice
5,S10_4962,1962 LanciaA Delta 16V,103.42
25,S18_2238,1998 Chrysler Plymouth Prowler,101.51
1,S10_1949,1952 Alpine Renault 1300,98.58


In [22]:
# 2.8 La cantidad de productos por línea de producto (no las existencias en inventario)

# Contar la cantidad de productos por línea de producto
df_p2_product_line_count = (pd.read_sql('SELECT * FROM products', conn)
                          .groupby('productLine')
                          .size()
                          .reset_index(name='productCount')
                        )

df_p2_product_line_count

Unnamed: 0,productLine,productCount
0,Classic Cars,38
1,Motorcycles,13
2,Planes,12
3,Ships,9
4,Trains,3
5,Trucks and Buses,11
6,Vintage Cars,24


In [23]:
# 2.9 La cantidad de empleados por país (tomando en cuenta la ubicación de la oficina).

# Cargar los pf de las tablas "employees" y "offices"
p2_employees_df = pd.read_sql('SELECT * FROM employees', conn)
p2_offices_df = pd.read_sql('SELECT * FROM offices', conn)

df_p2_employees_per_country = (pd.merge(p2_employees_df, p2_offices_df, on='officeCode')
                                .groupby('country').size()
                                .reset_index(name='employeeCount')
                            )
df_p2_employees_per_country

Unnamed: 0,country,employeeCount
0,Australia,4
1,France,5
2,Japan,2
3,UK,2
4,USA,10


# **Parte 3**. Cliente de Python Firestore

En esta fase te conectarás a una base de datos no relacional de Firestore desde Python. Para ello utilizarás los módulos `credentials` y `firestore` de la biblioteca `firebase_admin`.

In [24]:
import firebase_admin
from firebase_admin import credentials
from firebase_admin import firestore

El archivo `veterinary.json` almacena la clave privada para autenticar una cuenta y autorizar el acceso a los servicios de Firebase. A través de la función `Certificate()`, se regresa una credencial inicializada, que puedes utilizar para crear una nueva instancia de la aplicación. Después de eso, tu conexión a Firestore utilizará las reglas de seguridad establecidas para la base de datos y el usuario autenticado.

In [25]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [26]:
import os
DIR = "/content/drive/MyDrive/Colab Notebooks/MNA/TC4029 - Ciencia y analítica de datos/Semana 3/Actividad3_BD_Manipulacion"
os.chdir(DIR)

In [27]:
cred = credentials.Certificate('veterinary.json')
firebase_admin.initialize_app(cred)
db = firestore.client()

12.	Investiga cómo leer la colección `PET_OWNER` y mostrar su contenido en un dataframe. Asegúrate de incluir el id en el resultado

In [28]:
# Lee la colección PET_OWNER
pet_owner_ref = db.collection('PET_OWNER')
docs = pet_owner_ref.stream()

# Raw debug docs
# for doc in docs:
#     print(doc.to_dict(), doc.id)

# NOTA: Hay un registro key value que no coincide con los otros registros({'key': 'value'} CjlNPIZPzMs6JvNed3WE) ¿Fue insertada por otro usuario/estudiante?
# Esto causa que se genera la columna key y un registro sin valores con relación.

# El operador | se usa para fusionar los dos diccionarios (utilizando el operador de unión de diccionarios introducido en Python 3.9).
# Esto da como resultado un diccionario que contiene todos los campos del documento, más un campo adicional "id" que contiene el ID del documento.
# # https://docs.python.org/es/3.9/whatsnew/3.9.html#dictionary-merge-update-operators

# Crear un dataframe
pet_owners = pd.DataFrame([{"id": doc.id} | doc.to_dict()  for doc in docs])
pet_owners

Unnamed: 0,id,phone,ownerFirstName,ownerLastName,email,key
0,0D6yFSs2eu4nYwf2dnQ0,555-454-3465,Sam,Taylor,,
1,98357ufgjmWUxjnAuzbz,,Miles,Trent,miles.trent@somewhere.com,
2,AFtZincSZxjC4Mcxf9Pf,555-537-6543,Liz,Frier,liz.frier@somewhere.com,
3,CjlNPIZPzMs6JvNed3WE,,,,,value
4,GYDixDwHjMyihjL8TmsM,555-454-1243,Jenny,Mayberry,,
5,IpxTuB6FILhwQFcspLws,555-537-8765,Marsha,Downs,'marcha.downs@somewhere.com,
6,QoXBfS1JdRp6BqgLzaAz,555-454-2354,Ken,Roberts,,
7,eUtZ44lPRbSHXX04EDp7,555-232-5678,Nigel,Melnik,nigel.melnik@somewhere.com,
8,n2GG9rlfGOmE0P4TcU0T,555-537-7654,Richard,James,richard.james@somewhere.com,
9,pDlJlul8EJXO8FBJvFkN,555-232-3456,Jim,Rogers,jim.rogers@somewhere.com,


In [29]:
firebase_admin.delete_app(firebase_admin.get_app())