**MAESTRÍA EN INTELIGENCIA ARTIFICIAL APLICADA**

**Curso: TC4029 - Ciencia y analítica de datos**

Tecnológico de Monterrey

Prof Grettel Barceló Alonso

**Semana 3**
Bases, almacenes y manipulación de datos

---

*   NOMBRE: Juan Manuel Carballo Montaño
*   MATRÍCULA: A01166758

---

En esta actividad usarás la base de datos relacional `classicmodels` (MySQL), compuesta por las siguientes tablas:

*   `Customers`: almacena los datos de los clientes.
*   `Products`: almacena una lista de modelos de coches a escala.
*   `ProductLines`: almacena una lista de categorías de líneas de productos.
*   `Orders`: almacena los pedidos de venta realizados por los clientes.
*   `OrderDetails`: almacena elementos de línea de pedidos de ventas para cada pedido de ventas.
*   `Payments`: almacena los pagos realizados por los clientes en función de sus cuentas.
*   `Employees`: almacena toda la información de los empleados, así como la estructura de la organización, como quién informa a quién.
*   `Offices`: almacena los datos de la oficina de ventas.

Revisa con detalle su esquema para que comprendas cómo se relacionan las tablas anteriores.


Recuerda que:


*   Una **clave primaria** es un atributo (o conjunto) que identifica unívocamente a cada registro en la tabla.
*   Una **clave foránea** (externa o ajena) es un atributos (o conjunto) en una tabla que es una clave primaria en otra (o posiblemente la misma) tabla.
*   Las **relaciones** son las líneas que conectan una tabla con otra y el extremo determina la cardinalidad. Las relaciones con línea continua (identificadora) representan una transformación donde la clave primaria de una tabla pasa a ser foránea y primaria (al mismo tiempo) de otra. Las relaciones con línea discontinua (no identificadora) representan una transformación donde la clave primaria de una tabla pasa a ser sólo foránea en otra.

# **Parte 1**. SQLAlchemy y SQL básico

In [1]:
%pip install pymysql
%pip install jupysql

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [2]:
import sqlalchemy as sqla
import pymysql
import pandas as pd


## Using this repo for connecting to SQL https://github.com/ploomber/jupysql
## Uses the imported driver for and sqlalchemy for connecting to mysql server

In [3]:
%config SqlMagic.autopandas = True
%config SqlMagic.feedback = False
%config SqlMagic.displaycon = False

In [4]:
%load_ext sql

1.	Crea el motor `sqlalchemy`, con el método `create_engine()` y una conexión con `connect()` como se muestra a continuación:

In [5]:
# Crear el motor (dialecto://usuarioBD:clave@ipHostDBMS:puerto/esquema
# db = sqla.create_engine('mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.106.157.52:3306/classicmodels', pool_recycle=3600)

# Crea una conexión para luego invocar declaraciones SQL
# conn = db.connect()
%sql mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.106.157.52:3306/classicmodels

Escribe las consultas en SQL para obtener:

2.	La información de las líneas de productos.

In [6]:
%%sql

SELECT * FROM productlines

Unnamed: 0,productLine,textDescription,htmlDescription,image
0,Classic Cars,Attention car enthusiasts: Make your wildest c...,,
1,Motorcycles,Our motorcycles are state of the art replicas ...,,
2,Planes,"Unique, diecast airplane and helicopter replic...",,
3,Ships,The perfect holiday or anniversary gift for ex...,,
4,Trains,Model trains are a rewarding hobby for enthusi...,,
5,Trucks and Buses,The Truck and Bus models are realistic replica...,,
6,Vintage Cars,Our Vintage Car models realistically portray a...,,


3.	Los empleados ordenados por nombre.

In [7]:
%%sql
SELECT e.firstName
FROM employees e
ORDER BY e.firstName ASC

Unnamed: 0,firstName
0,Andy
1,Anthony
2,Barry
3,Diane
4,Foon Yue
5,George
6,Gerard
7,Gerard
8,Jeff
9,Julie


4.	Los países donde hay oficinas.

In [8]:
%%sql
SELECT DISTINCT o.country
FROM offices o

Unnamed: 0,country
0,USA
1,France
2,Japan
3,Australia
4,UK


5.	El nombre y teléfono de los clientes de Nueva York (*NYC*).

In [9]:
%%sql
SELECT c.customerName, c.phone
FROM customers c
JOIN employees e ON c.salesRepEmployeeNumber = e.employeeNumber
WHERE c.state = 'NY'

Unnamed: 0,customerName,phone
0,Land of Toys Inc.,2125557818
1,Muscle Machine Inc,2125557413
2,Vitachrome Inc.,2125551500
3,Mini Classics,9145554562
4,Classic Legends Inc.,2125558493
5,Microscale Inc.,2125551957


6.	El código y nombre de los productos del vendedor *Gearbox Collectibles* que tengan menos de 1000 unidades en stock.

In [10]:
%%sql
SELECT p.productCode, p.productName
FROM products p
WHERE p.productVendor = 'Gearbox Collectibles' AND p.quantityInStock < 1000

Unnamed: 0,productCode,productName
0,S18_2581,P-51-D Mustang
1,S18_2795,1928 Mercedes-Benz SSK


7.	Los tres productos más caros, desde el punto de visto de los comercializadores (`buyPrice`).

In [11]:
%%sql
SELECT p.productCode, p.productName, p.buyPrice
FROM products p
ORDER BY p.buyPrice DESC
LIMIT 3

Unnamed: 0,productCode,productName,buyPrice
0,S10_4962,1962 LanciaA Delta 16V,103.42
1,S18_2238,1998 Chrysler Plymouth Prowler,101.51
2,S10_1949,1952 Alpine Renault 1300,98.58


8.	La cantidad de productos por línea de producto (no las existencias en inventario)

In [12]:
%%sql

SELECT pl.productLine as productline, COUNT(p.productCode) as qty
FROM productlines pl 
JOIN products p ON pl.productLine = p.productLine
GROUP BY pl.productLine
ORDER BY 2 DESC

Unnamed: 0,productline,qty
0,Classic Cars,38
1,Vintage Cars,24
2,Motorcycles,13
3,Planes,12
4,Trucks and Buses,11
5,Ships,9
6,Trains,3


9.	La cantidad de empleados por país (tomando en cuenta la ubicación de la oficina).

In [13]:
%%sql

SELECT off.country as country, COUNT(emp.employeeNumber) as qty
FROM offices off
JOIN employees emp ON off.officeCode = emp.officeCode
GROUP BY off.country
ORDER BY 2 DESC

Unnamed: 0,country,qty
0,USA,10
1,France,5
2,Australia,4
3,Japan,2
4,UK,2


10.	El promedio de los pagos de cada uno de los clientes de España.

In [14]:
%%sql

SELECT c.customerNumber, AVG(p.amount) AS mean
FROM customers c
JOIN payments p ON c.customerNumber = p.customerNumber
GROUP BY c.customerNumber
ORDER BY 2 DESC

Unnamed: 0,customerNumber,mean
0,239,80375.240000
1,321,66170.390000
2,124,64909.804444
3,450,59551.380000
4,141,55056.844615
...,...,...
93,473,12679.160000
94,103,7438.120000
95,381,7304.295000
96,198,7184.753333


# **Parte 2**. Manipulación de datos con Pandas

11.	Carga las tablas empleadas en dataframes con el mismo nombre y resuelve las consultas anteriores con las funciones de Pandas. Cuida no sobreescribir los dataframes originales al resolver las consultas. Debes obtener los mismos resultados que con SQL.

In [15]:
## El operador << almacena la informacion en un dataframe de pandas
%sql productlines_df << SELECT * FROM productlines
%sql products_df << SELECT * FROM products
%sql orderdetails_df << SELECT * FROM orderdetails
%sql orders_df << SELECT * FROM orders
%sql customers_df << SELECT * FROM customers
%sql payments_df << SELECT * FROM payments
%sql employees_df << SELECT * FROM employees
%sql offices_df << SELECT * FROM offices


In [16]:
# Informacion de las lineas de producto
productlines_df.head(7)

Unnamed: 0,productLine,textDescription,htmlDescription,image
0,Classic Cars,Attention car enthusiasts: Make your wildest c...,,
1,Motorcycles,Our motorcycles are state of the art replicas ...,,
2,Planes,"Unique, diecast airplane and helicopter replic...",,
3,Ships,The perfect holiday or anniversary gift for ex...,,
4,Trains,Model trains are a rewarding hobby for enthusi...,,
5,Trucks and Buses,The Truck and Bus models are realistic replica...,,
6,Vintage Cars,Our Vintage Car models realistically portray a...,,


In [17]:
# Los empleados ordenados por nombre
pd.DataFrame(employees_df.sort_values('firstName')['firstName'].head(23))

Unnamed: 0,firstName
17,Andy
5,Anthony
16,Barry
0,Diane
10,Foon Yue
11,George
13,Gerard
4,Gerard
2,Jeff
8,Julie


In [18]:
# Paises donde hay oficinas
pd.DataFrame(offices_df['country'].unique())

Unnamed: 0,0
0,USA
1,France
2,Japan
3,Australia
4,UK


In [19]:
# Nombre y telefono de los clientes de NY

df = customers_df.join(employees_df.set_index('employeeNumber'), on='salesRepEmployeeNumber')
df[df['state'] == 'NY'].loc[:, ['customerName', 'phone']]

Unnamed: 0,customerName,phone
9,Land of Toys Inc.,2125557818
15,Muscle Machine Inc,2125557413
27,Vitachrome Inc.,2125551500
66,Mini Classics,9145554562
98,Classic Legends Inc.,2125558493
105,Microscale Inc.,2125551957


In [20]:
# El código y nombre de los productos del vendedor Gearbox Collectibles que tengan menos de 1000 unidades en stock

products_df.query('productVendor  == "Gearbox Collectibles" & quantityInStock < 1000').loc[:, ['productCode', 'productName']]

Unnamed: 0,productCode,productName
30,S18_2581,P-51-D Mustang
32,S18_2795,1928 Mercedes-Benz SSK


In [21]:
# Los tres productos más caros, desde el punto de vista de los comercializadores (buyPrice)

products_df.sort_values('buyPrice', ascending=False).head(3).loc[:, ['productCode', 'productName', 'buyPrice']]

Unnamed: 0,productCode,productName,buyPrice
5,S10_4962,1962 LanciaA Delta 16V,103.42
25,S18_2238,1998 Chrysler Plymouth Prowler,101.51
1,S10_1949,1952 Alpine Renault 1300,98.58


In [22]:
#  La cantidad de productos por línea de producto (no las existencias en inventario)

pd.DataFrame(products_df.join(productlines_df.set_index('productLine'), on='productLine').groupby('productLine')['productCode'].count()).sort_values(by='productCode', ascending=False).rename(columns={'productCode': 'qty'})

Unnamed: 0_level_0,qty
productLine,Unnamed: 1_level_1
Classic Cars,38
Vintage Cars,24
Motorcycles,13
Planes,12
Trucks and Buses,11
Ships,9
Trains,3


In [23]:
# La cantidad de empleados por país (tomando en cuenta la ubicación de la oficina)

pd.DataFrame(employees_df.join(offices_df.set_index('officeCode'), on='officeCode').groupby('country')['employeeNumber'].count()).sort_values(by='employeeNumber', ascending=False).rename(columns={'employeeNumber': 'qty'})

Unnamed: 0_level_0,qty
country,Unnamed: 1_level_1
USA,10
France,5
Australia,4
Japan,2
UK,2


In [24]:
# El promedio de los pagos de cada uno de los clientes de España.
pd.DataFrame(payments_df.join(customers_df.set_index('customerNumber'), on='customerNumber').groupby('customerNumber')['amount'].mean()).sort_values(by='amount', ascending=False).rename(columns={'amount': 'mean'})

Unnamed: 0_level_0,mean
customerNumber,Unnamed: 1_level_1
239,80375.240000
321,66170.390000
124,64909.804444
450,59551.380000
141,55056.844615
...,...
473,12679.160000
103,7438.120000
381,7304.295000
198,7184.753333


# **Parte 3**. Cliente de Python Firestore

En esta fase te conectarás a una base de datos no relacional de Firestore desde Python. Para ello utilizarás los módulos `credentials` y `firestore` de la biblioteca `firebase_admin`.

In [25]:
import firebase_admin
from firebase_admin import credentials
from firebase_admin import firestore

El archivo `veterinary.json` almacena la clave privada para autenticar una cuenta y autorizar el acceso a los servicios de Firebase. A través de la función `Certificate()`, se regresa una credencial inicializada, que puedes utilizar para crear una nueva instancia de la aplicación. Después de eso, tu conexión a Firestore utilizará las reglas de seguridad establecidas para la base de datos y el usuario autenticado.

In [26]:
# from google.colab import drive
# drive.mount('/content/drive')

In [27]:
# import os
# DIR = "/content/drive/MyDrive/Colab Notebooks/MNA/TC4029 - Ciencia y analítica de datos/Semana 3/Actividad3_BD_Manipulacion"
# os.chdir(DIR)

In [28]:
cred = credentials.Certificate('veterinary.json')
firebase_admin.initialize_app(cred)
db = firestore.client()

12.	Investiga cómo leer la colección `PET_OWNER` y mostrar su contenido en un dataframe. Asegúrate de incluir el id en el resultado

In [29]:
owners = db.collection('PET_OWNER')
docs = []
for i in owners.stream():
    doc = i.to_dict()
    doc['id'] = i.id
    docs.append(doc)
    
df = pd.DataFrame(docs).set_index('id')
df

Unnamed: 0_level_0,email,phone,ownerFirstName,ownerLastName
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0D6yFSs2eu4nYwf2dnQ0,,555-454-3465,Sam,Taylor
98357ufgjmWUxjnAuzbz,miles.trent@somewhere.com,,Miles,Trent
AFtZincSZxjC4Mcxf9Pf,liz.frier@somewhere.com,555-537-6543,Liz,Frier
GYDixDwHjMyihjL8TmsM,,555-454-1243,Jenny,Mayberry
IpxTuB6FILhwQFcspLws,'marcha.downs@somewhere.com,555-537-8765,Marsha,Downs
QoXBfS1JdRp6BqgLzaAz,,555-454-2354,Ken,Roberts
eUtZ44lPRbSHXX04EDp7,nigel.melnik@somewhere.com,555-232-5678,Nigel,Melnik
n2GG9rlfGOmE0P4TcU0T,richard.james@somewhere.com,555-537-7654,Richard,James
pDlJlul8EJXO8FBJvFkN,jim.rogers@somewhere.com,555-232-3456,Jim,Rogers
tAlJ74xQ7tT4TUHwZgmH,mary.keenan@somewhere.com,555-232-4567,Mary,Keenan


In [30]:
firebase_admin.delete_app(firebase_admin.get_app())