**Ciencia y analítica de datos**

**Carlos Álvarez**

Bases, almacenes y manipulación de datos

---

---

En esta actividad usarás la base de datos relacional `classicmodels` (MySQL), compuesta por las siguientes tablas:

*   `Customers`: almacena los datos de los clientes.
*   `Products`: almacena una lista de modelos de coches a escala.
*   `ProductLines`: almacena una lista de categorías de líneas de productos.
*   `Orders`: almacena los pedidos de venta realizados por los clientes.
*   `OrderDetails`: almacena elementos de línea de pedidos de ventas para cada pedido de ventas.
*   `Payments`: almacena los pagos realizados por los clientes en función de sus cuentas.
*   `Employees`: almacena toda la información de los empleados, así como la estructura de la organización, como quién informa a quién.
*   `Offices`: almacena los datos de la oficina de ventas.

Revisa con detalle su esquema para que comprendas cómo se relacionan las tablas anteriores.


Recuerda que:


*   Una **clave primaria** es un atributo (o conjunto) que identifica unívocamente a cada registro en la tabla.
*   Una **clave foránea** (externa o ajena) es un atributos (o conjunto) en una tabla que es una clave primaria en otra (o posiblemente la misma) tabla.
*   Las **relaciones** son las líneas que conectan una tabla con otra y el extremo determina la cardinalidad. Las relaciones con línea continua (identificadora) representan una transformación donde la clave primaria de una tabla pasa a ser foránea y primaria (al mismo tiempo) de otra. Las relaciones con línea discontinua (no identificadora) representan una transformación donde la clave primaria de una tabla pasa a ser sólo foránea en otra.

# **Parte 1**. SQLAlchemy y SQL básico

In [47]:
pip install pymysql



In [48]:
import sqlalchemy as sqla
import pymysql
import pandas as pd

1.	Crea el motor `sqlalchemy`, con el método `create_engine()` y una conexión con `connect()` como se muestra a continuación:

In [49]:
# Crear el motor (dialecto://usuarioBD:clave@ipHostDBMS:puerto/esquema
db = sqla.create_engine('mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.106.217.214:3306/classicmodels', pool_recycle=3600)

# Crea una conexión para luego invocar declaraciones SQL
conn = db.connect()

Escribe las consultas en SQL para obtener:

2.	La información de las líneas de productos.

In [50]:
query_productos = sqla.text("SELECT * FROM productlines")
df_productos = pd.read_sql(query_productos, conn)
df_productos

Unnamed: 0,productLine,textDescription,htmlDescription,image
0,Classic Cars,Attention car enthusiasts: Make your wildest c...,,
1,Motorcycles,Our motorcycles are state of the art replicas ...,,
2,Planes,"Unique, diecast airplane and helicopter replic...",,
3,Ships,The perfect holiday or anniversary gift for ex...,,
4,Trains,Model trains are a rewarding hobby for enthusi...,,
5,Trucks and Buses,The Truck and Bus models are realistic replica...,,
6,Vintage Cars,Our Vintage Car models realistically portray a...,,


3.	Los empleados ordenados por nombre (`firstName`).

In [51]:
query_empleados = sqla.text("SELECT * FROM employees ORDER BY firstName")
df_empleados = pd.read_sql(query_empleados, conn)
df_empleados

Unnamed: 0,employeeNumber,lastName,firstName,extension,email,officeCode,reportsTo,jobTitle
0,1611,Fixter,Andy,x101,afixter@classicmodelcars.com,6,1088.0,Sales Rep
1,1143,Bow,Anthony,x5428,abow@classicmodelcars.com,1,1056.0,Sales Manager (NA)
2,1504,Jones,Barry,x102,bjones@classicmodelcars.com,7,1102.0,Sales Rep
3,1002,Murphy,Diane,x5800,dmurphy@classicmodelcars.com,1,,President
4,1286,Tseng,Foon Yue,x2248,ftseng@classicmodelcars.com,3,1143.0,Sales Rep
5,1323,Vanauf,George,x4102,gvanauf@classicmodelcars.com,3,1143.0,Sales Rep
6,1102,Bondur,Gerard,x5408,gbondur@classicmodelcars.com,4,1056.0,Sale Manager (EMEA)
7,1370,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep
8,1076,Firrelli,Jeff,x9273,jfirrelli@classicmodelcars.com,1,1002.0,VP Marketing
9,1188,Firrelli,Julie,x2173,jfirrelli@classicmodelcars.com,2,1143.0,Sales Rep


4.	Los países donde hay oficinas (sin duplicar).

In [52]:
query_oficinas = sqla.text("SELECT DISTINCT country FROM offices")
df_oficinas = pd.read_sql(query_oficinas, conn)
df_oficinas

Unnamed: 0,country
0,USA
1,France
2,Japan
3,Australia
4,UK


5.	El nombre y teléfono de los clientes de la ciudad de Nueva York (*NYC*).

In [53]:
query_nycclientes = sqla.text("SELECT customerName, phone FROM customers WHERE city='NYC'")
df_nycclientes = pd.read_sql(query_nycclientes, conn)
df_nycclientes

Unnamed: 0,customerName,phone
0,Land of Toys Inc.,2125557818
1,Muscle Machine Inc,2125557413
2,Vitachrome Inc.,2125551500
3,Classic Legends Inc.,2125558493
4,Microscale Inc.,2125551957


6.	El código y nombre de los productos del vendedor *Gearbox Collectibles* que tengan menos de 1000 unidades en stock.

In [54]:
query_Gearbox = sqla.text("SELECT productVendor, productCode, productName, quantityInStock FROM products WHERE (quantityInStock < 1000) AND (productVendor = 'Gearbox Collectibles')")
df_Gearbox = pd.read_sql(query_Gearbox, conn)
df_Gearbox

Unnamed: 0,productVendor,productCode,productName,quantityInStock
0,Gearbox Collectibles,S18_2581,P-51-D Mustang,992
1,Gearbox Collectibles,S18_2795,1928 Mercedes-Benz SSK,548


7.	Los tres productos más caros, desde el punto de visto de los comercializadores (`buyPrice`).

In [55]:
query_topPrice = sqla.text("SELECT * FROM products ORDER BY buyPrice DESC LIMIT 3")
df_topPrice = pd.read_sql(query_topPrice, conn)
df_topPrice

Unnamed: 0,productCode,productName,productLine,productScale,productVendor,productDescription,quantityInStock,buyPrice,MSRP
0,S10_4962,1962 LanciaA Delta 16V,Classic Cars,1:10,Second Gear Diecast,Features include: Turnable front wheels; steer...,6791,103.42,147.74
1,S18_2238,1998 Chrysler Plymouth Prowler,Classic Cars,1:18,Gearbox Collectibles,Turnable front wheels; steering function; deta...,4724,101.51,163.73
2,S10_1949,1952 Alpine Renault 1300,Classic Cars,1:10,Classic Metal Creations,Turnable front wheels; steering function; deta...,7305,98.58,214.3


8.	La cantidad de productos por línea de producto (no las existencias en inventario)

In [56]:
query_ProductLine = sqla.text("SELECT productLine AS LineaProducto, COUNT(productLine) AS Cantidad FROM products GROUP BY productLine")
df_ProductLine = pd.read_sql(query_ProductLine, conn)
df_ProductLine

Unnamed: 0,LineaProducto,Cantidad
0,Classic Cars,38
1,Motorcycles,13
2,Planes,12
3,Ships,9
4,Trains,3
5,Trucks and Buses,11
6,Vintage Cars,24


9.	La cantidad de empleados por país (tomando en cuenta la ubicación de la oficina).

In [57]:
query_countryOffice = sqla.text("SELECT country AS Ubicación_Oficina, COUNT(lastName) AS Empleados FROM employees LEFT JOIN offices ON employees.officeCode=offices.officeCode GROUP BY country")
df_countryOffice = pd.read_sql(query_countryOffice, conn)
df_countryOffice

Unnamed: 0,Ubicación_Oficina,Empleados
0,Australia,4
1,France,5
2,Japan,2
3,UK,2
4,USA,10


10.	El promedio de los pagos de cada uno de los clientes de España (sin incluir aquellos que no poseen ningún pago).

In [58]:
query_clientesEspana = sqla.text("SELECT customerName, AVG(amount) AS PromedioPagos FROM customers RIGHT JOIN payments ON customers.customerNumber=payments.customerNumber WHERE country='Spain' GROUP BY customerName")
df_clientesEspana = pd.read_sql(query_clientesEspana, conn)
df_clientesEspana

Unnamed: 0,customerName,PromedioPagos
0,CAF Imports,23375.57
1,"Corrida Auto Replicas, Ltd",37480.03
2,Enaco Distributors,22840.156667
3,Euro+ Shopping Channel,55056.844615
4,"Iberia Gift Imports, Corp.",25493.925


# **Parte 2**. Manipulación de datos con Pandas

11.	Carga las tablas empleadas en dataframes con el mismo nombre y resuelve las consultas anteriores con las funciones de Pandas (NO con SQL). Cuida no sobreescribir los dataframes originales al resolver las consultas. Debes obtener los mismos resultados que con SQL.

In [59]:
query_productlines = sqla.text("SELECT * FROM productlines")
df_productlines = pd.read_sql(query_productlines, conn)
query_employees = sqla.text("SELECT * FROM employees")
df_employees =  pd.read_sql(query_employees, conn)
query_offices = sqla.text("SELECT * FROM offices")
df_offices =  pd.read_sql(query_offices, conn)
query_customers = sqla.text("SELECT * FROM customers")
df_customers =  pd.read_sql(query_customers, conn)
query_products = sqla.text("SELECT * FROM products")
df_products =  pd.read_sql(query_products, conn)
query_payments = sqla.text("SELECT * FROM payments")
df_payments =  pd.read_sql(query_payments, conn)


In [60]:
#La información de las líneas de productos.
#SELECT * FROM productlines
df_productlines

Unnamed: 0,productLine,textDescription,htmlDescription,image
0,Classic Cars,Attention car enthusiasts: Make your wildest c...,,
1,Motorcycles,Our motorcycles are state of the art replicas ...,,
2,Planes,"Unique, diecast airplane and helicopter replic...",,
3,Ships,The perfect holiday or anniversary gift for ex...,,
4,Trains,Model trains are a rewarding hobby for enthusi...,,
5,Trucks and Buses,The Truck and Bus models are realistic replica...,,
6,Vintage Cars,Our Vintage Car models realistically portray a...,,


In [61]:
#Los empleados ordenados por nombre (firstName).
#SELECT * FROM employees ORDER BY firstName
df_employees.set_index('employeeNumber').sort_values('firstName').reset_index()


Unnamed: 0,employeeNumber,lastName,firstName,extension,email,officeCode,reportsTo,jobTitle
0,1611,Fixter,Andy,x101,afixter@classicmodelcars.com,6,1088.0,Sales Rep
1,1143,Bow,Anthony,x5428,abow@classicmodelcars.com,1,1056.0,Sales Manager (NA)
2,1504,Jones,Barry,x102,bjones@classicmodelcars.com,7,1102.0,Sales Rep
3,1002,Murphy,Diane,x5800,dmurphy@classicmodelcars.com,1,,President
4,1286,Tseng,Foon Yue,x2248,ftseng@classicmodelcars.com,3,1143.0,Sales Rep
5,1323,Vanauf,George,x4102,gvanauf@classicmodelcars.com,3,1143.0,Sales Rep
6,1370,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep
7,1102,Bondur,Gerard,x5408,gbondur@classicmodelcars.com,4,1056.0,Sale Manager (EMEA)
8,1076,Firrelli,Jeff,x9273,jfirrelli@classicmodelcars.com,1,1002.0,VP Marketing
9,1188,Firrelli,Julie,x2173,jfirrelli@classicmodelcars.com,2,1143.0,Sales Rep


In [62]:
#los países donde hay oficinas (sin duplicar).
#SELECT DISTINCT country FROM offices
df_offices.country.drop_duplicates().to_frame().set_index('country').reset_index()



Unnamed: 0,country
0,USA
1,France
2,Japan
3,Australia
4,UK


In [63]:
# El nombre y teléfono de los clientes de la ciudad de Nueva York (NYC).
# SELECT customerName, phone FROM customers WHERE city='NYC
df_customers[['customerName', 'phone']][df_customers.city == 'NYC'].set_index('customerName').reset_index()


Unnamed: 0,customerName,phone
0,Land of Toys Inc.,2125557818
1,Muscle Machine Inc,2125557413
2,Vitachrome Inc.,2125551500
3,Classic Legends Inc.,2125558493
4,Microscale Inc.,2125551957


In [64]:
#El código y nombre de los productos del vendedor Gearbox Collectibles que tengan menos de 1000 unidades en stock.
#SELECT productCode, productName, quantityInStock FROM products WHERE quantityInStock < 1000
df_products[['productCode','productName','quantityInStock']][ (df_products.quantityInStock < 1000) & (df_products.productVendor == "Gearbox Collectibles")].set_index('productCode').reset_index()


Unnamed: 0,productCode,productName,quantityInStock
0,S18_2581,P-51-D Mustang,992
1,S18_2795,1928 Mercedes-Benz SSK,548


In [65]:
#Los tres productos más caros, desde el punto de visto de los comercializadores (buyPrice).
#SELECT * FROM products ORDER BY buyPrice DESC LIMIT 3
df_products.sort_values('buyPrice', ascending=False)[:3].set_index('productCode').reset_index()


Unnamed: 0,productCode,productName,productLine,productScale,productVendor,productDescription,quantityInStock,buyPrice,MSRP
0,S10_4962,1962 LanciaA Delta 16V,Classic Cars,1:10,Second Gear Diecast,Features include: Turnable front wheels; steer...,6791,103.42,147.74
1,S18_2238,1998 Chrysler Plymouth Prowler,Classic Cars,1:18,Gearbox Collectibles,Turnable front wheels; steering function; deta...,4724,101.51,163.73
2,S10_1949,1952 Alpine Renault 1300,Classic Cars,1:10,Classic Metal Creations,Turnable front wheels; steering function; deta...,7305,98.58,214.3


In [66]:
#La cantidad de productos por línea de producto (no las existencias en inventario)
#SELECT productLine AS LineaProducto, COUNT(productLine) AS Cantidad FROM products GROUP BY productLine
df_products.groupby('productLine').productName.count().reset_index(name = 'Cantidad').rename( columns={ 'productLine':'LineaProducto'})




Unnamed: 0,LineaProducto,Cantidad
0,Classic Cars,38
1,Motorcycles,13
2,Planes,12
3,Ships,9
4,Trains,3
5,Trucks and Buses,11
6,Vintage Cars,24


In [67]:
# La cantidad de empleados por país (tomando en cuenta la ubicación de la oficina).
# SELECT country AS Ubicacion_Oficina, COUNT(lastName) AS Empleados FROM employees
# LEFT JOIN offices ON employees.officeCode=offices.officeCode GROUP BY country
pd.merge(df_employees, df_offices, left_on='officeCode', right_on='officeCode', how='left').groupby('country').employeeNumber.count().reset_index(name='Empleados').rename(columns={'country': 'Ubicación_Oficina'})


Unnamed: 0,Ubicación_Oficina,Empleados
0,Australia,4
1,France,5
2,Japan,2
3,UK,2
4,USA,10


In [68]:
# El promedio de los pagos de cada uno de los clientes de España (sin incluir aquellos que no poseen ningún pago).
# SELECT country, customerName, AVG(amount) AS PromedioPagos FROM customers
# RIGHT JOIN payments ON customers.customerNumber=payments.customerNumber WHERE country='Spain' GROUP BY customerName
customerPayments = pd.merge(df_customers, df_payments, left_on='customerNumber',right_on='customerNumber',how='right')
customerPayments[customerPayments.country == 'Spain'].groupby('customerName').amount.mean().to_frame().reset_index().rename(columns={'amount': 'PromedioPagos'})


Unnamed: 0,customerName,PromedioPagos
0,CAF Imports,23375.57
1,"Corrida Auto Replicas, Ltd",37480.03
2,Enaco Distributors,22840.156667
3,Euro+ Shopping Channel,55056.844615
4,"Iberia Gift Imports, Corp.",25493.925


# **Parte 3**. Cliente de Python Firestore

En esta fase te conectarás a una base de datos no relacional de Firestore desde Python. Para ello utilizarás los módulos `credentials` y `firestore` de la biblioteca `firebase_admin`.

In [69]:
import firebase_admin
from firebase_admin import credentials
from firebase_admin import firestore

El archivo `veterinary.json` almacena la clave privada para autenticar una cuenta y autorizar el acceso a los servicios de Firebase. A través de la función `Certificate()`, se regresa una credencial inicializada, que puedes utilizar para crear una nueva instancia de la aplicación. Después de eso, tu conexión a Firestore utilizará las reglas de seguridad establecidas para la base de datos y el usuario autenticado.

In [70]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [71]:
import os
DIR = "/content/drive/MyDrive/Colab Notebooks/MNA_TEC_DE_MONTERREY/Ciencia y Analitica de Datos_TC4029.11/Modulo 2/Actividad 3.2"
os.chdir(DIR)

In [72]:
cred = credentials.Certificate('veterinary.json')
firebase_admin.initialize_app(cred)
db = firestore.client()

12.	Investiga cómo leer la colección `PET_OWNER` y mostrar su contenido en un dataframe. Asegúrate de incluir el id en el resultado

In [73]:
#Se obtiene la colección 'PET_OWNER' de Firebase

ref = db.collection('PET_OWNER')

#Obteniendo los documentos de la colección en firebase
#Estos se convierten a dictionarios de python
#Se comienza a elaborar el dataframe

datos = []

for doc in ref.stream():
    renglon = doc.to_dict()
    #Se obtiene el id del documento y se añade al diccionario del renglón
    renglon['id'] = doc.id
    if 'ownerLastName' in renglon:
      datos.append(renglon)

df_Pet_Owners = pd.DataFrame(datos)

df_Pet_Owners[['id', 'ownerLastName', 'email', 'phone', 'ownerFirstName']].set_index('id')






Unnamed: 0_level_0,ownerLastName,email,phone,ownerFirstName
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0D6yFSs2eu4nYwf2dnQ0,Taylor,,555-454-3465,Sam
98357ufgjmWUxjnAuzbz,Trent,miles.trent@somewhere.com,,Miles
AFtZincSZxjC4Mcxf9Pf,Frier,liz.frier@somewhere.com,555-537-6543,Liz
GYDixDwHjMyihjL8TmsM,Mayberry,,555-454-1243,Jenny
IpxTuB6FILhwQFcspLws,Downs,'marcha.downs@somewhere.com,555-537-8765,Marsha
QoXBfS1JdRp6BqgLzaAz,Roberts,,555-454-2354,Ken
eUtZ44lPRbSHXX04EDp7,Melnik,nigel.melnik@somewhere.com,555-232-5678,Nigel
n2GG9rlfGOmE0P4TcU0T,James,richard.james@somewhere.com,555-537-7654,Richard
pDlJlul8EJXO8FBJvFkN,Rogers,jim.rogers@somewhere.com,555-232-3456,Jim
tAlJ74xQ7tT4TUHwZgmH,Keenan,mary.keenan@somewhere.com,555-232-4567,Mary


In [74]:
firebase_admin.delete_app(firebase_admin.get_app())