**MAESTRÍA EN INTELIGENCIA ARTIFICIAL APLICADA**

**Curso: TC4029 - Ciencia y analítica de datos**

Tecnológico de Monterrey

Prof Grettel Barceló Alonso

**Semana 3**
Bases, almacenes y manipulación de datos

---

*   NOMBRE: Eduardo Selim Martínez Mayorga
*   MATRÍCULA: A01795167

---

En esta actividad usarás la base de datos relacional `classicmodels` (MySQL), compuesta por las siguientes tablas:

*   `Customers`: almacena los datos de los clientes.
*   `Products`: almacena una lista de modelos de coches a escala.
*   `ProductLines`: almacena una lista de categorías de líneas de productos.
*   `Orders`: almacena los pedidos de venta realizados por los clientes.
*   `OrderDetails`: almacena elementos de línea de pedidos de ventas para cada pedido de ventas.
*   `Payments`: almacena los pagos realizados por los clientes en función de sus cuentas.
*   `Employees`: almacena toda la información de los empleados, así como la estructura de la organización, como quién informa a quién.
*   `Offices`: almacena los datos de la oficina de ventas.

Revisa con detalle su esquema para que comprendas cómo se relacionan las tablas anteriores.


Recuerda que:


*   Una **clave primaria** es un atributo (o conjunto) que identifica unívocamente a cada registro en la tabla.
*   Una **clave foránea** (externa o ajena) es un atributos (o conjunto) en una tabla que es una clave primaria en otra (o posiblemente la misma) tabla.
*   Las **relaciones** son las líneas que conectan una tabla con otra y el extremo determina la cardinalidad. Las relaciones con línea continua (identificadora) representan una transformación donde la clave primaria de una tabla pasa a ser foránea y primaria (al mismo tiempo) de otra. Las relaciones con línea discontinua (no identificadora) representan una transformación donde la clave primaria de una tabla pasa a ser sólo foránea en otra.

# **Parte 1**. SQLAlchemy y SQL básico

In [1]:
# pip install pymysql
# Se ejecuta una vez para la instalación del módulo/librería

In [2]:
import sqlalchemy as sqla
import pymysql
import pandas as pd

from sqlalchemy import inspect

1.	Crea el motor `sqlalchemy`, con el método `create_engine()` y una conexión con `connect()` como se muestra a continuación:

In [3]:
# Crear el motor (dialecto://usuarioBD:clave@ipHostDBMS:puerto/esquema
db = sqla.create_engine('mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.106.157.52:3306/classicmodels',
                        pool_recycle=3600)

# Crea una conexión para luego invocar declaraciones SQL
conn = db.connect()

Escribe las consultas en SQL para obtener:

In [4]:
# Primero veremos el nombre de las tablas contenidas en la base
# de datos
inspector = inspect(db)

# Se obtendrá el nombre de las tablas en dicha base de datos
inspector.get_table_names() 

['customers',
 'employees',
 'offices',
 'orderdetails',
 'orders',
 'payments',
 'productlines',
 'products']

In [5]:
# Se puede obtener los nombres de la columna de cada una de
# de las tablas de la base de datos
# Por ejemplo, para la tabla 'customers'
inspector.get_columns('customers')

[{'name': 'customerNumber',
  'type': INTEGER(display_width=11),
  'default': None,
  'comment': None,
  'nullable': False,
  'autoincrement': False},
 {'name': 'customerName',
  'type': VARCHAR(length=50),
  'default': None,
  'comment': None,
  'nullable': False},
 {'name': 'contactLastName',
  'type': VARCHAR(length=50),
  'default': None,
  'comment': None,
  'nullable': False},
 {'name': 'contactFirstName',
  'type': VARCHAR(length=50),
  'default': None,
  'comment': None,
  'nullable': False},
 {'name': 'phone',
  'type': VARCHAR(length=50),
  'default': None,
  'comment': None,
  'nullable': False},
 {'name': 'addressLine1',
  'type': VARCHAR(length=50),
  'default': None,
  'comment': None,
  'nullable': False},
 {'name': 'addressLine2',
  'type': VARCHAR(length=50),
  'default': None,
  'comment': None,
  'nullable': True},
 {'name': 'city',
  'type': VARCHAR(length=50),
  'default': None,
  'comment': None,
  'nullable': False},
 {'name': 'state',
  'type': VARCHAR(length=50

In [6]:
# Se convierte a un dataframe para mejor lectura
pd.DataFrame.from_dict(inspector.get_columns('customers'))

Unnamed: 0,name,type,default,comment,nullable,autoincrement
0,customerNumber,INTEGER(11),,,False,False
1,customerName,VARCHAR(50),,,False,
2,contactLastName,VARCHAR(50),,,False,
3,contactFirstName,VARCHAR(50),,,False,
4,phone,VARCHAR(50),,,False,
5,addressLine1,VARCHAR(50),,,False,
6,addressLine2,VARCHAR(50),,,True,
7,city,VARCHAR(50),,,False,
8,state,VARCHAR(50),,,True,
9,postalCode,VARCHAR(15),,,True,


Y así podemos ver más fácilmente las columnas de cada tabla

2.	La información de las líneas de productos.

In [7]:
# Vemos las columnas de la tabla 'productlines'
pd.DataFrame.from_dict(inspector.get_columns('productlines'))

Unnamed: 0,name,type,default,comment,nullable
0,productLine,VARCHAR(50),,,False
1,textDescription,VARCHAR(4000),,,True
2,htmlDescription,MEDIUMTEXT,,,True
3,image,MEDIUMBLOB,,,True


In [8]:
# Hacemos un query para obtener lo solicitado
query = conn.execute('DESCRIBE productlines')

# Se imprime el resultado:
for row in query:
    print(row)

('productLine', 'varchar(50)', 'NO', 'PRI', None, '')
('textDescription', 'varchar(4000)', 'YES', '', None, '')
('htmlDescription', 'mediumtext', 'YES', '', None, '')
('image', 'mediumblob', 'YES', '', None, '')


3.	Los empleados ordenados por nombre.

In [9]:
# Vemos las columnas de la tabla 'employees'
pd.DataFrame.from_dict(inspector.get_columns('employees'))

Unnamed: 0,name,type,default,comment,nullable,autoincrement
0,employeeNumber,INTEGER(11),,,False,False
1,lastName,VARCHAR(50),,,False,
2,firstName,VARCHAR(50),,,False,
3,extension,VARCHAR(10),,,False,
4,email,VARCHAR(100),,,False,
5,officeCode,VARCHAR(10),,,False,
6,reportsTo,INTEGER(11),,,True,False
7,jobTitle,VARCHAR(50),,,False,


In [10]:
# Hacemos un query para obtener lo solicitado
query = conn.execute('SELECT * '
                    'FROM employees '
                    'ORDER BY firstName ASC;')
# Se imprime el resultado:
for row in query:
    print(row)

(1611, 'Fixter', 'Andy', 'x101', 'afixter@classicmodelcars.com', '6', 1088, 'Sales Rep')
(1143, 'Bow', 'Anthony', 'x5428', 'abow@classicmodelcars.com', '1', 1056, 'Sales Manager (NA)')
(1504, 'Jones', 'Barry', 'x102', 'bjones@classicmodelcars.com', '7', 1102, 'Sales Rep')
(1002, 'Murphy', 'Diane', 'x5800', 'dmurphy@classicmodelcars.com', '1', None, 'President')
(1286, 'Tseng', 'Foon Yue', 'x2248', 'ftseng@classicmodelcars.com', '3', 1143, 'Sales Rep')
(1323, 'Vanauf', 'George', 'x4102', 'gvanauf@classicmodelcars.com', '3', 1143, 'Sales Rep')
(1102, 'Bondur', 'Gerard', 'x5408', 'gbondur@classicmodelcars.com', '4', 1056, 'Sale Manager (EMEA)')
(1370, 'Hernandez', 'Gerard', 'x2028', 'ghernande@classicmodelcars.com', '4', 1102, 'Sales Rep')
(1076, 'Firrelli', 'Jeff', 'x9273', 'jfirrelli@classicmodelcars.com', '1', 1002, 'VP Marketing')
(1188, 'Firrelli', 'Julie', 'x2173', 'jfirrelli@classicmodelcars.com', '2', 1143, 'Sales Rep')
(1501, 'Bott', 'Larry', 'x2311', 'lbott@classicmodelcars.com'

Nótese que la lectura es poco legible para lxs usuarixs

4.	Los países donde hay oficinas.

In [11]:
# Vemos las columnas de la tabla 'offices'
pd.DataFrame.from_dict(inspector.get_columns('offices'))

Unnamed: 0,name,type,default,comment,nullable
0,officeCode,VARCHAR(10),,,False
1,city,VARCHAR(50),,,False
2,phone,VARCHAR(50),,,False
3,addressLine1,VARCHAR(50),,,False
4,addressLine2,VARCHAR(50),,,True
5,state,VARCHAR(50),,,True
6,country,VARCHAR(50),,,False
7,postalCode,VARCHAR(15),,,False
8,territory,VARCHAR(10),,,False


In [12]:
# Hacemos un query para obtener lo solicitado
query = conn.execute('SELECT DISTINCT country '
                    'FROM offices;')
# Se imprime el resultado:
for row in query:
    print(row)

('USA',)
('France',)
('Japan',)
('Australia',)
('UK',)


5.	El nombre y teléfono de los clientes de Nueva York (*NYC*).

In [13]:
# Vemos las columnas de la tabla 'customers'
pd.DataFrame.from_dict(inspector.get_columns('customers'))

Unnamed: 0,name,type,default,comment,nullable,autoincrement
0,customerNumber,INTEGER(11),,,False,False
1,customerName,VARCHAR(50),,,False,
2,contactLastName,VARCHAR(50),,,False,
3,contactFirstName,VARCHAR(50),,,False,
4,phone,VARCHAR(50),,,False,
5,addressLine1,VARCHAR(50),,,False,
6,addressLine2,VARCHAR(50),,,True,
7,city,VARCHAR(50),,,False,
8,state,VARCHAR(50),,,True,
9,postalCode,VARCHAR(15),,,True,


In [14]:
# Hacemos un query para obtener lo solicitado
query = conn.execute('SELECT customerName, phone, city '
                     'FROM customers '
                     'WHERE city = "NYC";')
# Se imprime el resultado:
for row in query:
    print(row)

('Land of Toys Inc.', '2125557818', 'NYC')
('Muscle Machine Inc', '2125557413', 'NYC')
('Vitachrome Inc.', '2125551500', 'NYC')
('Classic Legends Inc.', '2125558493', 'NYC')
('Microscale Inc.', '2125551957', 'NYC')


**OBSERVACIÓN:** Agregué la variable `city` para efectivamente verificar que se aplicó el filtro solicitado

6.	El código y nombre de los productos del vendedor *Gearbox Collectibles* que tengan menos de 1000 unidades en stock.

In [15]:
# Vemos las columnas de la tabla 'products'
pd.DataFrame.from_dict(inspector.get_columns('products'))

Unnamed: 0,name,type,default,comment,nullable,autoincrement
0,productCode,VARCHAR(15),,,False,
1,productName,VARCHAR(70),,,False,
2,productLine,VARCHAR(50),,,False,
3,productScale,VARCHAR(10),,,False,
4,productVendor,VARCHAR(50),,,False,
5,productDescription,TEXT,,,False,
6,quantityInStock,SMALLINT(6),,,False,False
7,buyPrice,"DECIMAL(10, 2)",,,False,
8,MSRP,"DECIMAL(10, 2)",,,False,


In [16]:
# Hacemos un query para obtener lo solicitado
query = conn.execute('SELECT productCode, productName, productVendor, quantityInStock '
                     'FROM products '
                     'WHERE productVendor = "Gearbox Collectibles"'
                     'AND quantityInStock < 1000;')
# Se imprime el resultado:
for row in query:
    print(row)

('S18_2581', 'P-51-D Mustang', 'Gearbox Collectibles', 992)
('S18_2795', '1928 Mercedes-Benz SSK', 'Gearbox Collectibles', 548)


**OBSERVACIÓN:** Agregué las variables `productVendor` y `quantityInStock` para efectivamente verificar que se aplicó el filtro solicitado

7.	Los tres productos más caros, desde el punto de visto de los comercializadores (`buyPrice`).

In [17]:
# Intenté varias formas de ejecutar este query sin éxito
# Ver la correspondiente parte de pandas para ver mi interpretación
# ¿Porqué este query no corre?
# Agradeceré su ayuda

# Mi objetivo era primero obtener el ranking del productos por
# precio por comercializador, y posteriormente quedarme con los
# 3 más caros de cada comercializador

"""
query = conn.execute('SELECT * '
                     'FROM ( '
                     'SELECT productVendor, ROW_NUMBER() '
                     'OVER(PARTITION BY productVendor ORDER BY buyPrice DESC) AS posicion '
                     'FROM products) n '
                     'WHERE posicion <= 3;')

for row in query:
    print(row)
"""

"\nquery = conn.execute('SELECT * '\n                     'FROM ( '\n                     'SELECT productVendor, ROW_NUMBER() '\n                     'OVER(PARTITION BY productVendor ORDER BY buyPrice DESC) AS posicion '\n                     'FROM products) n '\n                     'WHERE posicion <= 3;')\n\nfor row in query:\n    print(row)\n"

8.	La cantidad de productos por línea de producto (no las existencias en inventario)

In [18]:
# Hacemos un query para obtener lo solicitado
query = conn.execute('SELECT productLine, COUNT(productCode) '
                     'FROM products '
                     'GROUP BY productLine;')
# Se imprime el resultado:
for row in query:
    print(row)

('Classic Cars', 38)
('Motorcycles', 13)
('Planes', 12)
('Ships', 9)
('Trains', 3)
('Trucks and Buses', 11)
('Vintage Cars', 24)


9.	La cantidad de empleados por país (tomando en cuenta la ubicación de la oficina).

In [19]:
# Vemos las columnas de la tabla 'offices'
pd.DataFrame.from_dict(inspector.get_columns('offices'))

Unnamed: 0,name,type,default,comment,nullable
0,officeCode,VARCHAR(10),,,False
1,city,VARCHAR(50),,,False
2,phone,VARCHAR(50),,,False
3,addressLine1,VARCHAR(50),,,False
4,addressLine2,VARCHAR(50),,,True
5,state,VARCHAR(50),,,True
6,country,VARCHAR(50),,,False
7,postalCode,VARCHAR(15),,,False
8,territory,VARCHAR(10),,,False


In [20]:
# Vemos las columnas de la tabla 'employees'
pd.DataFrame.from_dict(inspector.get_columns('employees'))

Unnamed: 0,name,type,default,comment,nullable,autoincrement
0,employeeNumber,INTEGER(11),,,False,False
1,lastName,VARCHAR(50),,,False,
2,firstName,VARCHAR(50),,,False,
3,extension,VARCHAR(10),,,False,
4,email,VARCHAR(100),,,False,
5,officeCode,VARCHAR(10),,,False,
6,reportsTo,INTEGER(11),,,True,False
7,jobTitle,VARCHAR(50),,,False,


In [21]:
# Hacemos un query para obtener lo solicitado
query = conn.execute('SELECT offices.officeCode, offices.country, COUNT(employees.employeeNumber) '
                     'FROM offices JOIN employees '
                     'ON employees.officeCode = offices.officeCode '
                     'GROUP BY offices.Country;')
# Se imprime el resultado:
for row in query:
    print(row)

('6', 'Australia', 4)
('4', 'France', 5)
('5', 'Japan', 2)
('7', 'UK', 2)
('1', 'USA', 10)


10.	El promedio de los pagos de cada uno de los clientes de España.

In [22]:
# Vemos las columnas de la tabla 'customers'
pd.DataFrame.from_dict(inspector.get_columns('customers'))

Unnamed: 0,name,type,default,comment,nullable,autoincrement
0,customerNumber,INTEGER(11),,,False,False
1,customerName,VARCHAR(50),,,False,
2,contactLastName,VARCHAR(50),,,False,
3,contactFirstName,VARCHAR(50),,,False,
4,phone,VARCHAR(50),,,False,
5,addressLine1,VARCHAR(50),,,False,
6,addressLine2,VARCHAR(50),,,True,
7,city,VARCHAR(50),,,False,
8,state,VARCHAR(50),,,True,
9,postalCode,VARCHAR(15),,,True,


In [23]:
# Vemos las columnas de la tabla 'payments'
pd.DataFrame.from_dict(inspector.get_columns('payments'))

Unnamed: 0,name,type,default,comment,nullable,autoincrement
0,customerNumber,INTEGER(11),,,False,False
1,checkNumber,VARCHAR(50),,,False,
2,paymentDate,DATE,,,False,
3,amount,"DECIMAL(10, 2)",,,False,


In [24]:
# Hacemos un query para obtener lo solicitado
query = conn.execute('SELECT customers.customerNumber, customers.customerName, AVG(payments.amount), customers.country '
                     'FROM payments JOIN customers '
                     'ON payments.customerNumber = customers.customerNumber '
                     'WHERE customers.country = "Spain" '
                     'GROUP BY payments.customerNumber;')
# Se imprime el resultado:
for row in query:
    print(row)

(141, 'Euro+ Shopping Channel', Decimal('55056.844615'), 'Spain')
(216, 'Enaco Distributors', Decimal('22840.156667'), 'Spain')
(344, 'CAF Imports', Decimal('23375.570000'), 'Spain')
(458, 'Corrida Auto Replicas, Ltd', Decimal('37480.030000'), 'Spain')
(484, 'Iberia Gift Imports, Corp.', Decimal('25493.925000'), 'Spain')


**Observación:** Agregué `customers.country` para verificar que efectivamente se aplicó el filtro y la penúltima columna es efectivamente el promedio solicitado

# **Parte 2**. Manipulación de datos con Pandas

11.	Carga las tablas empleadas en dataframes con el mismo nombre y resuelve las consultas anteriores con las funciones de Pandas. Cuida no sobreescribir los dataframes originales al resolver las consultas. Debes obtener los mismos resultados que con SQL.

In [25]:
# Como antes, se observa el nombre de las tablas en la base de datos
inspector.get_table_names()

['customers',
 'employees',
 'offices',
 'orderdetails',
 'orders',
 'payments',
 'productlines',
 'products']

In [26]:
# La tabla 'customers' se guarda como dataframe.
df_customers = pd.read_sql_table('customers', db)

# La tabla 'employees' se guarda como dataframe.
df_employees = pd.read_sql_table('employees', db)

# La tabla 'offices' se guarda como dataframe.
df_offices = pd.read_sql_table('offices', db)

# La tabla 'orderdetails' se guarda como dataframe.
df_orderdetails = pd.read_sql_table('orderdetails', db)

# La tabla 'orders' se guarda como dataframe.
df_orders = pd.read_sql_table('orders', db)

# La tabla 'payments' se guarda como dataframe.
df_payments = pd.read_sql_table('payments', db)

# La tabla 'productlines' se guarda como dataframe.
df_productlines = pd.read_sql_table('productlines', db)

# La tabla 'products' se guarda como dataframe.
df_products = pd.read_sql_table('products', db)

In [27]:
# Se verificará que efectivamente es dataframe (sólo una)
# porque la instrucción es repetitiva
df_customers.head()

Unnamed: 0,customerNumber,customerName,contactLastName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,country,salesRepEmployeeNumber,creditLimit
0,103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,France,1370.0,21000.0
1,112,Signal Gift Stores,King,Jean,7025551838,8489 Strong St.,,Las Vegas,NV,83030,USA,1166.0,71800.0
2,114,"Australian Collectors, Co.",Ferguson,Peter,03 9520 4555,636 St Kilda Road,Level 3,Melbourne,Victoria,3004,Australia,1611.0,117300.0
3,119,La Rochelle Gifts,Labrune,Janine,40.67.8555,"67, rue des Cinquante Otages",,Nantes,,44000,France,1370.0,118200.0
4,121,Baane Mini Imports,Bergulfsen,Jonas,07-98 9555,Erling Skakkes gate 78,,Stavern,,4110,Norway,1504.0,81700.0


2. La información de las líneas de productos.

In [28]:
# Se verifica el tipo de datos de cada columna
df_productlines.dtypes

productLine        object
textDescription    object
htmlDescription    object
image              object
dtype: object

Se puede observar que todas la columnas son tipo string

In [29]:
# Se verifica el nombre de las columnas
df_productlines.columns

Index(['productLine', 'textDescription', 'htmlDescription', 'image'], dtype='object')

In [30]:
# Se obtiene el número de renglones y columnas
df_productlines.shape

(7, 4)

Es decir que la tabla `productlines` tiene 7 renglones y 4 columnas

3. Los empleados ordenados por nombre.

In [31]:
# Se ordena por nombre (`firstName`) dicha tabla
df_employees.sort_values("firstName", ascending = True)

Unnamed: 0,employeeNumber,lastName,firstName,extension,email,officeCode,reportsTo,jobTitle
17,1611,Fixter,Andy,x101,afixter@classicmodelcars.com,6,1088.0,Sales Rep
5,1143,Bow,Anthony,x5428,abow@classicmodelcars.com,1,1056.0,Sales Manager (NA)
16,1504,Jones,Barry,x102,bjones@classicmodelcars.com,7,1102.0,Sales Rep
0,1002,Murphy,Diane,x5800,dmurphy@classicmodelcars.com,1,,President
10,1286,Tseng,Foon Yue,x2248,ftseng@classicmodelcars.com,3,1143.0,Sales Rep
11,1323,Vanauf,George,x4102,gvanauf@classicmodelcars.com,3,1143.0,Sales Rep
13,1370,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep
4,1102,Bondur,Gerard,x5408,gbondur@classicmodelcars.com,4,1056.0,Sale Manager (EMEA)
2,1076,Firrelli,Jeff,x9273,jfirrelli@classicmodelcars.com,1,1002.0,VP Marketing
8,1188,Firrelli,Julie,x2173,jfirrelli@classicmodelcars.com,2,1143.0,Sales Rep


4. Los países donde hay oficinas.

In [32]:
df_offices['country'].unique()

array(['USA', 'France', 'Japan', 'Australia', 'UK'], dtype=object)

5. El nombre y teléfono de los clientes de Nueva York (NYC)

In [33]:
condicion = (df_customers['city'] == 'NYC')

In [34]:
# El dataframe solicitado
df_customers[condicion][['customerName','phone']]

Unnamed: 0,customerName,phone
9,Land of Toys Inc.,2125557818
15,Muscle Machine Inc,2125557413
27,Vitachrome Inc.,2125551500
98,Classic Legends Inc.,2125558493
105,Microscale Inc.,2125551957


In [35]:
# Se imprime una verificación del filtro por ciudad
df_customers[condicion][['customerName','phone','city']]

Unnamed: 0,customerName,phone,city
9,Land of Toys Inc.,2125557818,NYC
15,Muscle Machine Inc,2125557413,NYC
27,Vitachrome Inc.,2125551500,NYC
98,Classic Legends Inc.,2125558493,NYC
105,Microscale Inc.,2125551957,NYC


6. El código y nombre de los productos del vendedor Gearbox Collectibles que tengan menos de 1000 unidades en stock.

In [36]:
condicion1 = (df_products['productVendor'] == 'Gearbox Collectibles')
condicion2 = (df_products['quantityInStock'] < 1000)

In [37]:
# El dataframe solicitado
df_products[condicion1 & condicion2][['productCode','productName']]

Unnamed: 0,productCode,productName
30,S18_2581,P-51-D Mustang
32,S18_2795,1928 Mercedes-Benz SSK


In [38]:
# Se imprime una verificación del filtro por vendedor
# y unidades en stock
columnas_requeridas = ['productCode','productName',
                       'productVendor','quantityInStock']
df_products[condicion1 & condicion2][columnas_requeridas]

Unnamed: 0,productCode,productName,productVendor,quantityInStock
30,S18_2581,P-51-D Mustang,Gearbox Collectibles,992
32,S18_2795,1928 Mercedes-Benz SSK,Gearbox Collectibles,548


7. Los tres productos más caros, desde el punto de vista de los comercializadores (buyPrice)

In [39]:
# Se obtiene el top3 por 'productVendor'
df_top3 = df_products.groupby(['productVendor'])['buyPrice'].nlargest(3)

# Se obtienen los índices de dichos precios
indices = df_top3.index.get_level_values(1)

# Se ocupan sólo los índices deseados
df_products_top3 = df_products.filter(items=indices, axis=0)

In [40]:
# La lista de productos solicitada
df_products_top3[['productVendor','productName','buyPrice']]

Unnamed: 0,productVendor,productName,buyPrice
6,Autoart Studio Design,1968 Ford Mustang,95.34
64,Autoart Studio Design,1962 Volkswagen Microbus,61.34
57,Autoart Studio Design,1997 BMW R 1100 S,60.86
62,Carousel DieCast Legends,18th century schooner,82.34
41,Carousel DieCast Legends,Collectable Wooden Train,67.56
34,Carousel DieCast Legends,1913 Ford Model T Speedster,60.78
1,Classic Metal Creations,1952 Alpine Renault 1300,98.58
77,Classic Metal Creations,1956 Porsche 356A Coupe,98.3
53,Classic Metal Creations,1957 Corvette Convertible,69.93
69,Exoto Designs,1952 Citroen-15CV,72.82


8. La cantidad de productos por línea de producto (no las existencias en inventario)

In [41]:
df_products['productLine'].value_counts()

Classic Cars        38
Vintage Cars        24
Motorcycles         13
Planes              12
Trucks and Buses    11
Ships                9
Trains               3
Name: productLine, dtype: int64

9. La cantidad de empleados por país (tomando en cuenta la ubicación de la oficina)

In [42]:
# Se juntan las tablas de empleados y oficinas
df_empleado_oficina = pd.merge(df_employees,
                               df_offices,
                               on='officeCode', how='inner')

df_empleado_oficina.head()

Unnamed: 0,employeeNumber,lastName,firstName,extension,email,officeCode,reportsTo,jobTitle,city,phone,addressLine1,addressLine2,state,country,postalCode,territory
0,1002,Murphy,Diane,x5800,dmurphy@classicmodelcars.com,1,,President,San Francisco,+1 650 219 4782,100 Market Street,Suite 300,CA,USA,94080,
1,1056,Patterson,Mary,x4611,mpatterso@classicmodelcars.com,1,1002.0,VP Sales,San Francisco,+1 650 219 4782,100 Market Street,Suite 300,CA,USA,94080,
2,1076,Firrelli,Jeff,x9273,jfirrelli@classicmodelcars.com,1,1002.0,VP Marketing,San Francisco,+1 650 219 4782,100 Market Street,Suite 300,CA,USA,94080,
3,1143,Bow,Anthony,x5428,abow@classicmodelcars.com,1,1056.0,Sales Manager (NA),San Francisco,+1 650 219 4782,100 Market Street,Suite 300,CA,USA,94080,
4,1165,Jennings,Leslie,x3291,ljennings@classicmodelcars.com,1,1143.0,Sales Rep,San Francisco,+1 650 219 4782,100 Market Street,Suite 300,CA,USA,94080,


In [43]:
# Se hace el conteo solicitado
df_empleado_oficina['country'].value_counts()

USA          10
France        5
Australia     4
Japan         2
UK            2
Name: country, dtype: int64

10. El promedio de los pagos de cada uno de los clientes de España.

In [44]:
# Se juntan las tablas de pagos y clientes
df_pagos_clientes = pd.merge(df_payments, df_customers,
                             on='customerNumber', how='inner')

df_pagos_clientes.head()

Unnamed: 0,customerNumber,checkNumber,paymentDate,amount,customerName,contactLastName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,country,salesRepEmployeeNumber,creditLimit
0,103,HQ336336,2004-10-19,6066.78,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,France,1370.0,21000.0
1,103,JM555205,2003-06-05,14571.44,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,France,1370.0,21000.0
2,103,OM314933,2004-12-18,1676.14,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,France,1370.0,21000.0
3,112,BO864823,2004-12-17,14191.12,Signal Gift Stores,King,Jean,7025551838,8489 Strong St.,,Las Vegas,NV,83030,USA,1166.0,71800.0
4,112,HQ55022,2003-06-06,32641.98,Signal Gift Stores,King,Jean,7025551838,8489 Strong St.,,Las Vegas,NV,83030,USA,1166.0,71800.0


In [45]:
# Se aplica el filtro del país
condicion_pais = (df_pagos_clientes['country'] == 'Spain')
df_pagos_clientes_espania = df_pagos_clientes[condicion_pais]
df_pagos_clientes_espania.head()

Unnamed: 0,customerNumber,checkNumber,paymentDate,amount,customerName,contactLastName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,country,salesRepEmployeeNumber,creditLimit
36,141,AU364101,2003-07-19,36251.03,Euro+ Shopping Channel,Freyre,Diego,(91) 555 94 44,"C/ Moralzarzal, 86",,Madrid,,28034,Spain,1370.0,227600.0
37,141,DB583216,2004-11-01,36140.38,Euro+ Shopping Channel,Freyre,Diego,(91) 555 94 44,"C/ Moralzarzal, 86",,Madrid,,28034,Spain,1370.0,227600.0
38,141,DL460618,2005-05-19,46895.48,Euro+ Shopping Channel,Freyre,Diego,(91) 555 94 44,"C/ Moralzarzal, 86",,Madrid,,28034,Spain,1370.0,227600.0
39,141,HJ32686,2004-01-30,59830.55,Euro+ Shopping Channel,Freyre,Diego,(91) 555 94 44,"C/ Moralzarzal, 86",,Madrid,,28034,Spain,1370.0,227600.0
40,141,ID10962,2004-12-31,116208.4,Euro+ Shopping Channel,Freyre,Diego,(91) 555 94 44,"C/ Moralzarzal, 86",,Madrid,,28034,Spain,1370.0,227600.0


In [46]:
# Se hace el cálculo de promedio solicitado
df_pagos_clientes_espania.groupby(['customerNumber'])['amount'].mean()

customerNumber
141    55056.844615
216    22840.156667
344    23375.570000
458    37480.030000
484    25493.925000
Name: amount, dtype: float64

# **Parte 3**. Cliente de Python Firestore

En esta parte no logré la instalación en mi local (tengo entendido que es problema de `firebase_admin` con Mac y mi equipo es Mac). Así que lo corrí en Google Colab (para evitar todos los temas de instalación), descargué el Notebook y lo puse en mi repositorio de GitHub en la liga

https://github.com/EduMtzITESM/CienciaAnaliticaDatos10/blob/main/Actividad3AccesoBDManipulacionDatos/Actividad3BDManipulacion_parte3.ipynb

Agradeceré referirese a dicha liga :)