#**CIENCIA Y ANALÍTICA DE DATOS - MIGUEL MARINES**
##**<u>Conexión a Base de Datos Relacional y Manipulación de Datos con SQL y Pandas</u>**
---
---
*   SQL
*   Pandas
---
---

En esta actividad se usará la base de datos relacional `classicmodels` (MySQL), compuesta por las siguientes tablas:

*   `Customers`: Almacena los datos de los clientes.
*   `Products`: Almacena una lista de modelos de coches a escala.
*   `ProductLines`: Almacena una lista de categorías de líneas de productos.
*   `Orders`: Almacena los pedidos de venta realizados por los clientes.
*   `OrderDetails`: Almacena elementos de línea de pedidos de ventas para cada pedido de ventas.
*   `Payments`: Almacena los pagos realizados por los clientes en función de sus cuentas.
*   `Employees`: Almacena toda la información de los empleados, así como la estructura de la organización, como quién informa a quién.
*   `Offices`: Almacena los datos de la oficina de ventas.

Se revisa a detalle su esquema para comprender cómo se relacionan las tablas anteriores.


Recordar:


*   Una **clave primaria** es un atributo (o conjunto) que identifica unívocamente a cada registro en la tabla.
*   Una **clave foránea** (externa o ajena) es un atributos (o conjunto) en una tabla que es una clave primaria en otra (o posiblemente la misma) tabla.
*   Las **relaciones** son las líneas que conectan una tabla con otra y el extremo determina la cardinalidad. Las relaciones con línea continua (identificadora) representan una transformación donde la clave primaria de una tabla pasa a ser foránea y primaria (al mismo tiempo) de otra. Las relaciones con línea discontinua (no identificadora) representan una transformación donde la clave primaria de una tabla pasa a ser sólo foránea en otra.

# **Parte 1**. SQLAlchemy y SQL

In [None]:
# Se installa en python (pip install) la librería pymsql que permite interactuar
# con bases de datos MySQL desde una aplicación de Python.

In [None]:
pip install pymysql



In [None]:
# Biblioteca que facilita la interacción con bases de datos relacionales.
import sqlalchemy as sqla
# Biblioteca específica para interactuar con bases de datos MySQL desde Python.
import pymysql
# Biblioteca para el análisis y manipulación de datos en Python.
import pandas as pd

Creación del motor `sqlalchemy`, con el método `create_engine()` y una conexión con `connect()`.

In [None]:
# Creación de un objeto Engine de SQLAlchemy que representa la conexión a una base de datos MySQL utilizando PyMySQL como controlador,
# con la información de autenticación y la dirección de la base de datos proporcionadas en la URL de conexión.
# Además, se configura un tiempo de reciclaje para las conexiones en la piscina.

# Creación del motor(engine) (dialecto://usuarioBD:clave@ipHostDBMS:puerto/esquema)
db = sqla.create_engine('mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.106.157.52:3306/classicmodels', pool_recycle = 3600)

# Creación de una conexión para poder hacer declaraciones SQL.
conn = db.connect()

**Consultas en SQL para obtener:**

1.	Exploración inicial de la base de datos.

In [None]:
# Obten tablas existentes en la base de datos.
query = sqla.text('SHOW TABLES')

# Ejecución de la consulta SQL y conexión a la base de datos. Se cargan los resultados en un DataFrame de pandas.
df = pd.read_sql(query, conn)

# Se agrega un nombre a la columna resultante del query.
df.columns = ['Tables']

# Show result.
df

Unnamed: 0,Tables
0,customers
1,employees
2,offices
3,orderdetails
4,orders
5,payments
6,productlines
7,products


2.	La información de las líneas de productos.

In [None]:
# Query - Consulta SQL
query = sqla.text('SELECT * FROM productlines')

# Ejecución de la consulta SQL y conexión a la base de datos. Se cargan los resultados en un DataFrame de pandas.
df = pd.read_sql(query, conn)
df

Unnamed: 0,productLine,textDescription,htmlDescription,image
0,Classic Cars,Attention car enthusiasts: Make your wildest c...,,
1,Motorcycles,Our motorcycles are state of the art replicas ...,,
2,Planes,"Unique, diecast airplane and helicopter replic...",,
3,Ships,The perfect holiday or anniversary gift for ex...,,
4,Trains,Model trains are a rewarding hobby for enthusi...,,
5,Trucks and Buses,The Truck and Bus models are realistic replica...,,
6,Vintage Cars,Our Vintage Car models realistically portray a...,,


3.	Los empleados ordenados por nombre.

In [None]:
# Query - Consulta SQL
query = sqla.text('SELECT firstName FROM employees ORDER BY firstName ASC')

# Ejecución de la consulta SQL y conexión a la base de datos. Se cargan los resultados en un DataFrame de pandas.
df = pd.read_sql(query, conn)
df

Unnamed: 0,firstName
0,Andy
1,Anthony
2,Barry
3,Diane
4,Foon Yue
5,George
6,Gerard
7,Gerard
8,Jeff
9,Julie


4.	Los países donde hay oficinas.

In [None]:
# Query - Consulta SQL
query = sqla.text('SELECT DISTINCT(country) FROM offices')

# Ejecución de la consulta SQL y conexión a la base de datos. Se cargan los resultados en un DataFrame de pandas.
df = pd.read_sql(query, conn)
df

Unnamed: 0,country
0,USA
1,France
2,Japan
3,Australia
4,UK


5.	El nombre y teléfono de los clientes de Nueva York (*NYC*).

In [None]:
# Query - Consulta SQL
query = sqla.text("SELECT customerName, phone FROM customers WHERE city = 'NYC'")

# Ejecución de la consulta SQL y conexión a la base de datos. Se cargan los resultados en un DataFrame de pandas.
df = pd.read_sql(query, conn)
df

Unnamed: 0,customerName,phone
0,Land of Toys Inc.,2125557818
1,Muscle Machine Inc,2125557413
2,Vitachrome Inc.,2125551500
3,Classic Legends Inc.,2125558493
4,Microscale Inc.,2125551957


6.	El código y nombre de los productos del vendedor *Gearbox Collectibles* que tengan menos de 1000 unidades en stock.

In [None]:
# Query - Consulta SQL
query = sqla.text("SELECT productCode, productName FROM products WHERE productVendor = 'Gearbox Collectibles' AND quantityInStock < 1000")

# Ejecución de la consulta SQL y conexión a la base de datos. Se cargan los resultados en un DataFrame de pandas.
df = pd.read_sql(query, conn)
df

Unnamed: 0,productCode,productName
0,S18_2581,P-51-D Mustang
1,S18_2795,1928 Mercedes-Benz SSK


7.	Los tres productos más caros, desde el punto de visto de los comercializadores (`buyPrice`).

In [None]:
# Query - Consulta SQL
query = sqla.text("SELECT * FROM products ORDER BY buyPrice DESC LIMIT 3")

# Ejecución de la consulta SQL y conexión a la base de datos. Se cargan los resultados en un DataFrame de pandas.
df = pd.read_sql(query, conn)
df

Unnamed: 0,productCode,productName,productLine,productScale,productVendor,productDescription,quantityInStock,buyPrice,MSRP
0,S10_4962,1962 LanciaA Delta 16V,Classic Cars,1:10,Second Gear Diecast,Features include: Turnable front wheels; steer...,6791,103.42,147.74
1,S18_2238,1998 Chrysler Plymouth Prowler,Classic Cars,1:18,Gearbox Collectibles,Turnable front wheels; steering function; deta...,4724,101.51,163.73
2,S10_1949,1952 Alpine Renault 1300,Classic Cars,1:10,Classic Metal Creations,Turnable front wheels; steering function; deta...,7305,98.58,214.3


In [None]:
# MISMA CONSULTA QUE LA ANTERIOR SOLO MOSTRANDO EL NOMBRE Y BUYPRICE DEL PRODUCTO.
# Query - Consulta SQL
query = sqla.text("SELECT productName, buyPrice FROM products ORDER BY buyPrice DESC LIMIT 3")

# Ejecución de la consulta SQL y conexión a la base de datos. Se cargan los resultados en un DataFrame de pandas.
df = pd.read_sql(query, conn)
df

Unnamed: 0,productName,buyPrice
0,1962 LanciaA Delta 16V,103.42
1,1998 Chrysler Plymouth Prowler,101.51
2,1952 Alpine Renault 1300,98.58


8.	La cantidad de productos por línea de producto (no las existencias en inventario).

In [None]:
# Query - Consulta SQL
query = sqla.text("SELECT productLine, COUNT(productLine) FROM products GROUP BY productLine ORDER BY COUNT(productLine) DESC")

# Ejecución de la consulta SQL y conexión a la base de datos. Se cargan los resultados en un DataFrame de pandas.
df = pd.read_sql(query, conn)
df

Unnamed: 0,productLine,COUNT(productLine)
0,Classic Cars,38
1,Vintage Cars,24
2,Motorcycles,13
3,Planes,12
4,Trucks and Buses,11
5,Ships,9
6,Trains,3


9.	La cantidad de empleados por país (tomando en cuenta la ubicación de la oficina).

In [None]:
# Query - Consulta SQL
query = sqla.text('SELECT country, COUNT(o.country) FROM employees e INNER JOIN offices o ON e.officeCode = o.officeCode GROUP BY country ORDER BY COUNT(o.country) DESC')

# Ejecución de la consulta SQL y conexión a la base de datos. Se cargan los resultados en un DataFrame de pandas.
df = pd.read_sql(query, conn)
# Se agrega un nombre a las columnas resultante del query.
df.columns = ['Country', 'Employees']
df

Unnamed: 0,Country,Employees
0,USA,10
1,France,5
2,Australia,4
3,UK,2
4,Japan,2


10.	El promedio de los pagos de cada uno de los clientes de España.

In [None]:
# Query - Consulta SQL
query = sqla.text("SELECT c.customerName, AVG(od.quantityOrdered * od.priceEach) AS promedioPago FROM customers c JOIN orders o ON c.customerNumber = o.customerNumber JOIN orderdetails od ON o.orderNumber = od.orderNumber WHERE c.country = 'Spain' GROUP BY c.customerName")

# Ejecución de la consulta SQL y conexión a la base de datos. Se cargan los resultados en un DataFrame de pandas.
df = pd.read_sql(query, conn)
df

Unnamed: 0,customerName,promedioPago
0,CAF Imports,3596.241538
1,"Corrida Auto Replicas, Ltd",3513.752813
2,Enaco Distributors,2979.15087
3,Euro+ Shopping Channel,3168.685483
4,"Iberia Gift Imports, Corp.",3399.19


# **Parte 2**. Manipulación de Datos con Pandas

1. Carga de las tablas empleadas en dataframes con el mismo nombre y se resuelven las consultas anteriores con las funciones de Pandas. Se cuida no sobreescribir los dataframes originales al resolver las consultas. Se deben de obtener los mismos resultados que con SQL.

In [None]:
# Variedad de funciones y expresiones para realizar operaciones en consultas SQL.
from sqlalchemy.sql.functions import OrderedSetAgg

# DataFrame para cada una de las tablas de la base de datos.
customers = pd.read_sql(sqla.text("SELECT * FROM customers"), conn)
employees = pd.read_sql(sqla.text("SELECT * FROM employees"), conn)
offices = pd.read_sql(sqla.text("SELECT * FROM offices"), conn)
orderdetails = pd.read_sql(sqla.text("SELECT * FROM orderdetails"), conn)
orders = pd.read_sql(sqla.text("SELECT * FROM orders"), conn)
payments = pd.read_sql(sqla.text("SELECT * FROM payments"), conn)
productlines = pd.read_sql(sqla.text("SELECT * FROM productlines"), conn)
products = pd.read_sql(sqla.text("SELECT * FROM products"), conn)

2.	La información de las líneas de productos.

In [None]:
# Información de las líneas de productos.
productlines

Unnamed: 0,productLine,textDescription,htmlDescription,image
0,Classic Cars,Attention car enthusiasts: Make your wildest c...,,
1,Motorcycles,Our motorcycles are state of the art replicas ...,,
2,Planes,"Unique, diecast airplane and helicopter replic...",,
3,Ships,The perfect holiday or anniversary gift for ex...,,
4,Trains,Model trains are a rewarding hobby for enthusi...,,
5,Trucks and Buses,The Truck and Bus models are realistic replica...,,
6,Vintage Cars,Our Vintage Car models realistically portray a...,,


3.	Los empleados ordenados por nombre.

In [None]:
# Empleados ordenados por nombre.
#.reset_index()  -   Restablece el índice del nuevo DataFrame.
df = employees[['firstName']].sort_values(by = 'firstName').reset_index(drop = True)
df

Unnamed: 0,firstName
0,Andy
1,Anthony
2,Barry
3,Diane
4,Foon Yue
5,George
6,Gerard
7,Gerard
8,Jeff
9,Julie


4.	Los países donde hay oficinas.

In [None]:
# Países donde hay oficinas.
df = offices[['country']].drop_duplicates()
df

Unnamed: 0,country
0,USA
3,France
4,Japan
5,Australia
6,UK


5.	El nombre y teléfono de los clientes de Nueva York (*NYC*).

In [None]:
# Nombre y teléfono de los clientes de Nueva York (NYC).
df = customers[customers['city'] == 'NYC'][['customerName', 'phone']].reset_index(drop = True)
df

Unnamed: 0,customerName,phone
0,Land of Toys Inc.,2125557818
1,Muscle Machine Inc,2125557413
2,Vitachrome Inc.,2125551500
3,Classic Legends Inc.,2125558493
4,Microscale Inc.,2125551957


6.	El código y nombre de los productos del vendedor *Gearbox Collectibles* que tengan menos de 1000 unidades en stock.

In [None]:
# Código y nombre de los productos del vendedor Gearbox Collectibles que tengan menos de 1000 unidades en stock.
df = products[(products['productVendor'] == 'Gearbox Collectibles') & (products['quantityInStock'] < 1000)][['productCode', 'productName']]
df

Unnamed: 0,productCode,productName
30,S18_2581,P-51-D Mustang
32,S18_2795,1928 Mercedes-Benz SSK


7.	Los tres productos más caros, desde el punto de visto de los comercializadores (`buyPrice`).

In [None]:
# Los tres productos más caros, desde el punto de visto de los comercializadores (buyPrice).
df = products.sort_values(by = 'buyPrice', ascending = False).head(3).reset_index(drop = True)
df

Unnamed: 0,productCode,productName,productLine,productScale,productVendor,productDescription,quantityInStock,buyPrice,MSRP
0,S10_4962,1962 LanciaA Delta 16V,Classic Cars,1:10,Second Gear Diecast,Features include: Turnable front wheels; steer...,6791,103.42,147.74
1,S18_2238,1998 Chrysler Plymouth Prowler,Classic Cars,1:18,Gearbox Collectibles,Turnable front wheels; steering function; deta...,4724,101.51,163.73
2,S10_1949,1952 Alpine Renault 1300,Classic Cars,1:10,Classic Metal Creations,Turnable front wheels; steering function; deta...,7305,98.58,214.3


8.	La cantidad de productos por línea de producto (no las existencias en inventario).

In [None]:
# Cantidad de productos por línea de producto (no las existencias en inventario).
df = products['productLine'].value_counts().reset_index()
df.columns = ['productLine', 'COUNT(productLine)']
df

Unnamed: 0,productLine,COUNT(productLine)
0,Classic Cars,38
1,Vintage Cars,24
2,Motorcycles,13
3,Planes,12
4,Trucks and Buses,11
5,Ships,9
6,Trains,3


9.	La cantidad de empleados por país (tomando en cuenta la ubicación de la oficina).

In [None]:
# Cantidad de empleados por país (tomando en cuenta la ubicación de la oficina).
# INNER JOIN
merged_df = employees.merge(offices, on = 'officeCode')

# Agrupación por 'country' y se cuentan los registros.
result_df = merged_df.groupby('country').size().reset_index(name = 'COUNT(country)')

# Orden descendente por COUNT(country).
result_df = result_df.sort_values(by = 'COUNT(country)', ascending = False)

# Ajuste de indice.
result_df = result_df.reset_index(drop = True)

result_df.columns = ['Country', 'Employees']

# Se muestra el resultado
result_df

Unnamed: 0,Country,Employees
0,USA,10
1,France,5
2,Australia,4
3,Japan,2
4,UK,2


10.	El promedio de los pagos de cada uno de los clientes de España.

In [None]:
# Promedio de los pagos de cada uno de los clientes de España.

# JOINs
merged_df = pd.merge(customers, orders, on = 'customerNumber')
merged_df = pd.merge(merged_df, orderdetails, on = 'orderNumber')

# Filtrado del país.
filtered_df = merged_df[merged_df['country'] == 'Spain']

# Calculo del promedio de pago y agrupación por el nombre del cliente.
result_df = filtered_df.groupby('customerName')[['quantityOrdered', 'priceEach']].apply(lambda x: (x['quantityOrdered'] * x['priceEach']).mean()).reset_index()
result_df.columns = ['customerName', 'promedioPago']

# Se muestra el resultado
result_df

Unnamed: 0,customerName,promedioPago
0,CAF Imports,3596.241538
1,"Corrida Auto Replicas, Ltd",3513.752812
2,Enaco Distributors,2979.15087
3,Euro+ Shopping Channel,3168.685483
4,"Iberia Gift Imports, Corp.",3399.19
