Se usa la base de datos proporcionada en este enlace: https://josejuansanchez.org/bd/ejercicios-consultas-sql/index.html

In [None]:
import sqlite3
import pandas as pd

# Se conecta a una base de datos creada; sino, la crea
conn = sqlite3.connect('/content/base_de_datos.db')

# El execute() recibe un string
# Crear la tabla fabricante
conn.execute("""
  CREATE TABLE fabricante (
  id INT UNSIGNED AUTO_INCREMENT PRIMARY KEY,
  nombre VARCHAR(100) NOT NULL
  );
"""
)

# Crear la tabla producto

conn.execute("""
  CREATE TABLE producto (
  id INT UNSIGNED AUTO_INCREMENT PRIMARY KEY,
  nombre VARCHAR(100) NOT NULL,
  precio DOUBLE NOT NULL,
  id_fabricante INT UNSIGNED NOT NULL,
  FOREIGN KEY (id_fabricante) REFERENCES fabricante(id)
  );
"""
)

# Se insentar los datos en la tabla fabricante
conn.execute("INSERT INTO fabricante VALUES(1, 'Asus');")
conn.execute("INSERT INTO fabricante VALUES(2, 'Lenovo');")
conn.execute("INSERT INTO fabricante VALUES(3, 'Hewlett-Packard');")
conn.execute("INSERT INTO fabricante VALUES(4, 'Samsung');")
conn.execute("INSERT INTO fabricante VALUES(5, 'Seagate');")
conn.execute("INSERT INTO fabricante VALUES(6, 'Crucial');")
conn.execute("INSERT INTO fabricante VALUES(7, 'Gigabyte');")
conn.execute("INSERT INTO fabricante VALUES(8, 'Huawei');")
conn.execute("INSERT INTO fabricante VALUES(9, 'Xiaomi');")

# Se insentar los datos en la tabla producto
conn.execute("INSERT INTO producto VALUES(1, 'Disco duro SATA3 1TB', 86.99, 5);")
conn.execute("INSERT INTO producto VALUES(2, 'Memoria RAM DDR4 8GB', 120, 6);")
conn.execute("INSERT INTO producto VALUES(3, 'Disco SSD 1 TB', 150.99, 4);")
conn.execute("INSERT INTO producto VALUES(4, 'GeForce GTX 1050Ti', 185, 7);")
conn.execute("INSERT INTO producto VALUES(5, 'GeForce GTX 1080 Xtreme', 755, 6);")
conn.execute("INSERT INTO producto VALUES(6, 'Monitor 24 LED Full HD', 202, 1);")
conn.execute("INSERT INTO producto VALUES(7, 'Monitor 27 LED Full HD', 245.99, 1);")
conn.execute("INSERT INTO producto VALUES(8, 'Portátil Yoga 520', 559, 2);")
conn.execute("INSERT INTO producto VALUES(9, 'Portátil Ideapd 320', 444, 2);")
conn.execute("INSERT INTO producto VALUES(10, 'Impresora HP Deskjet 3720', 59.99, 3);")
conn.execute("INSERT INTO producto VALUES(11, 'Impresora HP Laserjet Pro M26nw', 180, 3);")

# Para que el execute se haga efectivo se debe realizar un commit
conn.commit()

In [None]:
# Consultar los datos del fabricante
# resultados = conn.execute("SELECT * FROM fabricante;")
# for fila in resultados:
#   print(fila)

# Primer query - selecciona todos los datos del fabricante
query = "SELECT * FROM fabricante"
df = pd.read_sql_query(query, conn)
df

# Segundo query - selecciona todo de fabricante y lo une con producto igualando llave primaria de fabricante con foranea de producto
query2 = "SELECT * FROM fabricante f JOIN producto p ON p.id_fabricante = f.id"
df2 = pd.read_sql_query(query2, conn)
df2

# Tercer query -
query3 = """
  SELECT p.nombre AS nombre_pro, p.precio AS precio_pro, f.id AS id_fab, f.nombre as nombre_fab
  FROM fabricante f JOIN producto p ON p.id_fabricante = f.id WHERE p.nombre == 'Disco duro SATA3 1TB' OR p.nombre == 'Memoria RAM DDR4 8GB'
"""
df3 = pd.read_sql_query(query3, conn)
df3

# Para cerrar la conexión con la base de datos
conn.close()


Una vez finalizada las consultas y teniendo los DataFrame se puede empezar a hacer un análisis exploratorio de los datos.

In [None]:
df3

Unnamed: 0,nombre_pro,precio_pro,id_fab,nombre_fab
0,Disco duro SATA3 1TB,86.99,5,Seagate
1,Memoria RAM DDR4 8GB,120.0,6,Crucial


In [None]:
seagate = df3.loc[df3['nombre_pro'] == 'Disco duro SATA3 1TB']
seagate

Unnamed: 0,nombre_pro,precio_pro,id_fab,nombre_fab
0,Disco duro SATA3 1TB,86.99,5,Seagate


## Taller: hacer los siguientes ejercicios con base a la base de datos de **Gestión de Empleados**

1. Conectarse a la base de datos Gestión de empleados.
2. Crear las tablas e insertar los registros.
3. Convertir a uno o más dataframes a partir de estas tablas(usar JOIN, WHERE y operadores lógicos).
4. Hacer al menos 4 filtros desde el df o los df creados en pandas usando los siguientes operadores <,>, == , and y or.

In [None]:
# Primero conectamos con la base de datos
con = sqlite3.connect('/content/base_de_datos.db')

# Se crea la tabla departamento
con.execute("""CREATE TABLE departamento (
  id INT UNSIGNED AUTO_INCREMENT PRIMARY KEY,
  nombre VARCHAR(100) NOT NULL,
  presupuesto DOUBLE UNSIGNED NOT NULL,
  gastos DOUBLE UNSIGNED NOT NULL
);""")

# Se crea la tabla empleados

con.execute("""CREATE TABLE empleado (
  id INT UNSIGNED AUTO_INCREMENT PRIMARY KEY,
  nif VARCHAR(9) NOT NULL UNIQUE,
  nombre VARCHAR(100) NOT NULL,
  apellido1 VARCHAR(100) NOT NULL,
  apellido2 VARCHAR(100),
  id_departamento INT UNSIGNED,
  FOREIGN KEY (id_departamento) REFERENCES departamento(id)
);""")


# Se inserta la informacion correspondiente a departamento
con.execute("INSERT INTO departamento VALUES(1, 'Desarrollo', 120000, 6000);")
con.execute("INSERT INTO departamento VALUES(2, 'Sistemas', 150000, 21000);")
con.execute("INSERT INTO departamento VALUES(3, 'Recursos Humanos', 280000, 25000);")
con.execute("INSERT INTO departamento VALUES(4, 'Contabilidad', 110000, 3000);")
con.execute("INSERT INTO departamento VALUES(5, 'I+D', 375000, 380000);")
con.execute("INSERT INTO departamento VALUES(6, 'Proyectos', 0, 0);")
con.execute("INSERT INTO departamento VALUES(7, 'Publicidad', 0, 1000);")

# Se inserta la información correspondiente a empleado
con.execute("INSERT INTO empleado VALUES(1, '32481596F', 'Aarón', 'Rivero', 'Gómez', 1);")
con.execute("INSERT INTO empleado VALUES(2, 'Y5575632D', 'Adela', 'Salas', 'Díaz', 2);")
con.execute("INSERT INTO empleado VALUES(3, 'R6970642B', 'Adolfo', 'Rubio', 'Flores', 3);")
con.execute("INSERT INTO empleado VALUES(4, '77705545E', 'Adrián', 'Suárez', NULL, 4);")
con.execute("INSERT INTO empleado VALUES(5, '17087203C', 'Marcos', 'Loyola', 'Méndez', 5);")
con.execute("INSERT INTO empleado VALUES(6, '38382980M', 'María', 'Santana', 'Moreno', 1);")
con.execute("INSERT INTO empleado VALUES(7, '80576669X', 'Pilar', 'Ruiz', NULL, 2);")
con.execute("INSERT INTO empleado VALUES(8, '71651431Z', 'Pepe', 'Ruiz', 'Santana', 3);")
con.execute("INSERT INTO empleado VALUES(9, '56399183D', 'Juan', 'Gómez', 'López', 2);")
con.execute("INSERT INTO empleado VALUES(10, '46384486H', 'Diego','Flores', 'Salas', 5);")
con.execute("INSERT INTO empleado VALUES(11, '67389283A', 'Marta','Herrera', 'Gil', 1);")
con.execute("INSERT INTO empleado VALUES(12, '41234836R', 'Irene','Salas', 'Flores', NULL);")
con.execute("INSERT INTO empleado VALUES(13, '82635162B', 'Juan Antonio','Sáez', 'Guerrero', NULL);")


<sqlite3.Cursor at 0x7b58510ce7c0>

In [None]:
# En el caso mas sencillo creemos dos querys uno para crear un DF de cada tabla
query1 = "SELECT * from departamento"
df_dep = pd.read_sql_query(query1, con)
query2 = "SELECT * from empleado"
df_emp = pd.read_sql_query(query2, con)

In [None]:
# Ahora unamos las dos tablas haciendo uso de un JOIN
query3 = "SELECT * FROM departamento d JOIN empleado e ON e.id_departamento = d.id"
df_join = pd.read_sql_query(query3, con)
df_join

Unnamed: 0,id,nombre,presupuesto,gastos,id.1,nif,nombre.1,apellido1,apellido2,id_departamento
0,1,Desarrollo,120000.0,6000.0,1,32481596F,Aarón,Rivero,Gómez,1
1,2,Sistemas,150000.0,21000.0,2,Y5575632D,Adela,Salas,Díaz,2
2,3,Recursos Humanos,280000.0,25000.0,3,R6970642B,Adolfo,Rubio,Flores,3
3,4,Contabilidad,110000.0,3000.0,4,77705545E,Adrián,Suárez,,4
4,5,I+D,375000.0,380000.0,5,17087203C,Marcos,Loyola,Méndez,5
5,1,Desarrollo,120000.0,6000.0,6,38382980M,María,Santana,Moreno,1
6,2,Sistemas,150000.0,21000.0,7,80576669X,Pilar,Ruiz,,2
7,3,Recursos Humanos,280000.0,25000.0,8,71651431Z,Pepe,Ruiz,Santana,3
8,2,Sistemas,150000.0,21000.0,9,56399183D,Juan,Gómez,López,2
9,5,I+D,375000.0,380000.0,10,46384486H,Diego,Flores,Salas,5


In [None]:
# De la consulta anterior digamos que solo me interesan las columnas nombre, presupuestos, gastos, nombre, apellido 1
query4 = """
SELECT d.nombre AS nombre_dep, d.presupuesto AS presupuesto_dep,
d.gastos AS gastos_dep, e.nombre AS nombre_emp, e.apellido1 AS apellido_emp
FROM departamento d JOIN empleado e ON e.id_departamento = d.id
"""
df_join2 = pd.read_sql_query(query4, con)
df_join2

Unnamed: 0,nombre_dep,presupuesto_dep,gastos_dep,nombre_emp,apellido_emp
0,Desarrollo,120000.0,6000.0,Aarón,Rivero
1,Sistemas,150000.0,21000.0,Adela,Salas
2,Recursos Humanos,280000.0,25000.0,Adolfo,Rubio
3,Contabilidad,110000.0,3000.0,Adrián,Suárez
4,I+D,375000.0,380000.0,Marcos,Loyola
5,Desarrollo,120000.0,6000.0,María,Santana
6,Sistemas,150000.0,21000.0,Pilar,Ruiz
7,Recursos Humanos,280000.0,25000.0,Pepe,Ruiz
8,Sistemas,150000.0,21000.0,Juan,Gómez
9,I+D,375000.0,380000.0,Diego,Flores


In [None]:
# De la consulta anterior apliquemos siempre y cuando los gastos hayan sido mayores a 6k
query5 = """
SELECT d.nombre AS nombre_dep, d.presupuesto AS presupuesto_dep,
d.gastos AS gastos_dep, e.nombre AS nombre_emp, e.apellido1 AS apellido_emp
FROM departamento d JOIN empleado e ON e.id_departamento = d.id
WHERE d.gastos > 6000;
"""
df_join3 = pd.read_sql_query(query5, con)
df_join3

Unnamed: 0,nombre_dep,presupuesto_dep,gastos_dep,nombre_emp,apellido_emp


In [None]:
# Realizando la misma consulta con pandas
df_join2[df_join2['gastos_dep']>6000]

Unnamed: 0,nombre_dep,presupuesto_dep,gastos_dep,nombre_emp,apellido_emp
1,Sistemas,150000.0,21000.0,Adela,Salas
2,Recursos Humanos,280000.0,25000.0,Adolfo,Rubio
4,I+D,375000.0,380000.0,Marcos,Loyola
6,Sistemas,150000.0,21000.0,Pilar,Ruiz
7,Recursos Humanos,280000.0,25000.0,Pepe,Ruiz
8,Sistemas,150000.0,21000.0,Juan,Gómez
9,I+D,375000.0,380000.0,Diego,Flores
