Documento presentado como tarea del curso *Métodos Intensivos de Computación Estadística* <br>
Elaborado por Boris Mauricio Martinez Gutierrez

# Bases de Datos Relacionales - SQL

## Contenido

**1.** Instalación de las Bases de Datos

**2.** Diagramas Entidad-Relación

**3.** Diseño e Implementación de las bases de datos

**4.** Consultas a las Bases de Datos

**5.** Procedimientos, Triggers y Funciones

**6.** Análisis estadístico con Python

## 1. Instalación de las Bases de Datos

Los archivos que contienen los esquemas y los datos de cada base de datos fueron previamente descargados del sitio web: https://dev.mysql.com/doc/index-other.html.<br>
Los siguientes comandos se ejecutan directamente en el cliente de *mysql*.

### 1.1. employees DB

Previo a la instalación, se modifica la ruta de los *dump-files* en el archivo <code>employees.sql</code>

In [14]:
source /home/boris/Descargas/employees/employees.sql;

In [None]:
use employees;

In [17]:
show tables;

Tables_in_employees
current_dept_emp
departments
dept_emp
dept_emp_latest_date
dept_manager
employees
salaries
titles


In [26]:
describe employees;

Field,Type,Null,Key,Default,Extra
emp_no,int(11),NO,PRI,,
birth_date,date,NO,,,
first_name,varchar(14),NO,,,
last_name,varchar(16),NO,,,
gender,"enum('M','F')",NO,,,
hire_date,date,NO,,,


In [28]:
describe salaries;

Field,Type,Null,Key,Default,Extra
emp_no,int(11),NO,PRI,,
salary,int(11),NO,,,
from_date,date,NO,PRI,,
to_date,date,NO,,,


### 1.2. world DB

In [None]:
source /home/boris/Descargas/world/world.sql;

In [None]:
use world;

In [32]:
show tables;

Tables_in_world
city
country
countrylanguage


In [34]:
describe country;

Field,Type,Null,Key,Default,Extra
Code,char(3),NO,PRI,,
Name,char(52),NO,,,
Continent,"enum('Asia','Europe','North America','Africa','Oceania','Antarctica','South America')",NO,,Asia,
Region,char(26),NO,,,
SurfaceArea,"decimal(10,2)",NO,,0.00,
IndepYear,smallint(6),YES,,,
Population,int(11),NO,,0,
LifeExpectancy,"decimal(3,1)",YES,,,
GNP,"decimal(10,2)",YES,,,
GNPOld,"decimal(10,2)",YES,,,


### 1.3. world_x DB

In [None]:
source /home/boris/Descargas/world_x-db/world_x.sql;

In [None]:
use world_x;

In [39]:
show tables;

Tables_in_world_x
city
country
countrylanguage


In [41]:
describe city;

Field,Type,Null,Key,Default,Extra
ID,int(11),NO,PRI,,auto_increment
Name,char(35),NO,,,
CountryCode,char(3),NO,,,
District,char(20),NO,,,
Info,longtext,YES,,,


### 1.4. sakila DB

In [None]:
source /home/boris/Descargas/sakila-db/sakila-schema.sql;

In [None]:
source /home/boris/Descargas/sakila-db/sakila-data.sql;

In [None]:
use sakila;

In [45]:
show tables;

Tables_in_sakila
actor
actor_info
address
category
city
country
customer
customer_list
film
film_actor


In [47]:
describe film;

Field,Type,Null,Key,Default,Extra
film_id,smallint(5) unsigned,NO,PRI,,auto_increment
title,varchar(128),NO,MUL,,
description,text,YES,,,
release_year,year(4),YES,,,
language_id,tinyint(3) unsigned,NO,MUL,,
original_language_id,tinyint(3) unsigned,YES,MUL,,
rental_duration,tinyint(3) unsigned,NO,,3,
rental_rate,"decimal(4,2)",NO,,4.99,
length,smallint(5) unsigned,YES,,,
replacement_cost,"decimal(5,2)",NO,,19.99,


### 1.5. menagerie DB

Previo a la instalación de la base de datos, se consolida el código de los archivos: <code>cr_event_tbl.sql</code>, <code>cr_pet_tbl.sql</code>, <code>ins_puff_rec.sql</code> y <code>load_pet_tbl.sql</code> en un único archivo llamado <code>menagerie.sql</code> para facilitar la creación de la base de datos y la importación de los datos.

In [56]:
source /home/boris/Descargas/menagerie-db/menagerie.sql;

In [None]:
use menagerie;

In [60]:
show tables;

Tables_in_menagerie
event
pet


In [62]:
describe pet;

Field,Type,Null,Key,Default,Extra
name,varchar(20),YES,,,
owner,varchar(20),YES,,,
species,varchar(20),YES,,,
sex,char(1),YES,,,
birth,date,YES,,,
death,date,YES,,,


## 2. Diagramas Entidad-Relación

Los diagramas E-R (entidad-relación) para cada base de datos fueron construidos con la aplicación web [SqlDBM](https://sqldbm.com) a partir de la información sobre los esquemas de diseño contenidos en el codigo de los archivos descargados.

### 2.1. employees DB

![1](images/employees-2021-04-03.png)

### 2.2. world DB

![2](images/world-2021-04-03.png)

### 2.3. world_x DB

![3](images/world_x-2021-04-03.png)

### 2.4. sakila DB

![4](images/sakila-2021-04-03.png)

### 2.5. menagerie DB

![5](images/menagerie-2021-04-03.png)

## 3. Diseño e Implementación de las Bases de Datos 

### 3.1. employees DB

La base de datos **employees** cuenta con 8 tablas. Entre las principales están las siguientes:
- `departments`: contiene los nombres de las diferentes áreas de trabajo de la empresa. Cuenta con nueve registros. Tiene una relación muchos a muchos con la tabla `employees` a través de la tabla `dep_emp`.
- `employees`: contiene la informacion personal y características principales de todos los empleados. Cuenta con 300024 registros. 
- `dep_emp`: contiene las llaves primarias de las tablas `employees` y `departments`, además, el periodo de vigencia de la relación. Cuenta con 331603 registros. Implementa la relacion muchos a muchos entre las tablas mencionadas.
- `salaries`: contiene el salario por empleado y en cada período donde esa cifra estuvo vigente. Cuenta con 2844047 registros. La tabla `employees` tiene una relación uno a muchos con esta tabla.
- `titles`: contiene los cargos profesionales que cada empleado ha ocupado y su período de vigencia. Cuenta con 443308 registros. La tabla `employees` tiene una relación uno a muchos con esta tabla.

### 3.2. world DB 

La base de datos **world** consta de 3 tablas:
- `country`: contiene información de todos los países del mundo, su nombre, abreviatura y algunas características socio-políticas y económicas. Cuenta con 239 registros. Tiene una relación uno a muchos tanto con la tabla `city` como con la tabla `countrylanguage`.
- `city`: contiene las principales ciudades de cada país, el nombre del distrito al que pertenecen y el número de habitantes. Cuenta con 4079 registros. Identifica cada registro con un valor de la llave primaria de la tabla `country`.
- `countrylanguage`: contiene los idiomas que se hablan en cada país, un atributo que indica si el idioma es el oficial y la proporción de la población que lo habla. Cuenta con 984 registros. Identifica cada registro con un valor de la llave primaria de la tabla `country`.

### 3.3. world_x DB

La base de datos **world_x** es similar a la anterior, consta de 3 tablas:
- `country`: contiene el nombre de todos los países del mundo y el identificador de su capital. Cuenta con 239 registros. Tiene una relación uno a muchos tanto con la tabla `city` como con la tabla `countrylanguage`.
- `city`: contiene las principales ciudades de cada país, el nombre del distrito al que pertenecen y el número de habitantes. Cuenta con 4079 registros. Identifica cada registro con un valor de la llave primaria de la tabla `country`.
- `countrylanguage`: contiene los idiomas que se hablan en cada país, un atributo que indica si el idioma es el oficial y la proporción de la poblacion que lo habla. Cuenta con 984 registros. Identifica cada registro con un valor de la llave primaria de la tabla `country`.

### 3.4. sakila DB

La base de datos **sakila** dispone la información relacionada con las películas, transacciones, los empleados, clientes, el inventario y las tiendas de una empresa de alquiler de películas en DVD. En total consta de 16 tablas y 9 vistas. Entre las principales están las siguientes:
- `actor`: contiene el nombre completo de los actores que participan en cada una de las peliculas disponibles para alquiler. Cuenta con 1000 registros. Tiene una relacion muchos a muchos con la tabla `film`.
- `film`: contiene el título de cada una de la películas disponibles y características tales como su duración, calificación para el público, idioma original, entre otras. Cuenta con 1000 registros. Tiene una relación muchos a muchos con las tablas `actor` y `category`, muchos a uno con la tabla `language` y uno a muchos con `ìnventory`
- `category`: contiene los nombres de los diferentes géneros en los que se clasifican las películas. Cuenta con 16 registros. Tiene una relacion muchos a muchos con la tabla `film`.
- `film_actor`: implementa la relación muchos a muchos entre las tablas `actor` y `film`.
- `film_category`: implementa la relación muchos a muchos entre las tablas `category` y `film`.
- `inventory`: contiene información del stock de películas y las llaves primarias de `film` y `store` con las que tiene una relación muchos a uno. Cuenta con 4581 registros.
- `store`: contiene el identificador de cada tienda y las llaves primarias de las tablas `address` y `staff`, con las que tiene una relación muchos a uno. Cuenta con 2 registros.
- `address`: contiene las direcciones de residencia de los administradores y clientes, igualmente, las direcciones de las tiendas. Cuenta con 603 registros. Mantiene una relación uno a muchos con las tablas `staff`, `customers` y `store`, además, una relación muchos a uno con `city`.
- `staff`: contiene la información personal de los administradores de las tiendas. Cuenta con 2 registros.
- `customers`: contiene la información personal de todos los clientes. Cuenta con 599 registros. Mantiene una relación uno a muchos con la tabla `rental`.
- `rental`: contiene el historial de alquileres realizados por los clientes en las tiendas. Cuenta con 16044 registros. Mantiene una relación uno a muchos con la tabla que registra las transacciones:`payment` 

### 3.5. menagerie DB

La base de datos **menagerie** cuenta con tan sólo dos tablas:
- `pet`: contiene el nombre, la especie, el nombre del dueño y otras características de nueve mascotas.
- `event`: registra la información de los eventos en los que han participado las mascotas y sus dueños.
</br>
Ambas tablas podrían relacionarse mediante el atributo `name`, no obstante, la relación no está implementada por llaves o tablas auxiliares.

## 4. Consultas a las Bases de Datos

### 4.1. employees DB

In [None]:
use employees;

In [86]:
select * from employees limit 10;

emp_no,birth_date,first_name,last_name,gender,hire_date
10001,1953-09-02,Georgi,Facello,M,1986-06-26
10002,1964-06-02,Bezalel,Simmel,F,1985-11-21
10003,1959-12-03,Parto,Bamford,M,1986-08-28
10004,1954-05-01,Chirstian,Koblick,M,1986-12-01
10005,1955-01-21,Kyoichi,Maliniak,M,1989-09-12
10006,1953-04-20,Anneke,Preusig,F,1989-06-02
10007,1957-05-23,Tzvetan,Zielinski,F,1989-02-10
10008,1958-02-19,Saniya,Kalloufi,M,1994-09-15
10009,1952-04-19,Sumant,Peac,F,1985-02-18
10010,1963-06-01,Duangkaew,Piveteau,F,1989-08-24


Número de hombres y mujeres en la empresa:

In [107]:
select if(gender like 'M', 'Hombres', 'Mujeres') as 'Empleados',
       count(*) as 'Numero'
from employees
group by gender;

Empleados,Numero
Hombres,179973
Mujeres,120051


Salario promedio de hombres y mujeres:

In [90]:
select if(gender like 'M', 'Masculino', 'Femenino') as 'Sexo',
       avg(salary) as 'Salario'
from employees
join salaries using(emp_no)
group by gender;

Sexo,Salario
Masculino,63838.1769
Femenino,63769.6032


Cargos en la empresa:

In [4]:
select distinct title as 'Cargo' from titles;

Cargo
Senior Engineer
Staff
Engineer
Senior Staff
Assistant Engineer
Technique Leader
Manager


Salario promedio por cargo:

In [113]:
select Cargo, `Salario promedio`
from 
(  select title as 'Cargo',
          avg(salary) as 'Salario promedio'
   from employees
   join titles using(emp_no)
   join salaries using(emp_no)
   group by title
) as t1
order by `Salario promedio`;

Cargo,Salario promedio
Technique Leader,59294.3742
Assistant Engineer,59304.9863
Engineer,59508.0397
Senior Engineer,60543.2191
Manager,66924.2706
Staff,69309.1023
Senior Staff,70470.8353


Número de hombres y mujeres en el cargo más reciente:

In [17]:
select ifnull(last_title, 'Total') as 'Cargo',
       count(if(gender like 'M', 'M', NULL)) as 'Hombres',
       count(if(gender like 'F', 'F', NULL)) as 'Mujeres' 
from employees
join
(   select emp_no, last_value(title) over (
                                           partition by emp_no 
                                           order by unix_timestamp(from_date) 
                                           range between unbounded preceding and unbounded following) last_title 
    from titles group by emp_no
) as t1 using(emp_no)
group by last_title with rollup;

Cargo,Hombres,Mujeres
Assistant Engineer,9176,5952
Engineer,63266,42444
Manager,11,13
Senior Engineer,18008,12039
Senior Staff,55762,37082
Staff,24709,16414
Technique Leader,9041,6107
Total,179973,120051


### 4.2. world DB 

In [None]:
use world;

Algunos indicadores socio-económicos de los países de Sur América: 

In [35]:
select Code, Name, Continent,
       (Population/SurfaceArea) as 'Density',
       round((GNP/Population)*1000000) as 'GNP per capita',
       LifeExpectancy
from country
where Continent like 'South America'
limit 15;

Code,Name,Continent,Density,GNP per capita,LifeExpectancy
ARG,Argentina,South America,13.3189,9188,75.1
BOL,Bolivia,South America,7.5816,1029,63.7
BRA,Brazil,South America,19.9025,4566,62.9
CHL,Chile,South America,20.1037,4796,75.7
COL,Colombia,South America,37.1591,2431,70.3
ECU,Ecuador,South America,44.5971,1563,71.1
FLK,Falkland Islands,South America,0.1643,0,
GUF,French Guiana,South America,2.0111,3762,76.1
GUY,Guyana,South America,4.0052,839,64.0
PER,Peru,South America,19.9671,2499,70.0


Número de países por continente:

In [33]:
select Continent, count(*) as 'Number of countries'
from country
group by Continent;

Continent,Number of countries
Asia,51
Europe,46
North America,37
Africa,58
Oceania,28
Antarctica,5
South America,14


Top 10 Países donde se hablan más idiomas:

In [52]:
select Name, n as 'Numero de idiomas'
from country
join 
(  select CountryCode as Code, count(*) as n
   from countrylanguage
   group by CountryCode
) as t1 using(Code)
order by n desc
limit 10;

Name,Numero de idiomas
India,12
Canada,12
United States,12
Russian Federation,12
China,12
Tanzania,11
South Africa,11
Sudan,10
"Congo, The Democratic Republic of the",10
Kenya,10


Proporción de países donde la lengua española es la lengua oficial:

In [146]:
set @n_countries=(select count(*) from countrylanguage);
select concat(round((n_spa/@n_countries)*100, 2), ' %') as Percentage
from 
(
    select count(*) as n_spa
    from countrylanguage
    where IsOfficial='T' and Language='Spanish'
) as t1
;

Percentage
2.03 %


Proporción de la población mundial que habla español:

In [28]:
set @world_pop=(select sum(Population) from country);

select concat(round(100*sum(spa_pop)/@world_pop, 2), ' %') as Percentage
from
(
    select Code, (Population*Percentage/100) as spa_pop
    from country
    join
    (
        select CountryCode as Code, Percentage
        from countrylanguage
        where Language='Spanish'
    ) as t1 using(Code)
) as t2 
;

Percentage
5.84 %


### 4.3. world_x DB

In [None]:
use world_x;

In [31]:
select * from city limit 10;

ID,Name,CountryCode,District,Info
1,Kabul,AFG,Kabol,"{""Population"": 1780000}"
2,Qandahar,AFG,Qandahar,"{""Population"": 237500}"
3,Herat,AFG,Herat,"{""Population"": 186800}"
4,Mazar-e-Sharif,AFG,Balkh,"{""Population"": 127800}"
5,Amsterdam,NLD,Noord-Holland,"{""Population"": 731200}"
6,Rotterdam,NLD,Zuid-Holland,"{""Population"": 593321}"
7,Haag,NLD,Zuid-Holland,"{""Population"": 440900}"
8,Utrecht,NLD,Utrecht,"{""Population"": 234323}"
9,Eindhoven,NLD,Noord-Brabant,"{""Population"": 201843}"
10,Tilburg,NLD,Noord-Brabant,"{""Population"": 193238}"


Top 10 Ciudades más populosas del mundo:

In [47]:
select Name, cast(regexp_substr(Info, '[0-9]+') as int) as Population 
from city
order by Population desc
limit 10;

Name,Population
Mumbai (Bombay),10500000
Seoul,9981619
São Paulo,9968485
Shanghai,9696300
Jakarta,9604900
Karachi,9269265
Istanbul,8787958
Ciudad de México,8591309
Moscow,8389200
New York,8008278


Proporción de países en el mundo cuya capital es también su ciudad más populosa:

In [67]:
with capitals   as (select Capital from country where Capital is not NULL),
     pop_cities as (select ID, max(cast(regexp_substr(Info, '[0-9]+') as int)) as Population, 1 as IsMostPop
                    from city
                    group by CountryCode)

select concat(round(avg(IsMostPop)*100, 2), ' %') as Percentage
from
(
    select c.Capital, ifnull(p.IsMostPop, 0) as IsMostPop
    from capitals c
    left join pop_cities p on(c.Capital=p.ID)
) as result
;

Percentage
79.31 %


### 4.4. sakila DB

In [None]:
use sakila;

Número de películas por calificación al público:

In [77]:
select rating as 'Calificación', count(*) as 'Número de películas' from film group by rating;

Calificación,Número de películas
G,178
PG,194
PG-13,223
R,195
NC-17,210


Top 10 actores con más apariciones en películas:

In [112]:
select concat(first_name, ' ', last_name) as 'Actor/Actriz',
       n as 'Apariciones en películas'
from actor
join
(
    select actor_id, count(film_id) as n from film_actor group by actor_id
) as t1 using(actor_id)
order by n desc
limit 10
;

Actor/Actriz,Apariciones en películas
GINA DEGENERES,42
WALTER TORN,41
MARY KEITEL,40
MATTHEW CARREY,39
SANDRA KILMER,37
SCARLETT DAMON,36
VIVIEN BASINGER,35
UMA WOOD,35
HENRY BERRY,35
VAL BOLGER,35


Género en el que más han participado el top 10 de actores con más apariciones en películas (como porcentaje del total de apariciones):

In [111]:
with top as (
    select actor_id, count(film_id) as n from film_actor group by actor_id order by n desc limit 10
), top_actor_film as (
    select actor_id, film_id
    from film_actor
    join top using(actor_id)
), top_actor_cat_film as (
    select ta.actor_id, ta.film_id, c.name
    from top_actor_film ta
    join film_category using(film_id) join category c using(category_id)
), result as (
    select actor_id, name, max(n) as appearances
    from (
        select actor_id, name, count(*) as n from top_actor_cat_film group by actor_id, name
    ) as t
    group by actor_id
)

select concat(a.first_name, ' ', a.last_name) as 'Actor/Actriz',
       r.name as 'Género',
       concat(round((r.appearances/top.n)*100, 2), ' %') as 'Participación'
from result r
join top using(actor_id)
join actor a using(actor_id)
;

Actor/Actriz,Género,Participación
GINA DEGENERES,Action,16.67 %
WALTER TORN,Action,12.20 %
MARY KEITEL,Action,10.00 %
MATTHEW CARREY,Action,12.82 %
SANDRA KILMER,Action,10.81 %
SCARLETT DAMON,Action,13.89 %
HENRY BERRY,Action,14.29 %
GROUCHO DUNST,Action,14.29 %


Top 5 Géneros con más peliculas:

In [117]:
select *
from (
    select c.name as 'Género', count(*) as 'Número de películas'
    from film_category
    join category c using(category_id)
    group by c.name
) as t
order by `Número de películas` desc
limit 5
;

Género,Número de películas
Sports,74
Foreign,73
Family,69
Documentary,68
Animation,66


Top 5 Géneros con más ventas:

In [120]:
select c.name as 'Género', sum(p.amount) as 'Ventas'
from payment p 
join rental r using(rental_id)
join inventory i using(inventory_id)
join film_category f using(film_id)
join category c using(category_id)
group by c.name
order by Ventas desc
limit 5;

Género,Ventas
Sports,5314.21
Sci-Fi,4756.98
Animation,4656.3
Drama,4587.39
Comedy,4383.58


Top 5 Géneros con más ventas por título (en dólares):

In [27]:
with sales_per_cat as (
    select c.name as category, sum(p.amount) as sales
    from payment p 
    join rental r using(rental_id)
    join inventory i using(inventory_id)
    join film_category f using(film_id)
    join category c using(category_id)
    group by c.name
), titles_per_cat as (
    select c.name as category, count(*) as n_titles
    from film_category
    join category c using(category_id)
    group by c.name
)

select category as 'Género', (sales/n_titles) as 'Ventas por título (dólares)'
from sales_per_cat join titles_per_cat using(category)
order by `Ventas por título (dólares)` desc
limit 5
;

Género,Ventas por título (dólares)
Sci-Fi,77.983279
Comedy,75.578966
Drama,73.990161
Sports,71.813649
Animation,70.55


### 4.5. menagerie DB

In [None]:
use menagerie;

In [70]:
select * from pet limit 5;

name,owner,species,sex,birth,death
Fluffy,Harold,cat,f,1993-02-04,
Claws,Gwen,cat,m,1994-03-17,
Buffy,Harold,dog,f,1989-05-13,
Fang,Benny,dog,m,1990-08-27,
Bowser,Diane,dog,m,1979-08-31,1995-07-29


Número de animales por especie:

In [72]:
select species as Specie, count(*) as Number from pet group by species;

Specie,Number
bird,2
cat,2
dog,3
hamster,1
snake,1


Eventos ocurridos en el año 1998:

In [74]:
select name, `date`, type from event where year(`date`)='1998';

name,date,type
Fang,1998-08-28,birthday
Claws,1998-03-17,birthday
Whistler,1998-12-09,birthday


## 5. Procedimientos, Triggers y Funciones

Únicamente las bases de datos **employees** y **sakila** almacenan funciones y procedimientos. En cuanto a triggers, ésta ultima contiene algunos ejemplos.

### 5.1 Procedimientos

Un procedimiento permite almacenar la implementación de varios comandos SQL. Esto reporta una ventaja en seguridad pues permite a usuarios regulares de la base de datos realizar secuencias de consultas, previamente programadas y autorizadas, sin consultar directamente las tablas.

El siguiente ejemplo es tomado del archivo `objects.sql` de la base de datos **employees**. El código crea un procedimiento que muestra cada departamento (área de trabajo de la empresa) y el número de empleados que allí trabajan.

In [1]:
use employees;

In [None]:
delimiter //

create procedure show_departments()
modifies sql data
begin
    DROP TABLE IF EXISTS department_max_date;
    DROP TABLE IF EXISTS department_people;
    CREATE TEMPORARY TABLE department_max_date
    (
        emp_no int not null primary key,
        dept_from_date date not null,
        dept_to_date  date not null, # bug#320513
        KEY (dept_from_date, dept_to_date)
    );
    INSERT INTO department_max_date
    SELECT
        emp_no, max(from_date), max(to_date)
    FROM
        dept_emp
    GROUP BY
        emp_no;

    CREATE TEMPORARY TABLE department_people
    (
        emp_no int not null,
        dept_no char(4) not null,
        primary key (emp_no, dept_no)
    );

    insert into department_people
    select dmd.emp_no, dept_no
    from
        department_max_date dmd
        inner join dept_emp de
            on dmd.dept_from_date=de.from_date
            and dmd.dept_to_date=de.to_date
            and dmd.emp_no=de.emp_no;
    SELECT
        dept_no,dept_name,manager, count(*)
        from v_full_departments
            inner join department_people using (dept_no)
        group by dept_no;
        # with rollup;
    DROP TABLE department_max_date;
    DROP TABLE department_people;
end //

delimiter ;

Los procedimientos almacenados en la base de datos **sakila**:

In [8]:
show procedure status where Db='sakila';

Db,Name,Type,Definer,Modified,Created,Security_type,Comment,character_set_client,collation_connection,Database Collation
sakila,film_in_stock,PROCEDURE,root@localhost,2021-03-25 14:54:00,2021-03-25 14:54:00,DEFINER,,utf8mb4,utf8mb4_general_ci,utf8mb4_general_ci
sakila,film_not_in_stock,PROCEDURE,root@localhost,2021-03-25 14:54:00,2021-03-25 14:54:00,DEFINER,,utf8mb4,utf8mb4_general_ci,utf8mb4_general_ci
sakila,rewards_report,PROCEDURE,root@localhost,2021-03-25 14:54:00,2021-03-25 14:54:00,DEFINER,Provides a customizable report on best customers,utf8mb4,utf8mb4_general_ci,utf8mb4_general_ci


El siguente ejemplo tomado del archivo `sakila-schema.sql`, crea un procedimiento que consulta el número de películas que aún quedan en stock en alguna de las tiendas cuando se ingresan los identificadores de la peĺícula y la tienda.

In [None]:
use sakila;

In [None]:
DELIMITER $$

CREATE PROCEDURE film_in_stock(IN p_film_id INT, IN p_store_id INT, OUT p_film_count INT)
READS SQL DATA
BEGIN
     SELECT inventory_id
     FROM inventory
     WHERE film_id = p_film_id
     AND store_id = p_store_id
     AND inventory_in_stock(inventory_id);

     SELECT COUNT(*)
     FROM inventory
     WHERE film_id = p_film_id
     AND store_id = p_store_id
     AND inventory_in_stock(inventory_id)
     INTO p_film_count;
END $$

DELIMITER ;

### 5.2 Triggers

Un *trigger* o disparador es un objeto en la base de datos que está asociado a una tabla y que activa una sentencia SQL cuando un evento ocurre en ella.
Los eventos sobre una tabla que activan el disparador están relacionados con las sentencias INSERT, UPDATE o DELETE.

Los disparadores almacenados en la base de datos **sakila** son:

El siguente ejemplo tomado del archivo `sakila-schema.sql`, crea un disparador que elimina automáticamente la sinopsis (descripción de la trama) de la tabla `film_text`, luego de que el administrador elimina el registro de una película en particular de la tabla `film`.

In [None]:
DELIMITER ;;

CREATE TRIGGER `del_film` AFTER DELETE ON `film` FOR EACH ROW BEGIN
    DELETE FROM film_text WHERE film_id = old.film_id;
  END;;

### 5.3 Funciones

Una función ejecuta y aplica una serie de operaciones definidas por el usuario a los valores o variables de entrada y retorna un resultado que, generalmente, es otro valor (valor de salida). Actúan de forma similar a las funciones nativas del motor de consulta de las bases de datos. A diferencia de los procedimientos que se invocan con la sentencia CALL, las funciones se pueden invocar dentro de otros comandos o sentencias SQL.

Uno de los varios ejemplos de funciones que contiene el archivo `objects.sql` muestra el código para crear una función que retorne el nombre del empleado cuando se ingresa el identificador como valor de entrada.

In [None]:
delimiter //

create function emp_name (employee_id int)
returns varchar(32)
reads SQL data
begin
    return (
        select
            concat(first_name, ' ', last_name) as name
        from
            employees
        where
            emp_no = employee_id
    );
end//

Por su parte, las funciones almacenadas en la base de datos **sakila** son:

In [8]:
show function status where Db='sakila';

Db,Name,Type,Definer,Modified,Created,Security_type,Comment,character_set_client,collation_connection,Database Collation
sakila,get_customer_balance,FUNCTION,root@localhost,2021-03-25 14:54:00,2021-03-25 14:54:00,DEFINER,,utf8mb4,utf8mb4_general_ci,utf8mb4_general_ci
sakila,inventory_held_by_customer,FUNCTION,root@localhost,2021-03-25 14:54:00,2021-03-25 14:54:00,DEFINER,,utf8mb4,utf8mb4_general_ci,utf8mb4_general_ci
sakila,inventory_in_stock,FUNCTION,root@localhost,2021-03-25 14:54:00,2021-03-25 14:54:00,DEFINER,,utf8mb4,utf8mb4_general_ci,utf8mb4_general_ci


La función `get_customer_balance` devuelve el saldo a favor o en contra que tiene un cliente con las tiendas de alquiler de DVD's en una fecha determinada cuando se ingresan como valores de entrada el identificador del cliente y la fecha en cuestión. La funcion ejecuta tres consultas a las tablas `rental`, `inventory`, `film` y `payments` para obtener la suma hasta la fecha de interés de todos los cobros por tarifa de alquiler, multas por retraso en la devolución y pagos hechos por el cliente. El resultado final es la suma de los dos primeros cobros menos los pagos.

In [None]:
DELIMITER $$

CREATE FUNCTION get_customer_balance(p_customer_id INT, p_effective_date DATETIME) RETURNS DECIMAL(5,2)
    DETERMINISTIC
    READS SQL DATA
BEGIN

       #OK, WE NEED TO CALCULATE THE CURRENT BALANCE GIVEN A CUSTOMER_ID AND A DATE
       #THAT WE WANT THE BALANCE TO BE EFFECTIVE FOR. THE BALANCE IS:
       #   1) RENTAL FEES FOR ALL PREVIOUS RENTALS
       #   2) ONE DOLLAR FOR EVERY DAY THE PREVIOUS RENTALS ARE OVERDUE
       #   3) IF A FILM IS MORE THAN RENTAL_DURATION * 2 OVERDUE, CHARGE THE REPLACEMENT_COST
       #   4) SUBTRACT ALL PAYMENTS MADE BEFORE THE DATE SPECIFIED

  DECLARE v_rentfees DECIMAL(5,2); #FEES PAID TO RENT THE VIDEOS INITIALLY
  DECLARE v_overfees INTEGER;      #LATE FEES FOR PRIOR RENTALS
  DECLARE v_payments DECIMAL(5,2); #SUM OF PAYMENTS MADE PREVIOUSLY

  SELECT IFNULL(SUM(film.rental_rate),0) INTO v_rentfees
    FROM film, inventory, rental
    WHERE film.film_id = inventory.film_id
      AND inventory.inventory_id = rental.inventory_id
      AND rental.rental_date <= p_effective_date
      AND rental.customer_id = p_customer_id;

  SELECT IFNULL(SUM(IF((TO_DAYS(rental.return_date) - TO_DAYS(rental.rental_date)) > film.rental_duration,
        ((TO_DAYS(rental.return_date) - TO_DAYS(rental.rental_date)) - film.rental_duration),0)),0) INTO v_overfees
    FROM rental, inventory, film
    WHERE film.film_id = inventory.film_id
      AND inventory.inventory_id = rental.inventory_id
      AND rental.rental_date <= p_effective_date
      AND rental.customer_id = p_customer_id;


  SELECT IFNULL(SUM(payment.amount),0) INTO v_payments
    FROM payment

    WHERE payment.payment_date <= p_effective_date
    AND payment.customer_id = p_customer_id;

  RETURN v_rentfees + v_overfees - v_payments;
END $$

DELIMITER ;

## 6. Análisis estadístico con Python

El análisis estadístico de algunas consultas a la base de datos **sakila** se realizan en notebook de python: [db-essay-py.pynb](db-essay.pynb).