<a href="https://colab.research.google.com/github/seandaza/Python-The-Fundamentals/blob/master/dataVisualizationWithSql.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data-Análisis y Data-Visualización con  Consultas a SQL


> El objetivo de este apartado es proporcionar las habilidades básicas para procesar y visualizar datos a partir de una base de datos relacional  mediante el lenguaje de programación Python.







##Definición

> Una Base de Datos es un sistema para archivar información en computadora, cuyo propósito general es mantener información y hacer que esté disponible cuando se solicite.



##Modelos de Datos

> Es una representación abstracta de los datos de una organización y las relaciones entre ellos. Un modelo de datos describe una organización.



##Tipos de Modelos de Datos
 

1.   Lógicos Basados en Objetos :

*   Modelo Entidad-Realación
*   Orientado a Objetos

2.   Lógicos Basados en Registros:

*   Relacional
*   Red
*   Jerárquico


3. Físicos de Datos





## Sentencias SQL


>Algunas sentencias a tener presentes a la hora de trabajar con bases de datos son la siguientes:



1.   Data Manipulation languaje (DML) : SELECT, INSERT, UPDATE, DELETE, MERGE.
2.   Data Definition languaje (DDL) :  CREATE, ALTER, DROP, RENAME, TRUNCATE, COMMENT.
3.   Data Control Languaje (DCL) : GRANT, REVOKE.
2.   Transaction Control : COMMIT, ROLLBACK, SAVEPOINT.











##Preliminares

> Antes que nada, es importante que almacenes en local la base de datos `hr.db` con la que estaremos trabajando para que no presentes problemas de conexión. 

> Esta base de datos comprende un conjunto de tablas que informan al respecto de los recursos humanos de una empresa. Entre las tablas estan: employees, departments, jobs, locations, countries, regions, dependents, job_grades.
puedes ver el modelo Entidad-Relacion de la base de datos en el siguiente [Link](https://github.com/andresrosso/resources/blob/main/images/schema.png). Detalla cada tabla junto a las columnas que las componen.




In [None]:
!wget https://github.com/andresrosso/resources/blob/main/coding/uan_gc_2021/hr.db

In [None]:
!ls

##Configuración

In [None]:
# Standard libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import glob
import plotly.express as px
import os
import warnings

# Local server SQL database
import sqlite3 as sq

# Setting of Large numbers format
pd.options.display.float_format = '{:,.2f}'.format

# Set data frame display max 10 rows
pd.set_option('display.max_rows', 10)

# Warning is suppressed
warnings.simplefilter(action='ignore', category=FutureWarning)

In [None]:
# Conexion a la base de datos llamada hr.db
con = sq.connect('hr.db')
cur = con.cursor()

In [None]:
# Identidiquemos las tablas que contiene esta Base de Datos
table_list = [a for a in cur.execute("SELECT name FROM sqlite_master WHERE type = 'table'")]

# Lista de Tablas
print(table_list)

[('regions',), ('sqlite_sequence',), ('countries',), ('locations',), ('departments',), ('jobs',), ('employees',), ('dependents',), ('job_grades',)]


##Consultas SQL y visualización a través de Pandas

> Enecerramos la consulta dentro de una variable, la procesamos a través de Pandas estableciendo conexion a la base de datos y la respuesta la guardamos de otra variable.



In [None]:
# Consulta a SQL para ver la tabla 'employees'
q0 = ('select * from employees;')

# Convert the SQL query to Pandas data Frame
r0 = pd.read_sql(q0, con)
r0

Unnamed: 0,employee_id,first_name,last_name,email,phone_number,hire_date,job_id,salary,manager_id,department_id
0,100,Steven,King,steven.king@sqltutorial.org,515.123.4567,1987-06-17,4,24000.00,,9
1,101,Neena,Kochhar,neena.kochhar@sqltutorial.org,515.123.4568,1989-09-21,5,17000.00,100.00,9
2,102,Lex,De Haan,lex.de haan@sqltutorial.org,515.123.4569,1993-01-13,5,17000.00,100.00,9
3,103,Alexander,Hunold,alexander.hunold@sqltutorial.org,590.423.4567,1990-01-03,9,9000.00,102.00,6
4,104,Bruce,Ernst,bruce.ernst@sqltutorial.org,590.423.4568,1991-05-21,9,6000.00,103.00,6
...,...,...,...,...,...,...,...,...,...,...
35,202,Pat,Fay,pat.fay@sqltutorial.org,603.123.6666,1997-08-17,11,6000.00,201.00,2
36,203,Susan,Mavris,susan.mavris@sqltutorial.org,515.123.7777,1994-06-07,8,6500.00,101.00,4
37,204,Hermann,Baer,hermann.baer@sqltutorial.org,515.123.8888,1994-06-07,12,10000.00,101.00,7
38,205,Shelley,Higgins,shelley.higgins@sqltutorial.org,515.123.8080,1994-06-07,2,12000.00,101.00,11


Esa consulta me trae toda la tabla. Pero si queremos visualizar solo algunas columnas de la tabla hacemos los siguiente:

In [None]:
# De la tabla 'employees' veamos solo algunas de sus columnas
q1 = ( 'select first_name, last_name, email from employees;')

# Convert the SQL query to Pandas data Frame
r1 = pd.read_sql(q1, con)
r1

Unnamed: 0,first_name,last_name,email
0,Steven,King,steven.king@sqltutorial.org
1,Neena,Kochhar,neena.kochhar@sqltutorial.org
2,Lex,De Haan,lex.de haan@sqltutorial.org
3,Alexander,Hunold,alexander.hunold@sqltutorial.org
4,Bruce,Ernst,bruce.ernst@sqltutorial.org
...,...,...,...
35,Pat,Fay,pat.fay@sqltutorial.org
36,Susan,Mavris,susan.mavris@sqltutorial.org
37,Hermann,Baer,hermann.baer@sqltutorial.org
38,Shelley,Higgins,shelley.higgins@sqltutorial.org


## Filtrando Datos

> Si queremos que nuestra búsqueda sea mas específica, usamos la sentencia WHERE, para dar mas detalle del dato que queremos visualizar a partir de uno de sus atributos.



In [None]:
# De la tabla 'employees' filtremos en funcion a un atributo
q2 = ('SELECT * from employees WHERE email = "diana.lorentz@sqltutorial.org"')

# Convert the SQL query to Pandas data Frame
r2 = pd.read_sql(q2, con)
r2

Unnamed: 0,employee_id,first_name,last_name,email,phone_number,hire_date,job_id,salary,manager_id,department_id
0,107,Diana,Lorentz,diana.lorentz@sqltutorial.org,590.423.5567,1999-02-07,9,4200.0,103,6


Visualicemos ahora la tabla jobs:

In [None]:
# Consultando toda la tabla 'jobs'
q3 = ('select * from jobs j ')

# Convert the SQL query to Pandas data Frame
r3 = pd.read_sql(q3, con)
r3

Unnamed: 0,job_id,job_title,min_salary,max_salary
0,1,Public Accountant,4200.00,9000.00
1,2,Accounting Manager,8200.00,16000.00
2,3,Administration Assistant,3000.00,6000.00
3,4,President,20000.00,40000.00
4,5,Administration Vice President,15000.00,30000.00
...,...,...,...,...
14,15,Sales Manager,10000.00,20000.00
15,16,Sales Representative,6000.00,12000.00
16,17,Shipping Clerk,2500.00,5500.00
17,18,Stock Clerk,2000.00,5000.00


Podemos hacer una Descripción estadística de los datos de esa tabla usando el método `.describe()`

In [None]:
r3.describe()

Unnamed: 0,job_id,min_salary,max_salary
count,19.0,19.0,19.0
mean,10.0,6568.42,13210.53
std,5.63,4594.81,8876.18
min,1.0,2000.0,5000.0
25%,5.5,4000.0,8750.0
50%,10.0,4500.0,10000.0
75%,14.5,8200.0,15500.0
max,19.0,20000.0,40000.0


##Graficando Datos

In [None]:
# Graficando los salarios máximos por categoría de Empleo
fig1 = px.bar(r3, x="job_title", y="max_salary", orientation='v', title='Salario Maximo por Categoria de Empleo')
fig1.show()

##Operaciones Aritméticas y Sentencia `AS`

> Podemos crear una nueva columna en la tabla cuyas entradas sean una combinación lineal de los valores numéricos de otra columna dada, y también podemos nombrarla con un Alias usando la sentencia `as`.



In [None]:
# creando la Columna "comission"
q4 = ('select first_name, last_name, salary, (salary*0.1) as comission from employees ')

# Convert the SQL query to Pandas data Frame
r4 = pd.read_sql(q4, con)
r4

Unnamed: 0,first_name,last_name,salary,comission
0,Steven,King,24000.00,2400.00
1,Neena,Kochhar,17000.00,1700.00
2,Lex,De Haan,17000.00,1700.00
3,Alexander,Hunold,9000.00,900.00
4,Bruce,Ernst,6000.00,600.00
...,...,...,...,...
35,Pat,Fay,6000.00,600.00
36,Susan,Mavris,6500.00,650.00
37,Hermann,Baer,10000.00,1000.00
38,Shelley,Higgins,12000.00,1200.00


## Sentencia `BETWEEN`
> Podemos hacer consultas entre rangos numéricos, mediante `BETWEEN`





In [None]:
# Consulta a SQL para vaer un rango específico
q5 = ('SELECT employee_id, first_name, last_name, email FROM employees WHERE employee_id BETWEEN 100 AND 150; ')

# Convert the SQL query to Pandas data Frame
r5 = pd.read_sql(q5, con)
r5

Unnamed: 0,employee_id,first_name,last_name,email
0,100,Steven,King,steven.king@sqltutorial.org
1,101,Neena,Kochhar,neena.kochhar@sqltutorial.org
2,102,Lex,De Haan,lex.de haan@sqltutorial.org
3,103,Alexander,Hunold,alexander.hunold@sqltutorial.org
4,104,Bruce,Ernst,bruce.ernst@sqltutorial.org
...,...,...,...,...
22,122,Payam,Kaufling,payam.kaufling@sqltutorial.org
23,123,Shanta,Vollman,shanta.vollman@sqltutorial.org
24,126,Irene,Mikkilineni,irene.mikkilineni@sqltutorial.org
25,145,John,Russell,john.russell@sqltutorial.org


##Función `SUM`

In [None]:
# Consulta a SQL para ver el total pagado por concepto de salarios
q5 = ('SELECT SUM(salary) as summary FROM employees; ')

# Convert the SQL query to Pandas data Frame
r5 = pd.read_sql(q5, con)
r5

Unnamed: 0,summary
0,322400.0


##Agrupando datos con `GROUP BY`

> Si queremos agrupar datos usamos la sentencia `GROUP BY`



In [None]:
# Consulta a SQL para ver el total pagado por concepto de salarios por Departamento
q6 = (
      'SELECT department_id, SUM(salary) AS summary '
      'FROM employees '
      'GROUP BY department_id'
     )

# Convert the SQL query to Pandas data Frame
r6 = pd.read_sql(q6, con)
r6

Unnamed: 0,department_id,summary
0,1,4400.00
1,2,19000.00
2,3,24900.00
3,4,6500.00
4,5,41200.00
...,...,...
6,7,10000.00
7,8,57700.00
8,9,58000.00
9,10,51600.00


Note que se muestra los totales de gastos por salario agrupado por departamento, pero no vemos con detalle el nombre del departamento, sino solo su id. A la hora de general un reporte, ver el nombre del departamento aportaria mas al detalle.  Veamos como ver el nombre del departamento

##Funcion `INNER JOIN`

> Me va a traer la información de los datos que están en común entre dos tablas.



> Revisa el modelo de Entidad- Relación de nuestra base de datos en el siguiente [Link](https://github.com/andresrosso/resources/blob/main/images/schema.png)








###Ejemplo 1


> Queremos ver el total de salario pagados por departamentos. Para ello, Seleccionamos las columnas de las tablas que me vinculan la información necesaria haciendo uso de los Alias e intersectamos ambas tablas con la columna que tiene en comun (department_id) y las agrupamos bajo un criterio conveniente (department_name). Veamos:



In [None]:
# Consulta a SQL para ver el total pagado por concepto de salarios
q7 = (
      'SELECT d.department_name, SUM(e.salary) AS summary '
      'FROM employees e '
      'INNER JOIN departments d ON e.department_id = d.department_id'
      ' GROUP BY d.department_name;'
     )

# Convert the SQL query to Pandas data Frame
r7 = pd.read_sql(q7, con)
r7

Unnamed: 0,department_name,summary
0,Accounting,20300.00
1,Administration,4400.00
2,Executive,58000.00
3,Finance,51600.00
4,Human Resources,6500.00
...,...,...
6,Marketing,19000.00
7,Public Relations,10000.00
8,Purchasing,24900.00
9,Sales,57700.00


##Graficando Datos

In [None]:
# Graficando los salarios máximos por categoría de Empleo
fig2 = px.line(r7, x="department_name", y="summary", title='Salario Total por Departamento')
fig2.show()

###Ejemplo 2

> Vamos a ver la lista total de empleados asociados a el nombre del departamento al cual pertenecen. Para ello, hacemos uso nuevamente de la sentencia `INNER JOIN`



In [None]:
# Consulta a SQL para ver el total pagado por concepto de salarios
q8 = (
      'SELECT e.employee_id, e.first_name, e.last_name, d.department_name '
      'FROM employees e '
      'INNER JOIN departments d ON e.department_id = d.department_id'
     )

# Convert the SQL query to Pandas data Frame
r8 = pd.read_sql(q8, con)
r8

Unnamed: 0,employee_id,first_name,last_name,department_name
0,100,Steven,King,Executive
1,101,Neena,Kochhar,Executive
2,102,Lex,De Haan,Executive
3,103,Alexander,Hunold,IT
4,104,Bruce,Ernst,IT
...,...,...,...,...
35,202,Pat,Fay,Marketing
36,203,Susan,Mavris,Human Resources
37,204,Hermann,Baer,Public Relations
38,205,Shelley,Higgins,Accounting


#Taller 



1. El departamento de recursos humanos desea que una consulta muestre el apellido, la identificación del trabajo, la fecha de contratación y la identificación del empleado, apareciendo primero la identificación del empleado. Proporcione un alias STARDATE para la columna HIRE_DATE.

2.   A la tabla que se generó en el ejemplo 2 de la sección de `INNER JOIN`, cree una nueva columna que muestre el tipo de empleo (job_title) que tiene cada empleado y adjuntela  ala tabla.

3. El departamento de Recursos Humanos necesita un informe de los empleados en Toronto. Muestre el Apellido, el trabajo, el numero de departamento y el nombre del departamento para todos lo empleados que trabajan en Toronto.






