# SQL y su interacción con Python

## Conceptos básicos

**SQL (Structured Query Language)** Es un lenguaje específico diseñado para manipular datos almacenados en bases de datos relacionales (RDBMS), o para el procesamiento streaming en flujos de datos diseñados para near real time processing (RDSMS). Es particularmente útil en el manejo de datos estructurados, es decir, datos que incorporan relaciones entre entidades y variables.

**SQLite.** SQLite es una librería escrita en lenguaje C que implementa un motor de base de datos SQL pequeño, rápido, autónomo, de alta confiabilidad y con todas las funciones. SQLite es el motor de base de datos más utilizado en el mundo. Este está integrado en todos los teléfonos móviles y la mayoría de las computadoras y viene incluido en innumerables aplicaciones que usamos diariamente.

**SQLAlchemy** Es la librería usada para SQL y mapeo de objetos relacionales que brinda a los desarrolladores la posibilidad de usar toda la potencia y flexibilidad de SQL desde Python.

**Postgres** Es un sistema de administración de bases de datos relacionales (RDBMS) gratuito y de código abierto que enfatiza la extensibilidad y el cumplimiento de SQL. Es posible crear una instancia de este tipo de motor de BD en nube.


## Leer una fuente de datos SQLite

In [1]:
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('sqlite:///crime.db')
#engine=create_engine(f'postgresql://{DB_USERNAME}:{DB_PASSWORD}@localhost/postgres', max_overflow=20)
df = pd.read_sql("SELECT * from crime LIMIT 100", engine.connect(), parse_dates=('OCCURRED_ON_DATE',))
print(df.head())

  INCIDENT_NUMBER  OFFENSE_CODE    OFFENSE_CODE_GROUP   OFFENSE_DESCRIPTION  \
0      I182070945           619               Larceny    LARCENY ALL OTHERS   
1      I182070943          1402             Vandalism             VANDALISM   
2      I182070941          3410                 Towed   TOWED MOTOR VEHICLE   
3      I182070940          3114  Investigate Property  INVESTIGATE PROPERTY   
4      I182070938          3114  Investigate Property  INVESTIGATE PROPERTY   

  DISTRICT REPORTING_AREA SHOOTING    OCCURRED_ON_DATE  YEAR  MONTH  \
0      D14            808     None 2018-09-02 13:00:00  2018      9   
1      C11            347     None 2018-08-21 00:00:00  2018      8   
2       D4            151     None 2018-09-03 19:27:00  2018      9   
3       D4            272     None 2018-09-03 21:16:00  2018      9   
4       B3            421     None 2018-09-03 21:05:00  2018      9   

  DAY_OF_WEEK  HOUR    UCR_PART       STREET        Lat       Long  \
0      Sunday    13    Part 

Los campos que encontramos en el dataset de crimenes:

1. **INCIDENT_NUMBER**
2. **OFFENSE_CODE**
3. **OFFENSE_CODE_GROUP**
4. **OFFENSE_DESCRIPTION**
5. **DISTRICT**
6. **REPORTING_AREA**
7. **SHOOTING**
8. **OCCURED_ON_DATE**
9. **YEAR**
10. **MONTH**
11. **DAY_OF_WEEK**
12. **HOUR**
13. **UCR_PART**
14. **STREET**
15. **Lat**
16. **Long**
17. **Location**

### SELECT, FROM, WHERE

Muestre 100 registros del dataset de crímenes que correspondan a vandalismo.

In [None]:

print(pd.read_sql(
    
    "SELECT * FROM crime WHERE OFFENSE_CODE_GROUP = 'Vandalism' LIMIT 100"
    
    , engine.connect()))

Muestre 10 incidentes del año 2018 con su respectiva descripción

In [None]:
print(pd.read_sql(
    
    "SELECT INCIDENT_NUMBER, OFFENSE_DESCRIPTION FROM crime WHERE YEAR = '2018' LIMIT 10"
    
    , engine.connect()))

Muestre los incidentes que se hayan dado después de las 7pm con su respectiva descripción. Ordene el resultado final por INCIDENT_NUMBER de manera ascendente.

In [None]:
print(pd.read_sql(
    
    "SELECT INCIDENT_NUMBER, HOUR, OFFENSE_DESCRIPTION FROM crime WHERE HOUR >= 19 ORDER BY INCIDENT_NUMBER ASC"
    
    , engine.connect()))

### Conteos y agrupaciones

Cuántos registros hay en el dataset?

In [None]:
print(pd.read_sql(
    
    "SELECT COUNT(0) AS Cantidad FROM crime"
    
    , engine.connect()))

Qué tipos de incidentes hay?

In [None]:
print(pd.read_sql(
    
    "SELECT DISTINCT OFFENSE_CODE_GROUP AS Tipo_Incidente FROM crime"
    
    , engine.connect()))



Cuántos incidentes hay en cada distrito?

In [None]:
print(pd.read_sql(
    
    "SELECT DISTRICT, COUNT(0) AS Cantidad FROM crime GROUP BY DISTRICT"
    
    , engine.connect()))



Cuántos incidentes hay en cada distrito por año?

In [None]:
print(pd.read_sql(
    
    "SELECT DISTRICT, YEAR, COUNT(0) AS Cantidad FROM crime GROUP BY DISTRICT, YEAR"
    
    , engine.connect()))



Sumamos la latitud aunque desde el punto de vista lógico no tiene ningún sentido?

In [None]:
print(pd.read_sql(
    
    "SELECT DISTRICT, SUM(LAT) AS Suma, MIN(LAT), MAX(LAT) FROM crime GROUP BY DISTRICT"
    
    , engine.connect()))

Castiémolo para que no se vea tan feo

In [None]:
print(pd.read_sql(
    
    "SELECT DISTRICT, CAST(SUM(LAT) AS INT) AS Suma FROM crime GROUP BY DISTRICT"
    
    , engine.connect()))

Having !!! Genere datos para los distritos que tengan más de 10.000 incidentes por año.

In [None]:
print(pd.read_sql(
    
    "SELECT DISTRICT, YEAR, COUNT(0) AS Cantidad FROM crime GROUP BY DISTRICT, YEAR HAVING COUNT(0) > 10000"
    
    , engine.connect()))



En algunas ocasiones es valioso obtener un subconjunto de una cadena de datos. En este caso vamos a ver las letras de los distritos.

In [None]:
print(pd.read_sql(
    
    "SELECT SUBSTR(DISTRICT,1,1) AS LETRA_D, YEAR, COUNT(0) AS Cantidad FROM crime GROUP BY SUBSTR(DISTRICT,1,1), YEAR"
    
    , engine.connect()))



## Joins SQL

<table class="tab">
   
  <tr>
    <td class="second" width="60%"><div align="left">(INNER) JOIN: devuelve registros que tienen valores coincidentes en ambas tablas</div></td>
    <td class="second"><img src="inner.gif" width="200"></td>
  </tr>
  <td class="second" width="60%"><div align="left">LEFT (OUTER) JOIN: devuelve todos los registros de la tabla a la izquierda (LEFT) y los registros coincidentes de la tabla a la derecha
</div></td>
    <td class="second"><img src="left.gif" width="200"></td>
  </tr>
</table>

<table class="tab">
   
  <tr>
    <td class="second" width="60%"><div align="left">RIGHT (OUTER) JOIN:devuelve todos los registros de la tabla a la derecha del join y los registros coincidentes de la tabla a la izquierda</div></td>
    <td class="second"><img src="right.gif" width="200"></td>
  </tr>
  <td class="second" width="60%"><div align="left">FULL (OUTER) JOIN: Devuelve todos los registros cuando hay una coincidencia en la tabla a la izquierda o derecha del join</div></td>
    <td class="second"><img src="full_outer.gif" width="200"></td>
  </tr>
</table>

In [None]:
# Creamos tabla catálogo offences
from sqlalchemy import *

meta = MetaData()

offence = Table('offence', meta,
    Column('OFFENSE_CODE', Integer, primary_key=True),
    Column('OFFENSE_CODE_GROUP', String(60), nullable=False, key='name')
)
offence.create(engine)

In [None]:
# Insertamos registro en la tabla
engine.execute(offence.insert().values(OFFENSE_CODE = 1402, name = 'Vandalism'))

Inner Join.

In [None]:
print(pd.read_sql(
    
    "SELECT A.* FROM crime A INNER JOIN offence B ON A.OFFENSE_CODE = B.OFFENSE_CODE"
    
    , engine.connect()))

Conteo Inner Join.

In [None]:
print(pd.read_sql(
    
    "SELECT COUNT(0) FROM crime A INNER JOIN offence B ON A.OFFENSE_CODE = B.OFFENSE_CODE"
    
    , engine.connect()))

Conteo Left Join.

In [None]:
print(pd.read_sql(
    
    "SELECT COUNT(0) FROM crime A LEFT JOIN offence B ON A.OFFENSE_CODE = B.OFFENSE_CODE"
    
    , engine.connect()))

## ROW_NUMBER OVER PARTITION

El objetivo que persigue esta función es obtener el número secuencial de una fila a partir de un conjunto de resultados. Por ejemplo, en nuestra tabla de crímenes queremos conocer los incidentes de un OFFENSE_CODE, pero piense que solo queremos obtener el incidente que tenga ID con el número más alto por OFFENSE_CODE.

Entonces surge la pregunta a partir de la situación mencionada, pero si contamos con varios OFFENSE_CODE, como se supone que determinaré el incidente con ID más alto?

Una respuesta aceptable seria usar la cláusula ORDER BY y ordenar el resultado de manera descendente.

Pero principal problema de todo esto es que conocemos los valores de los OFFENSE_CODE pero no conocemos el número de fila de los registros ordenado por OFFENSE_CODE. Pudiesen existir varios OFFENSE_CODE cada uno de ellos tiene un numero de fila, por tal razón, si vamos a filtrar por OFFENSE_CODE, cada OFFENSE_CODE tiene incidentes pero dichos incidentes agrupados por OFFENSE_CODE tienen un numero de fila. Por ejemplo:

In [None]:
print(pd.read_sql(
    
    "SELECT INCIDENT_NUMBER, OFFENSE_CODE,ROW_NUMBER() OVER (PARTITION BY OFFENSE_CODE ORDER BY INCIDENT_NUMBER DESC) Fila FROM crime"
    
    , engine.connect()))

## Cómo hacer consultas usando WITH (Recursividad)

Intentemos simplificar y aclarar la descripción del algoritmo que figura en los principales manuales que describen esta sentencia. Para simplificarlo, considere solo UNION ALL y WITH cláusula recursiva:


El motor de base de datos ejecuta la selección inicial, tomando sus filas de resultados como conjunto de trabajo. Luego, ejecuta repetidamente la selección recursiva en el conjunto de trabajo, cada vez que reemplaza el contenido del conjunto de trabajo con el resultado de la consulta obtenida. Este proceso finaliza cuando el conjunto vacío se devuelve mediante selección recursiva. Y todas las filas de resultados dadas primero por selección inicial y luego por selección recursiva se recopilan y alimentan a la selección externa, cuyo resultado se convierte en el resultado de la consulta general.

In [None]:
print(pd.read_sql(
    
    "WITH RECURSIVE cnt(x) AS (SELECT 1 UNION ALL SELECT x+1 FROM cnt LIMIT 1000)SELECT x FROM cnt;"
    
    , engine.connect()))