# SQL y su interacción con Python

## Conceptos básicos

**SQL (Structured Query Language)** Es un lenguaje específico diseñado para manipular datos almacenados en bases de datos relacionales (RDBMS), o para el procesamiento streaming en flujos de datos diseñados para near real time processing (RDSMS). Es particularmente útil en el manejo de datos estructurados, es decir, datos que incorporan relaciones entre entidades y variables.

**SQLite.** SQLite es una librería escrita en lenguaje C que implementa un motor de base de datos SQL pequeño, rápido, autónomo, de alta confiabilidad y con todas las funciones. SQLite es el motor de base de datos más utilizado en el mundo. Este está integrado en todos los teléfonos móviles y la mayoría de las computadoras y viene incluido en innumerables aplicaciones que usamos diariamente.

**SQLAlchemy** Es la librería usada para SQL y mapeo de objetos relacionales que brinda a los desarrolladores la posibilidad de usar toda la potencia y flexibilidad de SQL desde Python.

**Postgres** Es un sistema de administración de bases de datos relacionales (RDBMS) gratuito y de código abierto que enfatiza la extensibilidad y el cumplimiento de SQL. Es posible crear una instancia de este tipo de motor de BD en nube.


## Leer una fuente de datos SQLite

In [37]:
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('sqlite:///crime.db')
#engine=create_engine(f'postgresql://{DB_USERNAME}:{DB_PASSWORD}@localhost/postgres', max_overflow=20)
df = pd.read_sql("SELECT * from crime LIMIT 100", engine.connect(), parse_dates=('OCCURRED_ON_DATE',))
print(df.head())

  INCIDENT_NUMBER  OFFENSE_CODE    OFFENSE_CODE_GROUP   OFFENSE_DESCRIPTION  \
0      I182070945           619               Larceny    LARCENY ALL OTHERS   
1      I182070943          1402             Vandalism             VANDALISM   
2      I182070941          3410                 Towed   TOWED MOTOR VEHICLE   
3      I182070940          3114  Investigate Property  INVESTIGATE PROPERTY   
4      I182070938          3114  Investigate Property  INVESTIGATE PROPERTY   

  DISTRICT REPORTING_AREA SHOOTING    OCCURRED_ON_DATE  YEAR  MONTH  \
0      D14            808     None 2018-09-02 13:00:00  2018      9   
1      C11            347     None 2018-08-21 00:00:00  2018      8   
2       D4            151     None 2018-09-03 19:27:00  2018      9   
3       D4            272     None 2018-09-03 21:16:00  2018      9   
4       B3            421     None 2018-09-03 21:05:00  2018      9   

  DAY_OF_WEEK  HOUR    UCR_PART       STREET        Lat       Long  \
0      Sunday    13    Part 

Los campos que encontramos en el dataset de crimenes:

1. **INCIDENT_NUMBER**
2. **OFFENSE_CODE**
3. **OFFENSE_CODE_GROUP**
4. **OFFENSE_DESCRIPTION**
5. **DISTRICT**
6. **REPORTING_AREA**
7. **SHOOTING**
8. **OCCURED_ON_DATE**
9. **YEAR**
10. **MONTH**
11. **DAY_OF_WEEK**
12. **HOUR**
13. **UCR_PART**
14. **STREET**
15. **Lat**
16. **Long**
17. **Location**

### SELECT, FROM, WHERE

Muestre 100 registros del dataset de crímenes que correspondan a vandalismo.

In [16]:

print(pd.read_sql(
    
    "SELECT * FROM crime WHERE OFFENSE_CODE_GROUP = 'Vandalism' LIMIT 100"
    
    , engine.connect()))

   INCIDENT_NUMBER  OFFENSE_CODE OFFENSE_CODE_GROUP OFFENSE_DESCRIPTION  \
0       I182070943          1402          Vandalism           VANDALISM   
1       I182070887          1402          Vandalism           VANDALISM   
2       I182070881          1402          Vandalism           VANDALISM   
3       I182070872          1402          Vandalism           VANDALISM   
4       I182070822          1402          Vandalism           VANDALISM   
5       I182070803          1402          Vandalism           VANDALISM   
6       I182070765          1402          Vandalism           VANDALISM   
7       I182070763          1402          Vandalism           VANDALISM   
8       I182070746          1402          Vandalism           VANDALISM   
9       I182070701          1402          Vandalism           VANDALISM   
10      I182070680          1402          Vandalism           VANDALISM   
11      I182070652          1402          Vandalism           VANDALISM   
12      I182070625       

Muestre 10 incidentes del año 2018 con su respectiva descripción

In [14]:
print(pd.read_sql(
    
    "SELECT INCIDENT_NUMBER, OFFENSE_DESCRIPTION FROM crime WHERE YEAR = '2018' LIMIT 10"
    
    , engine.connect()))

  INCIDENT_NUMBER                         OFFENSE_DESCRIPTION
0      I182070945                          LARCENY ALL OTHERS
1      I182070943                                   VANDALISM
2      I182070941                         TOWED MOTOR VEHICLE
3      I182070940                        INVESTIGATE PROPERTY
4      I182070938                        INVESTIGATE PROPERTY
5      I182070936  M/V ACCIDENT INVOLVING PEDESTRIAN - INJURY
6      I182070933                                  AUTO THEFT
7      I182070932                              VERBAL DISPUTE
8      I182070931                            ROBBERY - STREET
9      I182070929                              VERBAL DISPUTE


Muestre los incidentes que se hayan dado después de las 7pm con su respectiva descripción. Ordene el resultado final por INCIDENT_NUMBER de manera ascendente.

In [21]:
print(pd.read_sql(
    
    "SELECT INCIDENT_NUMBER, HOUR, OFFENSE_DESCRIPTION FROM crime WHERE HOUR >= 19 ORDER BY INCIDENT_NUMBER ASC"
    
    , engine.connect()))

  INCIDENT_NUMBER  HOUR                                OFFENSE_DESCRIPTION
0   I010370257-00    19                                     WARRANT ARREST
1   I110177502-00    21                                     WARRANT ARREST
2   I110177502-00    21                                  ASSAULT & BATTERY
3   I110177502-00    21                                     WARRANT ARREST
4   I110551302-00    22                                     WARRANT ARREST
5   I110551302-00    22                    LARCENY SHOPLIFTING $50 TO $199
6   I120470733-00    19                                         AUTO THEFT
7   I120470733-00    19                                         AUTO THEFT
8   I120470733-00    19  RECOVERED - MV RECOVERED IN BOSTON (STOLEN OUT...
9   I130031413-00    21                               DRUGS - POSS CLASS E


### Conteos y agrupaciones

Cuántos registros hay en el dataset?

In [23]:
print(pd.read_sql(
    
    "SELECT COUNT(0) AS Cantidad FROM crime"
    
    , engine.connect()))

   Cantidad
0    319073


Qué tipos de incidentes hay?

In [24]:
print(pd.read_sql(
    
    "SELECT DISTINCT OFFENSE_CODE_GROUP AS Tipo_Incidente FROM crime"
    
    , engine.connect()))



                               Tipo_Incidente
0                                     Larceny
1                                   Vandalism
2                                       Towed
3                        Investigate Property
4             Motor Vehicle Accident Response
5                                  Auto Theft
6                             Verbal Disputes
7                                     Robbery
8                        Fire Related Reports
9                                       Other
10                              Property Lost
11                         Medical Assistance
12           Assembly or Gathering Violations
13                 Larceny From Motor Vehicle
14                       Residential Burglary
15                             Simple Assault
16               Restraining Order Violations
17                                 Violations
18                                 Harassment
19                                 Ballistics
20                             Pro

Cuántos incidentes hay en cada distrito?

In [25]:
print(pd.read_sql(
    
    "SELECT DISTRICT, COUNT(0) AS Cantidad FROM crime GROUP BY DISTRICT"
    
    , engine.connect()))



   DISTRICT  Cantidad
0      None      1765
1        A1     35717
2       A15      6505
3        A7     13544
4        B2     49945
5        B3     35442
6       C11     42530
7        C6     23460
8       D14     20127
9        D4     41915
10      E13     17536
11      E18     17348
12       E5     13239


Cuántos incidentes hay en cada distrito por año?

In [26]:
print(pd.read_sql(
    
    "SELECT DISTRICT, YEAR, COUNT(0) AS Cantidad FROM crime GROUP BY DISTRICT, YEAR"
    
    , engine.connect()))



   DISTRICT  YEAR  Cantidad
0      None  2015       128
1      None  2016       517
2      None  2017       576
3      None  2018       544
4        A1  2015      6015
5        A1  2016     10923
6        A1  2017     11375
7        A1  2018      7404
8       A15  2015      1027
9       A15  2016      1986
10      A15  2017      2167
11      A15  2018      1325
12       A7  2015      2426
13       A7  2016      4130
14       A7  2017      4264
15       A7  2018      2724
16       B2  2015      8687
17       B2  2016     15706
18       B2  2017     15680
19       B2  2018      9872
20       B3  2015      5617
21       B3  2016     11145
22       B3  2017     11195
23       B3  2018      7485
24      C11  2015      7364
25      C11  2016     13603
26      C11  2017     13281
27      C11  2018      8282
28       C6  2015      3941
29       C6  2016      7073
30       C6  2017      7247
31       C6  2018      5199
32      D14  2015      3280
33      D14  2016      6279
34      D14  2017   

Sumamos la latitud aunque desde el punto de vista lógico no tiene ningún sentido?

In [36]:
print(pd.read_sql(
    
    "SELECT DISTRICT, SUM(LAT) AS Suma, MIN(LAT), MAX(LAT) FROM crime GROUP BY DISTRICT"
    
    , engine.connect()))

   DISTRICT          Suma   MIN(LAT)   MAX(LAT)
0      None  3.737971e+04  -1.000000  42.388445
1        A1  1.367341e+06  -1.000000  42.376181
2       A15  2.602454e+05  -1.000000  42.394213
3        A7  5.517058e+05  -1.000000  42.395042
4        B2  1.955296e+06  -1.000000  42.392146
5        B3  1.424981e+06  -1.000000  42.372579
6       C11  1.728712e+06  -1.000000  42.377463
7        C6  9.183247e+05  -1.000000  42.385841
8       D14  8.095232e+05  -1.000000  42.372466
9        D4  1.625734e+06  -1.000000  42.377552
10      E13  7.023851e+05  -1.000000  42.357826
11      E18  7.032510e+05  42.232413  42.357889
12       E5  5.403450e+05  -1.000000  42.356024


Castiémolo para que no se vea tan feo

In [31]:
print(pd.read_sql(
    
    "SELECT DISTRICT, CAST(SUM(LAT) AS INT) AS Suma FROM crime GROUP BY DISTRICT"
    
    , engine.connect()))

   DISTRICT     Suma
0      None    37379
1        A1  1367341
2       A15   260245
3        A7   551705
4        B2  1955295
5        B3  1424981
6       C11  1728711
7        C6   918324
8       D14   809523
9        D4  1625734
10      E13   702385
11      E18   703251
12       E5   540345


Having !!! Genere datos para los distritos que tengan más de 10.000 incidentes por año.

In [32]:
print(pd.read_sql(
    
    "SELECT DISTRICT, YEAR, COUNT(0) AS Cantidad FROM crime GROUP BY DISTRICT, YEAR HAVING COUNT(0) > 10000"
    
    , engine.connect()))



  DISTRICT  YEAR  Cantidad
0       A1  2016     10923
1       A1  2017     11375
2       B2  2016     15706
3       B2  2017     15680
4       B3  2016     11145
5       B3  2017     11195
6      C11  2016     13603
7      C11  2017     13281
8       D4  2016     12953
9       D4  2017     13157


En algunas ocasiones es valioso obtener un subconjunto de una cadena de datos. En este caso vamos a ver las letras de los distritos.

In [34]:
print(pd.read_sql(
    
    "SELECT SUBSTR(DISTRICT,1,1) AS LETRA_D, YEAR, COUNT(0) AS Cantidad FROM crime GROUP BY SUBSTR(DISTRICT,1,1), YEAR"
    
    , engine.connect()))



   LETRA_D  YEAR  Cantidad
0     None  2015       128
1     None  2016       517
2     None  2017       576
3     None  2018       544
4        A  2015      9468
5        A  2016     17039
6        A  2017     17806
7        A  2018     11453
8        B  2015     14304
9        B  2016     26851
10       B  2017     26875
11       B  2018     17357
12       C  2015     11305
13       C  2016     20676
14       C  2017     20528
15       C  2018     13481
16       D  2015     10484
17       D  2016     19232
18       D  2017     19666
19       D  2018     12660
20       E  2015      7699
21       E  2016     14799
22       E  2017     15435
23       E  2018     10190


## Joins SQL

<table class="tab">
   
  <tr>
    <td class="second" width="60%"><div align="left">(INNER) JOIN: devuelve registros que tienen valores coincidentes en ambas tablas</div></td>
    <td class="second"><img src="inner.gif" width="200"></td>
  </tr>
  <td class="second" width="60%"><div align="left">LEFT (OUTER) JOIN: devuelve todos los registros de la tabla a la izquierda (LEFT) y los registros coincidentes de la tabla a la derecha
</div></td>
    <td class="second"><img src="left.gif" width="200"></td>
  </tr>
</table>

<table class="tab">
   
  <tr>
    <td class="second" width="60%"><div align="left">RIGHT (OUTER) JOIN:devuelve todos los registros de la tabla a la derecha del join y los registros coincidentes de la tabla a la izquierda</div></td>
    <td class="second"><img src="right.gif" width="200"></td>
  </tr>
  <td class="second" width="60%"><div align="left">FULL (OUTER) JOIN: Devuelve todos los registros cuando hay una coincidencia en la tabla a la izquierda o derecha del join</div></td>
    <td class="second"><img src="full_outer.gif" width="200"></td>
  </tr>
</table>

In [45]:
# Creamos tabla catálogo offences
from sqlalchemy import *

meta = MetaData()

offence = Table('offence', meta,
    Column('OFFENSE_CODE', Integer, primary_key=True),
    Column('OFFENSE_CODE_GROUP', String(60), nullable=False, key='name')
)
offence.create(engine)

In [65]:
# Insertamos registro en la tabla
engine.execute(offence.insert().values(OFFENSE_CODE = 1402, name = 'Vandalism'))

<sqlalchemy.engine.result.ResultProxy at 0x7f2b694b4c18>

Inner Join.

In [67]:
print(pd.read_sql(
    
    "SELECT A.* FROM crime A INNER JOIN offence B ON A.OFFENSE_CODE = B.OFFENSE_CODE"
    
    , engine.connect()))

      INCIDENT_NUMBER  OFFENSE_CODE OFFENSE_CODE_GROUP OFFENSE_DESCRIPTION  \
0          I182070943          1402          Vandalism           VANDALISM   
1          I182070887          1402          Vandalism           VANDALISM   
2          I182070881          1402          Vandalism           VANDALISM   
3          I182070872          1402          Vandalism           VANDALISM   
4          I182070822          1402          Vandalism           VANDALISM   
5          I182070803          1402          Vandalism           VANDALISM   
6          I182070765          1402          Vandalism           VANDALISM   
7          I182070763          1402          Vandalism           VANDALISM   
8          I182070746          1402          Vandalism           VANDALISM   
9          I182070701          1402          Vandalism           VANDALISM   
10         I182070680          1402          Vandalism           VANDALISM   
11         I182070652          1402          Vandalism          

Conteo Inner Join.

In [69]:
print(pd.read_sql(
    
    "SELECT COUNT(0) FROM crime A INNER JOIN offence B ON A.OFFENSE_CODE = B.OFFENSE_CODE"
    
    , engine.connect()))

   COUNT(0)
0     15154


Conteo Left Join.

In [70]:
print(pd.read_sql(
    
    "SELECT COUNT(0) FROM crime A LEFT JOIN offence B ON A.OFFENSE_CODE = B.OFFENSE_CODE"
    
    , engine.connect()))

   COUNT(0)
0    319073


## ROW_NUMBER OVER PARTITION

El objetivo que persigue esta función es obtener el número secuencial de una fila a partir de un conjunto de resultados. Por ejemplo, en nuestra tabla de crímenes queremos conocer los incidentes de un OFFENSE_CODE, pero piense que solo queremos obtener el incidente que tenga ID con el número más alto por OFFENSE_CODE.

Entonces surge la pregunta a partir de la situación mencionada, pero si contamos con varios OFFENSE_CODE, como se supone que determinaré el incidente con ID más alto?

Una respuesta aceptable seria usar la cláusula ORDER BY y ordenar el resultado de manera descendente.

Pero principal problema de todo esto es que conocemos los valores de los OFFENSE_CODE pero no conocemos el número de fila de los registros ordenado por OFFENSE_CODE. Pudiesen existir varios OFFENSE_CODE cada uno de ellos tiene un numero de fila, por tal razón, si vamos a filtrar por OFFENSE_CODE, cada OFFENSE_CODE tiene incidentes pero dichos incidentes agrupados por OFFENSE_CODE tienen un numero de fila. Por ejemplo:

In [73]:
print(pd.read_sql(
    
    "SELECT INCIDENT_NUMBER, OFFENSE_CODE,ROW_NUMBER() OVER (PARTITION BY OFFENSE_CODE ORDER BY INCIDENT_NUMBER DESC) Fila FROM crime"
    
    , engine.connect()))

       INCIDENT_NUMBER  OFFENSE_CODE   Fila
0           I182067317           111      1
1           I182064699           111      2
2           I182064056           111      3
3           I182059055           111      4
4           I182058835           111      5
5           I182057654           111      6
6           I182053414           111      7
7           I182052602           111      8
8           I182052365           111      9
9           I182051210           111     10
10          I182043561           111     11
11          I182042418           111     12
12          I182042108           111     13
13          I182041332           111     14
14          I182036836           111     15
15          I182034835           111     16
16          I182033779           111     17
17          I182031717           111     18
18          I182026852           111     19
19          I182025962           111     20
20          I182025532           111     21
21          I182023966          

## Cómo hacer consultas usando WITH (Recursividad)

Intentemos simplificar y aclarar la descripción del algoritmo que figura en los principales manuales que describen esta sentencia. Para simplificarlo, considere solo UNION ALL y WITH cláusula recursiva:


El motor de base de datos ejecuta la selección inicial, tomando sus filas de resultados como conjunto de trabajo. Luego, ejecuta repetidamente la selección recursiva en el conjunto de trabajo, cada vez que reemplaza el contenido del conjunto de trabajo con el resultado de la consulta obtenida. Este proceso finaliza cuando el conjunto vacío se devuelve mediante selección recursiva. Y todas las filas de resultados dadas primero por selección inicial y luego por selección recursiva se recopilan y alimentan a la selección externa, cuyo resultado se convierte en el resultado de la consulta general.

In [94]:
# Creamos tabla catálogo offences
from sqlalchemy import *

meta = MetaData()

clasificacion4 = Table('clasificacion4', meta,
    Column('ID', String(60), nullable=True),
    Column('clasificacionCD', String(60), nullable=True)
)
clasificacion4.create(engine)

In [101]:
print(pd.read_sql(
    
    "WITH incident AS(SELECT A.INCIDENT_NUMBER AS ID,CASE WHEN  A.OFFENSE_CODE_GROUP='Vandalism' THEN 'Critico' ELSE 'No Critico' END AS clasificacion FROM crime A) SELECT DISTINCT CAST(A.ID AS STRING), CAST(MAX(A.clasificacion) AS STRING) FROM incident A WHERE ID <> '0'"
    
    , engine.connect()))

   CAST(A.ID AS STRING)  CAST(MAX(A.clasificacion) AS STRING)
0                     0                                     0
