## Intro SQLite3
---

## Ciencia de los Datos Aplicada
* ##### Facultad de Minas
* ##### Universidad Nacional de Colombia
* ##### Autor: Valentina Vásquez Hernandez

---

### 1. ¿Qué es SQLite?

* `Bases de datos con arquitectura cliente-servidor:` MySQL, Oracle, PostgreSQL, SQL Server. Tienen una compatibilidad completa con `SQL` (lenguaje estandar en la comunidad), y cuentan con una combinación de código abierto y distribución comercial; es decir, permite a pequeñas empresas tener acceso a un almacenamiento escalable, manejo de concurrencia, centralización y control sobre los datos.

* `SqLite`:  Base de datos embebida, serverless y completamente de código abierto. Se especializa enalmacenar data local para aplicaciones y dispositivos. Tienen una compatibilidad completa con `SQL`. [1](https://www.sqlite.org/whentouse.html)


> Esquema base de datos relacional [2](https://www.pragimtech.com/blog/mongodb-tutorial/relational-and-non-relational-databases/)


<img src="data/relationaldb.jpg" alt="drawing" width="600"/>


**Principales comandos:**

* `SELECT`, `SELECT DISTINCT`: comando obligatorio en cualquier sentancia. Selecciona todos los registros y únicos, respectivamente.
* `WHERE`, `HAVING`: permiten filtrar columnas de la tabla, estáticos y calculados, respectivamente.
* `ORDER BY`: ordena el resultado de una columna de acuerdo a lo que especifique el usuario.
* `INSERT INTO`, `DELETE`, `UPDATE`
* `COUNT`, `MAX`, `MIN`, `SUM`, `AVG`, `GROUP BY`: funciones de agregación.

**Estructura:**    
> Database 
>> Tables
>>> Rows/Columns


*Documentación*: https://www.sqlite.org/lang.html

### 1. ¿Cómo uso MySQL/MariaDB?

El valor agregado de MariaDB es replicar un entorno productivo de manera local, *OpenSource* y explorar la integración de varias herramientas con un sistema de gestión de bases de datos.

In [1]:
##La librería sqllite se encuentra por defecto en Python desde la versión 2.5
import sqlite3

conn = sqlite3.connect(":memory:") 
cur = conn.cursor()

In [7]:
## Se crea una carpeta donde se almacenarán los scripts en formato .sql
!rm -rf tmp
!mkdir -p tmp

A continuación se crea la tabla a usar y se establece el esquema de la tabla:

In [2]:
## Se crea la tabla 
cur.executescript(
    """
    DROP TABLE IF EXISTS cars;

    CREATE TABLE cars (
        Id             INT,
        symboling      FLOAT(8,4),
        normalized_losses      INT,
        make      VARCHAR(20),
        fuel_type      VARCHAR(20),
        aspiration      VARCHAR(20),
        num_of_doors      VARCHAR(20),
        body_style      VARCHAR(20),
        drive_wheels      VARCHAR(20),
        engine_location      VARCHAR(20),
        wheel_base       FLOAT(8,4),
        length      FLOAT(8,4),
        width      FLOAT(8,4),
        height      FLOAT(8,4),
        curb_weight      FLOAT(8,4),
        engine_type      VARCHAR(20),
        num_of_cylinders      VARCHAR(20),
        engine_size      FLOAT(8,4),
        fuel_system      VARCHAR(20),
        bore      FLOAT(8,4),
        stroke      FLOAT(8,4),
        compression_ratio      INT,
        horsepower      INT,
        peak_rpm      INT,
        city_mpg      INT,
        highway_mpg      INT,
        price      INT
        );
    """
)

conn.commit()

In [3]:
## Verificamos las tasblas existentes
cur.execute("SELECT name FROM sqlite_master WHERE type='table';").fetchall()

[('cars',)]

In [4]:
## Verificamos las bases de datos existentes
cur.execute("SELECT name FROM sqlite_master WHERE type='database';").fetchall()

[]

A continuación se cargaran los datos `data/cars.csv` a una tabla, de los cuales se puede leer la descripción en el archivo `Data/description.txt`:

In [5]:
import pandas as pd

drivers = pd.read_csv("Data/input/cars.csv", sep=";")
n = 1
lista = []
for i, row in drivers.iterrows():
    sql = "INSERT INTO cars VALUES (?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?)"
    cur.execute(sql, tuple([n] + list(row)))   
    conn.commit()
    lista.append(tuple([n] + list(row)))
    n += 1

In [8]:
#
# Verificación
#
cur.execute("SELECT * FROM cars LIMIT 1;").fetchall()

[(1,
  2.0,
  164,
  'audi',
  'gas',
  'std',
  'four',
  'sedan',
  '4wd',
  'front',
  99.4,
  176.6,
  66.4,
  54.3,
  2824.0,
  'ohc',
  'five',
  136.0,
  'mpfi',
  3.19,
  3.4,
  8,
  115,
  5500,
  18,
  22,
  17450)]

Dada la integración con Python, es posible ejecutar consultas sobre SqlLite3 e interactuar con funciones de usuario en Python:

In [12]:
## Se obtiene por marca, tipo de de combustible y número de puestas el precio mīnimio, precio máximo, y precio promedio
cur.execute("""
SELECT 
make,
fuel_type,
num_of_doors,
MIN(price) AS min_price,
AVG(price) AS avg_price,
MAX(price) AS max_price
FROM cars
GROUP BY fuel_type, num_of_doors, make 
ORDER BY max_price;
""").fetchall()

[('chevrolet', 'gas', 'two', 5151, 5723.0, 6295),
 ('chevrolet', 'gas', 'four', 6575, 6575.0, 6575),
 ('nissan', 'diesel', 'two', 7099, 7099.0, 7099),
 ('subaru', 'gas', 'two', 5118, 6591.333333333333, 7603),
 ('volkswagen', 'diesel', 'two', 7775, 7775.0, 7775),
 ('plymouth', 'gas', 'two', 5572, 6764.5, 7957),
 ('dodge', 'gas', 'four', 6229, 7362.75, 8921),
 ('plymouth', 'gas', 'four', 6229, 7362.75, 8921),
 ('mitsubishi', 'gas', 'four', 6989, 8434.0, 9279),
 ('volkswagen', 'diesel', 'four', 7995, 8745.0, 9495),
 ('mitsubishi', 'gas', 'two', 5389, 7399.0, 9959),
 ('volkswagen', 'gas', 'two', 7975, 8977.5, 9980),
 ('volkswagen', 'gas', 'four', 8195, 8895.0, 9995),
 ('honda', 'gas', 'two', 5399, 7465.75, 10345),
 ('mazda', 'gas', 'two', 5195, 7505.0, 10595),
 ('toyota', 'diesel', 'four', 7788, 8794.666666666666, 10698),
 ('subaru', 'gas', 'four', 7126, 9191.222222222223, 11694),
 ('honda', 'gas', 'four', 7295, 9335.0, 12945),
 ('dodge', 'gas', 'two', 5572, 8217.5, 12964),
 ('nissan', 'ga

In [13]:
%%writefile /tmp/query_make.sql
SELECT 
make,
fuel_type,
 num_of_doors,
 MIN(price) AS min_price,
 AVG(price) AS avg_price,
 MAX(price) AS max_price 
FROM cars 
WHERE make = {}{}{}
GROUP BY fuel_type,num_of_doors,make 
ORDER BY max_price;

Writing /tmp/query_make.sql


In [14]:
def make_query(make):
    file = open("/tmp/query_make.sql", 'r').read()
    query = file.format("'",str(make),"'")
    query_path = "tmp/query_make_{}.sql".format(make)
    with open(query_path, 'w') as f:
        f.write(query)
    f.close()
    return query_path

In [15]:
make_query("jaguar")

'tmp/query_make_jaguar.sql'

In [16]:
make_query("mazda")

'tmp/query_make_mazda.sql'

In [17]:
make_query("toyota")

'tmp/query_make_toyota.sql'

In [106]:
import csv
def query_to_csv(sql_file):
   with open(sql_file, 'r') as file:
      data = cur.execute(file.read()).fetchall()
      out = open(str(sql_file.split("/")[1]).split(".")[0]+'.csv','w') #sql_file.split("/")[1].split['.'][0]
      csv_out=csv.writer(out)
      csv_out.writerows([[str(e) for e in row] for row in data])
      file.close()
      out.close()


In [105]:
query_to_csv('tmp/query_make_toyota.sql')

**Operaciones de ventana**

In [111]:
%%writefile tmp/sqlite_window_func_1.sql
SELECT 
RANK() OVER (PARTITION BY engine_location ORDER BY aspiration DESC) AS rank, 
DENSE_RANK() OVER (PARTITION BY engine_location ORDER BY aspiration DESC) AS dense_rank, 
ROW_NUMBER() OVER (PARTITION BY engine_location ORDER BY aspiration DESC) AS row_num,
engine_location, aspiration
FROM cars;

Writing tmp/sqlite_window_func_1.sql


In [114]:
cur.execute(open('tmp/sqlite_window_func_1.sql', 'r').read()).fetchall()

[(1, 1, 1, 'front', 'turbo'),
 (1, 1, 2, 'front', 'turbo'),
 (1, 1, 3, 'front', 'turbo'),
 (1, 1, 4, 'front', 'turbo'),
 (1, 1, 5, 'front', 'turbo'),
 (1, 1, 6, 'front', 'turbo'),
 (1, 1, 7, 'front', 'turbo'),
 (1, 1, 8, 'front', 'turbo'),
 (1, 1, 9, 'front', 'turbo'),
 (1, 1, 10, 'front', 'turbo'),
 (1, 1, 11, 'front', 'turbo'),
 (1, 1, 12, 'front', 'turbo'),
 (1, 1, 13, 'front', 'turbo'),
 (1, 1, 14, 'front', 'turbo'),
 (1, 1, 15, 'front', 'turbo'),
 (1, 1, 16, 'front', 'turbo'),
 (1, 1, 17, 'front', 'turbo'),
 (1, 1, 18, 'front', 'turbo'),
 (1, 1, 19, 'front', 'turbo'),
 (1, 1, 20, 'front', 'turbo'),
 (1, 1, 21, 'front', 'turbo'),
 (1, 1, 22, 'front', 'turbo'),
 (1, 1, 23, 'front', 'turbo'),
 (1, 1, 24, 'front', 'turbo'),
 (1, 1, 25, 'front', 'turbo'),
 (1, 1, 26, 'front', 'turbo'),
 (1, 1, 27, 'front', 'turbo'),
 (28, 2, 28, 'front', 'std'),
 (28, 2, 29, 'front', 'std'),
 (28, 2, 30, 'front', 'std'),
 (28, 2, 31, 'front', 'std'),
 (28, 2, 32, 'front', 'std'),
 (28, 2, 33, 'front', 

In [118]:
%%writefile tmp/sqlite_window_func_2.sql
SELECT 
Id, drive_wheels, price,
LAG(price,1) OVER (ORDER BY price) AS price_lag
FROM cars;

Overwriting tmp/sqlite_window_func_2.sql


In [119]:
cur.execute(open('tmp/sqlite_window_func_2.sql', 'r').read()).fetchall()

[(97, 'fwd', 5118, None),
 (8, 'fwd', 5151, 5118),
 (33, 'fwd', 5195, 5151),
 (109, 'fwd', 5348, 5195),
 (49, 'fwd', 5389, 5348),
 (21, 'fwd', 5399, 5389),
 (59, 'fwd', 5499, 5399),
 (11, 'fwd', 5572, 5499),
 (84, 'fwd', 5572, 5572),
 (34, 'fwd', 6095, 5572),
 (50, 'fwd', 6189, 6095),
 (14, 'fwd', 6229, 6189),
 (86, 'fwd', 6229, 6229),
 (9, 'fwd', 6295, 6229),
 (110, 'fwd', 6338, 6295),
 (12, 'fwd', 6377, 6338),
 (19, 'fwd', 6479, 6377),
 (111, 'fwd', 6488, 6479),
 (22, 'fwd', 6529, 6488),
 (10, 'fwd', 6575, 6529),
 (61, 'fwd', 6649, 6575),
 (51, 'fwd', 6669, 6649),
 (15, 'fwd', 6692, 6669),
 (87, 'fwd', 6692, 6692),
 (36, 'fwd', 6695, 6692),
 (35, 'fwd', 6795, 6695),
 (62, 'fwd', 6849, 6795),
 (20, 'fwd', 6855, 6849),
 (112, 'fwd', 6918, 6855),
 (115, 'fwd', 6938, 6918),
 (55, 'fwd', 6989, 6938),
 (98, 'fwd', 7053, 6989),
 (60, 'fwd', 7099, 7053),
 (100, 'fwd', 7126, 7099),
 (23, 'fwd', 7129, 7126),
 (116, 'fwd', 7198, 7129),
 (24, 'fwd', 7295, 7198),
 (25, 'fwd', 7295, 7295),
 (64, '

---