# Datasets, Panda's DataFrames and Databases

## Abstract

Para la adquisición de datos, en general se dispone de archivos que contienen los datos almacenados. Sin embargo, el modo más común para persistir información es en bases de datos.
En esta notebook se realizarán operaciones básicas con bases de datos. En particular se utiliza SQLite interactuando con DataFrames Pandas.

## 1. Introduccion

### Acerca de SQLite

"<i>SQLite is a C-language library that implements a small, fast, self-contained, high-reliability, full-featured, SQL database engine. SQLite is the most used database engine in the world  with more than a trillon of databeses (1e12) in use.</i>" (del Sitio oficial: https://www.sqlite.org/index.html).<br>
SQLite permite crear una base de datos SQL en tiempo de ejecución con solo importar una librería y crear el archivo. Mediante sentencias SQL puede, insertar datos, consultarlos, modificar tablas, etc. Puede navegar las bases de datos con https://sqlitebrowser.org/. Y puede eliminar la DB símplemente eliminando el archivo.
<br><br>
Para descargar e instalar Sqlite Browser: https://sqlitebrowser.org/dl/ <br>
<br>
Para instalar el módulo SQLlite:<br>
- conda install sqlite3 (instalar desde Anaconda)<br>
- pip install sqlite3 (instalar desde Terminal - Linux / MacOS - o desde DOS / Powershell - Windows)<br>



### Librerias

In [3]:
import sqlite3
import pandas as pd

En este ejemplo, cargaremos un dataset desde un archivo, crearemos una base de datos y almacenaremos el daframe en la base de datos.

## 2. DDL

Dentro de SQL, un sublenguaje es DDL (Data Definition Languaje). Consiste en un conjunto de sentencias para la definición y modificación de la base de datos y sus tablas.

In [13]:
# Cargamos los datos desde un CSV
df=pd.read_csv('datasets/train_strokes.csv')

In [14]:
# Crearemos una base de datos, el cursor y la conexión
nombreDB='datasets/train_strokes.db'
conexion = sqlite3.connect(nombreDB)
cursor = conexion.cursor()

### Crear Tablas

In [26]:
# Esta tabla se crea para ser eliminada (y poder mostrarlo)
sentencia="""CREATE TABLE employees(
            id integer PRIMARY KEY, 
            name text, 
            salary real, 
            department text, 
            position text, 
            startDate text
            )"""
try:
    cursor.execute(sentencia)
    print("se creo la tabla employees")
except sqlite3.OperationalError:
    print("Tabla existente")

# Esta tabla se crea para persistir.
sentence="""CREATE TABLE strokes(
            id integer PRIMARY KEY,
            gender text,
            age real,
            hypertension real,
            heart_disease real,
            ever_married text,
            work_type text,
            Residence_type text,
            avg_glucose_level real,
            bmi real,
            smoking_status text,
            stroke real
            )"""
try:
    cursor.execute(sentence)
    print("se creo la tabla strokes")
except sqlite3.OperationalError:
    print("Tabla existente")

se creo la tabla employees


In [None]:
# Eliminación de tabla creada
sentencia="""drop table employees"""
try:
    cursor.execute(sentencia)
    print("se elimino la tabla employees")
except:
    print("Error operacional")

In [25]:
# Esta tabla se crea para ser eliminada (y poder mostrarlo)
sentencia="""CREATE TABLE employees(
            id integer PRIMARY KEY, 
            name text, 
            salary real, 
            department text, 
            position text, 
            startDate text
            )"""
try:
    cursor.execute(sentencia)
    print("se creo la tabla employees")
except sqlite3.OperationalError:
    print("Tabla existente")
# 1.2. BORRAR TABLA
sentencia="""drop table employees"""
try:
    cursor.execute(sentencia)
    print("se elimino la tabla employees")
except:
    print("Error operacional")
sentence="""CREATE TABLE strokes(
            id integer PRIMARY KEY,
            gender text,
            age real,
            hypertension real,
            heart_disease real,
            ever_married text,
            work_type text,
            Residence_type text,
            avg_glucose_level real,
            bmi real,
            smoking_status text,
            stroke real
            )"""
try:
    cursor.execute(sentence)
    print("se creo la tabla strokes")
except sqlite3.OperationalError:
    print("Tabla existente")


se creo la tabla employees
se elimino la tabla employees
Tabla existente


In [15]:
campos=df.columns.tolist()

#### Confirmación: Navegamos con DB Browser

Abrimos la DB "train_strokes.db" y abrimos la tabla "strokes"
<img src="files/browseDB_01.png" alt="SQLite3 DB Browser">

## 3. DML

DML es un sub-lenguaje de SQL. Es un conjunto de sentencias para la manipulación de los datos almacenados.