## Ejemplo 2: Consultas a la base de datos y construcción de `DataFrames`

### 1. Objetivos:
    - Realizar consultas a la base de datos y construir un `DataFrame` para cada tabla.
 
---
    
### 2. Desarrollo:

#### a) Tablas a `DataFrames`

Ya que tenemos nuestra conexión, basta con usar el comando `SELECT * FROM nombre_de_tabla` para pedir todos los datos que hay en cada tabla:

In [1]:
import pandas as pd
import sqlite3

In [2]:
# base_de_datos = "../../Datasets/MovieLens/movielens.sqlite3"
base_de_datos = "movielens.sqlite3"
conn = sqlite3.connect(base_de_datos)
cur = conn.cursor()

In [6]:
# SQL para seleccionar todos los registros de la tabla users
sql = "SELECT * FROM users"
cur.execute(sql)

<sqlite3.Cursor at 0x7f90fb517f80>

In [7]:
resultados = cur.fetchall()

(1, 'F', 1, 10, '48067')

Si recuerdas el último ejemplo, `fetchall` nos regresa una `lista` de `tuplas`. Cada `tupla` representa una fila de nuestro conjunto de datos:

In [10]:
# obteniendo el elemento 0 de la lista
resultados[:3]

[(1, 'F', 1, 10, '48067'),
 (2, 'M', 56, 16, '70072'),
 (3, 'M', 25, 15, '55117')]

In [13]:
# obtenindo la lista de columnas desde  cur.description
columnas = [t[0] for t in cur.description]
columnas

['user_id', 'gender', 'age', 'occupation', 'cp']

Afortunadamente `pandas` puede recibir justamente `listas` de `tuplas` como ingredientes para construir `DataFrames`. Sólo hace falta indicarle el nombre de las columnas. Los nombres de las columnas están especificados en el [archivo Readme.md](../../Datasets/MovieLens/Readme.md) que venía incluido con el dataset:

In [25]:
# creando nuestro dataframe
df = pd.DataFrame(resultados, columns=columnas)
df.head(3)

Unnamed: 0,user_id,gender,age,occupation,cp
0,1,F,1,10,48067
1,2,M,56,16,70072
2,3,M,25,15,55117


In [23]:
df_1 = pd.read_sql(sql, conn)
df_1.head(3)

Unnamed: 0,user_id,gender,age,occupation,cp
0,1,F,1,10,48067
1,2,M,56,16,70072
2,3,M,25,15,55117


Creo que sería una buena idea convertir la columna `user_id` en índice para no tener información redundante:

In [27]:
# usando user_id como índice
df_2 = df_1.set_index("user_id", drop=True)
df_2.head(3)

Unnamed: 0_level_0,gender,age,occupation,cp
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117


¡Listo! Vamos a guardar nuestros `DataFrames` en archivos .csv para que no haga falta volver a extraerlos de la base de datos. Ya podemos decirle adiós a nuestro fiel MySQL. ¡Chao, bellisimo!

In [28]:
# guardando resultados en csv
df_2.to_csv("users.csv")

In [29]:
# cerrando cur
# cerrando conn
cur.close()
conn.close()