In [None]:
# Configuracion para recargar módulos y librerías 
%reload_ext autoreload
%autoreload 2

# MAT281

## Aplicaciones de la Matemática en la Ingeniería

Puedes ejecutar este jupyter notebook de manera interactiva:

[![Binder](../shared/images/jupyter_binder.png)](https://mybinder.org/v2/gh/sebastiandres/mat281_m02_analisis_de_datos/master?filepath=03_formato_datos/03_formato_datos.ipynb)

[![Colab](../shared/images/jupyter_colab.png)](https://colab.research.google.com/github/sebastiandres/mat281_m02_analisis_de_datos/blob/master/03_formato_datos/03_formato_datos.ipynb)

## ¿Qué contenido aprenderemos?
* Bases de Datos (SQL)
* SQL-Pandas

## Bases de datos (SQL)

### ¿Qué es una base de datos?

Es un conjunto de datos almacenados en una computadora (generalmente un servidor). Estos datos poseen una estructura con tal que sean de fácil acceso. 

### Base de Datos Relacional

Es el tipo de base de datos más ampliamente utilizado, aunque existen otros tipos de bases de datos para fines específicos. Utiliza una estructura tal que es posible identificar y acceder a datos relacionados entre si. Generalmente una base de datos relacional está organizada en __tablas__.

Las tablas están conformadas de filas y columnas. Cada columna posee un nombre y tiene un tipo de dato específico, mientras que las filas son registros almacenados. 

Por ejemplo, la siguiente tabla tiene tres columnas y cuatro registros. En particular, la columna ```age``` tiene tipo ```INTEGER``` y las otras dos tipo ```STRING```.

![Tabla](https://s3.amazonaws.com/codecademy-content/courses/sql-intensive/table.jpg)

### ¿Qué es SQL?

Sus siglas significan _Structured Query Language_ (Lenguaje de Consulta Estructurada) es un lenguaje de programación utilizado para comunicarse con datos almacenados en un Sistema de Gestión de Bases de Datos Relacionales (_Relational Database Management System_ o RDBMS). Posee una sintaxis muy similar al idioma inglés, con lo cual se hace relativamente fácil de escribir, leer e interpretar.

Hay distintos RDBMS entre los cuales la sintaxis de SQL difiere ligeramente. Los más populares son:

- SQLite
- MySQL / MariaDB
- PostgreSQL
- Oracle DB
- SQL Server

### ¿Y esto en qué afecta a un matemático?

En una empresa de tecnología hay cargos especialmente destinados a todo lo que tenga que ver con bases de datos, por ejemplo: creación, mantención, actualización, obtención de datos, transformación, seguridad y un largo etc.

Los matemáticos en la industria suelen tener cargos como _Data Scientist_, _Data Analyst_, _Data Statistician_, _Data X_ (reemplace _X_ con tal de formar un cargo que quede bien en Linkedin), en donde lo importante es otorgar valor a estos datos. Por ende, lo mínimo que deben satisfacer es:

- Entendimiento casi total del modelo de datos (tablas, relaciones, tipos, etc.)
- Seleccionar datos a medida (_queries_).

### Modelo de datos

Es la forma en que se organizan los datos. En las bases de datos incluso es posible conocer las relaciones entre tablas. A menudo se presentan gráficamente como en la imagen de abajo (esta será la base de datos que utilizaremos en los ejericios del día de 

![Data Model Example](http://www.sqlitetutorial.net/wp-content/uploads/2015/11/sqlite-sample-database-color.jpg)

Esta base de datos se conoce con el nombre de _**chinook database**_. La descripción y las imágenes se pueden encontrar [aquí](http://www.sqlitetutorial.net/sqlite-sample-database/).

En la figura anterior, existen algunas columnas _especiales_ con una llave al lado de su nombre. ¿Qué crees que significan?

Las 11 tablas se definen de la siguiente forma (en inglés):

- ```employees``` table stores employees data such as employee id, last name, first name, etc. It also has a field named ReportsTo to specify who reports to whom.
- ```customers``` table stores customers data.
- ```invoices``` & ```invoice_items``` tables: these two tables store invoice data. The ```invoices``` table stores invoice header data and the ```invoice_items``` table stores the invoice line items data.
- ```artists``` table stores artists data. It is a simple table that contains only artist id and name.
- ```albums``` table stores data about a list of tracks. Each album belongs to one artist. However, one artist may have multiple albums.
- ```media_types``` table stores media types such as MPEG audio file, ACC audio file, etc.
- ```genres``` table stores music types such as rock, jazz, metal, etc.
- ```tracks``` table store the data of songs. Each track belongs to one album.
- ```playlists``` & ```playlist_track tables```: ```playlists``` table store data about playlists. Each playlist contains a list of tracks. Each track may belong to multiple playlists. The relationship between the ```playlists``` table and ```tracks``` table is many-to-many. The ```playlist_track``` table is used to reflect this relationship.

### Queries

Con las siguientes cuatro herramientas puedes obtener una infinidad de datos en el formato que (casi)-quieras:

- Seleccionar tablas y columnas
- Filtrar registros
- Cruces de tablas

Antes, definiremos una simple función con tal de recibir una _query_ en formato ```str``` de ```python``` y retorne el resultado de la _query_ en un dataframe de pandas.

In [None]:
import os
import pandas as pd
import sqlite3

def chinook_query(query):
    conn = sqlite3.connect(os.path.join('data', 'chinook.db'))
    return pd.read_sql_query(query, con=conn)

In [None]:
# Ver todas las tablas de la base de datos
chinook_query("SELECT name FROM sqlite_master WHERE type='table'")

En el ejemplo anterior resulta muy importante no mezclar tipos de comillas distintos. Si se define un string comenzando y terminando con `"` todas las comillas a usar en el interior deben de ser `'`, o viceversa. 

### Seleccionar tablas y columnas

Aunque no lo creas, el comando para seleccionar es ```SELECT``` y su sintaxis es:

```sql
select column_name from table_name
```

#### Ejemplo 1

Seleccionar todos los registros y columnas de la tabla ```albums```.

In [None]:
albums_table_query = "select * from albums"
chinook_query(albums_table_query).head(10)

#### Ejemplo 2

Seleccionar las columnas ```CustomerId```, ```Address``` y ```Country``` de la tabla ```customers```.

In [None]:
customers_some_columns_query = """
select 
    CustomerId
    , Address
    , Country
    from customers"""
chinook_query(customers_some_columns_query).head(10)

#### Ejemplo 3

Seleccionar todos los ```GenreId``` distintos a partir de la columna ```tracks```.

In [None]:
distinct_genres_query = """
select distinct
    GenreId
    from tracks
"""
chinook_query(distinct_genres_query).head(10)

### Filtrar registros

Aunque no lo creas, el comando para filtrar es ```where``` y su sintaxis es:

```sql
select column_name from table_name where some_condition
```

#### Ejemplo 4
Obtener todos los álbumes del artista con id número 1.

In [None]:
albums_artist_1 = """
select
    *
    from albums
    where ArtistId = 1
"""
chinook_query(albums_artist_1)

#### Ejemplo 5

Filtrar la tabla ```tracks``` por aquellos registros que tienen una duración mayor a tres minutos y tengan identificador de género musical 2 o 3.

In [None]:
where_and_example = """
select
    *
    from tracks
    where Milliseconds >= 3 * 60 * 1000
        and GenreId in (2, 3)
"""
chinook_query(where_and_example).head(10)

### Cruces de Tablas

Aunque no lo creas, el comando para cruzar es ```join``` y su sintaxis es:

```sql
select 
    A.column_name_1,
    B.column_name_2
    from table_A as A 
    join table_B as B
        on A.common_column = B.common_column
```

#### Ejemplo 6

Agregar a la tabla ```albums``` el nombre del artista, que se encuentra en la tabla `artists`.

In [None]:
add_artist_name_to_album_query = """
select
    al.*
    , ar.Name as ArtistName
    from albums al
    left join artists ar
        on al.ArtistId = ar.ArtistId
"""
chinook_query(add_artist_name_to_album_query).head(10)

### ¿Te diste cuenta? 

El ejemplo anterior utiliza un ```left join```. En realidad existen cuatro tipos de cruces más comunes:

- ```inner```: (_default_) Retorna aquellos registros donde los valors de columnas utilizadas para los cruces se encuentran en ambas tablas.
- ```left```: Retorna todos los registros de la tabla colocada a la izquierda, aunque no tengan correspondencia en la tabla de la derecha.
- ```right```: Retorna todos los registros de la tabla colocada a la derecha, aunque no tengan correspondencia en la tabla de la izquierda.
- ```outer```: Retorna todos los valores de ambas tablas, tengan correspondencia o no.

La siguiente imagen explica el resultado que se obtiene con los distintos tipos de cruces.

![Joins](https://lukaseder.files.wordpress.com/2016/07/venn-join1.png?w=662&h=361)

#### Ejemplo 7

Agregar el nombre de ```genre``` y nombre de ```mediaType``` a la tabla ```tracks```.

In [None]:
add_genre_and_media_type_name_to_album_query = """
select
    tr.*
    , ge.Name as GenreName
    , mt.Name as MediaTypeName
    from tracks tr
    left join genres ge
        on tr.GenreId = ge.GenreId
    left join media_types mt
        on tr.MediaTypeId = mt.MediaTypeId
"""
chinook_query(add_genre_and_media_type_name_to_album_query).head(10)

#### Ejemplo 8

Determinar los empleados que no realicen soporte a ningún cliente (```SupportRepId``` se relaciona con ```EmployeeId```).

In [None]:
join_employees_query = """
select
    e.*
    , c.*
    from employees e
    left join customers c
        on e.EmployeeId = c.SupportRepId
    where CustomerId is null
"""
chinook_query(join_employees_query).head(10)

## Ejercicios Parte 1

1.1 Escribir una query que retorne una tabla de una columna con todos los países distintos de los empleados.

In [None]:
distinct_country_employees_query = """ FIX ME PLEASE """
chinook_query(distinct_country_employees_query)

1.2 Escribir una query que retorne una tabla de dos columnas, nombre del artista y nombre del álbum solo para los artistas _Metallica_ e _Iron Maiden_.

In [None]:
metallica_and_maiden_albums_query = """ FIX ME PLEASE """
chinook_query(metallica_and_maiden_albums_query)

1.3 Escribir una query que retorne una tabla de una columna con el nombre de todas las canciones de _System of a Down_  

In [None]:
soad_all_tracks_query = """ FIX ME PLEASE"""
chinook_query(soad_all_tracks_query)

1.4 Escribir una query que retorne una tabla de cuatro columnas (PlaylistId, TrackId, AlbumId, GenreId) para todas las playlist con identificador menor que 10.

In [None]:
playlist_track_album_genre_query = """ FIX ME PLEASE """
chinook_query(playlist_track_album_genre_query)

## SQL - Pandas

Como habrás notado, por simplicidad cargamos los resultados de las queries directamente en un DataFrame. La librería *Pandas*, en su afán de facilitar la manipulación y análisis de datos incluye algunas funcionalidades de SQL.

| SQL    | pandas              |
|--------|---------------------|
| select | loc[:, column_name] |
| where  | loc[condition, :]   |
| join   | merge               |

En el laboratorio anterior aprendimos a utilizar ```loc```, por lo que ahora introduciremos los cruces de dataframes utilizando la función/método ```merge```.

In [None]:
# Función
pd.merge?

In [None]:
# Método
pd.DataFrame.merge?

La lectura de queries se hace a través de la función ```pd.read_sql_query()```

In [None]:
pd.read_sql_query?

Notar que ```pd.read_sql_query()``` posee dos argumentos obligatorios: ```sql``` y ```con```.

Crearemos un dataframe seleccionando todos los datos de la tabla ```tracks``` y lo llamaremos de la misma manera:

In [None]:
tracks = pd.read_sql_query("select * from tracks", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
tracks.head()

Lo mismo para la tabla ```albums```

In [None]:
albums = pd.read_sql_query("select * from albums", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
albums.head()

#### Ejemplo 9
Agregar una nueva columna al dataframe ```tracks``` con el nombre ```AlbumName``` a partir del nombre del álbum contenido en el dataframe ```albums```.

Opción 1 (**y mala**): Usando una iteración

In [None]:
%%timeit
track_copy_1 = tracks.copy()  # Creamos una copia del dataframe original
for idx, row in track_copy_1.iterrows():
    album_id = row['AlbumId']
    album_name = albums.loc[lambda x: x['AlbumId'] == album_id, 'Title'].iloc[0]
    track_copy_1.loc[idx, 'AlbumName'] = album_name

In [None]:
track_copy_1.head(10)

Esta opción es mala puesto que resulta extensa, pudiendo introducir errores y tomando siendo ineficiente al tomar mucho tiempo.

Opción 2 (**y buena**): Usando un Merge

In [None]:
%%timeit
tracks_merge = tracks.merge(albums, how='left', on='AlbumId')

In [None]:
tracks_merge = tracks.merge(albums, how='left', on='AlbumId')
tracks_merge.head(10)

In [None]:
%%timeit
tracks_merge_final = tracks.merge(albums[['AlbumId', 'Title']], how='left', on='AlbumId').rename(columns={'Title': 'AlbumName'})

In [None]:
tracks_merge_final = tracks.merge(albums[['AlbumId', 'Title']], how='left', on='AlbumId').rename(columns={'Title': 'AlbumName'})
tracks_merge_final.head(10)

#### Ejemplo 10
¿Y si las columnas tienen nombres distintos? Utilicemos las tablas de empleados y clientes para cruzarlas por el empleado de soporte

In [None]:
employees = pd.read_sql_query("select * from employees", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
employees.head()

In [None]:
customers = pd.read_sql_query("select * from customers", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
customers.head()

In [None]:
customers.merge(employees, how='left', left_on='SupportRepId', right_on='EmployeeId').head()

## Ejercicios Parte 2
Replicar los ejercicios de la parte 1 utilizando las bondades de pandas, para ello primero se deben cargar las tablas de la base de datos en dataframes, utilizando la funcionalidad ```select * from table```. Por ejemplo:

In [None]:
tracks = pd.read_sql_query("select * from tracks", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
albums = pd.read_sql_query("select * from albums", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
employees = pd.read_sql_query("select * from employees", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
customers = pd.read_sql_query("select * from customers", con=sqlite3.connect(os.path.join('data', 'chinook.db')))

Es tu turno, carga las tablas ```artist``` y ```playlist_track``` en los siguientes dataframes.

In [None]:
artists = # FIX ME PLEASE #
playlist_track = # FIX ME PLEASE #

1.1 Crear un dataframe de una columna con todos los países distintos de los empleados.

In [None]:
distinct_country_employees_df = # FIX ME PLEASE #
distinct_country_employees_df.head(10)

1.2 Crear un dataframe de dos columnas, nombre del artista y nombre del álbum solo para los artistas _Metallica_ e _Iron Maiden_.

In [None]:
metallica_and_maiden_albums_df = # FIX ME PLEASE #
metallica_and_maiden_albums_df.head(10)

1.3 Crear un dataframe de una columna con el nombre de todas las canciones de _System of a Down_  

In [None]:
soad_all_tracks_df = # FIX ME PLEASE #
soad_all_tracks_df.head(10)

1.4 Crear un dataframe de cuatro columnas (PlaylistId, TrackId, AlbumId, GenreId) para todas las playlist con identificador menor que 10.

In [None]:
playlist_track_album_genre_df = # FIX ME PLEASE #
playlist_track_album_genre_df.head()

## Datos Personales
- Nombre:
- Rol USM:

## Instruciones
- Pon tu nombre y rol en la celda superior.
- Debes enviar este .ipynb con el siguiente formato de nombre: 03_formato_datos_NOMBRE_APELLIDO.ipynb con tus respuestas a alonso.ogueda@gmail.com y sebastian.flores@usm.cl .
- Se evaluara tanto el código como la respuesta en una escala de 0 a 4 con valores enteros.
- La entrega es al final de esta clase.