In [1]:
# Configuracion para recargar módulos y librerías 
%reload_ext autoreload
%autoreload 2

# MAT281

## Aplicaciones de la Matemática en la Ingeniería

Puedes ejecutar este jupyter notebook de manera interactiva:

[![Binder](../shared/images/jupyter_binder.png)](https://mybinder.org/v2/gh/sebastiandres/mat281_m02_analisis_de_datos/master?filepath=03_formato_datos/03_formato_datos.ipynb)

[![Colab](../shared/images/jupyter_colab.png)](https://colab.research.google.com/github/sebastiandres/mat281_m02_analisis_de_datos/blob/master/03_formato_datos/03_formato_datos.ipynb)

## ¿Qué contenido aprenderemos?
* Bases de Datos (SQL)
* SQL-Pandas

## Bases de datos (SQL)

### ¿Qué es una base de datos?

Es un conjunto de datos almacenados en una computadora (generalmente un servidor). Estos datos poseen una estructura con tal que sean de fácil acceso. 

### Base de Datos Relacional

Es el tipo de base de datos más ampliamente utilizado, aunque existen otros tipos de bases de datos para fines específicos. Utiliza una estructura tal que es posible identificar y acceder a datos relacionados entre si. Generalmente una base de datos relacional está organizada en __tablas__.

Las tablas están conformadas de filas y columnas. Cada columna posee un nombre y tiene un tipo de dato específico, mientras que las filas son registros almacenados. 

Por ejemplo, la siguiente tabla tiene tres columnas y cuatro registros. En particular, la columna ```age``` tiene tipo ```INTEGER``` y las otras dos tipo ```STRING```.

![Tabla](https://s3.amazonaws.com/codecademy-content/courses/sql-intensive/table.jpg)

### ¿Qué es SQL?

Sus siglas significan _Structured Query Language_ (Lenguaje de Consulta Estructurada) es un lenguaje de programación utilizado para comunicarse con datos almacenados en un Sistema de Gestión de Bases de Datos Relacionales (_Relational Database Management System_ o RDBMS). Posee una sintaxis muy similar al idioma inglés, con lo cual se hace relativamente fácil de escribir, leer e interpretar.

Hay distintos RDBMS entre los cuales la sintaxis de SQL difiere ligeramente. Los más populares son:

- SQLite
- MySQL / MariaDB
- PostgreSQL
- Oracle DB
- SQL Server

### ¿Y esto en qué afecta a un matemático?

En una empresa de tecnología hay cargos especialmente destinados a todo lo que tenga que ver con bases de datos, por ejemplo: creación, mantención, actualización, obtención de datos, transformación, seguridad y un largo etc.

Los matemáticos en la industria suelen tener cargos como _Data Scientist_, _Data Analyst_, _Data Statistician_, _Data X_ (reemplace _X_ con tal de formar un cargo que quede bien en Linkedin), en donde lo importante es otorgar valor a estos datos. Por ende, lo mínimo que deben satisfacer es:

- Entendimiento casi total del modelo de datos (tablas, relaciones, tipos, etc.)
- Seleccionar datos a medida (_queries_).

### Modelo de datos

Es la forma en que se organizan los datos. En las bases de datos incluso es posible conocer las relaciones entre tablas. A menudo se presentan gráficamente como en la imagen de abajo (esta será la base de datos que utilizaremos en los ejericios del día de 

![Data Model Example](http://www.sqlitetutorial.net/wp-content/uploads/2015/11/sqlite-sample-database-color.jpg)

Esta base de datos se conoce con el nombre de _**chinook database**_. La descripción y las imágenes se pueden encontrar [aquí](http://www.sqlitetutorial.net/sqlite-sample-database/).

En la figura anterior, existen algunas columnas _especiales_ con una llave al lado de su nombre. ¿Qué crees que significan?

Las 11 tablas se definen de la siguiente forma (en inglés):

- ```employees``` table stores employees data such as employee id, last name, first name, etc. It also has a field named ReportsTo to specify who reports to whom.
- ```customers``` table stores customers data.
- ```invoices``` & ```invoice_items``` tables: these two tables store invoice data. The ```invoices``` table stores invoice header data and the ```invoice_items``` table stores the invoice line items data.
- ```artists``` table stores artists data. It is a simple table that contains only artist id and name.
- ```albums``` table stores data about a list of tracks. Each album belongs to one artist. However, one artist may have multiple albums.
- ```media_types``` table stores media types such as MPEG audio file, ACC audio file, etc.
- ```genres``` table stores music types such as rock, jazz, metal, etc.
- ```tracks``` table store the data of songs. Each track belongs to one album.
- ```playlists``` & ```playlist_track tables```: ```playlists``` table store data about playlists. Each playlist contains a list of tracks. Each track may belong to multiple playlists. The relationship between the ```playlists``` table and ```tracks``` table is many-to-many. The ```playlist_track``` table is used to reflect this relationship.

### Queries

Con las siguientes cuatro herramientas puedes obtener una infinidad de datos en el formato que (casi)-quieras:

- Seleccionar tablas y columnas
- Filtrar registros
- Cruces de tablas

Antes, definiremos una simple función con tal de recibir una _query_ en formato ```str``` de ```python``` y retorne el resultado de la _query_ en un dataframe de pandas.

In [2]:
import os
import pandas as pd
import sqlite3

def chinook_query(query):
    conn = sqlite3.connect(os.path.join('data', 'chinook.db'))
    return pd.read_sql_query(query, con=conn)

In [3]:
# Ver todas las tablas de la base de datos
chinook_query("SELECT name FROM sqlite_master WHERE type='table'")

Unnamed: 0,name
0,albums
1,sqlite_sequence
2,artists
3,customers
4,employees
5,genres
6,invoices
7,invoice_items
8,media_types
9,playlists


En el ejemplo anterior resulta muy importante no mezclar tipos de comillas distintos. Si se define un string comenzando y terminando con `"` todas las comillas a usar en el interior deben de ser `'`, o viceversa. 

### Seleccionar tablas y columnas

Aunque no lo creas, el comando para seleccionar es ```SELECT``` y su sintaxis es:

```sql
select column_name from table_name
```

#### Ejemplo 1

Seleccionar todos los registros y columnas de la tabla ```albums```.

In [4]:
albums_table_query = "select * from albums"
chinook_query(albums_table_query).head(10)

Unnamed: 0,AlbumId,Title,ArtistId
0,1,For Those About To Rock We Salute You,1
1,2,Balls to the Wall,2
2,3,Restless and Wild,2
3,4,Let There Be Rock,1
4,5,Big Ones,3
5,6,Jagged Little Pill,4
6,7,Facelift,5
7,8,Warner 25 Anos,6
8,9,Plays Metallica By Four Cellos,7
9,10,Audioslave,8


#### Ejemplo 2

Seleccionar las columnas ```CustomerId```, ```Address``` y ```Country``` de la tabla ```customers```.

In [5]:
customers_some_columns_query = """
select 
    CustomerId
    , Address
    , Country
    from customers"""
chinook_query(customers_some_columns_query).head(10)

Unnamed: 0,CustomerId,Address,Country
0,1,"Av. Brigadeiro Faria Lima, 2170",Brazil
1,2,Theodor-Heuss-Straße 34,Germany
2,3,1498 rue Bélanger,Canada
3,4,Ullevålsveien 14,Norway
4,5,Klanova 9/506,Czech Republic
5,6,Rilská 3174/6,Czech Republic
6,7,"Rotenturmstraße 4, 1010 Innere Stadt",Austria
7,8,Grétrystraat 63,Belgium
8,9,Sønder Boulevard 51,Denmark
9,10,"Rua Dr. Falcão Filho, 155",Brazil


#### Ejemplo 3

Seleccionar todos los ```GenreId``` distintos a partir de la columna ```tracks```.

In [6]:
distinct_genres_query = """
select distinct
    GenreId
    from tracks
"""
chinook_query(distinct_genres_query).head(10)

Unnamed: 0,GenreId
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


### Filtrar registros

Aunque no lo creas, el comando para filtrar es ```where``` y su sintaxis es:

```sql
select column_name from table_name where some_condition
```

#### Ejemplo 4
Obtener todos los álbumes del artista con id número 1.

In [7]:
albums_artist_1 = """
select
    *
    from albums
    where ArtistId = 1
"""
chinook_query(albums_artist_1)

Unnamed: 0,AlbumId,Title,ArtistId
0,1,For Those About To Rock We Salute You,1
1,4,Let There Be Rock,1


#### Ejemplo 5

Filtrar la tabla ```tracks``` por aquellos registros que tienen una duración mayor a tres minutos y tengan identificador de género musical 2 o 3.

In [8]:
where_and_example = """
select
    *
    from tracks
    where Milliseconds >= 3 * 60 * 1000
        and GenreId in (2, 3)
"""
chinook_query(where_and_example).head(10)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,63,Desafinado,8,1,2,,185338,5990473,0.99
1,64,Garota De Ipanema,8,1,2,,285048,9348428,0.99
2,67,Ligia,8,1,2,,251977,8226934,0.99
3,69,Dindi (Dindi),8,1,2,,253178,8149148,0.99
4,71,Falando De Amor,8,1,2,,219663,7121735,0.99
5,73,Corcovado (Quiet Nights Of Quiet Stars),8,1,2,,205662,6687994,0.99
6,75,O Boto (Bôto),8,1,2,,366837,12089673,0.99
7,76,"Canta, Canta Mais",8,1,2,,271856,8719426,0.99
8,123,Quadrant,13,1,2,Billy Cobham,261851,8538199,0.99
9,124,Snoopy's search-Red baron,13,1,2,Billy Cobham,456071,15075616,0.99


### Cruces de Tablas

Aunque no lo creas, el comando para cruzar es ```join``` y su sintaxis es:

```sql
select 
    A.column_name_1,
    B.column_name_2
    from table_A as A 
    join table_B as B
        on A.common_column = B.common_column
```

#### Ejemplo 6

Agregar a la tabla ```albums``` el nombre del artista, que se encuentra en la tabla `artists`.

In [9]:
add_artist_name_to_album_query = """
select
    al.*
    , ar.Name as ArtistName
    from albums al
    left join artists ar
        on al.ArtistId = ar.ArtistId
"""
chinook_query(add_artist_name_to_album_query).head(10)

Unnamed: 0,AlbumId,Title,ArtistId,ArtistName
0,1,For Those About To Rock We Salute You,1,AC/DC
1,2,Balls to the Wall,2,Accept
2,3,Restless and Wild,2,Accept
3,4,Let There Be Rock,1,AC/DC
4,5,Big Ones,3,Aerosmith
5,6,Jagged Little Pill,4,Alanis Morissette
6,7,Facelift,5,Alice In Chains
7,8,Warner 25 Anos,6,Antônio Carlos Jobim
8,9,Plays Metallica By Four Cellos,7,Apocalyptica
9,10,Audioslave,8,Audioslave


### ¿Te diste cuenta? 

El ejemplo anterior utiliza un ```left join```. En realidad existen cuatro tipos de cruces más comunes:

- ```inner```: (_default_) Retorna aquellos registros donde los valors de columnas utilizadas para los cruces se encuentran en ambas tablas.
- ```left```: Retorna todos los registros de la tabla colocada a la izquierda, aunque no tengan correspondencia en la tabla de la derecha.
- ```right```: Retorna todos los registros de la tabla colocada a la derecha, aunque no tengan correspondencia en la tabla de la izquierda.
- ```outer```: Retorna todos los valores de ambas tablas, tengan correspondencia o no.

La siguiente imagen explica el resultado que se obtiene con los distintos tipos de cruces.

![Joins](https://lukaseder.files.wordpress.com/2016/07/venn-join1.png?w=662&h=361)

#### Ejemplo 7

Agregar el nombre de ```genre``` y nombre de ```mediaType``` a la tabla ```tracks```.

In [10]:
add_genre_and_media_type_name_to_album_query = """
select
    tr.*
    , ge.Name as GenreName
    , mt.Name as MediaTypeName
    from tracks tr
    left join genres ge
        on tr.GenreId = ge.GenreId
    left join media_types mt
        on tr.MediaTypeId = mt.MediaTypeId
"""
chinook_query(add_genre_and_media_type_name_to_album_query).head(10)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice,GenreName,MediaTypeName
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99,Rock,MPEG audio file
1,2,Balls to the Wall,2,2,1,,342562,5510424,0.99,Rock,Protected AAC audio file
2,3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99,Rock,Protected AAC audio file
3,4,Restless and Wild,3,2,1,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",252051,4331779,0.99,Rock,Protected AAC audio file
4,5,Princess of the Dawn,3,2,1,Deaffy & R.A. Smith-Diesel,375418,6290521,0.99,Rock,Protected AAC audio file
5,6,Put The Finger On You,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",205662,6713451,0.99,Rock,MPEG audio file
6,7,Let's Get It Up,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",233926,7636561,0.99,Rock,MPEG audio file
7,8,Inject The Venom,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",210834,6852860,0.99,Rock,MPEG audio file
8,9,Snowballed,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",203102,6599424,0.99,Rock,MPEG audio file
9,10,Evil Walks,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",263497,8611245,0.99,Rock,MPEG audio file


#### Ejemplo 8

Determinar los empleados que no realicen soporte a ningún cliente (```SupportRepId``` se relaciona con ```EmployeeId```).

In [11]:
join_employees_query = """
select
    e.*
    , c.*
    from employees e
    left join customers c
        on e.EmployeeId = c.SupportRepId
    where CustomerId is null
"""
chinook_query(join_employees_query).head(10)

Unnamed: 0,EmployeeId,LastName,FirstName,Title,ReportsTo,BirthDate,HireDate,Address,City,State,...,Company,Address.1,City.1,State.1,Country,PostalCode,Phone,Fax,Email,SupportRepId
0,1,Adams,Andrew,General Manager,,1962-02-18 00:00:00,2002-08-14 00:00:00,11120 Jasper Ave NW,Edmonton,AB,...,,,,,,,,,,
1,2,Edwards,Nancy,Sales Manager,1.0,1958-12-08 00:00:00,2002-05-01 00:00:00,825 8 Ave SW,Calgary,AB,...,,,,,,,,,,
2,6,Mitchell,Michael,IT Manager,1.0,1973-07-01 00:00:00,2003-10-17 00:00:00,5827 Bowness Road NW,Calgary,AB,...,,,,,,,,,,
3,7,King,Robert,IT Staff,6.0,1970-05-29 00:00:00,2004-01-02 00:00:00,590 Columbia Boulevard West,Lethbridge,AB,...,,,,,,,,,,
4,8,Callahan,Laura,IT Staff,6.0,1968-01-09 00:00:00,2004-03-04 00:00:00,923 7 ST NW,Lethbridge,AB,...,,,,,,,,,,


## Ejercicios Parte 1

1.1 Escribir una query que retorne una tabla de una columna con todos los países distintos de los empleados.

In [12]:
distinct_country_employees_query = """ 
select distinct
    Country
    from employees
"""
chinook_query(distinct_country_employees_query)

Unnamed: 0,Country
0,Canada


1.2 Escribir una query que retorne una tabla de dos columnas, nombre del artista y nombre del álbum solo para los artistas _Metallica_ e _Iron Maiden_.

In [13]:
metallica_and_maiden_albums_query = """
select 
    ar.Name as ArtistName
    , al.Title as AlbumTitle
    from artists ar
    inner join albums al
        on ar.ArtistId = al.ArtistId
    where ar.Name in ('Metallica', 'Iron Maiden')
"""
chinook_query(metallica_and_maiden_albums_query)

Unnamed: 0,ArtistName,AlbumTitle
0,Metallica,Garage Inc. (Disc 1)
1,Iron Maiden,A Matter of Life and Death
2,Iron Maiden,A Real Dead One
3,Iron Maiden,A Real Live One
4,Iron Maiden,Brave New World
5,Iron Maiden,Dance Of Death
6,Iron Maiden,Fear Of The Dark
7,Iron Maiden,Iron Maiden
8,Iron Maiden,Killers
9,Iron Maiden,Live After Death


1.3 Escribir una query que retorne una tabla de una columna con el nombre de todas las canciones de _System Of A Down_  

In [14]:
soad_all_tracks_query = """
select 
    tr.Name
    from tracks as tr
    inner join albums al
        on tr.AlbumId = al.AlbumId
    inner join artists ar
        on al.ArtistId = ar.ArtistId
    where ar.Name = 'System Of A Down'
"""
chinook_query(soad_all_tracks_query)

Unnamed: 0,Name
0,Soldier Side - Intro
1,B.Y.O.B.
2,Revenga
3,Cigaro
4,Radio/Video
5,This Cocaine Makes Me Feel Like I'm On This Song
6,Violent Pornography
7,Question!
8,Sad Statue
9,Old School Hollywood


1.4 Escribir una query que retorne una tabla de cuatro columnas (PlaylistId, TrackId, AlbumId, GenreId) para todas las playlist con identificador menor que 10.

In [15]:
playlist_track_album_genre_query = """
select 
    ptr.PlaylistId
    , ptr.TrackId
    , tr.AlbumId
    , tr.GenreId
    from playlist_track ptr
    inner join tracks tr
        on ptr.TrackId = tr.TrackId
    where ptr.PlaylistId < 10
"""
chinook_query(playlist_track_album_genre_query)

Unnamed: 0,PlaylistId,TrackId,AlbumId,GenreId
0,1,1,1,1
1,1,2,2,1
2,1,3,3,1
3,1,4,3,1
4,1,5,3,1
5,1,6,1,1
6,1,7,1,1
7,1,8,1,1
8,1,9,1,1
9,1,10,1,1


## SQL - Pandas

Como habrás notado, por simplicidad cargamos los resultados de las queries directamente en un DataFrame. La librería *Pandas*, en su afán de facilitar la manipulación y análisis de datos incluye algunas funcionalidades de SQL.

| SQL    | pandas              |
|--------|---------------------|
| select | loc[:, column_name] |
| where  | loc[condition, :]   |
| join   | merge               |

En el laboratorio anterior aprendimos a utilizar ```loc```, por lo que ahora introduciremos los cruces de dataframes utilizando la función/método ```merge```.

In [16]:
# Función
pd.merge?

[0;31mSignature:[0m [0mpd[0m[0;34m.[0m[0mmerge[0m[0;34m([0m[0mleft[0m[0;34m,[0m [0mright[0m[0;34m,[0m [0mhow[0m[0;34m=[0m[0;34m'inner'[0m[0;34m,[0m [0mon[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mleft_on[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mright_on[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mleft_index[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m [0mright_index[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m [0msort[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m [0msuffixes[0m[0;34m=[0m[0;34m([0m[0;34m'_x'[0m[0;34m,[0m [0;34m'_y'[0m[0;34m)[0m[0;34m,[0m [0mcopy[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m [0mindicator[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m [0mvalidate[0m[0;34m=[0m[0;32mNone[0m[0;34m)[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Merge DataFrame objects by performing a database-style join operation by
columns or indexes.

If joining columns on columns, the DataFrame indexes *will be
ignored*. Otherwise if joi

In [17]:
# Método
pd.DataFrame.merge?

[0;31mSignature:[0m [0mpd[0m[0;34m.[0m[0mDataFrame[0m[0;34m.[0m[0mmerge[0m[0;34m([0m[0mself[0m[0;34m,[0m [0mright[0m[0;34m,[0m [0mhow[0m[0;34m=[0m[0;34m'inner'[0m[0;34m,[0m [0mon[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mleft_on[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mright_on[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mleft_index[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m [0mright_index[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m [0msort[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m [0msuffixes[0m[0;34m=[0m[0;34m([0m[0;34m'_x'[0m[0;34m,[0m [0;34m'_y'[0m[0;34m)[0m[0;34m,[0m [0mcopy[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m [0mindicator[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m [0mvalidate[0m[0;34m=[0m[0;32mNone[0m[0;34m)[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Merge DataFrame objects by performing a database-style join operation by
columns or indexes.

If joining columns on columns, the DataFrame indexes *will 

La lectura de queries se hace a través de la función ```pd.read_sql_query()```

In [18]:
pd.read_sql_query?

[0;31mSignature:[0m [0mpd[0m[0;34m.[0m[0mread_sql_query[0m[0;34m([0m[0msql[0m[0;34m,[0m [0mcon[0m[0;34m,[0m [0mindex_col[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mcoerce_float[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m [0mparams[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mparse_dates[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mchunksize[0m[0;34m=[0m[0;32mNone[0m[0;34m)[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Read SQL query into a DataFrame.

Returns a DataFrame corresponding to the result set of the query
string. Optionally provide an `index_col` parameter to use one of the
columns as the index, otherwise default integer index will be used.

Parameters
----------
sql : string SQL query or SQLAlchemy Selectable (select or text object)
    SQL query to be executed.
con : SQLAlchemy connectable(engine/connection), database string URI,
    or sqlite3 DBAPI2 connection
    Using SQLAlchemy makes it possible to use any DB supported by that
    library.
 

Notar que ```pd.read_sql_query()``` posee dos argumentos obligatorios: ```sql``` y ```con```.

Crearemos un dataframe seleccionando todos los datos de la tabla ```tracks``` y lo llamaremos de la misma manera:

In [19]:
tracks = pd.read_sql_query("select * from tracks", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
tracks.head()

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99
1,2,Balls to the Wall,2,2,1,,342562,5510424,0.99
2,3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99
3,4,Restless and Wild,3,2,1,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",252051,4331779,0.99
4,5,Princess of the Dawn,3,2,1,Deaffy & R.A. Smith-Diesel,375418,6290521,0.99


Lo mismo para la tabla ```albums```

In [20]:
albums = pd.read_sql_query("select * from albums", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
albums.head()

Unnamed: 0,AlbumId,Title,ArtistId
0,1,For Those About To Rock We Salute You,1
1,2,Balls to the Wall,2
2,3,Restless and Wild,2
3,4,Let There Be Rock,1
4,5,Big Ones,3


#### Ejemplo 9
Agregar una nueva columna al dataframe ```tracks``` con el nombre ```AlbumName``` a partir del nombre del álbum contenido en el dataframe ```albums```.

Opción 1 (**y mala**): Usando una iteración

In [21]:
%%timeit
track_copy_1 = tracks.copy()  # Creamos una copia del dataframe original
for idx, row in track_copy_1.iterrows():
    album_id = row['AlbumId']
    album_name = albums.loc[lambda x: x['AlbumId'] == album_id, 'Title'].iloc[0]
    track_copy_1.loc[idx, 'AlbumName'] = album_name

3.01 s ± 228 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Esta opción es mala puesto que resulta extensa, pudiendo introducir errores y tomando siendo ineficiente al tomar mucho tiempo.

Opción 2 (**y buena**): Usando un Merge

In [22]:
%%timeit
tracks_merge = tracks.merge(albums, how='left', on='AlbumId')

3.34 ms ± 241 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [23]:
tracks_merge = tracks.merge(albums, how='left', on='AlbumId')
tracks_merge.head(10)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice,Title,ArtistId
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99,For Those About To Rock We Salute You,1
1,2,Balls to the Wall,2,2,1,,342562,5510424,0.99,Balls to the Wall,2
2,3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99,Restless and Wild,2
3,4,Restless and Wild,3,2,1,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",252051,4331779,0.99,Restless and Wild,2
4,5,Princess of the Dawn,3,2,1,Deaffy & R.A. Smith-Diesel,375418,6290521,0.99,Restless and Wild,2
5,6,Put The Finger On You,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",205662,6713451,0.99,For Those About To Rock We Salute You,1
6,7,Let's Get It Up,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",233926,7636561,0.99,For Those About To Rock We Salute You,1
7,8,Inject The Venom,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",210834,6852860,0.99,For Those About To Rock We Salute You,1
8,9,Snowballed,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",203102,6599424,0.99,For Those About To Rock We Salute You,1
9,10,Evil Walks,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",263497,8611245,0.99,For Those About To Rock We Salute You,1


In [24]:
%%timeit
tracks_merge_final = tracks.merge(albums[['AlbumId', 'Title']], how='left', on='AlbumId').rename(columns={'Title': 'AlbumName'})

4.83 ms ± 157 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [25]:
tracks_merge_final = tracks.merge(albums[['AlbumId', 'Title']], how='left', on='AlbumId').rename(columns={'Title': 'AlbumName'})
tracks_merge_final.head(10)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice,AlbumName
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99,For Those About To Rock We Salute You
1,2,Balls to the Wall,2,2,1,,342562,5510424,0.99,Balls to the Wall
2,3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99,Restless and Wild
3,4,Restless and Wild,3,2,1,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",252051,4331779,0.99,Restless and Wild
4,5,Princess of the Dawn,3,2,1,Deaffy & R.A. Smith-Diesel,375418,6290521,0.99,Restless and Wild
5,6,Put The Finger On You,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",205662,6713451,0.99,For Those About To Rock We Salute You
6,7,Let's Get It Up,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",233926,7636561,0.99,For Those About To Rock We Salute You
7,8,Inject The Venom,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",210834,6852860,0.99,For Those About To Rock We Salute You
8,9,Snowballed,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",203102,6599424,0.99,For Those About To Rock We Salute You
9,10,Evil Walks,1,1,1,"Angus Young, Malcolm Young, Brian Johnson",263497,8611245,0.99,For Those About To Rock We Salute You


#### Ejemplo 10
¿Y si las columnas tienen nombres distintos? Utilicemos las tablas de empleados y clientes para cruzarlas por el empleado de soporte

In [26]:
employees = pd.read_sql_query("select * from employees", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
employees.head()

Unnamed: 0,EmployeeId,LastName,FirstName,Title,ReportsTo,BirthDate,HireDate,Address,City,State,Country,PostalCode,Phone,Fax,Email
0,1,Adams,Andrew,General Manager,,1962-02-18 00:00:00,2002-08-14 00:00:00,11120 Jasper Ave NW,Edmonton,AB,Canada,T5K 2N1,+1 (780) 428-9482,+1 (780) 428-3457,andrew@chinookcorp.com
1,2,Edwards,Nancy,Sales Manager,1.0,1958-12-08 00:00:00,2002-05-01 00:00:00,825 8 Ave SW,Calgary,AB,Canada,T2P 2T3,+1 (403) 262-3443,+1 (403) 262-3322,nancy@chinookcorp.com
2,3,Peacock,Jane,Sales Support Agent,2.0,1973-08-29 00:00:00,2002-04-01 00:00:00,1111 6 Ave SW,Calgary,AB,Canada,T2P 5M5,+1 (403) 262-3443,+1 (403) 262-6712,jane@chinookcorp.com
3,4,Park,Margaret,Sales Support Agent,2.0,1947-09-19 00:00:00,2003-05-03 00:00:00,683 10 Street SW,Calgary,AB,Canada,T2P 5G3,+1 (403) 263-4423,+1 (403) 263-4289,margaret@chinookcorp.com
4,5,Johnson,Steve,Sales Support Agent,2.0,1965-03-03 00:00:00,2003-10-17 00:00:00,7727B 41 Ave,Calgary,AB,Canada,T3B 1Y7,1 (780) 836-9987,1 (780) 836-9543,steve@chinookcorp.com


In [27]:
customers = pd.read_sql_query("select * from customers", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
customers.head()

Unnamed: 0,CustomerId,FirstName,LastName,Company,Address,City,State,Country,PostalCode,Phone,Fax,Email,SupportRepId
0,1,Luís,Gonçalves,Embraer - Empresa Brasileira de Aeronáutica S.A.,"Av. Brigadeiro Faria Lima, 2170",São José dos Campos,SP,Brazil,12227-000,+55 (12) 3923-5555,+55 (12) 3923-5566,luisg@embraer.com.br,3
1,2,Leonie,Köhler,,Theodor-Heuss-Straße 34,Stuttgart,,Germany,70174,+49 0711 2842222,,leonekohler@surfeu.de,5
2,3,François,Tremblay,,1498 rue Bélanger,Montréal,QC,Canada,H2G 1A7,+1 (514) 721-4711,,ftremblay@gmail.com,3
3,4,Bjørn,Hansen,,Ullevålsveien 14,Oslo,,Norway,0171,+47 22 44 22 22,,bjorn.hansen@yahoo.no,4
4,5,František,Wichterlová,JetBrains s.r.o.,Klanova 9/506,Prague,,Czech Republic,14700,+420 2 4172 5555,+420 2 4172 5555,frantisekw@jetbrains.com,4


In [28]:
customers.merge(employees, how='left', left_on='SupportRepId', right_on='EmployeeId').head()

Unnamed: 0,CustomerId,FirstName_x,LastName_x,Company,Address_x,City_x,State_x,Country_x,PostalCode_x,Phone_x,...,BirthDate,HireDate,Address_y,City_y,State_y,Country_y,PostalCode_y,Phone_y,Fax_y,Email_y
0,1,Luís,Gonçalves,Embraer - Empresa Brasileira de Aeronáutica S.A.,"Av. Brigadeiro Faria Lima, 2170",São José dos Campos,SP,Brazil,12227-000,+55 (12) 3923-5555,...,1973-08-29 00:00:00,2002-04-01 00:00:00,1111 6 Ave SW,Calgary,AB,Canada,T2P 5M5,+1 (403) 262-3443,+1 (403) 262-6712,jane@chinookcorp.com
1,2,Leonie,Köhler,,Theodor-Heuss-Straße 34,Stuttgart,,Germany,70174,+49 0711 2842222,...,1965-03-03 00:00:00,2003-10-17 00:00:00,7727B 41 Ave,Calgary,AB,Canada,T3B 1Y7,1 (780) 836-9987,1 (780) 836-9543,steve@chinookcorp.com
2,3,François,Tremblay,,1498 rue Bélanger,Montréal,QC,Canada,H2G 1A7,+1 (514) 721-4711,...,1973-08-29 00:00:00,2002-04-01 00:00:00,1111 6 Ave SW,Calgary,AB,Canada,T2P 5M5,+1 (403) 262-3443,+1 (403) 262-6712,jane@chinookcorp.com
3,4,Bjørn,Hansen,,Ullevålsveien 14,Oslo,,Norway,0171,+47 22 44 22 22,...,1947-09-19 00:00:00,2003-05-03 00:00:00,683 10 Street SW,Calgary,AB,Canada,T2P 5G3,+1 (403) 263-4423,+1 (403) 263-4289,margaret@chinookcorp.com
4,5,František,Wichterlová,JetBrains s.r.o.,Klanova 9/506,Prague,,Czech Republic,14700,+420 2 4172 5555,...,1947-09-19 00:00:00,2003-05-03 00:00:00,683 10 Street SW,Calgary,AB,Canada,T2P 5G3,+1 (403) 263-4423,+1 (403) 263-4289,margaret@chinookcorp.com


## Ejercicios Parte 2
Replicar los ejercicios de la parte 1 utilizando las bondades de pandas, para ello primero se deben cargar las tablas de la base de datos en dataframes, utilizando la funcionalidad ```select * from table```. Por ejemplo:

In [29]:
tracks = pd.read_sql_query("select * from tracks", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
albums = pd.read_sql_query("select * from albums", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
employees = pd.read_sql_query("select * from employees", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
customers = pd.read_sql_query("select * from customers", con=sqlite3.connect(os.path.join('data', 'chinook.db')))

Es tu turno, carga las tablas ```artist``` y ```playlist_track``` en los siguientes dataframes.

In [30]:
artists = pd.read_sql_query("select * from artists", con=sqlite3.connect(os.path.join('data', 'chinook.db')))
playlist_track = pd.read_sql_query("select * from playlist_track", con=sqlite3.connect(os.path.join('data', 'chinook.db')))

1.1 Crear un dataframe de una columna con todos los países distintos de los empleados.

In [31]:
distinct_country_employees_df = employees[['Country']].drop_duplicates()
distinct_country_employees_df

Unnamed: 0,Country
0,Canada


1.2 Crear un dataframe de dos columnas, nombre del artista y nombre del álbum solo para los artistas _Metallica_ e _Iron Maiden_.

In [32]:
metallica_and_maiden_albums_df = (albums.merge(artists, how='inner', on='ArtistId')
                                        .loc[lambda x: x['Name'].isin(['Metallica', 'Iron Maiden']), ['Name', 'Title']]
                                 )
metallica_and_maiden_albums_df.shape

(31, 2)

1.3 Crear un dataframe de una columna con el nombre de todas las canciones de _System Of A Down_  

In [33]:
soad_all_tracks_df = (tracks.merge(albums, how='inner', on='AlbumId')
                            .merge(artists, how='inner', on='ArtistId')
                            .loc[lambda x: x['Name_y'] == 'System Of A Down', ['Name_x']]
                     )
soad_all_tracks_df.head(10)

Unnamed: 0,Name_x
2593,Soldier Side - Intro
2594,B.Y.O.B.
2595,Revenga
2596,Cigaro
2597,Radio/Video
2598,This Cocaine Makes Me Feel Like I'm On This Song
2599,Violent Pornography
2600,Question!
2601,Sad Statue
2602,Old School Hollywood


1.4 Crear un dataframe de cuatro columnas (PlaylistId, TrackId, AlbumId, GenreId) para todas las playlist con identificador menor que 10.

In [34]:
playlist_track_album_genre_df = (playlist_track.merge(tracks, how='inner', on='TrackId')
                                               .loc[lambda x: x['PlaylistId'] < 10, ['PlaylistId', 'TrackId', 'AlbumId', 'GenreId']]
                                )
playlist_track_album_genre_df.head()

Unnamed: 0,PlaylistId,TrackId,AlbumId,GenreId
0,1,3402,271,23
1,8,3402,271,23
2,9,3402,271,23
3,1,3389,271,23
4,8,3389,271,23


In [35]:
playlist_track_album_genre_df.shape

(8271, 4)

## Datos Personales
- Nombre:
- Rol USM:

## Instruciones
- Pon tu nombre y rol en la celda superior.
- Debes enviar este .ipynb con el siguiente formato de nombre: 03_formato_datos_NOMBRE_APELLIDO.ipynb con tus respuestas a alonso.ogueda@gmail.com y sebastian.flores@usm.cl .
- Se evaluara tanto el código como la respuesta en una escala de 0 a 4 con valores enteros.
- La entrega es al final de esta clase.