<img src="https://ssvp.cl/wp-content/uploads/2015/06/universidad-tecnica-federico-santa-maria.png" width="480" height="240" align="left"/>

# MAT281 - 2° Semestre 2019
## Aplicaciones de la Matemática en la Ingeniería

## Contenidos

* [Opereaciones: Merge y Concat](#merge)
* [Operaciones: Groupby](#groupby)
* [Pivotear y despivotear tablas](#pivot)

<a id='merge'></a>
## Operaciones: Merge y Concat


En muchas ocasiones nos podemos encontrar con que los conjuntos de datos no se encuentran agregados en una única tabla. Cuando esto sucede, existen dos formas para unir la información de distintas tablas: **merge** y **concat**.

## Concat

La función **concat()** realiza todo el trabajo pesado de realizar operaciones de concatenación a lo largo de un eje mientras realiza la lógica de conjunto opcional (unión o intersección) de los índices (si los hay) en los otros ejes. Tenga en cuenta que digo "si hay alguno" porque solo hay un único eje posible de concatenación para Series.


### a) Concatenar varias tablas con las mismas columnas

In [4]:
import os
import numpy as pd
import pandas as pd

In [5]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])


df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])


df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])


frames = [df1, df2, df3]

result = pd.concat(frames)

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/merging_concat_basic.png" width="360" height="240" align="center"/>

### b) Concatenar varias tablas con distintas columnas (por filas)

In [15]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                       'D': ['D2', 'D3', 'D6', 'D7'],
                       'F': ['F2', 'F3', 'F6', 'F7']},
                      index=[2, 3, 6, 7])
   

result = pd.concat([df1, df4], axis=0, sort=False)

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/merging_append2.png" width="360" height="480" align="center"/>

### c) Concatenar varias tablas con distintas columnas (por columnas)

In [17]:
result = pd.concat([df1, df4], axis=1, sort=False)

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/merging_concat_axis1.png" width="540" height="480" align="center"/>

## Merge

La función **merge()**  se usa para combinar dos (o más) tablas sobre valores de columnas comunes (keys). 

In [6]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})


result = pd.merge(left, right, on='key')

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/merging_merge_on_key.png" width="540" height="480" align="center"/>

En este ejemplo, se especifica en la opción *on* las columnas (keys) donde se realizará el cruce de información de ambas tablas.

### Tipos de merge

La opción *how* especificica el tipo de cruce que se realizará.

* **left**: usa las llaves solo de la tabla izquierda
* **right**: usa las llaves solo de la tabla derecha
* **outer**: usa las llaves de la unión de  ambas tablas.
* **inner**: usa las llaves de la intersección de  ambas tablas.

<img src="https://cdncontribute.geeksforgeeks.org/wp-content/uploads/joinimages.png" width="360" height="480" align="center"/>

In [19]:
left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

###  a) Merge left

In [20]:
merge_left = pd.merge(left, right, on=['key1', 'key2'])

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/merging_merge_on_key_left.png" width="540" height="480" align="center"/>

###  b) Merge right

In [21]:
merge_rigth = pd.merge(left, right, how='right', on=['key1', 'key2'])

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/merging_merge_on_key_right.png" width="540" height="480" align="center"/>

###  c) Merge outer

In [22]:
merge_outer = pd.merge(left, right, how='outer', on=['key1', 'key2'])

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/merging_merge_on_key_outer.png" width="540" height="480" align="center"/>

### d) Merge inner

In [23]:
merge_inner = pd.merge(left, right, how='inner', on=['key1', 'key2'])

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/merging_merge_on_key_inner.png" width="540" height="480" align="center"/>

### Problemas de llaves duplicadas

Cuando se quiere realizar el cruce de dos tablas, pero an ambas tablas existe una columna (key) con el mismo nombre, para diferenciar la información entre la columna de una tabla y otra, pandas devulve el nombre de la columna con un guión bajo x (key_x) y otra con un guión bajo y (key_y)

In [20]:
left = pd.DataFrame({'A': [1, 2], 'B': [2, 2]})
right = pd.DataFrame({'A': [4, 5, 6], 'B': [2, 2, 2]})

result = pd.merge(left, right, on='B', how='outer')

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/merging_merge_on_key_dup.png" width="360" height="480" align="center"/>


<a id='groupby'></a>
## Operaciones: Groupby 

**Groupby** es un concepto bastante simple. Podemos crear una agrupación de categorías y aplicar una función a las categorías. 

El proceso de groupby se puede resumiren los siguientes pasos:

* **División**: es un proceso en el que dividimos los datos en grupos aplicando algunas condiciones en los conjuntos de datos.
* **Aplicación**: es un proceso en el que aplicamos una función a cada grupo de forma independiente
* **Combinación**: es un proceso en el que combinamos diferentes conjuntos de datos después de aplicar groupby y resultados en una estructura de datos

<img src="https://static.packt-cdn.com/products/9781783985128/graphics/5128OS_09_01.jpg" width="480" height="480" align="center"/>


Después de dividir los datos en un grupo, aplicamos una función a cada grupo para realizar algunas operaciones que son:

* **Agregación**: es un proceso en el que calculamos una estadística resumida (o estadística) sobre cada grupo. Por ejemplo, Calcular sumas de grupo o medios
* **Transformación**: es un proceso en el que realizamos algunos cálculos específicos del grupo y devolvemos un índice similar. Por ejemplo, llenar NA dentro de grupos con un valor derivado de cada grupo
* **Filtración**: es un proceso en el cual descartamos algunos grupos, de acuerdo con un cálculo grupal que evalúa Verdadero o Falso. Por ejemplo, Filtrar datos en función de la suma o media grupal

Para comprender mejor el concepto de agrupación de tablas, se realiza un ejercicio simple sobre el conjunto de datos **pokemon.csv**

In [123]:
# cargar datos
pokemon_data = pd.read_csv(os.path.join("data","pokemon.csv"), sep=",")
pokemon_data.head()

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,4,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,5,Charmander,Fire,,39,52,43,60,50,65,1,False


In [124]:
# renombrar columnas
pokemon_data.columns = pokemon_data.columns.str.lower().str.replace('.','_').str.replace(' ','_') #change into upper case
pokemon_data.head()

Unnamed: 0,#,name,type_1,type_2,hp,attack,defense,sp__atk,sp__def,speed,generation,legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,4,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,5,Charmander,Fire,,39,52,43,60,50,65,1,False


### a ) Número de pokemones por generación

In [131]:
grupo = pokemon_data.groupby('generation')  
grupo['name'].count().reset_index()

Unnamed: 0,generation,name
0,1,165
1,2,106
2,3,160
3,4,121
4,5,165
5,6,82


### b) Número de pokemones  por par Tipo I y Tipo II

In [81]:
grupo = pokemon_data.groupby(['type_1','type_2']) 
grupo['name'].count().reset_index().head()

Unnamed: 0,type_1,type_2,name
0,Bug,Electric,2
1,Bug,Fighting,2
2,Bug,Fire,2
3,Bug,Flying,14
4,Bug,Ghost,1


### c) Calcular hp promedio y hp total agrupados si el pokemon es legendario o no

#### --> Forma 1: Agg

In [112]:
grupo = pokemon_data.groupby(['legendary'])['hp']
df_leng = grupo.agg({
    "mean":np.mean,
    "sum":sum}).reset_index()

df_leng.rename(columns={"hp":"total"})

is deprecated and will be removed in a future version
  after removing the cwd from sys.path.


Unnamed: 0,legendary,mean,sum
0,False,67.182313,49379
1,True,92.738462,6028


#### --> Forma 2: Apply

In [119]:
def my_custom_function(x):
        names = {
        'mean': x['hp'].mean(),
        'sum':x['hp'].sum()}
        
        return pd.Series(names, index=['mean', 'sum'])

In [120]:
grupo = pokemon_data.groupby(['legendary'])
df_leng = grupo.apply(my_custom_function).reset_index()
df_leng

Unnamed: 0,legendary,mean,sum
0,False,67.182313,49379.0
1,True,92.738462,6028.0


### d) Normalizar las estadísticas agrupados por generación 

In [130]:
cols_statistics = ['generation', 'hp', 'attack', 'defense', 'sp__atk',
       'sp__def', 'speed']

grupo = pokemon_data[cols_statistics].groupby('generation') 
sc = lambda x: (x - x.mean()) / x.std()
grupo.transform(sc).head()

Unnamed: 0,hp,attack,defense,sp__atk,sp__def,speed
0,-0.739479,-0.898969,-0.763283,-0.19801,-0.160373,-0.929521
1,-0.206695,-0.476132,-0.274479,0.237542,0.42774,-0.42406
2,0.503685,0.174386,0.423812,0.818277,1.211892,0.249889
3,0.503685,0.759852,1.820395,1.457086,1.996043,0.249889
4,-0.952593,-0.801391,-0.97277,-0.343193,-0.748487,-0.255573


### e) Identificar generaciones  que tienen menos de 100 pokemones

In [146]:
grupo = pokemon_data[['name','generation']].groupby('generation')  
grupo.filter(lambda x: len(x['name']) < 100) 

Unnamed: 0,name,generation
718,Chespin,6
719,Quilladin,6
720,Chesnaught,6
721,Fennekin,6
722,Braixen,6
723,Delphox,6
724,Froakie,6
725,Frogadier,6
726,Greninja,6
727,Bunnelby,6


<a id='pivot'></a>
## Pivotear y despivotear tablas



### Formato Wide y Formato Long

Dentro del mundo de los dataframe (o datos tabulares) existen dos formas de presentar la naturaleza de los datos: formato wide y formato long. 


Por ejemplo, el conjunto de datos [Zoo Data Set](http://archive.ics.uci.edu/ml/datasets/zoo) presenta las características de diversos animales, de los cuales presentamos las primeras 5 columnas.

|animal_name|hair|feathers|eggs|milk|
|-----------|----|--------|----|----|
|antelope|1|0|0|1|
|bear|1|0|0|1|
|buffalo|1|0|0|1|
|catfish|0|0|1|0|

La tabla así presentada se encuentra en **wide format**, es decir, donde los valores se extienden a través de las columnas.

Sería posible representar el mismo contenido anterior en **long format**, es decir, donde los mismos valores se indicaran a través de las filas:

|animal_name|characteristic|value|
|-----------|----|--------|
|antelope|hair |1|
|antelope|feathers|0|
|antelope|eggs|0|
|antelope|milk|1|
|...|...|...|...|..|
|catfish|hair |0|
|catfish|feathers|0|
|catfish|eggs|1|
|catfish|milk|0|

![wide_and_long](images/wide_and_long.png)

En python existen maneras de pasar del formato **wide** al formato **long** y viceversa.

### a) Pivot

El pivoteo de una tabla corresponde al paso de una tabla desde el formato **long** al formato **wide**. Típicamente esto se realiza para poder comparar los valores que se obtienen para algún registro en particular, o para utilizar algunas herramientas de visualización básica que requieren dicho formato.

In [25]:
# formato long
df = pd.read_csv(os.path.join("data","terremotos.csv"), sep=",")
df.head()

Unnamed: 0,Año,Pais,Magnitud
0,2011,Turkey,7.1
1,2011,India,6.9
2,2011,Japan,7.1
3,2011,Burma,6.8
4,2011,Japan,9.0


Por ejemplo,  se quiere saber el terremoto de mayor magnitud a nivel de país año. Tenemos dos formas de mostrar la información.

In [32]:
# formato long
df.groupby(['Pais','Año']).max()

Unnamed: 0_level_0,Unnamed: 1_level_0,Magnitud
Pais,Año,Unnamed: 2_level_1
Afghanistan,2000,6.3
Afghanistan,2001,5.0
Afghanistan,2002,5.8
Afghanistan,2003,5.8
Afghanistan,2004,6.5
Afghanistan,2002,7.3
Afghanistan,2005,6.5
Algeria,2000,5.7
Algeria,2003,5.7
Algeria,2006,5.2


In [36]:
# formato wide
df.pivot_table(index="Pais", columns="Año", values="Magnitud", fill_value='', aggfunc=pd.np.max)

Año,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011
Pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Afghanistan,6.3,5,5.8,5.8,6.5,,,,,,,
Afghanistan,,,7.3,,,6.5,,,,,,
Algeria,5.7,,,5.7,,,5.2,,5.5,,,
Algeria,,,,6.8,,,,,,,,
Argentina,7.2,,,,6.1,,,,,,,
Azerbaijan,6.5,,,,,,,,,,,
Azerbaijan,6.8,,,,,,,,,,,
Bangladesh,,,,5.6,,,,,,,,
Burma,,,,,,,,,,,,6.8
Chile,,6.3,,,,7.8,,7.7,,,,


### b) Despivotear un tabla

El despivotear una tabla corresponde al paso de una tabla desde el formato **wide** al formato **long**. 

Se reconocen dos situaciones:

1. El valor indicado para la columna es único, y sólo se requiere definir correctamente las columnas.
2. El valor indicado por la columna no es único o requiere un procesamiento adicional, y se requiere una iteración más profunda.


### i) El valor indicado para la columna es único

In [40]:
columns = ["sala","dia","08:00","09:00","10:00"]
data = [
        ["C201","Lu", "mat1","mat1",    ""],
        ["C201","Ma", "","",""],
        ["C202","Lu", "","",""],
        ["C202","Ma", "mat1","mat1",    ""],
        ["C203","Lu", "fis1","fis1","fis1"],
        ["C203","Ma", "fis1","fis1","fis1"],
       ]
df = pd.DataFrame(data=data, columns=columns)
df

Unnamed: 0,sala,dia,08:00,09:00,10:00
0,C201,Lu,mat1,mat1,
1,C201,Ma,,,
2,C202,Lu,,,
3,C202,Ma,mat1,mat1,
4,C203,Lu,fis1,fis1,fis1
5,C203,Ma,fis1,fis1,fis1


In [41]:
# Despivotear incorrectamente la tabla
df.melt(id_vars=["sala"], var_name="hora", value_name="curso")

Unnamed: 0,sala,hora,curso
0,C201,dia,Lu
1,C201,dia,Ma
2,C202,dia,Lu
3,C202,dia,Ma
4,C203,dia,Lu
5,C203,dia,Ma
6,C201,08:00,mat1
7,C201,08:00,
8,C202,08:00,
9,C202,08:00,mat1


In [44]:
# Despivotear correctamente la tabla
df_melt = df.melt(id_vars=["sala", "dia"], var_name="hora", value_name="curso")
df_melt[df_melt.curso!=""].sort_values(["sala","dia","hora"])

Unnamed: 0,sala,dia,hora,curso
0,C201,Lu,08:00,mat1
6,C201,Lu,09:00,mat1
3,C202,Ma,08:00,mat1
9,C202,Ma,09:00,mat1
4,C203,Lu,08:00,fis1
10,C203,Lu,09:00,fis1
16,C203,Lu,10:00,fis1
5,C203,Ma,08:00,fis1
11,C203,Ma,09:00,fis1
17,C203,Ma,10:00,fis1


### ii) Relaciones no únicas

In [46]:
columns = ["sala","curso","Lu","Ma","hora"]
data = [
        ["C201","mat1","X","","8:00-10:00"],
        ["C202","mat1","","X","8:00-10:00"],
        ["C203","fis1","X","X","8:00-11:00"],
       ]
df = pd.DataFrame(data=data, columns=columns)
df

Unnamed: 0,sala,curso,Lu,Ma,hora
0,C201,mat1,X,,8:00-10:00
1,C202,mat1,,X,8:00-10:00
2,C203,fis1,X,X,8:00-11:00


#### --> Forma 1: 
Despivotear manualmente y generar un nuevo dataframe.
* **Ventajas**: Si se puede es una solución directa y rápida.
* **Desventaja**: requiere programación explícita de la tarea, no es reutilizable.

In [47]:
# Obtener el día lunes
df_Lu = df.loc[df.Lu=="X", ["sala","curso","hora"]]
df_Lu["dia"] = "Lu"
df_Lu

Unnamed: 0,sala,curso,hora,dia
0,C201,mat1,8:00-10:00,Lu
2,C203,fis1,8:00-11:00,Lu


In [48]:
# Obtener el día martes
df_Ma = df.loc[df.Ma=="X", ["sala","curso","hora"]]
df_Ma["dia"] = "Ma"
df_Ma

Unnamed: 0,sala,curso,hora,dia
1,C202,mat1,8:00-10:00,Ma
2,C203,fis1,8:00-11:00,Ma


In [49]:
# Juntar
pd.concat([df_Lu,df_Ma])

Unnamed: 0,sala,curso,hora,dia
0,C201,mat1,8:00-10:00,Lu
2,C203,fis1,8:00-11:00,Lu
1,C202,mat1,8:00-10:00,Ma
2,C203,fis1,8:00-11:00,Ma


#### --> Forma 2: 
Iterar sobre las filas y generar contenido para un nuevo dataframe.
* **Ventajas**: En general, fácil de codificar.
* **Desventaja**: puede ser lento, es ineficiente.

In [50]:
my_columns = ["sala","curso","dia","hora"]
my_data = []
for i, df_row in df.iterrows():
    # Procesar cada fila
    if df_row.Lu=="X":
        my_row = [df_row.sala, df_row.curso, "Lu", df_row.hora]
        my_data.append(my_row)
    if df_row.Ma=="X":
        my_row = [df_row.sala, df_row.curso, "Ma", df_row.hora]
        my_data.append(my_row)
new_df = pd.DataFrame(data=my_data, columns=my_columns)
new_df

Unnamed: 0,sala,curso,dia,hora
0,C201,mat1,Lu,8:00-10:00
1,C202,mat1,Ma,8:00-10:00
2,C203,fis1,Lu,8:00-11:00
3,C203,fis1,Ma,8:00-11:00
