## GROUP BY

Permite agrupar datos en función de los demás. Es decir, hacer el análisis del DataFrame en función de una de las columnas. Muy similar a lo que hace SQL

Por ejemplo, mas de un libro puede contar con el mismo genero, de manera que tienen algo en comun. Y saber cuantos libros tengo por genero, y con respecto al precio, cual es la media, la mediana, la STD, etc.

Se puede afirmar que Pandas maneja la misma logica que SQL con respecto al *Group By*

![groupby](../images/groupb.JPG)

In [6]:
import pandas as pd

df = pd.read_csv('../Data_Base/bestsellers_with_categories.csv', sep=',', header=0)

In [7]:
df.groupby('Genre').count()

Unnamed: 0_level_0,Name,Author,User Rating,Reviews,Price,Year
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Fiction,240,240,240,240,240,240
Non Fiction,310,310,310,310,310,310


Si miramos el resultado del codigo anterior, y como hay dos categorias por las cuales se agrupo: Fiction and Non Fiction; y cada columna tiene un valor o de 310 o de 240.

Pero que pasaria si quisieramos saber el precio promdedio de cada una de las categorias

In [8]:
df.groupby('Genre').mean()

Unnamed: 0_level_0,User Rating,Reviews,Price,Year
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fiction,4.648333,15683.791667,10.85,2013.925
Non Fiction,4.595161,9065.145161,14.841935,2014.058065


Observamos que el precio promedio es de 10.85 y 14.84.

### Ejemplo. Agrupar por Author

In [10]:
df.groupby('Author').count()

Unnamed: 0_level_0,Name,User Rating,Reviews,Price,Year,Genre
Author,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abraham Verghese,2,2,2,2,2,2
Adam Gasiewski,1,1,1,1,1,1
Adam Mansbach,1,1,1,1,1,1
Adir Levy,1,1,1,1,1,1
Admiral William H. McRaven,1,1,1,1,1,1
...,...,...,...,...,...,...
Walter Isaacson,3,3,3,3,3,3
William Davis,2,2,2,2,2,2
William P. Young,2,2,2,2,2,2
Wizards RPG Team,3,3,3,3,3,3


In [11]:
df.groupby('Author').mean()

Unnamed: 0_level_0,User Rating,Reviews,Price,Year
Author,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Abraham Verghese,4.600000,4866.000000,11.000000,2010.500000
Adam Gasiewski,4.400000,3113.000000,6.000000,2017.000000
Adam Mansbach,4.800000,9568.000000,9.000000,2011.000000
Adir Levy,4.800000,8170.000000,13.000000,2019.000000
Admiral William H. McRaven,4.700000,10199.000000,11.000000,2017.000000
...,...,...,...,...
Walter Isaacson,4.566667,6222.666667,20.333333,2013.333333
William Davis,4.400000,7497.000000,6.000000,2012.500000
William P. Young,4.600000,19720.000000,8.000000,2013.000000
Wizards RPG Team,4.800000,16990.000000,27.000000,2018.000000


In [12]:
df.groupby('Author').sum()

Unnamed: 0_level_0,User Rating,Reviews,Price,Year
Author,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Abraham Verghese,9.2,9732,22,4021
Adam Gasiewski,4.4,3113,6,2017
Adam Mansbach,4.8,9568,9,2011
Adir Levy,4.8,8170,13,2019
Admiral William H. McRaven,4.7,10199,11,2017
...,...,...,...,...
Walter Isaacson,13.7,18668,61,6040
William Davis,8.8,14994,12,4025
William P. Young,9.2,39440,16,4026
Wizards RPG Team,14.4,50970,81,6054


Si lo notas, Author esta un poco mas abajo que las otras columnas. Es porque en este momento Author no es una columna, es el indice del Data Frame. Y si el indice, se puede usar *loc* para buscarlo en el mismo indice

In [13]:
df.groupby('Author').sum().loc['William Davis']

User Rating        8.8
Reviews        14994.0
Price             12.0
Year            4025.0
Name: William Davis, dtype: float64

Y vemos que coincide con lo obtenido anteriormente.

Pero si de verdad, el analista de datos no desea que el author sea el indice, se usa *reset_index*. 

In [14]:
df.groupby('Author').median().reset_index()

Unnamed: 0,Author,User Rating,Reviews,Price,Year
0,Abraham Verghese,4.6,4866.0,11.0,2010.5
1,Adam Gasiewski,4.4,3113.0,6.0,2017.0
2,Adam Mansbach,4.8,9568.0,9.0,2011.0
3,Adir Levy,4.8,8170.0,13.0,2019.0
4,Admiral William H. McRaven,4.7,10199.0,11.0,2017.0
...,...,...,...,...,...
243,Walter Isaacson,4.6,7827.0,20.0,2012.0
244,William Davis,4.4,7497.0,6.0,2012.5
245,William P. Young,4.6,19720.0,8.0,2013.0
246,Wizards RPG Team,4.8,16990.0,27.0,2018.0


Observa ahora Author si hace parte de las columanas, y el indice queda aparte.

Ahora vamos hacer el agrupamiento con diferentes funciones de agregacion ¿Como es eso? Pues que pueda visualizar no una funcion una por una, sino al menos dos. esto se hace con *agg*

In [16]:
df.groupby('Author').agg(['min', 'max'])

Unnamed: 0_level_0,Name,Name,User Rating,User Rating,Reviews,Reviews,Price,Price,Year,Year,Genre,Genre
Unnamed: 0_level_1,min,max,min,max,min,max,min,max,min,max,min,max
Author,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Abraham Verghese,Cutting for Stone,Cutting for Stone,4.6,4.6,4866,4866,11,11,2010,2011,Fiction,Fiction
Adam Gasiewski,Milk and Vine: Inspirational Quotes From Class...,Milk and Vine: Inspirational Quotes From Class...,4.4,4.4,3113,3113,6,6,2017,2017,Non Fiction,Non Fiction
Adam Mansbach,Go the F**k to Sleep,Go the F**k to Sleep,4.8,4.8,9568,9568,9,9,2011,2011,Fiction,Fiction
Adir Levy,What Should Danny Do? (The Power to Choose Ser...,What Should Danny Do? (The Power to Choose Ser...,4.8,4.8,8170,8170,13,13,2019,2019,Fiction,Fiction
Admiral William H. McRaven,Make Your Bed: Little Things That Can Change Y...,Make Your Bed: Little Things That Can Change Y...,4.7,4.7,10199,10199,11,11,2017,2017,Non Fiction,Non Fiction
...,...,...,...,...,...,...,...,...,...,...,...,...
Walter Isaacson,Leonardo da Vinci,Steve Jobs,4.5,4.6,3014,7827,20,21,2011,2017,Non Fiction,Non Fiction
William Davis,"Wheat Belly: Lose the Wheat, Lose the Weight, ...","Wheat Belly: Lose the Wheat, Lose the Weight, ...",4.4,4.4,7497,7497,6,6,2012,2013,Non Fiction,Non Fiction
William P. Young,The Shack: Where Tragedy Confronts Eternity,The Shack: Where Tragedy Confronts Eternity,4.6,4.6,19720,19720,8,8,2009,2017,Fiction,Fiction
Wizards RPG Team,Player's Handbook (Dungeons & Dragons),Player's Handbook (Dungeons & Dragons),4.8,4.8,16990,16990,27,27,2017,2019,Fiction,Fiction


Ahora, como interpretamos la salida anterior? Busquemos un registro especifico con la ayuda del metodo *loc* para Walter Isaacson.

El minimo lo tendria Leonardo Da Vinci, el maximo Steve Jobs. Pero ojo, solo por caracteres

In [18]:
df.groupby('Author').agg(['min', 'max']).loc['Walter Isaacson']

Name         min    Leonardo da Vinci
             max           Steve Jobs
User Rating  min                  4.5
             max                  4.6
Reviews      min                 3014
             max                 7827
Price        min                   20
             max                   21
Year         min                 2011
             max                 2017
Genre        min          Non Fiction
             max          Non Fiction
Name: Walter Isaacson, dtype: object

In [19]:
df.groupby('Author').agg(['min', 'max']).head()

Unnamed: 0_level_0,Name,Name,User Rating,User Rating,Reviews,Reviews,Price,Price,Year,Year,Genre,Genre
Unnamed: 0_level_1,min,max,min,max,min,max,min,max,min,max,min,max
Author,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Abraham Verghese,Cutting for Stone,Cutting for Stone,4.6,4.6,4866,4866,11,11,2010,2011,Fiction,Fiction
Adam Gasiewski,Milk and Vine: Inspirational Quotes From Class...,Milk and Vine: Inspirational Quotes From Class...,4.4,4.4,3113,3113,6,6,2017,2017,Non Fiction,Non Fiction
Adam Mansbach,Go the F**k to Sleep,Go the F**k to Sleep,4.8,4.8,9568,9568,9,9,2011,2011,Fiction,Fiction
Adir Levy,What Should Danny Do? (The Power to Choose Ser...,What Should Danny Do? (The Power to Choose Ser...,4.8,4.8,8170,8170,13,13,2019,2019,Fiction,Fiction
Admiral William H. McRaven,Make Your Bed: Little Things That Can Change Y...,Make Your Bed: Little Things That Can Change Y...,4.7,4.7,10199,10199,11,11,2017,2017,Non Fiction,Non Fiction


Es mas, para simplificar esta informacion, y disminuir la carga cognitiva, solo ver por ejemplo, los maximos y minimos de uan columana especifica, para el ejemplo *Reviews* y para user *User Rating* el promedio. Mira que se usa un diccionario para pasar los parametros

In [23]:
df.groupby('Author').agg({'Reviews':['min', 'max'], 'User Rating':'mean'})


Unnamed: 0_level_0,Reviews,Reviews,User Rating
Unnamed: 0_level_1,min,max,mean
Author,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Abraham Verghese,4866,4866,4.600000
Adam Gasiewski,3113,3113,4.400000
Adam Mansbach,9568,9568,4.800000
Adir Levy,8170,8170,4.800000
Admiral William H. McRaven,10199,10199,4.700000
...,...,...,...
Walter Isaacson,3014,7827,4.566667
William Davis,7497,7497,4.400000
William P. Young,19720,19720,4.600000
Wizards RPG Team,16990,16990,4.800000


Tambien, se puede hacer doble agrupamiento

In [26]:
df.groupby(['Author', 'Year']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,User Rating,Reviews,Price,Genre
Author,Year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abraham Verghese,2010,1,1,1,1,1
Abraham Verghese,2011,1,1,1,1,1
Adam Gasiewski,2017,1,1,1,1,1
Adam Mansbach,2011,1,1,1,1,1
Adir Levy,2019,1,1,1,1,1
...,...,...,...,...,...,...
Wizards RPG Team,2017,1,1,1,1,1
Wizards RPG Team,2018,1,1,1,1,1
Wizards RPG Team,2019,1,1,1,1,1
Zhi Gang Sha,2009,1,1,1,1,1


## Combinanado Data Frames

Puede ser el caso, de que tenga informacion en un Data Frame, que quiera combinar con la informacion en algun otro.

### Logica de Combinacion

Tal y como lo habiamos visto en SQL

![merge](../images/Merge.JPG)

Supongamos tenemos dos Data Frames uno llamado Left y otro llamado Right. Como ves tienen algo en comun: la fila 0. Ahora que tal si los combinamos:

![join](../images/joinm.JPG)



Como ves hay diferentes maneras de hacerlo:

- Left Join
- Right Join
- Inner Join
- Outer Join

Por otra parta en Pandas existe otra forma para concatenar Data Frames. Asumamos tenemos dos DF y quiero fusionarlos a nivel de filas. Es decir al nivel axis 0

![conca](../images/conca0.JPG)

Dado el caso lo querrramos hacer por columana, se haria a nivel axis 1. Observca apareceran valores NaN

![conca](../images/conca1.JPG)

En la siguiente parte implementaremso en codigo esto conceptos

## Merge, Join y Concat

Empezamos por crear unos data frames de prueba: df1 y df2 a partir de un diccionario

In [48]:
'A4 A5 A6 A7'.split()

['A4', 'A5', 'A6', 'A7']

In [46]:
import pandas as pd
import numpy as np

my_dict ={'A':['A0', 'A1','A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'C': ['C0', 'C1', 'C2', 'C3'],
'D': ['D0', 'D1', 'D2', 'D3']}

df1 = pd.DataFrame(my_dict)
df1.head()


Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [51]:

my_dict = {'A':['A4', 'A5', 'A6', 'A7'],
'B': ['B4', 'B5', 'B6', 'B7'],
'C': ['C4', 'C5', 'C6', 'C7'],
'D': ['D4', 'D5', 'D6', 'D7']}

df2 = pd.DataFrame(my_dict)
df2.head()

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


### Concat

In [62]:
pd.concat([df1,df2], axis=0)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [61]:
pd.concat([df1,df2], axis=0).loc[0]

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
0,A4,B4,C4,D4


¿Y que pasaria con los indices? Los indices heredan el indice anterior, valga la redundancia, de manera que ahora hay dos indices 0 y asi sucesivamente.

Para evitar esto, se pasa el parametro 'ignore index', y de esta forma cada fila tendra un unico indice

In [63]:
pd.concat([df1,df2], axis=0, ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7



Vamos ahora implementarlo por columnas. Creciendo de manera horizontal. Es muy poco comun hacerlo por columnas

In [57]:
pd.concat([df1,df2], axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


### Merge

Creamos unos data frames de prueba, izq y der

In [74]:
'D0 D1 D2 D3'.split()

['D0', 'D1', 'D2', 'D3']

In [89]:
my_dict = {'key': ['k0', 'k1', 'k2', 'k3'],
'A':['A4', 'A5', 'A6', 'A7'],
'B': ['B4', 'B5', 'B6', 'B7'],}

izq = pd.DataFrame(my_dict)
print('Izquierda')
izq.head()

Izquierda


Unnamed: 0,key,A,B
0,k0,A4,B4
1,k1,A5,B5
2,k2,A6,B6
3,k3,A7,B7


In [90]:
my_dict = {'key': ['k0', 'k1', 'k2', 'k3', 'k5'],
'C':['C0', 'C1', 'C2', 'C3', 'C5'],
'D':['D0', 'D1', 'D2', 'D3', 'D5'],}

der = pd.DataFrame(my_dict)
print('Derecha')
der.head()

Derecha


Unnamed: 0,key,C,D
0,k0,C0,D0
1,k1,C1,D1
2,k2,C2,D2
3,k3,C3,D3
4,k5,C5,D5


#### Left Join

Como era de esperarse, la llave K5 no entra en este join en este JOIN

In [88]:
izq.merge(der)

Unnamed: 0,key,A,B,C,D
0,k0,A4,B4,C0,D0
1,k1,A5,B5,C1,D1
2,k2,A6,B6,C2,D2
3,k3,A7,B7,C3,D3


Para el caso anterior, hizo el join sobre la columana key. Sin embargo, es posible especificar sobre cual columna, con el parametro *on*

In [93]:
izq.merge(der, on='key')

Unnamed: 0,key,A,B,C,D
0,k0,A4,B4,C0,D0
1,k1,A5,B5,C1,D1
2,k2,A6,B6,C2,D2
3,k3,A7,B7,C3,D3


#### Right Join

Se usa el parametro *how*. Observamos que aparecen unos valores NaN, debido a que IZQ no tiene una llave k5

In [92]:
izq.merge(der, on='key', how='right')

Unnamed: 0,key,A,B,C,D
0,k0,A4,B4,C0,D0
1,k1,A5,B5,C1,D1
2,k2,A6,B6,C2,D2
3,k3,A7,B7,C3,D3
4,k5,,,C5,D5


#### Mas sobre el parametro *ON*

Comenzemos por modificas los Data Frames para ilustrar un punto

In [94]:
my_dict = {'key_0': ['k0', 'k1', 'k2', 'k3'],
'A':['A4', 'A5', 'A6', 'A7'],
'B': ['B4', 'B5', 'B6', 'B7'],}

izq = pd.DataFrame(my_dict)
print('Izquierda')
izq.head()

Izquierda


Unnamed: 0,key_0,A,B
0,k0,A4,B4
1,k1,A5,B5
2,k2,A6,B6
3,k3,A7,B7


In [95]:
my_dict = {'key_1': ['k0', 'k1', 'k2', 'k3', 'k5'],
'C':['C0', 'C1', 'C2', 'C3', 'C5'],
'D':['D0', 'D1', 'D2', 'D3', 'D5'],}

der = pd.DataFrame(my_dict)
print('Derecha')
der.head()

Derecha


Unnamed: 0,key_1,C,D
0,k0,C0,D0
1,k1,C1,D1
2,k2,C2,D2
3,k3,C3,D3
4,k5,C5,D5


Al intentar hacer un merge *on=key_1* por ejemplo nos dara un error porque el nombre de la columnacolumans sobre las cualeas de quiere hacer el Merge o Join no coinciden.

¿Que se puede hacer?

Integramos nuevos parametros al codigo, como es *left_on* y *right_on*

In [96]:
izq.merge(der, left_on='key_0', right_on='key_1', )

Unnamed: 0,key_0,A,B,key_1,C,D
0,k0,A4,B4,k0,C0,D0
1,k1,A5,B5,k1,C1,D1
2,k2,A6,B6,k2,C2,D2
3,k3,A7,B7,k3,C3,D3


Tiene una estructura un poco distinta, sin embargo coincide con el LEFT_JOIN realizado anteriormente. Y esto pasa porque nuestros Data Frames no tienen exactamente el mismo nombre en las columnas, y es muy comun que esto ocurra. 

#### Merge y NAN

Modifiquemos nuevamente los DF. Para que una llave tenga un valor NaN

In [100]:
my_dict = {'key': ['k0', 'k1', 'k2', np.nan],
'A':['A4', 'A5', 'A6', 'A7'],
'B': ['B4', 'B5', 'B6', 'B7'],}

izq = pd.DataFrame(my_dict)
print('Izquierda')
izq.head()

Izquierda


Unnamed: 0,key,A,B
0,k0,A4,B4
1,k1,A5,B5
2,k2,A6,B6
3,,A7,B7


In [101]:
my_dict = {'key': ['k0', 'k1', 'k2', 'k3', 'k5'],
'C':['C0', 'C1', 'C2', 'C3', 'C5'],
'D':['D0', 'D1', 'D2', 'D3', 'D5'],}

der = pd.DataFrame(my_dict)
print('Derecha')
der.head()

Derecha


Unnamed: 0,key,C,D
0,k0,C0,D0
1,k1,C1,D1
2,k2,C2,D2
3,k3,C3,D3
4,k5,C5,D5


Y a continuacion hagamos el JOIN

In [103]:
izq.merge(der, on='key')

Unnamed: 0,key,A,B,C,D
0,k0,A4,B4,C0,D0
1,k1,A5,B5,C1,D1
2,k2,A6,B6,C2,D2


Observamos que acabamos de hacer un Inner_JOIN interseccion

In [104]:
izq.merge(der, on='key', how='left')

Unnamed: 0,key,A,B,C,D
0,k0,A4,B4,C0,D0
1,k1,A5,B5,C1,D1
2,k2,A6,B6,C2,D2
3,,A7,B7,,


El parametro *how* puede tomar los siguientes valores:

- left
- right
- inner