<img src="../img/crowdlearning-etic.png" alt="Logo ETIC" align="right">
<br>
<h1><font color="#004D7F" size=6>Pandas III</font></h1>

<br><br>
<div style="text-align: right">
<font color="#004D7F" size=3>Antonio Jesús Gil</font><br>
<font color="#004D7F" size=3>Introducción a la Ciencia de Datos</font><br>

</div>

---

<a id="indice"></a>
<h2><font color="#004D7F" size=5>Índice</font></h2>

* [10. Agrupamiento: <font face="monospace">groupby()</font>](#section10)
    * [Agregación por grupos](#section101)
* [11. Multi-índices](#section11)
* [12. Combinación de DataFrames](#section12)
    * [<font face="monospace">append()</font>](#section121)
    * [<font face="monospace">concat()</font>](#section122)
    * [<font face="monospace">merge()</font>](#section123)
    * [<font face="monospace">join()</font>](#section124)

---

<a id="section10"></a>
# <font color="#004D7F"> 10. Agrupamiento: <font face="monospace"> groupby()</font></font>

<br>
La función `groupby()` permite agrupar los datos del `DataFrame` según en función de los valores de su índice o columnas. Devuelve una estructura del tipo `DataFrameGroupBy`, que implementa estructuras de datos necesarias para que las operaciones sobre grupos se apliquen de manera eficiente.

In [None]:
import pandas as pd
import numpy as np
df = pd.read_csv('datos/county.txt', sep='\t')
df.head()

La siguiente celda de código agrupa las entradas del conjunto de datos anterior en función del valor del campo _state_.

In [None]:
# grupos_df = df.groupby(df['state']); # Las dos formas son equivalentes. La primera permite entender mejor el 
grupos_df = df.groupby('state');       # funcionamiento de la función. La segunda es más cómoda. 
print(type(grupos_df))

Nos crea un ojeto de tipo `DataFrameGroupBy`. La estructura `GroupBy.indices`, contiene un diccionario con las posiciones de las filas que corresponden a cada uno de los grupos. Otra estructura, `GroupBy.groups`, devuelve los índices de las filas correspondientes a cada grupo. 

In [None]:
indices = df.groupby('state').indices
print("Índices")
print(type(indices),'\n')

In [None]:
print(indices.keys())
print()

In [None]:
print(indices['Alabama'])
print()

Es posible obtener un `DataFrame` con los elementos correspondientes a cada grupo mediante la función `GroupBy.get_group()`.

### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio</font>
Muestra el tamaño del df correspondiente al grupo de `Alabama`

In [None]:
# Escribe aquí el código

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i> __Nota__: Aunque estas estructuras y modo de acceso están disponibles, y permiten entender el funcionamiento de  `groupby()`, no es habitual el trabajo directo con ellas. 
</div>

Es posible iterar sobre la estructura `DataFrameGroupBy` y obtener el `DataFrame` correspondiente a cada grupo.

En este caso agrupamos en función de la columna `state`. El iterador devuelve una tupla con el grupo y el DataFrame.

In [None]:
print("Imprime el primer grupo: \n")
for grupo, df_grupo in df.groupby('state'):
    print("Grupo: ",grupo)
    print(df_grupo.head())
    break                                   # Para imprimir solamente un grupo

La estructura `DataFrameGroupBy` implementa la mayoría de las funciones que implementa un `DataFrame`, pero éstas se aplican de manera independiente a cada uno de los grupos. El resultado de la aplicación es un `DataFrame`.

In [None]:
grupos_df = df.groupby('state')
grupos_df.mean().head()
#grupos_df.describe()

El acceso a columnas también se aplica de manera independiente a cada grupo, de manera que genera un objeto `SeriesGroupBy` (o `DataFrameGroupBy` si se accede a varias columnas), en el que los datos están agrupados con el mismo criterio que el `DataFrame`.

### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio</font>
Crea un bucle for python que nos muestre los datos relativos a la serie anterior. Añadimos break al final para que tan solo muestre `Alabama`.

In [None]:
# Escribe el código
for in :

    break;                  # Procesa solamente la primera iteración

---

<a id="section101"></a> 
## <font color="#004D7F">Agregación por grupos </font>

<br>¿Para qué agrupamos? Para disponer de datos agregados. Una de los usos más frecuentes de la agrupación es la agregación por grupos. La función `agg()` lleva a cabo la agrupación de manera independiente para cada grupo.

A la funcion agg se le pueden pasar parámetros de tres formas:

In [None]:
# La columna 2010 obtiene la media aplicando mean y su máximo utilizando una función lambda
# Para la columna med_income obtenemos la media mediante un string

media_estado = df.groupby('state').agg({'pop2010': [np.mean, lambda pop: np.max(pop)], 'med_income':'mean'})
media_estado.head()

Existe otro modo de llevar a cabo la agregación. Consiste en acceder a la columna determinada, y llevar a cabo la agregación sobre ella.

### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio</font>
Muestra un `df.groupby` utilizando `agg` equivalente a la anterior pasando una lista de funciones. Nota: recuerda utilizar numpy para el máximo y el mínimo (np.max, np.min)

In [None]:
# Escribe aquí el código
media_estado.head()


---

<a id="section11"></a> 
# <font color="#004D7F">Multi-índices </font>

<br>
Pandas permite utilizar varios niveles de indexación, tanto para filas como para columnas. En este tutorial se describen los conceptos necesarios para el uso más común. Se puede encontrar más información al respecto en la ([documentación](https://pandas.pydata.org/pandas-docs/stable/advanced.html)). 

<br>
Cuando se proporcionan varias colecciones como índice en la construcción del `DataFrame`, se crea un multi-indice. 

In [None]:
import pandas as pd
df = pd.read_csv('datos/county.txt', sep='\t')
df.set_index(['state','name'], inplace=True)
df.head()

Cuando se utiliza un índice a varios niveles, el acceso natural a filas se hace mediante tuplas cuyo tamaño corresponde al número de índices, y con los valores del índice en cada nivel.

In [None]:
#df.loc[('Alabama','Bibb County')]      
df.loc['Alabama','Bibb County']             # Estas dos notaciones son equivalentes

<div class="alert alert-block alert-warning">
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
__Importante__: Hablamos de varios niveles porque pueden ser más de dos. 
</div>

No es necesario especificar valores en todos los niveles para localizar elementos. Es posible omitir los valores a partir de un nivel. 

In [None]:
df.loc['Alabama'].head()

Este tipo de indexación, mediante el valor en el índice principal, permite _slicing_.

In [None]:
df.loc['Alabama':'Wyoming'].head()

También es posible utilizar multi-índices en las columnas. El siguiente código crea un multi-índice y lo establece en el `DataFrame` anterior.

In [None]:
# Crea un multi-índice
level1 = ['population', 'population', 'money', 'money', 'money','money','money','money']
level2 = df.columns
tuples = list(zip(level1,level2))
m_columns = pd.MultiIndex.from_tuples(tuples, names=['principal', 'secundario'])

# Establece un multi índice como índice de columnas.
df.columns = m_columns
df.head()

Por último, la función `groupby` acepta un parámetro, denominado `level`, que permite agrupar los datos según el valor del índice en un nivel. 

In [None]:
grupos_df = df.groupby(level=0)
for grupo, datos in grupos_df:
    print(grupo)
    print(datos.head())
    break;    # Solamente el primer grupo.

Otro ejemplo. Agrupa por nombre de condado, y muestra las columnas que corresponden al índice _ money_.

In [None]:
grupos_df = df.groupby(level=1)['money']
for grupo, datos in grupos_df:
    print(grupo)
    print(datos.head())
    break;    # Solamente el primer grupo.

---

<a id="section12"></a>
# <font color="#004D7F"> 12. Combinación de Dataframes</font>

<br>

La funcionalidad relativa a combinación de `DataFrame` y `Series` es completa y compleja, ya que uno de los usos principales de Pandas es el de herramienta para la agregación de datos. La documentación oficial de la librería ilustra con ejemplos la mayoría de casos de uso ([documentación](https://pandas.pydata.org/pandas-docs/stable/merging.html)).

Para ilustrar los ejemplos de este tutorial, se utilizarán estos tres `DataFrame`. 

In [None]:
pos1_df = pd.DataFrame([{'Nombre': 'Diego Costa', 'Posición': 'Delantero', 'País':'Brasil'},
                        {'Nombre': 'Sergio Ramos', 'Posición': 'Defensa', 'País':'España'},
                        {'Nombre': 'Gerard Piqué', 'Posición': 'Defensa', 'País':'España'},
                        {'Nombre': 'Cristiano Ronaldo', 'Posición': 'Delantero', 'País':'Portugal'}])

pos2_df = pd.DataFrame([{'Nombre': 'Leo Messi', 'Posición': 'Delantero', 'País':'Argentina'},
                        {'Nombre': 'Luka Modrić', 'Posición': 'Centrocampista', 'País':'Croacia'},
                        {'Nombre': 'Saúl Ñíguez', 'Posición': 'Centrocampista', 'País':'España'},
                        {'Nombre': 'Karim Benzema', 'Posición': 'Delantero', 'País':'Francia'}])

eqp_df = pd.DataFrame([{'Nombre': 'Diego Costa',  'Equipo': 'Atlético de Madrid', 'País':'España'},
                       {'Nombre': 'Cristiano Ronaldo','Equipo': 'Real Madrid', 'País':'España'},
                       {'Nombre': 'Leo Messi','Equipo': 'FC Barcelona', 'País':'España'},
                       {'Nombre': 'Koke','Equipo': 'Atlético de Madrid', 'País':'España'}])

print(pos1_df)
print()
print(eqp_df)


---

<a id="section121"></a> 
## <font color="#004D7F"><font face="monospace"> append()</font></font>
    
Es la función más sencilla. Permite añadir a un `DataFrame` las filas de otro u otros `Dataframe`. Como resultado, genera un nuevo `DataFrame`.

In [None]:
print(pos1_df.set_index("Nombre").append(pos2_df.set_index("Nombre")))

`append()` toma un parámetro, denominado `ignore_index` que permite crear un nuevo índice (numérico) e ignorar el de los `DataFrames` originales. 

In [None]:
print(pos1_df.set_index("Nombre").append(pos2_df.set_index("Nombre"), ignore_index=True))

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i> __Nota__: La función `append()` es en realidad un caso específico de la función más general `concat()`, que se verá a continuación.
</div>


---

<a id="section122"></a> 
## <font color="#004D7F"><font face="monospace"> concat()</font></font>

<br>
Esta función implementa la concatenación de `DataFrames`. Puede hacerse a nivel de filas (similar a `append()`) como de columnas. Toma varios parámetros. Los más importantes, además de la lista de `DataFrame` que se han de concatenar, son:

* `axis`. Determina el eje a lo largo del cual se concatenan los datos, y puede tomar los valores 0 (filas) y 1 (columnas).
* `join`. Determina si se considera la unión (`outer`) o la intersección (`inner`) de elementos (según el índice). 
* `join_axes`. Permite especificar qué elementos se incluyen (se usa en lugar de `join`) en el nuevo `DataFrame`.
* `keys`. Es un vector de claves. Si se utiliza, crea un multi-índice, y utiliza estas claves en el primer nivel para marcar el `DataFrame` original en el resultante. 

La siguiente llamada es equivalente a `append()`. Por defecto lleva a cabo la concatenación a nivel de filas, y une las columnas de ambos `DataFrame`.

In [None]:
pd.concat([pos1_df, pos2_df])
#pd.concat([pos1_df, pos2_df], join="outer", axis=0)       # Es equivalente

El parámetro join determina qué conjunto de índices (en el eje que no se concatena) se incluye en el `DataFrame` resultado. El siguiente ejemplo concatena las filas de ambos `DataFrame`, y solamente incluye las columnas que aparecen en ambos. Además, crea un nuevo índice, prescindiendo de los anteriores.

In [None]:
pd.concat([pos1_df, eqp_df], join="inner", axis=0, ignore_index=True)      

Cuando se unen `DataFrame` con distintas columnas,  los valores indeterminados se fijan a _NaN_ en el nuevo `DataFrame`. Este código, además, añade una clave que permite identificar el origen de los datos. 

### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio</font>
Siguiendo con el ejemplo anterior, añade un vector de claves y crea un multi-índice de 'Jugadores' y 'Equipos'. Utiliza las distintas opciones que nos ofrece `join`

In [None]:
# Escribe aquí el código

La elección de `axis=1` permite concatenar las columnas. En este ejemplo, indicamos que solamente se consideren aquellas filas cuyo índice aparece en ambos `DataFrame` mediante `join=inner`.

In [None]:
# Previamente, establecemos el nombre del jugador como índice. 
cp_pos1_df=pos1_df.set_index('Nombre')
cp_pos2_df=pos2_df.set_index('Nombre')
cp_eqp_df = eqp_df.set_index('Nombre')

In [None]:
pd.concat([cp_pos1_df, cp_eqp_df], axis=1, join='inner')
#pd.concat([cp_pos1_df, cp_eqp_df], axis=1, join='outer')

En lugar de `join`, es posible determinar qué índices se incluyen mediante `join_axes`. El siguiente ejemplo incluye todas las filas del primer `DataFrame`.

In [None]:
pd.concat([cp_pos1_df, cp_eqp_df], axis=1, join_axes=[pos1_df.index])


---

<a id="section123"></a> 
## <font color="#004D7F"><font face="monospace"> merge()</font></font>

<br>

Esta función permite unir las columnas de dos `DataFrame`. A diferencia de `concat()`, permite especificar el modo en que se lleva a cabo esa unión mediante funcionalidades propias de lenguajes de bases de datos relacionales como SQL. Éstas se caracterizan, a _grosso modo_, por establecer una relación entre los dos conjuntos de datos que es función de una columna (que puede o no ser el índice).

La función `merge()`, cuenta con numerosos parámetros ([documentación](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html)) que rigen la unión. Algunos de los más importantes son:

* `left`, `right`. Son argumentos posicionales que se refieren a los dos `DataFrame` que son unidos. 
* `left_index`, `right_index`. Determinan si los índices respectivos se usan como claves de unión.
* `on`, `left_on`, `right_on`. Determinan qué columnas (si no se usan índices) son utilizadas como claves de unión. `on` se utiliza cuando las columnas aparecen en ambos `DataFrame`.
* `how`. Determina qué elementos se incluyen en la unión. Puede tomar los valores `left`, `right`, `outer`, e `inner` según se consideren, respectivamente, los índices del primer `DataFrame`, del segundo, la unión, o la intersección de ambos.  

Además, admite otros parámetros de utilidad a la hora de presentar el conjunto de datos resultante de la unión.

* `suffixes`. Es una lista de `Strings` (dos). Cuando existen columnas comunes en ambos `DataFrame`, y no son utilizadas como clave de unión, permite identificarlas en el `DataFrame` resultante. Para ello, añade cada `String` al nombre de la columna correspondiente según incluya los valores de uno u otro `DataFrame`.  
* `indicator`. Añade una columna, denominada `_merge` con información sobre el origen de cada fila (un `DataFrame` concreto o los dos.
* `validate`. Es un `String` que permite determinar si se cumple una determinada relación entre las claves de unión. Puede tomar los valores `1:1`, `1:m`, `m:1` y `m:m`.

<br>
En la siguiente celda se lleva a cabo la unión entre los dos `DataFrame` definidos anteriormente en función del nombre del jugador, y considerando la unión de todas las filas. Como la columna _País_ aparece en ambos `DataFrame`, se añade también un sufijo para determinar la correspondencia en el `DataFrame` resultante.

In [None]:
pd.merge(pos1_df,eqp_df, how='outer', left_on='Nombre', right_on='Nombre', suffixes=['_jug','_equ'])

### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio</font>
Busca una equivalencia al código anterior utilizando las claves de unión por columnas

In [None]:
# Escribe aquí el código

En este caso, suponemos que los `DataFrame` están indexados según el nombre del jugador. Además, añadimos un indicador, que permite determinar el origen de cada entrada. 

In [None]:
pd.merge(pos1_df.set_index('Nombre'), eqp_df.set_index('Nombre'), how='outer', 
         left_index=True, right_index=True, suffixes=['_jug','_equ'], indicator=True)


---

<a id="section124"></a> 

## <font color="#004D7F"><font face="monospace"> join()</font></font>

Es similar a `merge()`, aunque permite unir varios `DataFrame` y utiliza solo algunos parámetros. Por defecto utiliza los índices como clave de unión y el conjunto de elementos del `DataFrame` de la izquierda, es decir, `how=left` ([documentación](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.join.html)).


In [None]:
pos1_df.set_index('Nombre', inplace=True)
pos2_df.set_index('Nombre', inplace=True)
eqp_df.set_index('Nombre', inplace=True)

In [None]:
pos1_df.join(eqp_df, lsuffix='_pos', rsuffix='_equ')

La llamada anterior es equivalente a ésta. 

In [None]:
pd.merge(pos1_df, eqp_df, left_index=True, right_index=True, how='left', suffixes=['_jug','_equ'], sort=False)