## Pandas II: Agrupaciones y agregaciones

<a id="indice"></a>
# Índice


* [1. Operadores y funciones](#operadores)
   * [Operadores matemáticos](#operadoresMatematicos)
   * [Transformación de columnas](#funciones)
   * [Operaciones sobre Strings](#operadoresStrings)   
* [2. Agregación](#agregacion) 
* [3. Agrupamiento](#agrupamiento) 
* [4. Combinación de DataFrames](#combinacion) 

# DataFrame

En esta libreta vamos a trabajar principalmente con dos `DataFrames`. El primero, "MQTT-Events.csv", contiene datos de monitorización de una red en la que se genera tráfico MQTT. En el segundo, "packetLengthPrediction.csv", disponemos datos de predicción del tamaño de los paquetes en función del resto de columnas en el primer `DataFrame`. Los datos fueron tomados el día 3 de febrero de 2018, desde las 9PM hasta las 11PM.

También usaremos el fichero `fifa19.csv`, que contiene datos sobre jugadores en el videojuego FIFA 2019.

In [1]:
import pandas as pd

En primer lugar, vamos a leer ambos `DataFrames` y a asignar la columna `timestamp` como índice en ambos objetos.

In [2]:
df_fifa = pd.read_csv("../data/fifa19.csv")
df_fifa.head()

Unnamed: 0,ID,Name,Age,Nationality,Overall,Potential,Club,Value,Wage,Position,Joined,Height,Weight,Release Clause
0,158023,L. Messi,31,Argentina,94,94,FC Barcelona,€110.5M,€565K,RF,"Jul 1, 2004",5'7,159lbs,€226.5M
1,20801,Cristiano Ronaldo,33,Portugal,94,94,Juventus,€77M,€405K,ST,"Jul 10, 2018",6'2,183lbs,€127.1M
2,190871,Neymar Jr,26,Brazil,92,93,Paris Saint-Germain,€118.5M,€290K,LW,"Aug 3, 2017",5'9,150lbs,€228.1M
3,193080,De Gea,27,Spain,91,93,Manchester United,€72M,€260K,GK,"Jul 1, 2011",6'4,168lbs,€138.6M
4,192985,K. De Bruyne,27,Belgium,91,92,Manchester City,€102M,€355K,RCM,"Aug 30, 2015",5'11,154lbs,€196.4M


In [3]:
# read data from files
df_events = pd.read_csv("../data/MQTT-events.csv")
df_predictions = pd.read_csv("../data/packetLengthPrediction.csv")

In [4]:
df_events.head()

Unnamed: 0,timestamp,packetLength,info,networkInterface.sourceMAC,networkInterface.destinationMAC,internet.sourceIP,internet.destinationIP,internet.protocol,TCP.sourcePort,TCP.destinationPort,TCP.flags,TCP.calculatedWindowSize,UDP.sourcePort,UDP.destinationPort,MQTT.flags,MQTT.message,MQTT.topic,MQTT.messageLength,MQTT.frameCounter
0,1517688352799319,100,Publish Message,08:00:27:71:f1:05,08:00:27:53:41:85,192.168.1.7,192.168.1.5,MQTT,52588,1883,0x018,229,-1,-1,0x30,62.7216410003,fakeSensor2/sound,32,1
1,1517688352837583,66,1883 > 52588 [ACK] Seq=1 Ack=35 Win=227 Len=...,08:00:27:53:41:85,08:00:27:71:f1:05,192.168.1.5,192.168.1.7,TCP,1883,52588,0x010,227,-1,-1,-1,-1.0,-1,-1,1
2,1517688352965108,100,Publish Message,08:00:27:0e:06:81,08:00:27:53:41:85,192.168.1.4,192.168.1.5,MQTT,59662,1883,0x018,229,-1,-1,0x30,46.1680763098,fakeSensor3/sound,32,1
3,1517688352965147,66,1883 > 59662 [ACK] Seq=1 Ack=35 Win=227 Len=...,08:00:27:53:41:85,08:00:27:0e:06:81,192.168.1.5,192.168.1.4,TCP,1883,59662,0x010,227,-1,-1,-1,-1.0,-1,-1,1
4,1517688354027486,100,Publish Message,08:00:27:0e:06:81,08:00:27:53:41:85,192.168.1.4,192.168.1.5,MQTT,59662,1883,0x018,229,-1,-1,0x30,31.8849343769,fakeSensor3/sound,32,1


In [5]:
df_predictions.head()

Unnamed: 0,timestamp,packetLengthPredict
0,1517688352799319,100.001734
1,1517688352837583,66.010765
2,1517688352965108,100.001715
3,1517688352965147,66.010869
4,1517688354027486,100.001575


<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></font></a></div>
<a id="operadores"></a>

# 1. Operadores y funciones

<a id="operadoresMatematicos"></a>

## 1.1 Operadores matemáticos

Se pueden utilizar los operadores matemáticos habituales para operar sobre los elementos de la `Serie` o el `DataFrame`, aplicando la operación elemento a elemento sobre cada valor de la/s columna/s:

### Operaciones entre series y escalares

Opera cada elemento de la serie con el escalar

In [6]:
df_fifa["birthdate"] =  2019 - df_fifa.Age
df_fifa

Unnamed: 0,ID,Name,Age,Nationality,Overall,Potential,Club,Value,Wage,Position,Joined,Height,Weight,Release Clause,birthdate
0,158023,L. Messi,31,Argentina,94,94,FC Barcelona,€110.5M,€565K,RF,"Jul 1, 2004",5'7,159lbs,€226.5M,1988
1,20801,Cristiano Ronaldo,33,Portugal,94,94,Juventus,€77M,€405K,ST,"Jul 10, 2018",6'2,183lbs,€127.1M,1986
2,190871,Neymar Jr,26,Brazil,92,93,Paris Saint-Germain,€118.5M,€290K,LW,"Aug 3, 2017",5'9,150lbs,€228.1M,1993
3,193080,De Gea,27,Spain,91,93,Manchester United,€72M,€260K,GK,"Jul 1, 2011",6'4,168lbs,€138.6M,1992
4,192985,K. De Bruyne,27,Belgium,91,92,Manchester City,€102M,€355K,RCM,"Aug 30, 2015",5'11,154lbs,€196.4M,1992
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16638,238813,J. Lundstram,19,England,47,65,Crewe Alexandra,€60K,€1K,CM,"May 3, 2017",5'9,134lbs,€143K,2000
16639,243165,N. Christoffersson,19,Sweden,47,63,Trelleborgs FF,€60K,€1K,ST,"Mar 19, 2018",6'3,170lbs,€113K,2000
16640,241638,B. Worman,16,England,47,67,Cambridge United,€60K,€1K,ST,"Jul 1, 2017",5'8,148lbs,€165K,2003
16641,246268,D. Walker-Rice,17,England,47,66,Tranmere Rovers,€60K,€1K,RW,"Apr 24, 2018",5'10,154lbs,€143K,2002


Podemos aplicar operaciones sobre una columna concreta, como calcular sus valores absolutos o agregar todos los valores en uno mediante la operación de suma. Para saber todas las operaciones que podemos aplicar, consultar la [documentación oficial](https://pandas.pydata.org/pandas-docs/stable/reference/series.html).

In [7]:
# calculamos el error absoluto medio en las predicciones realizadas por cada fila
(df_events.packetLength - df_predictions.packetLengthPredict).abs().sum() / df_events.shape[0]

0.7354155503148614

## 1.2 Transformación de columnas

### Función `map` para series

Esta función nos permite aplicar una función definida por el usuario a todos los elementos de una `Serie`, y devuelve una serie nueva.

In [8]:
def get_year(x):
    # obtenemos el año del campo joined
    return x.split(",")[1].strip()

In [9]:
get_year("Jul 1, 2004")

'2004'

In [10]:
df_fifa.Joined.map(get_year)

0        2004
1        2018
2        2017
3        2011
4        2015
         ... 
16638    2017
16639    2018
16640    2017
16641    2018
16642    2018
Name: Joined, Length: 16643, dtype: object

In [11]:
df_fifa["Joined Year"] = df_fifa["Joined"].map(get_year)
df_fifa.head(2)

Unnamed: 0,ID,Name,Age,Nationality,Overall,Potential,Club,Value,Wage,Position,Joined,Height,Weight,Release Clause,birthdate,Joined Year
0,158023,L. Messi,31,Argentina,94,94,FC Barcelona,€110.5M,€565K,RF,"Jul 1, 2004",5'7,159lbs,€226.5M,1988,2004
1,20801,Cristiano Ronaldo,33,Portugal,94,94,Juventus,€77M,€405K,ST,"Jul 10, 2018",6'2,183lbs,€127.1M,1986,2018


A veces la operación puede ser muy sencilla. Por ejemplo, vamos a transformar la columna `Potential` a un ratio entre 0 y 1. Para ello, dividiremos el valor por 100.

In [12]:
def divide_by_100(x):
    return x / 100

In [13]:
df_fifa["Potential"].map(divide_by_100)

0        0.94
1        0.94
2        0.93
3        0.93
4        0.92
         ... 
16638    0.65
16639    0.63
16640    0.67
16641    0.66
16642    0.66
Name: Potential, Length: 16643, dtype: float64

En estos casos es mucho más cómodo usar **funciones lambda**:

In [14]:
df_fifa["Potential"].map(lambda potential: potential / 100)

0        0.94
1        0.94
2        0.93
3        0.93
4        0.92
         ... 
16638    0.65
16639    0.63
16640    0.67
16641    0.66
16642    0.66
Name: Potential, Length: 16643, dtype: float64

### `apply` para DataFrames

La función `apply` se aplica sobre `DataFrames` para todas sus filas o columnas (se puede elegir la dirección por medio de axis).

- Si queremos que la función **agregue todos los valores del índice, generando un valor agregado para cada columna**, usaremos `axis="index"`. Esta opción se utiliza para agregar valores por columnas a nivel **descriptivo**.
- Si queremos que la función **agrege todos los valores de las columnas, generando un valor agregado para cada índice**, usaremos `axis="columns"`. Esta opción se utiliza para agregar valores por filas **para crear una nueva columna**.

#### axis columns

Normalmente se utiliza para crear una nueva columna como resultado de utilizar el valor de varias simultáneamente para cada fila.

In [15]:
df_dates = pd.DataFrame.from_records(
    [(1, 1, 2018), (2, 1, 2018), (3, 1, 2018)],
    columns=["day", "month", "year"]
)
df_dates

Unnamed: 0,day,month,year
0,1,1,2018
1,2,1,2018
2,3,1,2018


In [16]:
def build_date(fila):
    return f"{fila.year}/{fila.month:02d}/{fila.day:02d}"

In [17]:
# Lo podemos probar con una sola fila para ver si funciona
build_date(df_dates.iloc[0])

'2018/01/01'

In [18]:
# axis=columns indica que el procesamiento se hace sobre las columnas (para cada fila)
df_dates["date"] = df_dates.apply(build_date, axis="columns")
df_dates

Unnamed: 0,day,month,year,date
0,1,1,2018,2018/01/01
1,2,1,2018,2018/01/02
2,3,1,2018,2018/01/03


#### axis index

No se suele utilizar, ya que sirve para agregar y obtener estadísticas de todas las columnas a la vez, para lo cual ya disponemos de `describe()`. Si queremos aplicar una función de agregación a una sola columna, también podemos acceder a ella y aplicar la función deseada, o una función custom con `apply`.

También podemos usar la función para aplicar un función o una lista de funciones básicas sobre el índice a modo descriptivo.

In [19]:
df_dates.apply("mean", axis="index")

day         2.0
month       1.0
year     2018.0
dtype: float64

In [20]:
df_dates.apply(["max", "min", "mean"], axis="index")

Unnamed: 0,day,month,year,date
max,3.0,1.0,2018.0,2018/01/03
min,1.0,1.0,2018.0,2018/01/01
mean,2.0,1.0,2018.0,


### `assign`

La función `assign` permite crear (o sustituir) columnas en un `DataFrame`. La sintáxis consiste en usar `.assign` especificando un argumento nombrado por cada columna que queremos crear, siendo el valor una función que recibe el DataFrame original y debe devolver una Serie.

Esta función permite crear o sistituir filas en un `DataFrame` a través de una función en lugar de usar el operador de igualdad sobre un acceso a una columna. Eso mejora la legibilidad y habilita la forma de trabajo en tubería o _pipeline_.

In [21]:
df_fifa.head()

Unnamed: 0,ID,Name,Age,Nationality,Overall,Potential,Club,Value,Wage,Position,Joined,Height,Weight,Release Clause,birthdate,Joined Year
0,158023,L. Messi,31,Argentina,94,94,FC Barcelona,€110.5M,€565K,RF,"Jul 1, 2004",5'7,159lbs,€226.5M,1988,2004
1,20801,Cristiano Ronaldo,33,Portugal,94,94,Juventus,€77M,€405K,ST,"Jul 10, 2018",6'2,183lbs,€127.1M,1986,2018
2,190871,Neymar Jr,26,Brazil,92,93,Paris Saint-Germain,€118.5M,€290K,LW,"Aug 3, 2017",5'9,150lbs,€228.1M,1993,2017
3,193080,De Gea,27,Spain,91,93,Manchester United,€72M,€260K,GK,"Jul 1, 2011",6'4,168lbs,€138.6M,1992,2011
4,192985,K. De Bruyne,27,Belgium,91,92,Manchester City,€102M,€355K,RCM,"Aug 30, 2015",5'11,154lbs,€196.4M,1992,2015


In [22]:
import datetime

In [23]:
datetime.datetime.now().year

2023

In [24]:
# El codgo a continuacion hace carga el fichero, renombra, y crea dos columnas nuevas
# Hacemos uso del formato pipeline o tubería de transformaciones, una operación por línea

df_fifa_new = (
    pd.read_csv("../data/fifa19.csv", index_col="ID")
    .rename(columns={"Joined": "joined"})
    .assign(
        joined_year=lambda df: df["joined"].map(get_year),
        # la función to_numeric transforma una columna string a numérica, la veremos en detalle más adelante
        club_years=lambda df: 2019 - pd.to_numeric(df["joined_year"], errors="coerce")
    )
)

df_fifa_new.head()

Unnamed: 0_level_0,Name,Age,Nationality,Overall,Potential,Club,Value,Wage,Position,joined,Height,Weight,Release Clause,joined_year,club_years
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
158023,L. Messi,31,Argentina,94,94,FC Barcelona,€110.5M,€565K,RF,"Jul 1, 2004",5'7,159lbs,€226.5M,2004,15
20801,Cristiano Ronaldo,33,Portugal,94,94,Juventus,€77M,€405K,ST,"Jul 10, 2018",6'2,183lbs,€127.1M,2018,1
190871,Neymar Jr,26,Brazil,92,93,Paris Saint-Germain,€118.5M,€290K,LW,"Aug 3, 2017",5'9,150lbs,€228.1M,2017,2
193080,De Gea,27,Spain,91,93,Manchester United,€72M,€260K,GK,"Jul 1, 2011",6'4,168lbs,€138.6M,2011,8
192985,K. De Bruyne,27,Belgium,91,92,Manchester City,€102M,€355K,RCM,"Aug 30, 2015",5'11,154lbs,€196.4M,2015,4


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> Assign realmente permite asignar expresiones directamente, por ejemplo una constante, o expresiones computadas directamente a partir de una Serie (columna). Sin embargo, la forma más habitual de usar assign es a través de una función lambda.
</div>

## <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio

1. Sabiendo que los datos son de 2019, crear una columna birth que sea el año de nacimiento, calculado como 2019 menos la edad de cada jugador.

2. Sobreescribir la columna `Release Clause` para que indique el valor como tipo numérico.

3. Crear una columna que sea `effort`, calculada como la diferencia de la columna `Potential` menos `Overall`. ¿Qué jugadores están en el top 10 respecto a `effort`?

4. Sobreescribe la columna `Height`, que representa la altura de los jugadores en pies, para que represente la altura en centímetros. Un pie es igual a `30,48` centímetros. Transforma la columna para que sea de tipo flotante.

In [25]:
# Completar
def get_release_clause(x):
    rc = float(x[1:-1])
    return rc * 1_000_000 if x[-1] == "M" else rc * 1_000 # "K"

def parse_height(x):
    return float(x.replace("'", ".")) * 30.48

df_fifa_processed = (
    pd.read_csv("../data/fifa19.csv", index_col="ID")
    .rename(columns={"Release Clause": "release_clause"})
    .assign(
        birth=lambda df: 2019 - df["Age"],
        release_clause=lambda df: df["release_clause"].map(get_release_clause),
        effort=lambda df: df["Potential"] - df["Overall"],
        Height=lambda df: df["Height"].map(parse_height)
    )
)

df_fifa_processed.head()

Unnamed: 0_level_0,Name,Age,Nationality,Overall,Potential,Club,Value,Wage,Position,Joined,Height,Weight,release_clause,birth,effort
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
158023,L. Messi,31,Argentina,94,94,FC Barcelona,€110.5M,€565K,RF,"Jul 1, 2004",173.736,159lbs,226500000.0,1988,0
20801,Cristiano Ronaldo,33,Portugal,94,94,Juventus,€77M,€405K,ST,"Jul 10, 2018",188.976,183lbs,127100000.0,1986,0
190871,Neymar Jr,26,Brazil,92,93,Paris Saint-Germain,€118.5M,€290K,LW,"Aug 3, 2017",179.832,150lbs,228100000.0,1993,1
193080,De Gea,27,Spain,91,93,Manchester United,€72M,€260K,GK,"Jul 1, 2011",195.072,168lbs,138600000.0,1992,2
192985,K. De Bruyne,27,Belgium,91,92,Manchester City,€102M,€355K,RCM,"Aug 30, 2015",155.7528,154lbs,196400000.0,1992,1


#### Filtrados en modo pipeline

Cuando trabajamos en modo _pipeline_ como en el ejemplo anterior, es posible que queramos aplicar operaciones de filtrado. Lo habitual es operar con una columna del dataframe para filtar, por ejemplo para obtener los jugadores con `Overall` mayor que 90.

Sin embargo, qué ocurre cuando el filtrado lo queremos hacer sobre una columna que acabamos de construir mediante la operación `assign`? En este caso, `loc` puede ser utilizado especificando una función que recibe un dataframe y devuelve la máscara. La ventaja de esta sintaxis es que el dataframe con el que operamos para construir la máscara es el resultante de la operación inmediatamente anterior al filtrado con `loc`, por lo que podemos utilizar cualquier columna que haya sido creada en el _pipeline_.

_Nota:_ las funciones especificadas en `loc` suelen ser funciones lambda, ya que el código que ejecutan es el mismo que aplicaríamos en un `loc` normal salvo que el dataframe que usamos para operar se llama como indiquemos en el argumento de la función.

In [26]:
# En este caso filtramos los jugadores que han estado mas de 10 años en su club

df_fifa = pd.read_csv("../data/fifa19.csv")

(
    df_fifa
    .rename(columns={"Joined": "joined"})
    .assign(
        joined_year=lambda df: df["joined"].map(get_year),
        club_years=lambda df: 2019 - pd.to_numeric(df["joined_year"], errors="coerce")
    )
    .loc[lambda df: df.club_years >= 10]  # df_fifa.club_years fallaría!
)

Unnamed: 0,ID,Name,Age,Nationality,Overall,Potential,Club,Value,Wage,Position,joined,Height,Weight,Release Clause,joined_year,club_years
0,158023,L. Messi,31,Argentina,94,94,FC Barcelona,€110.5M,€565K,RF,"Jul 1, 2004",5'7,159lbs,€226.5M,2004,15
8,155862,Sergio Ramos,32,Spain,91,91,Real Madrid,€51M,€380K,RCB,"Aug 1, 2005",6'0,181lbs,€104.6M,2005,14
20,189511,Sergio Busquets,29,Spain,89,89,FC Barcelona,€51.5M,€315K,CDM,"Sep 1, 2008",6'2,168lbs,€105.6M,2008,11
24,138956,G. Chiellini,33,Italy,89,89,Juventus,€27M,€215K,LCB,"Jul 1, 2005",6'2,187lbs,€44.6M,2005,14
34,176676,Marcelo,30,Brazil,88,88,Real Madrid,€43M,€285K,LB,"Jan 1, 2007",5'9,176lbs,€88.2M,2007,12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15122,182240,Qiu Shengjiong,32,China PR,57,57,Shanghai Greenland Shenhua FC,€60K,€2K,GK,"Jan 1, 2006",6'2,203lbs,€129K,2006,13
15500,245771,W. Huffer,19,England,55,72,Leeds United,€160K,€1K,GK,"Jun 3, 2008",6'3,179lbs,€404K,2008,11
15792,217645,Y. Kurihara,34,Japan,54,54,Yokohama F. Marinos,€20K,€1K,CB,"Jan 1, 2002",6'0,176lbs,€25K,2002,17
16297,243160,A. Ekblad,30,Sweden,52,52,Dalkurd FF,€40K,€1K,CB,"Jan 1, 2008",6'1,183lbs,€50K,2008,11


<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></font></a></div>
<a id="operadoresStrings"></a>

## 1.3 Operaciones sobre strings

_Pandas_ implementa un conjunto de operaciones para el manejo de series de Strings, y que se aplican a nivel de elemento. Muchas de estas funciones corresponden con las equivalentes en las librerías de _Python_. El listado completo de funciones puede encontrarse en la sección correspondiente de la [API](https://pandas.pydata.org/pandas-docs/stable/api.html#string-handling).

Funciones muy comunes son:

In [27]:
log_level = pd.Series({
    10: "Debug",
    20: "inFo",
    30: "warninG",
    40: "Error",
    50: "critical"
})

In [28]:
log_level

10       Debug
20        inFo
40       Error
50    critical
dtype: object

In [29]:
log_level.str.len()

10    5
20    4
30    7
40    5
50    8
dtype: int64

In [30]:
# Transforma a mayúsculas
print(log_level.str.upper())
print("-" * 20)
# Transforma a minúsculas
print(log_level.str.lower())
print("-" * 20)
# Capitaliza
print(log_level.str.capitalize())

10       DEBUG
20        INFO
40       ERROR
50    CRITICAL
dtype: object
--------------------
10       debug
20        info
40       error
50    critical
dtype: object
--------------------
10       Debug
20        Info
40       Error
50    Critical
dtype: object


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> También se podría utilizar la función `apply` o `map` combinada con la función de python `str.upper`:
</div>

In [31]:
log_level.map(str.upper)

10       DEBUG
20        INFO
40       ERROR
50    CRITICAL
dtype: object

## <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio

In [32]:
persona_1 =  {"DNI": "12345678A", "Nombre": "Álvaro", "Apellido":"Álvarez", "Sueldo": 1150}
persona_2 =  {"DNI": "12345678B", "Nombre": "Benito", "Apellido":"Benítez", "Sueldo": 1300}
persona_3 =  {"DNI": "12345678C", "Nombre": "Fernando","Apellido":"Fernández", "Sueldo": 950}
persona_4 =  {"DNI": "12345678D", "Nombre": "Martín", "Apellido":"Martínez", "Sueldo": 1530}
persona_5 =  {"DNI": "12345678E", "Nombre": "Hernán", "Apellido":"Hernández", "Sueldo": 1345}

# Crea el DataFrame
personas = pd.DataFrame([persona_1, persona_2, persona_3, persona_4, persona_5])
personas.set_index("DNI", inplace=True)
personas

Unnamed: 0_level_0,Nombre,Apellido,Sueldo
DNI,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12345678A,Álvaro,Álvarez,1150
12345678B,Benito,Benítez,1300
12345678C,Fernando,Fernández,950
12345678D,Martín,Martínez,1530
12345678E,Hernán,Hernández,1345


Dado el `DataFrame` anterior:

1. Modificar la columna `Nombre` para que contenga el Nombre, un espacio, y el Apellido.
2. Transformar la columna `Nombre` (modificada) a mayúsculas.
3. Incluir en el sueldo el IVA (multiplicar por 1.21 cada valor)

In [33]:
(
    personas
    .assign(
        Nombre=lambda df: df.Nombre.str.cat(df.Apellido, sep=" ").str.upper(),
        Sueldo=lambda df: df.Sueldo * 1.21
    )
)

Unnamed: 0_level_0,Nombre,Apellido,Sueldo
DNI,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12345678A,ÁLVARO ÁLVAREZ,Álvarez,1391.5
12345678B,BENITO BENÍTEZ,Benítez,1573.0
12345678C,FERNANDO FERNÁNDEZ,Fernández,1149.5
12345678D,MARTÍN MARTÍNEZ,Martínez,1851.3
12345678E,HERNÁN HERNÁNDEZ,Hernández,1627.45


<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></font></a></div>
<a id="agregacion"></a>

# 2. Agregación

## Función agg (o aggregate)

Las funciones `aggregate()` o `agg()` (son la misma) permiten aplicar funciones de agregación a filas o columnas. Éstas pueden ser referidas por un nombre (por ejemplo `"sum"`) o incluso ser funciones `lambda` ([documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html)).

Por ejemplo, el código siguiente aplica las funciones máximo, mínimo y media para la columna `packetLength`.

In [34]:
# read data from files
df_events = pd.read_csv("../data/MQTT-events.csv")
df_predictions = pd.read_csv("../data/packetLengthPrediction.csv")

In [35]:
df_agg = (
    df_events
    .agg({
        "packetLength": ["min", "max", "mean"],
        "internet.sourceIP": "nunique"
    })
)
df_agg

Unnamed: 0,packetLength,internet.sourceIP
min,42.0,
max,590.0,
mean,83.90757,
nunique,,20.0


<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></font></a></div>
<a id="agrupamiento"></a>

# 3. Agrupamiento

La función `groupby()` permite agrupar los datos del `DataFrame` según los diferentes valores de las columnas seleccionadas. Devuelve una estructura del tipo `DataFrameGroupBy`, que implementa estructuras de datos necesarias para que las operaciones sobre grupos se apliquen de manera eficiente. Más información [aquí](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html).

La mayor utilided de las agrupaciones consiste en aplican funciones de agregación sobre cada grupo.

La función `agg` permite indicar qué función de agregación queremos aplicar a cada columna. Sigue la misma sintaxis que cuando aplicamos `agg` para agregar todas las filas del DataFrame.

Esto nos da una gran potencia de búsqueda de información en los datos. A continuación vamos a responder las siguientes preguntas acerca del problema del titanic:


- 1. ¿Cuál es el valor total (suma del valor de sus jugadores) de cada equipo?
- 2. ¿Cuánto cuesta de media cada jugador según su posición equipo?

In [36]:
# 1.

# convertimos Value a numerico
def value_to_numeric(x):
    n = float(x[1:-1])
    if x[-1] == "M":
        return 1_000_000 * n
    else:
        return 1_000 * n

(
    df_fifa
    .assign(
        Value=lambda df: df["Value"].map(value_to_numeric)
    )
    .groupby("Club")
    .agg({"Value": "sum"})
)

Unnamed: 0_level_0,Value
Club,Unnamed: 1_level_1
SSV Jahn Regensburg,19995000.0
1. FC Heidenheim 1846,27490000.0
1. FC Kaiserslautern,16195000.0
1. FC Köln,135910000.0
1. FC Magdeburg,18725000.0
...,...
Zagłębie Sosnowiec,6190000.0
Çaykur Rizespor,46865000.0
Örebro SK,10135000.0
Östersunds FK,11780000.0


In [37]:
# convertimos Value a numerico
(
    df_fifa
    .assign(
        Value=lambda df: df["Value"].map(value_to_numeric)
    )
    .groupby("Position")
    .agg({"Value": "mean"})
    # ordenamos
    .sort_values("Value", ascending=False)
)

Unnamed: 0_level_0,Value
Position,Unnamed: 1_level_1
LF,17153330.0
RF,14857310.0
RAM,5329762.0
LS,4749755.0
LCM,4373399.0
RCM,4265338.0
RS,4018240.0
RW,3780938.0
LW,3605222.0
CF,3271970.0


In [38]:
(
    df_fifa
    .assign(
        Value=lambda df: df["Value"].map(value_to_numeric)
    )
    .groupby("Club")
    .apply(lambda df: df.nlargest(1, "Value"))
    .reset_index(drop=True)
    .loc[lambda df: df.Club == "Real Madrid"]

)

Unnamed: 0,ID,Name,Age,Nationality,Overall,Potential,Club,Value,Wage,Position,Joined,Height,Weight,Release Clause
470,182521,T. Kroos,28,Germany,90,90,Real Madrid,76500000.0,€355K,LCM,"Jul 17, 2014",6'0,168lbs,€156.8M


También podemos agrupar por más de una columna:

In [39]:
(
    df_events
    .groupby(["internet.sourceIP", "internet.destinationIP"])
    .agg({
        "packetLength": ["max", "min", "mean"]
    })
)

Unnamed: 0_level_0,Unnamed: 1_level_0,packetLength,packetLength,packetLength
Unnamed: 0_level_1,Unnamed: 1_level_1,max,min,mean
internet.sourceIP,internet.destinationIP,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0.0.0.0,224.0.0.22,60,54,58.5
0.0.0.0,255.255.255.255,342,342,342.0
192.168.1.3,255.255.255.255,590,590,590.0
192.168.1.4,192.168.1.5,169,66,98.593526
192.168.1.4,224.0.0.22,60,60,60.0
192.168.1.4,224.0.0.251,201,87,170.115385
192.168.1.5,192.168.1.3,342,342,342.0
192.168.1.5,192.168.1.4,78,66,66.043016
192.168.1.5,192.168.1.6,66,66,66.0
192.168.1.5,192.168.1.7,78,66,66.042931


## Ejercicios

Partiendo de `df_events`:

1. Basándonos en la IP de origen y en la MAC de origen, obtener cuántas MAC diferentes han usado cada una de las IPs de origen.

2. Agrupar por protocolo, y estudiar el número de paquetes enviados de cada uno, y el tamaño máximo, mínimo, medio y la desviación estándar.

3. Hay mensajes cuyo "MQTT.messageLength" es < 0. En primer lugar vamos a reemplazar estos valores por 0. Después vamos a agrupar por "MQTT.topic", y vamos a computar el máximo valor para cada grupo igual a ("packetLength" - "messageLength")

In [40]:
# 1
(
    df_events
    .groupby(["internet.sourceIP"])
    .agg({
        "networkInterface.sourceMAC": ["nunique"]
    })
)

Unnamed: 0_level_0,networkInterface.sourceMAC
Unnamed: 0_level_1,nunique
internet.sourceIP,Unnamed: 1_level_2
0.0.0.0,4
192.168.1.3,1
192.168.1.4,1
192.168.1.5,1
192.168.1.6,1
192.168.1.7,1
62.81.16.164,1
62.81.16.213,1
91.189.94.4,1
::,4


In [41]:
# 1
(
    df_events
    .groupby(["internet.sourceIP", "networkInterface.sourceMAC"])
    .agg({
        "networkInterface.sourceMAC": ["count"]
    })
)

Unnamed: 0_level_0,Unnamed: 1_level_0,networkInterface.sourceMAC
Unnamed: 0_level_1,Unnamed: 1_level_1,count
internet.sourceIP,networkInterface.sourceMAC,Unnamed: 2_level_2
0.0.0.0,08:00:27:05:7a:7e,4
0.0.0.0,08:00:27:0e:06:81,4
0.0.0.0,08:00:27:53:41:85,4
0.0.0.0,08:00:27:71:f1:05,4
192.168.1.3,08:00:27:81:7c:6f,42
192.168.1.4,08:00:27:0e:06:81,4075
192.168.1.5,08:00:27:53:41:85,8153
192.168.1.6,08:00:27:05:7a:7e,32
192.168.1.7,08:00:27:71:f1:05,4086
62.81.16.164,52:54:00:12:35:00,8


In [42]:
# 2
(
    df_events
    .groupby(["internet.protocol"])
    .agg({
        "packetLength": ["count", "max", "min", "mean", "std"]
    })
)

Unnamed: 0_level_0,packetLength,packetLength,packetLength,packetLength,packetLength
Unnamed: 0_level_1,count,max,min,mean,std
internet.protocol,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
ARP,481,60,42,51.205821,9.007014
DHCP,58,590,342,521.586207,111.811093
DNS,20,140,65,99.9,29.009799
ICMP,2,165,136,150.5,20.506097
ICMPv6,59,110,62,86.542373,14.901194
IGMPv3,16,60,54,58.5,2.683282
MDNS,187,221,87,168.582888,42.928514
MQTT,8098,169,68,98.623487,6.298403
NTP,14,90,90,90.0,0.0
TCP,8105,100,66,66.023936,0.864982


In [43]:
# 3
def to_zero(x):
    return 0 if x < 0 else x

(
    df_events
    .assign(
        #messageLength=lambda df: df["MQTT.messageLength"].map(to_zero),
        messageLength=lambda df: df["MQTT.messageLength"].mask(df["MQTT.messageLength"] < 0, 0),
        metadataLength=lambda df: df["packetLength"] - df["messageLength"]
    )
    .groupby(["MQTT.topic"])
    .agg({
        "metadataLength": ["max"]
    })
)

Unnamed: 0_level_0,metadataLength
Unnamed: 0_level_1,max
MQTT.topic,Unnamed: 1_level_2
-1,590
fakeSensor2/sound,68
fakeSensor3/sound,68
"fakeSensor3/sound,fakeSensor3/sound,fakeSensor3/sound",74


## Ejercicio

Vamos a obtener un `DataFrame` que nos indique qué tipo de comunicación (internet.protocol) se ha dado entre cada par de IPs.

In [44]:
(
    df_events
    .groupby(["internet.protocol", "internet.sourceIP", "internet.destinationIP"])
    .agg({
        "internet.protocol": ["count"]
    })
)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,internet.protocol
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,count
internet.protocol,internet.sourceIP,internet.destinationIP,Unnamed: 3_level_2
ARP,PcsCompu_05:7a:7e,Broadcast,2
ARP,PcsCompu_05:7a:7e,PcsCompu_53:41:85,1
ARP,PcsCompu_0e:06:81,Broadcast,3
ARP,PcsCompu_0e:06:81,PcsCompu_53:41:85,108
ARP,PcsCompu_53:41:85,Broadcast,4
...,...,...,...
TCP,192.168.1.5,192.168.1.4,3964
TCP,192.168.1.5,192.168.1.6,1
TCP,192.168.1.5,192.168.1.7,3972
TCP,192.168.1.6,192.168.1.5,1


<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></font></a></div>
<a id="combinacion"></a>

# 4. Combinación de DataFrames

La funcionalidad relativa a combinación de `DataFrame` puede aplicarse para dos situaciones diferentes:

1. Combinar varios DataFrames que tienen la misma estructura en uno. Por ejemplo, si tenemos un fichero por mes y queremos cargar toda la información en un solo DataFrame. Para esta labor se usa la función `concat`
2. Combinar dos DataFrames que tienen diferente información. Por ejemplo, una tabla con datos de venta de productos y otra tabla con datos detallados de los productos en sí. Para esta labor se usa la función `merge`. 

### `concat()`

Esta función implementa la concatenación de _DataFrames_ (unión de varios DataFrames con la misma estructura en uno solo).

In [45]:
df_fifa_barcelona = df_fifa.loc[df_fifa["Club"] == "FC Barcelona"]
df_fifa_madrid = df_fifa.loc[df_fifa["Club"] == "Real Madrid"]

In [46]:
pd.concat([df_fifa_barcelona, df_fifa_madrid]).sample(5)

Unnamed: 0,ID,Name,Age,Nationality,Overall,Potential,Club,Value,Wage,Position,Joined,Height,Weight,Release Clause
9516,241810,Chumi,19,Spain,65,82,FC Barcelona,€1M,€11K,CB,"Jun 30, 2014",6'1,172lbs,€2.8M
11332,243315,Dani Gómez,19,Spain,63,77,Real Madrid,€800K,€12K,ST,"Jul 1, 2017",5'10,154lbs,€2.1M
102,165153,K. Benzema,30,France,85,85,Real Madrid,€37M,€240K,ST,"Jul 9, 2009",6'1,179lbs,€75.9M
168,208618,Lucas Vázquez,27,Spain,83,83,Real Madrid,€27M,€205K,RW,"Jul 2, 2015",5'8,154lbs,€55.4M
10091,245287,Sergio López,19,Spain,64,80,Real Madrid,€875K,€9K,RB,"Jul 1, 2018",5'10,146lbs,€2.3M


### `merge()`

Esta función permite unir las columnas de ___dos___ `DataFrame`. Permite especificar el modo en que se lleva a cabo esa unión mediante funcionalidades propias de lenguajes de bases de datos relacionales como SQL. Éstas se caracterizan, a _grosso modo_, por establecer una relación entre los dos conjuntos de datos que es función de una columna (que puede o no ser el índice).

La función `merge()` acepta numerosos argumentos ([documentación](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html)) que rigen la unión. Algunos de los más importantes son:

* `left`, `right`. Son argumentos posicionales que se refieren a los dos `DataFrame` que son unidos. Se puede llamar `pd.(left, right, ...)` o `left.merge(right, ...)`
* `left_index`, `right_index`. Booleanos, determinan si los índices respectivos se usan como claves de unión.
* `on`, `left_on`, `right_on`. Determinan qué columnas (si no se usan índices) son utilizadas como claves de unión. `on` se utiliza cuando las columnas aparecen en ambos `DataFrame`.
* `how`. Determina qué elementos se incluyen en la unión:
  - `left`: se consideran los índices del primer `DataFrame`
  - `right`: se consideran los índices del segundo `DataFrame`
  - `outer`: se considera la unión
  - `inner`: se consideran la intersección

Además, admite otros parámetros de utilidad a la hora de presentar el conjunto de datos resultante de la unión.

* `suffixes`. Es una lista de `Strings` (dos). Cuando existen columnas comunes en ambos `DataFrame`, y no son utilizadas como clave de unión, permite identificarlas en el `DataFrame` resultante. Para ello, añade cada `String` al nombre de la columna correspondiente según incluya los valores de uno u otro `DataFrame`.  
* `indicator`. Añade una columna, denominada `_merge` con información sobre el origen de cada fila (un `DataFrame` concreto o los dos).
* `validate`. Es un `String` que permite determinar si se cumple una determinada relación entre las claves de unión. Puede tomar los valores `1:1`, `1:m`, `m:1` y `m:m`.

In [47]:
df_ventas = pd.DataFrame([
    (1, 2, 6),
    (2, 1, 435),
], columns=["id_producto", "cantidad", "precio"])
display(df_ventas)

df_productos = pd.DataFrame([
    (1, "Yogurt de limón", "Hacendado"),
    (2, "Pata de Jamón", "Joselito"),
], columns=["id_producto", "nombre", "marca"])
display(df_productos)

Unnamed: 0,id_producto,cantidad,precio
0,1,2,6
1,2,1,435


Unnamed: 0,id_producto,nombre,marca
0,1,Yogurt de limón,Hacendado
1,2,Pata de Jamón,Joselito


In [48]:
(
    df_ventas
    .merge(
        df_productos,
        on="id_producto",
        how="inner"
    )
)

Unnamed: 0,id_producto,cantidad,precio,nombre,marca
0,1,2,6,Yogurt de limón,Hacendado
1,2,1,435,Pata de Jamón,Joselito


## Ejercicios

1. Combinar los dos `DataFrames`, **df_events** y **df_predictions** usando `merge`.
2. Obtener el error cuadrático medio entre el tamaño de los paquetes y sus predicciones ($MSE = \frac{\sum_i^N (x - \hat{x})^2}{N}$)
3. Obtener el error cuadrático medio para cada tipo de protocolo. ¿Cuál es el que más error tiene? ¿Y el que menos?

In [49]:
df_events.columns

Index(['timestamp', 'packetLength', 'info', 'networkInterface.sourceMAC',
       ' networkInterface.destinationMAC', 'internet.sourceIP',
       'internet.destinationIP', 'internet.protocol', 'TCP.sourcePort',
       'TCP.destinationPort', 'TCP.flags', 'TCP.calculatedWindowSize',
       'UDP.sourcePort', 'UDP.destinationPort', 'MQTT.flags', 'MQTT.message',
       'MQTT.topic', 'MQTT.messageLength', 'MQTT.frameCounter'],
      dtype='object')

In [50]:
df_predictions.columns

Index(['timestamp', 'packetLengthPredict'], dtype='object')

In [51]:
# 1
df_merged = (
    df_events
    .merge(
        df_predictions,
        on="timestamp",
        how="inner"
    )
)

df_merged

Unnamed: 0,timestamp,packetLength,info,networkInterface.sourceMAC,networkInterface.destinationMAC,internet.sourceIP,internet.destinationIP,internet.protocol,TCP.sourcePort,TCP.destinationPort,TCP.flags,TCP.calculatedWindowSize,UDP.sourcePort,UDP.destinationPort,MQTT.flags,MQTT.message,MQTT.topic,MQTT.messageLength,MQTT.frameCounter,packetLengthPredict
0,1517688352799319,100,Publish Message,08:00:27:71:f1:05,08:00:27:53:41:85,192.168.1.7,192.168.1.5,MQTT,52588,1883,0x018,229,-1,-1,0x30,62.7216410003,fakeSensor2/sound,32,1,100.001734
1,1517688352837583,66,1883 > 52588 [ACK] Seq=1 Ack=35 Win=227 Len=...,08:00:27:53:41:85,08:00:27:71:f1:05,192.168.1.5,192.168.1.7,TCP,1883,52588,0x010,227,-1,-1,-1,-1,-1,-1,1,66.010765
2,1517688352965108,100,Publish Message,08:00:27:0e:06:81,08:00:27:53:41:85,192.168.1.4,192.168.1.5,MQTT,59662,1883,0x018,229,-1,-1,0x30,46.1680763098,fakeSensor3/sound,32,1,100.001715
3,1517688352965147,66,1883 > 59662 [ACK] Seq=1 Ack=35 Win=227 Len=...,08:00:27:53:41:85,08:00:27:0e:06:81,192.168.1.5,192.168.1.4,TCP,1883,59662,0x010,227,-1,-1,-1,-1,-1,-1,1,66.010869
4,1517688354027486,100,Publish Message,08:00:27:0e:06:81,08:00:27:53:41:85,192.168.1.4,192.168.1.5,MQTT,59662,1883,0x018,229,-1,-1,0x30,31.8849343769,fakeSensor3/sound,32,1,100.001575
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17035,1517695676698952,66,1883 > 59662 [ACK] Seq=163 Ack=131771 Win=22...,08:00:27:53:41:85,08:00:27:0e:06:81,192.168.1.5,192.168.1.4,TCP,1883,59662,0x010,227,-1,-1,-1,-1,-1,-1,1,66.010869
17036,1517695677347149,100,Publish Message,08:00:27:0e:06:81,08:00:27:53:41:85,192.168.1.4,192.168.1.5,MQTT,59662,1883,0x018,229,-1,-1,0x30,73.2415646154,fakeSensor3/sound,32,1,100.001637
17037,1517695677347185,66,1883 > 59662 [ACK] Seq=163 Ack=131805 Win=22...,08:00:27:53:41:85,08:00:27:0e:06:81,192.168.1.5,192.168.1.4,TCP,1883,59662,0x010,227,-1,-1,-1,-1,-1,-1,1,66.010869
17038,1517695677451076,100,Publish Message,08:00:27:71:f1:05,08:00:27:53:41:85,192.168.1.7,192.168.1.5,MQTT,52588,1883,0x018,229,-1,-1,0x30,41.4866182673,fakeSensor2/sound,32,1,100.001718


In [52]:
# MSE = sum(df["SE"]) / len(df["SE"])
df_merged_se = (
    df_merged
    .assign(
        SE=lambda df: (df["packetLength"] - df["packetLengthPredict"]) ** 2
    )
)

In [53]:
# 3
(
    df_merged_se
    .groupby(["internet.protocol"])
    .agg({
        "SE": ["sum"]
    })
)

Unnamed: 0_level_0,SE
Unnamed: 0_level_1,sum
internet.protocol,Unnamed: 1_level_2
ARP,38940.38
DHCP,8.073392e-08
DNS,193.5997
ICMP,6.818024e-16
ICMPv6,12878.63
IGMPv3,108.0005
MDNS,342883.4
MQTT,80.26438
NTP,1.53082e-08
TCP,5914.83


In [54]:
# 3
(
    df_merged_se
    .groupby(["internet.protocol"])
    .agg({
        "SE": lambda ses: ses.sum() / ses.count()
    })
    .sort_values("SE")
)

Unnamed: 0_level_0,SE
internet.protocol,Unnamed: 1_level_1
ICMP,3.409012e-16
NTP,1.093443e-09
DHCP,1.391964e-09
MQTT,0.009911631
TCP,0.7297754
IGMPv3,6.750033
DNS,9.679986
ARP,80.95712
ICMPv6,218.2819
MDNS,1833.601
