# Pandas

## Links de interes

- [Documentacion](https://pandas.pydata.org/docs/)
- [W3school](https://www.w3schools.com/python/pandas/default.asp)
- [Pandas Cheat Sheet](https://dataanalytics.buffalostate.edu/sites/dataanalytics.buffalostate.edu/files/uploads/Student%20resources/pandas_cheatsheet.jpg)

## Instalación

```
pip install pandas
```

## Importar libreria

In [3]:
import pandas as pd

In [4]:
import numpy as np

## DataFrames de Pandas

Un **DataFrame** es la estructura de datos con la que Pandas **almacena y manipula datos tabulados**. Es como una hoja de cálculo de Excel, tiene filas y columnas, acepta distintos tipos de datos y permite interactuar entre ellos. La diferencia con una hoja de cálculo es que es extremadamente más rápida y potente, por lo que podrás trabajar con **cantidades muy grandes de datos**.

En Pandas tambien tendremos otra estructura conocida como **Serie**, es como un *DataFrame de una sola dimensión*.

### Creacion de DataFrames

Para crear DataFrames utilizaremos el metodo de Pandas **.DataFrame()**.

#### Con Diccionario de listas (columna por columna)

In [3]:
futbol_diccionario = {
    "Jugador": ["Lionel Messi", "Cristiano Ronaldo"],
    "Año": [2016, 2016],
    "Goles": [37, 25],
}
futbol_estadisticas = pd.DataFrame(futbol_diccionario)

futbol_estadisticas

Unnamed: 0,Jugador,Año,Goles
0,Lionel Messi,2016,37
1,Cristiano Ronaldo,2016,25


Las listas podrían ser **arreglos de NumPy**.

In [5]:

jugadores = np.array(["Lionel Messi", "Cristiano Ronaldo"])
anios = np.array([2016, 2016])
goles = np.array([37, 25])

futbol_diccionario_2 = {
    "Jugador": jugadores,
    "Año": anios,
    "Goles": goles,
}
futbol_estadisticas_2 = pd.DataFrame(futbol_diccionario)

futbol_estadisticas_2

Unnamed: 0,Jugador,Año,Goles
0,Lionel Messi,2016,37
1,Cristiano Ronaldo,2016,25


#### Con Lista de diccionarios (fila por fila)

In [6]:
futbol_lista = [
    {"jugador": "Lionel Messi", "año": 2016, "goles": 37},
    {"jugador": "Cristiano Ronaldo", "año": 2016, "goles": 25},
]
futbol_estadisticas = pd.DataFrame(futbol_lista)

futbol_estadisticas

Unnamed: 0,jugador,año,goles
0,Lionel Messi,2016,37
1,Cristiano Ronaldo,2016,25


### Importar datos

Sería muy ineficiente ir llenando todos los datos como se indico anteriormente. Por ello, comúnmente se importan los datos de archivos CSV, JSON, entre otros. 

Para ello pandas tiene varias formas de **leer un archivo**, el código base suele ser:

```python
pd.read_{tipo_de_archivo}('path')
```

#### Importar .csv

Para cargar un **CSV (Comma Separated Values)**, sería:

```python
pd.read_csv('ruta/archivo.csv')
```

Esto **convertirá el contenido del CSV en un DataFrame**, el cual por convención se nombra como **df**.

In [7]:
df = pd.read_csv('futbol_mini_estadisticas.csv')

df

Unnamed: 0,jugador,año,goles
0,Lionel Messi,2016,37
1,Cristiano Ronaldo,2016,25


### Indices DataFrame

A la izquierda *por defecto apareceran los indices desde la posicion 0* al inicio de cada fila.

Sin embargo, no ajuro tendria que ser de esta manera. Se puede indicar el indice que deseamos para nuestro DataFrame con el argumento: 

```python
index_col='nombre_columna'
```

In [8]:
df = pd.read_csv('futbol_mini_estadisticas.csv', index_col='jugador')

df

Unnamed: 0_level_0,año,goles
jugador,Unnamed: 1_level_1,Unnamed: 2_level_1
Lionel Messi,2016,37
Cristiano Ronaldo,2016,25


### Inspeccion de DataFrames

Antes de empezar a realizar un análisis de datos es muy importante que primero se inspeccione el DataFrame a estudiar:

- Pequeña muestra de los datos.
- ¿Cuántas filas hay?
- ¿Qué columnas existen?
- ¿Qué tipos de datos hay?
- ¿Faltan datos?
- Ligera vista de estadísticas descriptivas.

Para esta inspeccion usaremos **futbol_estadisticas.csv**, colocando como indice la columna **player_id**:

In [5]:
df = pd.read_csv('futbol_estadisticas.csv', index_col='jugador_id')

df

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
8865,Ollie Watkins,2020,9,6,5,22,1,0,0,F,Aston Villa,810
675,Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810
592,Ross Barkley,2020,6,2,2,17,1,0,0,M,Aston Villa,454
1024,Tyrone Mings,2020,9,2,2,7,1,2,0,D,Aston Villa,810
7726,Ezri Konsa Ngoyo,2020,9,2,2,7,0,0,0,D,Aston Villa,810
...,...,...,...,...,...,...,...,...,...,...,...,...
4267,Florian Hartherz,2014,10,0,0,1,2,1,1,D S,Paderborn,775
4268,Christian Strohdiek,2014,22,0,0,6,0,2,0,D S,Paderborn,1608
4311,Idir Ouali,2014,6,0,0,4,0,1,0,M S,Paderborn,296
4334,Mirnes Pepic,2014,2,0,0,0,0,0,0,S,Paderborn,20


**Descripcion**

- **jugador_id** → ID único que ayuda a identificar a cada jugador.
- **nombre_jugador** → El nombre del jugador.
- **año** → Temporada en la que se recogieron los datos.
- **juegos** → Número de juegos en los que ha participado el jugador en esa temporada.
- **goles** → Goles marcados en esa temporada.
- **npg** → Goles sin penalti marcados en esa temporada.
- **tiros** → Tiros en esa temporada.
- **asistencias** → Asistencias de la temporada.
- **tarjetas_amarillas** → Tarjetas amarillas recibidas en esa temporada.
- **red_cards** → Tarjetas rojas recibidas en esa temporada.
- **posicion** → Posición jugada a lo largo de la temporada. 
  - F → Delantero
  - M → Mediocampo
  - D → Defensa
  - GK → Portero.
- **nombre_equipo** → El equipo en el que jugó el jugador en esa temporada, si el jugador cambió de club a mitad de temporada, ese jugador tendrá dos entradas para esa temporada específica.
- **tiempo** → Número de minutos que ha jugado el jugador en esa temporada.

#### Obtener primeras filas con **.head()**

Retorna las 5 primeras filas. 

In [15]:
df.head()

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
8865,Ollie Watkins,2020,9,6,5,22,1,0,0,F,Aston Villa,810
675,Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810
592,Ross Barkley,2020,6,2,2,17,1,0,0,M,Aston Villa,454
1024,Tyrone Mings,2020,9,2,2,7,1,2,0,D,Aston Villa,810
7726,Ezri Konsa Ngoyo,2020,9,2,2,7,0,0,0,D,Aston Villa,810


También se le puede pasar un entero como parámetro y devolverá esa cantidad de primeras filas.

In [16]:
df.head(8)

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
8865,Ollie Watkins,2020,9,6,5,22,1,0,0,F,Aston Villa,810
675,Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810
592,Ross Barkley,2020,6,2,2,17,1,0,0,M,Aston Villa,454
1024,Tyrone Mings,2020,9,2,2,7,1,2,0,D,Aston Villa,810
7726,Ezri Konsa Ngoyo,2020,9,2,2,7,0,0,0,D,Aston Villa,810
7721,Conor Hourihane,2020,4,1,1,5,1,0,0,M S,Aston Villa,236
7723,John McGinn,2020,9,1,1,10,4,3,0,M,Aston Villa,810
695,Bertrand Traoré,2020,7,0,0,5,1,0,0,M S,Aston Villa,147


#### Obtener ultimas filas con **.tail()**

Retorna las últimas 5 filas.

In [17]:
df.tail()

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
4267,Florian Hartherz,2014,10,0,0,1,2,1,1,D S,Paderborn,775
4268,Christian Strohdiek,2014,22,0,0,6,0,2,0,D S,Paderborn,1608
4311,Idir Ouali,2014,6,0,0,4,0,1,0,M S,Paderborn,296
4334,Mirnes Pepic,2014,2,0,0,0,0,0,0,S,Paderborn,20
4363,Thomas Bertels,2014,1,0,0,0,0,0,0,S,Paderborn,3


También se le puede pasar un entero como parámetro y devolverá esa cantidad de ultimas filas.

In [18]:
df.tail(8)

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
4257,Michael Heinloth,2014,21,0,0,6,1,2,1,D S,Paderborn,1641
4259,Daniel Brückner,2014,23,0,0,8,1,5,0,D,Paderborn,2024
4260,Patrick Ziegler,2014,27,0,0,11,0,7,0,D M S,Paderborn,1948
4267,Florian Hartherz,2014,10,0,0,1,2,1,1,D S,Paderborn,775
4268,Christian Strohdiek,2014,22,0,0,6,0,2,0,D S,Paderborn,1608
4311,Idir Ouali,2014,6,0,0,4,0,1,0,M S,Paderborn,296
4334,Mirnes Pepic,2014,2,0,0,0,0,0,0,S,Paderborn,20
4363,Thomas Bertels,2014,1,0,0,0,0,0,0,S,Paderborn,3


#### Obtener muestras al azar con **.sample()**

Retorna muestras al azar del DataFrame, es obligatorio especificar la **cantidad**.

In [27]:
df.sample(5)

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
751,N&#039;Golo Kanté,2020,11,0,0,2,1,1,0,M,Chelsea,984
2120,Gerard Moreno,2015,32,7,6,51,3,3,1,F M S,Espanyol,1914
1507,Miranda,2017,31,0,0,9,0,8,0,D,Inter,2732
1821,Christian Abbiati,2015,1,0,0,0,0,0,0,S,AC Milan,72
2357,Nabil El Zhar,2014,17,1,1,10,2,3,0,M S,Levante,665


#### Obtener cantidad de filas y columnas con **.shape**

Retorna la cantidad de filas y columnas que tiene el DataFrame.

In [29]:
df.shape

(18633, 12)

#### Obtener cantidad de elementos con **.size**

Multiplica las filas y columnas y da el total de datos del DataFrame.

In [30]:
df.size

223596

#### Obtener informacion del DataFrame con **.info()**

Indica:
- Cantidad de valores no nulos.
- El tipo de dato de cada columna.
- El uso de memoria.

**ADVERTENCIA**

Solo debemos tener un tipo de dato en cada columna del DataDrame.

In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 18633 entries, 8865 to 4363
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   nombre_jugador      18633 non-null  object
 1   año                 18633 non-null  int64 
 2   juegos              18633 non-null  int64 
 3   goles               18633 non-null  int64 
 4   goles_sin_penalti   18633 non-null  int64 
 5   tiros               18633 non-null  int64 
 6   asistencias         18633 non-null  int64 
 7   tarjetas_amarillas  18633 non-null  int64 
 8   tarjetas_rojas      18633 non-null  int64 
 9   posicion            18633 non-null  object
 10  nombre_equipo       18633 non-null  object
 11  tiempo              18633 non-null  int64 
dtypes: int64(9), object(3)
memory usage: 1.8+ MB


#### Obtener estadisticas descriptivas con **.describe()**

Ayuda mucho con las primeras impresiones de los datos, ya que calcula algunas estadísticas descriptivas para cada columna.

In [32]:
df.describe()

Unnamed: 0,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,tiempo
count,18633.0,18633.0,18633.0,18633.0,18633.0,18633.0,18633.0,18633.0,18633.0
mean,2016.937691,17.072291,1.624054,1.478399,15.323888,1.138088,2.453979,0.127569,1207.483282
std,1.976606,11.375527,3.252418,2.891849,20.934645,1.936238,2.685745,0.370656,975.753086
min,2014.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
25%,2015.0,7.0,0.0,0.0,1.0,0.0,0.0,0.0,326.0
50%,2017.0,16.0,0.0,0.0,8.0,0.0,2.0,0.0,976.0
75%,2019.0,27.0,2.0,2.0,21.0,2.0,4.0,0.0,2004.0
max,2020.0,38.0,48.0,38.0,227.0,20.0,17.0,5.0,3420.0


El **método describe()** devuelve información estadística de los datos del DataFrame o de la Serie, en forma de DataFrame. 

Esta información incluye:

- Número de muestras no nulas (count)
- El valor promedio (mean)
- Desviación estándar(std)
- Valor mínimo (min) 
- El percentil 25%
- El percentil 50%
- El percentil 75%
- Valor máximo (max)

*Percentil: Cuántos de los valores son menores que el percentil dado.*

### Ordenamiento de datos

Pandas nos permite ordenar columnas de un DataFrame:

```python
df.sort_values()
```

Este metodo recibe 2 parámetros: 

- **by:** Recibe el nombre de la columna que se queire ordenar, o una lista de columnas a ordenar.
- **ascending:** Recibe un booleano que indica si se quiere ordenar ascendentemente o no, o una lista de booleanos.

In [33]:
df.sort_values('nombre_jugador', ascending = True)

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
7991,Aaron Connolly,2020,8,1,1,9,1,0,0,F S,Brighton,425
7991,Aaron Connolly,2019,24,3,3,36,1,0,0,F S,Brighton,1279
534,Aaron Cresswell,2014,38,2,2,19,4,5,0,D,West Ham,3420
534,Aaron Cresswell,2017,36,1,1,21,7,7,0,D S,West Ham,3081
534,Aaron Cresswell,2015,37,2,2,28,4,1,0,D M,West Ham,3319
...,...,...,...,...,...,...,...,...,...,...,...,...
2646,Özkan Yildirim,2014,1,0,0,0,0,0,0,M,Werder Bremen,60
2646,Özkan Yildirim,2015,1,0,0,1,0,0,0,S,Werder Bremen,13
250,Ørjan Nyland,2016,12,0,0,0,0,0,0,GK S,Ingolstadt,1021
250,Ørjan Nyland,2015,6,0,0,0,0,0,0,GK,Ingolstadt,540


In [34]:
df.sort_values('nombre_jugador', ascending = False)

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
250,Ørjan Nyland,2015,6,0,0,0,0,0,0,GK,Ingolstadt,540
250,Ørjan Nyland,2016,12,0,0,0,0,0,0,GK S,Ingolstadt,1021
250,Ørjan Nyland,2019,7,0,0,0,0,0,0,GK S,Aston Villa,536
2646,Özkan Yildirim,2014,1,0,0,0,0,0,0,M,Werder Bremen,60
2646,Özkan Yildirim,2015,1,0,0,1,0,0,0,S,Werder Bremen,13
...,...,...,...,...,...,...,...,...,...,...,...,...
534,Aaron Cresswell,2018,20,0,0,11,1,1,0,D S,West Ham,1586
534,Aaron Cresswell,2020,11,0,0,4,3,0,0,D,West Ham,990
534,Aaron Cresswell,2019,31,3,3,18,0,7,0,D,West Ham,2739
7991,Aaron Connolly,2019,24,3,3,36,1,0,0,F S,Brighton,1279


**Nota**

En la mayoría de funciones de pandas se puede pasar más de un valor mediante el uso de **listas**.

In [35]:
df.sort_values(['jugador_id', 'año'], ascending=[True, False])

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Christian Mathenia,2018,22,0,0,0,0,2,0,GK,Nuernberg,1933
1,Christian Mathenia,2017,24,0,0,0,0,2,0,GK,Hamburger SV,2160
1,Christian Mathenia,2016,14,0,0,0,0,1,0,GK,Hamburger SV,1260
1,Christian Mathenia,2015,33,0,0,0,0,3,0,GK,Darmstadt,2970
2,György Garics,2015,21,0,0,3,0,8,0,D S,Darmstadt,1796
...,...,...,...,...,...,...,...,...,...,...,...,...
9161,Jan-Luca Schuler,2020,1,0,0,1,0,0,0,S,Schalke 04,8
9163,Kean Bryan,2020,2,0,0,0,0,0,0,D,Sheffield United,155
9170,John Finn,2020,1,0,0,0,0,0,0,S,Getafe,4
9174,Edgar Sevikyan,2020,1,0,0,0,0,0,0,S,Levante,5


In [36]:
df.sort_values(['jugador_id', 'año'], ascending=[True, True])

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Christian Mathenia,2015,33,0,0,0,0,3,0,GK,Darmstadt,2970
1,Christian Mathenia,2016,14,0,0,0,0,1,0,GK,Hamburger SV,1260
1,Christian Mathenia,2017,24,0,0,0,0,2,0,GK,Hamburger SV,2160
1,Christian Mathenia,2018,22,0,0,0,0,2,0,GK,Nuernberg,1933
2,György Garics,2015,21,0,0,3,0,8,0,D S,Darmstadt,1796
...,...,...,...,...,...,...,...,...,...,...,...,...
9161,Jan-Luca Schuler,2020,1,0,0,1,0,0,0,S,Schalke 04,8
9163,Kean Bryan,2020,2,0,0,0,0,0,0,D,Sheffield United,155
9170,John Finn,2020,1,0,0,0,0,0,0,S,Getafe,4
9174,Edgar Sevikyan,2020,1,0,0,0,0,0,0,S,Levante,5


### Filtrado de datos y Subconjuntos

No ajuro vamos a necesitar todo el DataFrame para realizar un análisis de los datos, muchas veces será más cómodo solo tener una parte de este. 

Es por esto, que podemos crear **subconjuntos**.

#### Seleccionar una columna

In [37]:
df["nombre_jugador"]

jugador_id
8865          Ollie Watkins
675           Jack Grealish
592            Ross Barkley
1024           Tyrone Mings
7726       Ezri Konsa Ngoyo
               ...         
4267       Florian Hartherz
4268    Christian Strohdiek
4311             Idir Ouali
4334           Mirnes Pepic
4363         Thomas Bertels
Name: nombre_jugador, Length: 18633, dtype: object

#### Seleccionar 2 o más columnas

In [38]:
df[["nombre_jugador","año", "juegos"]]

Unnamed: 0_level_0,nombre_jugador,año,juegos
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
8865,Ollie Watkins,2020,9
675,Jack Grealish,2020,9
592,Ross Barkley,2020,6
1024,Tyrone Mings,2020,9
7726,Ezri Konsa Ngoyo,2020,9
...,...,...,...
4267,Florian Hartherz,2014,10
4268,Christian Strohdiek,2014,22
4311,Idir Ouali,2014,6
4334,Mirnes Pepic,2014,2


#### Filtrar datos

In [39]:
df[df.año == 2020]

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
8865,Ollie Watkins,2020,9,6,5,22,1,0,0,F,Aston Villa,810
675,Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810
592,Ross Barkley,2020,6,2,2,17,1,0,0,M,Aston Villa,454
1024,Tyrone Mings,2020,9,2,2,7,1,2,0,D,Aston Villa,810
7726,Ezri Konsa Ngoyo,2020,9,2,2,7,0,0,0,D,Aston Villa,810
...,...,...,...,...,...,...,...,...,...,...,...,...
8797,Nils Seufert,2020,5,0,0,1,0,0,0,M S,Arminia Bielefeld,234
8799,Joakim Nilsson,2020,3,0,0,1,0,0,0,D S,Arminia Bielefeld,194
8958,Reinhold Yabo,2020,7,0,0,3,0,0,0,M S,Arminia Bielefeld,283
9006,Brian Behrendt,2020,3,0,0,2,0,0,0,S,Arminia Bielefeld,73


In [44]:
df[df['nombre_jugador'] == 'Ollie Watkins']

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
8865,Ollie Watkins,2020,9,6,5,22,1,0,0,F,Aston Villa,810


También podemos usar **operadores como &** para poner varias condiciones y colocar cada una de ellas entre paréntesis. 

In [45]:
df[(df['año'] == 2020) & (df['nombre_jugador'] == "Jack Grealish")]

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
675,Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810


Otra forma de filtrar:

In [49]:
df.query('nombre_jugador == "Jack Grealish"')

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
675,Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810
675,Jack Grealish,2019,36,8,8,73,6,8,0,F M,Aston Villa,3235
675,Jack Grealish,2015,16,1,1,16,0,1,0,F M S,Aston Villa,831
675,Jack Grealish,2014,17,0,0,13,1,0,0,F M S,Aston Villa,798


Se puede añadir una **lista** con varios datos a filtrar.

In [47]:
anios = [2018, 2019, 2020]

df[df['año'].isin(anios)]

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
8865,Ollie Watkins,2020,9,6,5,22,1,0,0,F,Aston Villa,810
675,Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810
592,Ross Barkley,2020,6,2,2,17,1,0,0,M,Aston Villa,454
1024,Tyrone Mings,2020,9,2,2,7,1,2,0,D,Aston Villa,810
7726,Ezri Konsa Ngoyo,2020,9,2,2,7,0,0,0,D,Aston Villa,810
...,...,...,...,...,...,...,...,...,...,...,...,...
7042,Timothy Tillman,2018,6,0,0,3,0,0,0,M S,Nuernberg,198
7104,Enrico Valentini,2018,15,0,0,8,2,2,0,D,Nuernberg,1305
7105,Kevin Goden,2018,5,0,0,0,0,1,0,D M S,Nuernberg,270
7213,Ewerton,2018,18,0,0,8,0,2,0,D S,Nuernberg,1339


### Manejo de indices

#### Colocar una columna como índice

In [51]:
df.set_index('nombre_jugador')

Unnamed: 0_level_0,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
nombre_jugador,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Ollie Watkins,2020,9,6,5,22,1,0,0,F,Aston Villa,810
Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810
Ross Barkley,2020,6,2,2,17,1,0,0,M,Aston Villa,454
Tyrone Mings,2020,9,2,2,7,1,2,0,D,Aston Villa,810
Ezri Konsa Ngoyo,2020,9,2,2,7,0,0,0,D,Aston Villa,810
...,...,...,...,...,...,...,...,...,...,...,...
Florian Hartherz,2014,10,0,0,1,2,1,1,D S,Paderborn,775
Christian Strohdiek,2014,22,0,0,6,0,2,0,D S,Paderborn,1608
Idir Ouali,2014,6,0,0,4,0,1,0,M S,Paderborn,296
Mirnes Pepic,2014,2,0,0,0,0,0,0,S,Paderborn,20


#### Remover índice

In [52]:
df.reset_index()

Unnamed: 0,jugador_id,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
0,8865,Ollie Watkins,2020,9,6,5,22,1,0,0,F,Aston Villa,810
1,675,Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810
2,592,Ross Barkley,2020,6,2,2,17,1,0,0,M,Aston Villa,454
3,1024,Tyrone Mings,2020,9,2,2,7,1,2,0,D,Aston Villa,810
4,7726,Ezri Konsa Ngoyo,2020,9,2,2,7,0,0,0,D,Aston Villa,810
...,...,...,...,...,...,...,...,...,...,...,...,...,...
18628,4267,Florian Hartherz,2014,10,0,0,1,2,1,1,D S,Paderborn,775
18629,4268,Christian Strohdiek,2014,22,0,0,6,0,2,0,D S,Paderborn,1608
18630,4311,Idir Ouali,2014,6,0,0,4,0,1,0,M S,Paderborn,296
18631,4334,Mirnes Pepic,2014,2,0,0,0,0,0,0,S,Paderborn,20


#### Ordenar índice

In [54]:
df.sort_index(ascending = True)

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Christian Mathenia,2015,33,0,0,0,0,3,0,GK,Darmstadt,2970
1,Christian Mathenia,2017,24,0,0,0,0,2,0,GK,Hamburger SV,2160
1,Christian Mathenia,2018,22,0,0,0,0,2,0,GK,Nuernberg,1933
1,Christian Mathenia,2016,14,0,0,0,0,1,0,GK,Hamburger SV,1260
2,György Garics,2015,21,0,0,3,0,8,0,D S,Darmstadt,1796
...,...,...,...,...,...,...,...,...,...,...,...,...
9161,Jan-Luca Schuler,2020,1,0,0,1,0,0,0,S,Schalke 04,8
9163,Kean Bryan,2020,2,0,0,0,0,0,0,D,Sheffield United,155
9170,John Finn,2020,1,0,0,0,0,0,0,S,Getafe,4
9174,Edgar Sevikyan,2020,1,0,0,0,0,0,0,S,Levante,5


#### Seleccionar filas y columnas en una sola línea

##### Acceder a todas las filas y **columnas específicas**

In [55]:
columnas = ["nombre_jugador", "juegos", "goles"]

df.loc[:, columnas]

Unnamed: 0_level_0,nombre_jugador,juegos,goles
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
8865,Ollie Watkins,9,6
675,Jack Grealish,9,5
592,Ross Barkley,6,2
1024,Tyrone Mings,9,2
7726,Ezri Konsa Ngoyo,9,2
...,...,...,...
4267,Florian Hartherz,10,0
4268,Christian Strohdiek,22,0
4311,Idir Ouali,6,0
4334,Mirnes Pepic,2,0


##### Acceder a todas las columnas y **filas específicas**

In [56]:
filas = [675, 4311, 8865]

df.loc[filas]

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
675,Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810
675,Jack Grealish,2019,36,8,8,73,6,8,0,F M,Aston Villa,3235
675,Jack Grealish,2015,16,1,1,16,0,1,0,F M S,Aston Villa,831
675,Jack Grealish,2014,17,0,0,13,1,0,0,F M S,Aston Villa,798
4311,Idir Ouali,2014,6,0,0,4,0,1,0,M S,Paderborn,296
8865,Ollie Watkins,2020,9,6,5,22,1,0,0,F,Aston Villa,810


##### Acceder a **filas y columnas específicas**

In [57]:
filas = [675, 4311, 8865]
columnas = ["nombre_jugador", "juegos", "goles"]

df.loc[filas, columnas]

Unnamed: 0_level_0,nombre_jugador,juegos,goles
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
675,Jack Grealish,9,5
675,Jack Grealish,36,8
675,Jack Grealish,16,1
675,Jack Grealish,17,0
4311,Idir Ouali,6,0
8865,Ollie Watkins,9,6


Si se tienen los índices ordenados, se puede usar **slicing[ : : ]**.

In [58]:
df_ordenado = df.sort_index(ascending = True)

df_ordenado

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Christian Mathenia,2015,33,0,0,0,0,3,0,GK,Darmstadt,2970
1,Christian Mathenia,2017,24,0,0,0,0,2,0,GK,Hamburger SV,2160
1,Christian Mathenia,2018,22,0,0,0,0,2,0,GK,Nuernberg,1933
1,Christian Mathenia,2016,14,0,0,0,0,1,0,GK,Hamburger SV,1260
2,György Garics,2015,21,0,0,3,0,8,0,D S,Darmstadt,1796
...,...,...,...,...,...,...,...,...,...,...,...,...
9161,Jan-Luca Schuler,2020,1,0,0,1,0,0,0,S,Schalke 04,8
9163,Kean Bryan,2020,2,0,0,0,0,0,0,D,Sheffield United,155
9170,John Finn,2020,1,0,0,0,0,0,0,S,Getafe,4
9174,Edgar Sevikyan,2020,1,0,0,0,0,0,0,S,Levante,5


In [66]:
df_ordenado[5:11]

Unnamed: 0_level_0,nombre_jugador,año,juegos,goles,goles_sin_penalti,tiros,asistencias,tarjetas_amarillas,tarjetas_rojas,posicion,nombre_equipo,tiempo
jugador_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
3,Luca Caldirola,2014,7,1,1,1,0,2,1,D S,Werder Bremen,470
3,Luca Caldirola,2015,34,0,0,15,1,4,0,D,Darmstadt,3060
3,Luca Caldirola,2020,9,2,2,4,0,2,0,D,Benevento,708
3,Luca Caldirola,2017,1,0,0,0,0,0,0,D,Werder Bremen,90
3,Luca Caldirola,2016,5,0,0,2,0,1,0,D,Werder Bremen,413
4,Aytac Sulu,2015,33,7,7,21,0,6,0,D,Darmstadt,2970


### Aplicacion de funciones a un DataFrame

Como Pandas está escrito sobre **NumPy**, podemos usar muchas de las funciones de NumPy en las columnas del DataFrame, junto con otras nativas de Pandas.

#### Sumar todos los valores de una columna

In [68]:
goles_totales = df["goles"].sum()

goles_totales

30261

#### Promedio de todos los valores de una columna

In [70]:
goles_promedio = df["goles"].mean()

goles_promedio

1.6240540975688296

#### Valor maximo de una columna

In [71]:
goles_max = df["goles"].max()

goles_max

48

#### Valor minimo de una columna

In [72]:
goles_min = df["goles"].min()

goles_min

0

#### Suma acumulada de una columna

In [75]:
goles_acumulados = df["goles"].cumsum()

goles_acumulados 

jugador_id
8865        6
675        11
592        13
1024       15
7726       17
        ...  
4267    30261
4268    30261
4311    30261
4334    30261
4363    30261
Name: goles, Length: 18633, dtype: int64

#### Valor maximo acumulado de una columna

In [77]:
goles_maximo_acumulado = df["goles"].cummax()

goles_maximo_acumulado 

jugador_id
8865     6
675      6
592      6
1024     6
7726     6
        ..
4267    48
4268    48
4311    48
4334    48
4363    48
Name: goles, Length: 18633, dtype: int64

#### Contar distintos valores de una columna

Resulta muy útil para contar categorías. Se debe tener en cuenta que se ordena de manera **descendente**.

In [78]:
equipos = df["nombre_equipo"].value_counts(sort = True)

equipos

nombre_equipo
Genoa                222
Monaco               217
Saint-Etienne        212
Nice                 209
Atalanta             205
                    ... 
Nancy                 27
Cardiff               25
Arminia Bielefeld     23
GFC Ajaccio           23
Leeds                 20
Name: count, Length: 147, dtype: int64

#### Eliminar duplicados de una columna

In [82]:
jugadores = df.drop_duplicates(subset='nombre_jugador')

jugadores["nombre_jugador"]

jugador_id
8865       Ollie Watkins
675        Jack Grealish
592         Ross Barkley
1024        Tyrone Mings
7726    Ezri Konsa Ngoyo
              ...       
4260     Patrick Ziegler
4267    Florian Hartherz
4311          Idir Ouali
4334        Mirnes Pepic
4363      Thomas Bertels
Name: nombre_jugador, Length: 6171, dtype: object

#### Funciones agregadas

In [83]:
df_materias = pd.DataFrame([[100, 95, 87],[94, 92, 81],[75,84,91]],columns=['Matematicas', 'Ingles','Ciencias'])

df_materias

Unnamed: 0,Matematicas,Ingles,Ciencias
0,100,95,87
1,94,92,81
2,75,84,91


Intentemos calcular la puntuación total obtenida por cada estudiante en todas las materias.... podemos notar que necesitamos realizar una función agregada de la suma sobre todas las filas.

In [85]:
df_materias.agg(['sum'], 1) # Filas

Unnamed: 0,sum
0,282
1,267
2,250


Podemos intentar obtener las calificaciones promedio de los estudiantes en todas las materias.

In [86]:
df_materias.agg(['sum'], 0) # Columnas

Unnamed: 0,Matematicas,Ingles,Ciencias
sum,269,271,259


Podemos realizar varias operaciones con las funciones agregadas.

In [87]:
df_materias.agg(['average','min','max'], 0) # Columnas

Unnamed: 0,Matematicas,Ingles,Ciencias
average,89.666667,90.333333,86.333333
min,75.0,84.0,81.0
max,100.0,95.0,91.0


### Ejercicio 1

Indique el jugador con la mayor cantidad de goles realizados en una temporada

In [None]:
# Puede realizar su codigo en esta celda

### Ejercicio 2

Calcule el porcentaje de tiros al arco que terminan en gol, tenga en cuenta lo siguiente:

$porcentaje = goles totales / tiros totales * 100$

In [None]:
# Puede realizar su codigo en esta celda

### Agrupacion de datos

En este **dataset**, cada fila representa los datos de un año entero para cada jugador. 

Sin embargo, seria mucho más interesante ver las estadísticas de todos los años al mismo tiempo para todos los jugadores, lo cual podemos lograr con la agrupacion utilizando **.groupby()**.

#### Agrupacion y media

**Agrupa los datos** de la columna que está entre **paréntesis ()** y obtiene la **media** de la columna que está entre **corchetes []**

In [11]:
agrupacion_nombre_media_goles = df.groupby('nombre_jugador')['goles'].mean()

agrupacion_nombre_media_goles

nombre_jugador
Aaron Connolly      4
Aaron Cresswell     8
Aaron Hickey        0
Aaron Hunt         10
Aaron Lennon        8
                   ..
Óscar Romero        0
Óscar Trejo        11
Ömer Toprak         3
Özkan Yildirim      0
Ørjan Nyland        0
Name: goles, Length: 6171, dtype: int64

#### Agrupacion y suma

**Agrupa los datos** de la columna que está entre **paréntesis ()** y obtiene la **suma** de la columna que está entre **corchetes []**

In [12]:
agrupacion_nombre_suma_goles = df.groupby('nombre_jugador')['goles'].sum()

agrupacion_nombre_suma_goles

nombre_jugador
Aaron Connolly      4
Aaron Cresswell     8
Aaron Hickey        0
Aaron Hunt         10
Aaron Lennon        8
                   ..
Óscar Romero        0
Óscar Trejo        11
Ömer Toprak         3
Özkan Yildirim      0
Ørjan Nyland        0
Name: goles, Length: 6171, dtype: int64

#### Agrupacion y estadísticas múltiples

In [1]:
agrupacion_nombre_estadisticas = df.groupby('nombre_jugador')['goles'].agg([min, max, sum])

agrupacion_nombre_estadisticas

NameError: name 'df' is not defined

#### Agrupacion de varias columnas

In [15]:
agrupacion = df.groupby(['jugador_id', 'nombre_jugador'])['goles'].mean()

agrupacion

jugador_id  nombre_jugador    
1           Christian Mathenia    0.0
2           György Garics         0.0
3           Luca Caldirola        0.6
4           Aytac Sulu            4.5
5           Fabian Holland        0.0
                                 ... 
9161        Jan-Luca Schuler      0.0
9163        Kean Bryan            0.0
9170        John Finn             0.0
9174        Edgar Sevikyan        0.0
9177        Giuseppe Mastinu      0.0
Name: goles, Length: 6242, dtype: float64

#### Agrupacion y media de varias columnas

In [17]:
agrupacion = df.groupby(['jugador_id', 'nombre_jugador'])[['goles','tiros']].mean()

agrupacion

Unnamed: 0_level_0,Unnamed: 1_level_0,goles,tiros
jugador_id,nombre_jugador,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Christian Mathenia,0.0,0.0
2,György Garics,0.0,3.0
3,Luca Caldirola,0.6,4.4
4,Aytac Sulu,4.5,23.0
5,Fabian Holland,0.0,2.5
...,...,...,...
9161,Jan-Luca Schuler,0.0,1.0
9163,Kean Bryan,0.0,0.0
9170,John Finn,0.0,0.0
9174,Edgar Sevikyan,0.0,0.0


### Ejercicio 3

Calcule los 10 jugadores que más goles han marcado.

In [None]:
# Puede resolver el ejercicio en esta celda

### Ejercicio 4

Calcule el top 5 de equipos con más tarjetas rojas y amarillas.

In [None]:
# Puede resolver el ejercicio en esta celda

### Creacion de columnas

Se puede crear una columna de la siguiente manera:

```python
df['nombre_columna'] = valores. 
```

Es parecido a crear un nuevo par **llave:valor en un diccionario**, y operar en columnas es muy parecido a operar con **arreglos de NumPy**.

In [32]:
df['tarjetas_totales'] = df['tarjetas_rojas'] + df['tarjetas_amarillas']

agrupacion_nombre_suma_tarjetas = df.groupby(['nombre_jugador'])['tarjetas_totales'].sum()

agrupacion_nombre_suma_tarjetas

nombre_jugador
Aaron Connolly      0
Aaron Cresswell    24
Aaron Hickey        3
Aaron Hunt          7
Aaron Lennon       11
                   ..
Óscar Romero        3
Óscar Trejo        21
Ömer Toprak        21
Özkan Yildirim      0
Ørjan Nyland        0
Name: tarjetas_totales, Length: 6171, dtype: int64

In [34]:
df['tarjetas_totales'] = df['tarjetas_rojas'] + df['tarjetas_amarillas']

agrupacion_nombre_suma_tarjetas = df.groupby('nombre_jugador').agg(
    tarjetas_amarillas = ('tarjetas_amarillas', 'sum'),
    tarjetas_rojas = ('tarjetas_rojas', 'sum'),
    tarjetas_totales = ('tarjetas_totales', 'sum')
)

agrupacion_nombre_suma_tarjetas

Unnamed: 0_level_0,tarjetas_amarillas,tarjetas_rojas,tarjetas_totales
nombre_jugador,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Aaron Connolly,0,0,0
Aaron Cresswell,23,1,24
Aaron Hickey,3,0,3
Aaron Hunt,7,0,7
Aaron Lennon,11,0,11
...,...,...,...
Óscar Romero,3,0,3
Óscar Trejo,19,2,21
Ömer Toprak,21,0,21
Özkan Yildirim,0,0,0


### Ejercicio 5

Indique quienes fueron los 5 jugadores más efectivos, para ello debe sumar el total de goles y asistencias de un solo jugador y guardarlo en una nueva columna.

In [None]:
# En esta celda puede resolver el ejercicio

### Exportar datos de Pandas

Pandas trae una serie de funciones que te permiten exportar tus datos al formato que quieras. 

Su estructura es: 

```python
df.to_{tipo_de_archivo}('ruta/nombre_archivo')
```

Además, en caso de tener la lista de índices por defecto, podriamos no exportarla usando **index = False**.

In [35]:
df.to_csv('futbol_analisis.csv', index = False)

### Ejercicio 6

Encuentra la cantidad de goles totales hechos por cada posición.

- D: Defensor (Defender).
- DF: Defensor (Defender).
- DFM: Defensor Medio (Defensive Midfielder).
- DFMS: Defensor Medio Ofensivo (Defensive Midfielder / Striker).
- DFS: Defensor Medio Ofensivo (Defensive Midfielder / Striker).
- DM: Centrocampista Defensivo (Defensive Midfielder).
- DMS: Defensor Medio Ofensivo (Defensive Midfielder / Striker).
- DS: Delantero (Striker).
- F: Delantero (Forward).
- FM: Delantero Medio (Forward Midfielder).
- FMS: Delantero Medio Ofensivo (Forward Midfielder / Striker).
- FS: Delantero Medio Ofensivo (Forward Midfielder / Striker).
- GK: Portero (Goalkeeper).
- GK S: Portero Suplente (Substitute Goalkeeper).
- M: Centrocampista (Midfielder).
- MS: Medio Ofensivo (Midfielder / Striker).
- S: Delantero (Striker).

In [None]:
# En esta celda puede resolver el ejercicio

### Ejercicio 7

¿Cuál es el jugador que más tiempo ha jugado y cuál es la media de tiempo de todos los jugadores? 

Esta pregunta tiene truco porque hay muchos jugadores suplentes que no juegan casi nunca y van a sesgar los datos, ¿cómo se podría solucionar esto?

In [None]:
# En esta celda puede resolver el ejercicio

### Ejercicio 8

Calcule cual es el porcentaje de goles hechos por penales. Utilice la columna goles_sin_penalti.

In [None]:
# En esta celda puede resolver el ejercicio

### Ejercicio 9

¿Qué porcentaje de goles son hechos con asistencias?

In [None]:
# En esta celda puede resolver el ejercicio