# Tutorial de Pandas en Español



In [1]:
import pandas as pd

## DataFrame

### Crear un DataFrame con Python

#### 1) Diccionario de listas (columna por columna)

In [2]:
football_dict = {
    "player": ["Lionel Messi", "Cristiano Ronaldo"],
    "year": [2016, 2016],
    "goals": [37, 25],
}
football_stats = pd.DataFrame(football_dict)
print(football_stats)

              player  year  goals
0       Lionel Messi  2016     37
1  Cristiano Ronaldo  2016     25


#### 2) Lista de diccionarios (fila por fila)

In [3]:
football_list = [
    {"player": "Lionel Messi", "year": 2016, "goals": 37},
    {"player": "Cristiano Ronaldo", "year": 2016, "goals": 25},
]
football_stats = pd.DataFrame(football_list)
print(football_stats)

              player  year  goals
0       Lionel Messi  2016     37
1  Cristiano Ronaldo  2016     25


## Importar datos

### Base de datos

Usaremos una base de datos de las 5 ligas top de Europa entre los años 2014 y 2020.
> Fuente: [Kaggle](https://www.kaggle.com/shushrutsharma/top-5-football-leagues?select=Fullmetadata.csv)

### Importar csv

`pd.read_csv('path/file.csv')`

In [4]:
df = pd.read_csv('Datasets/football_mini_stats.csv')
print(df)

              player  year  goals
0       Lionel Messi  2016     37
1  Cristiano Ronaldo  2016     25


Importar con una columna como índice

In [5]:
df = pd.read_csv('Datasets/football_mini_stats.csv', index_col='player')
print(df)

                   year  goals
player                        
Lionel Messi       2016     37
Cristiano Ronaldo  2016     25


In [6]:
df = pd.read_csv('Datasets/football_stats.csv', index_col='player_id')
df

Unnamed: 0_level_0,player_name,year,games,goals,npg,shots,assists,yellow_cards,red_cards,position,team_name,time
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
8865,Ollie Watkins,2020,9,6,5,22,1,0,0,F,Aston Villa,810
675,Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810
592,Ross Barkley,2020,6,2,2,17,1,0,0,M,Aston Villa,454
1024,Tyrone Mings,2020,9,2,2,7,1,2,0,D,Aston Villa,810
7726,Ezri Konsa Ngoyo,2020,9,2,2,7,0,0,0,D,Aston Villa,810
...,...,...,...,...,...,...,...,...,...,...,...,...
4267,Florian Hartherz,2014,10,0,0,1,2,1,1,D S,Paderborn,775
4268,Christian Strohdiek,2014,22,0,0,6,0,2,0,D S,Paderborn,1608
4311,Idir Ouali,2014,6,0,0,4,0,1,0,M S,Paderborn,296
4334,Mirnes Pepic,2014,2,0,0,0,0,0,0,S,Paderborn,20


## Inspeccionar un DataFrame

- `df.head()` → retorna las 5 primeras filas. También le puedes pasar un entero como parámetro y te devolverá esa cantidad de primeras filas.
- `df.tail()` → retorna las últimas 5 filas del dataset.
- `df.sample()` → es parecido a los 2 anteriores, pero este tomará muestras al azar del DataFrame.
- `df.shape` → retorna las filas y columnas que tiene el DataFrame.
- `df.size` → multiplica las filas y columnas y te da el total de datos del DataFrame.
- `df.info()` → este es genial, te da la cuenta de valores no nulos, el tipo de dato de cada columna (recuerda que solo puede haber un único tipo de dato por columna) y el uso de memoria. Cuando estés procesando los datos, será un gran aliado.
- `df.describe()` → te ayudará mucho con las primeras impresiones de los datos. Calcula algunas estadísticas descriptivas para cada columna.

In [7]:
print(df.sample(3))

              player_name  year  games  goals  npg  shots  assists  \
player_id                                                            
5245             Bernardo  2016     22      0    0     14        1   
7020       Gorka Guruzeta  2018      6      0    0      1        0   
637           Hugo Lloris  2016     34      0    0      0        0   

           yellow_cards  red_cards position               team_name  time  
player_id                                                                  
5245                  3          0      D S  RasenBallsport Leipzig  1897  
7020                  0          0        S           Athletic Club    38  
637                   0          0       GK               Tottenham  3004  


In [8]:
print(df.shape)

(18633, 12)


In [9]:
print(df.size)

223596


In [10]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 18633 entries, 8865 to 4363
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   player_name   18633 non-null  object
 1   year          18633 non-null  int64 
 2   games         18633 non-null  int64 
 3   goals         18633 non-null  int64 
 4   npg           18633 non-null  int64 
 5   shots         18633 non-null  int64 
 6   assists       18633 non-null  int64 
 7   yellow_cards  18633 non-null  int64 
 8   red_cards     18633 non-null  int64 
 9   position      18633 non-null  object
 10  team_name     18633 non-null  object
 11  time          18633 non-null  int64 
dtypes: int64(9), object(3)
memory usage: 1.8+ MB
None


In [11]:
df.describe()

Unnamed: 0,year,games,goals,npg,shots,assists,yellow_cards,red_cards,time
count,18633.0,18633.0,18633.0,18633.0,18633.0,18633.0,18633.0,18633.0,18633.0
mean,2016.937691,17.072291,1.624054,1.478399,15.323888,1.138088,2.453979,0.127569,1207.483282
std,1.976606,11.375527,3.252418,2.891849,20.934645,1.936238,2.685745,0.370656,975.753086
min,2014.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
25%,2015.0,7.0,0.0,0.0,1.0,0.0,0.0,0.0,326.0
50%,2017.0,16.0,0.0,0.0,8.0,0.0,2.0,0.0,976.0
75%,2019.0,27.0,2.0,2.0,21.0,2.0,4.0,0.0,2004.0
max,2020.0,38.0,48.0,38.0,227.0,20.0,17.0,5.0,3420.0


## Ordenar los datos

In [12]:
df.sort_values('player_name', ascending=False)

Unnamed: 0_level_0,player_name,year,games,goals,npg,shots,assists,yellow_cards,red_cards,position,team_name,time
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
250,Ørjan Nyland,2015,6,0,0,0,0,0,0,GK,Ingolstadt,540
250,Ørjan Nyland,2016,12,0,0,0,0,0,0,GK S,Ingolstadt,1021
250,Ørjan Nyland,2019,7,0,0,0,0,0,0,GK S,Aston Villa,536
2646,Özkan Yildirim,2014,1,0,0,0,0,0,0,M,Werder Bremen,60
2646,Özkan Yildirim,2015,1,0,0,1,0,0,0,S,Werder Bremen,13
...,...,...,...,...,...,...,...,...,...,...,...,...
534,Aaron Cresswell,2018,20,0,0,11,1,1,0,D S,West Ham,1586
534,Aaron Cresswell,2020,11,0,0,4,3,0,0,D,West Ham,990
534,Aaron Cresswell,2019,31,3,3,18,0,7,0,D,West Ham,2739
7991,Aaron Connolly,2019,24,3,3,36,1,0,0,F S,Brighton,1279


In [13]:
print(df.sort_values(['team_name', 'goals'], ascending=[True, False]).head(3))

            player_name  year  games  goals  npg  shots  assists  \
player_id                                                          
1125       Carlos Bacca  2015     38     18   16     77        2   
2014       Jérémy Menez  2014     33     16    8     78        4   
1125       Carlos Bacca  2016     32     13    9     56        3   

           yellow_cards  red_cards position team_name  time  
player_id                                                    
1125                  2          0      F S  AC Milan  3179  
2014                  3          1    F M S  AC Milan  2713  
1125                  3          0      F S  AC Milan  2152  


## Subconjuntos y filtros de datos

### Subsetting columns

In [14]:
df['team_name'].unique()

array(['Aston Villa', 'Everton', 'Southampton', 'Leicester',
       'West Bromwich Albion', 'Crystal Palace', 'Chelsea', 'West Ham',
       'Tottenham', 'Arsenal', 'Newcastle United', 'Liverpool',
       'Manchester City', 'Manchester United', 'Burnley', 'Brighton',
       'Fulham', 'Wolverhampton Wanderers', 'Sheffield United', 'Leeds',
       'Sevilla', 'Real Sociedad', 'Getafe', 'Atletico Madrid',
       'Valencia', 'Athletic Club', 'Barcelona', 'Real Madrid', 'Levante',
       'Celta Vigo', 'Real Betis', 'Villarreal', 'Granada', 'Eibar',
       'Osasuna', 'Alaves', 'Elche', 'Real Valladolid', 'SD Huesca',
       'Cadiz', 'Verona', 'Roma', 'Lazio', 'Bologna', 'Juventus',
       'Udinese', 'Genoa', 'Sampdoria', 'Sassuolo', 'Napoli', 'Inter',
       'Atalanta', 'Fiorentina', 'AC Milan', 'Torino', 'Crotone',
       'Cagliari', 'Benevento', 'Parma Calcio 1913', 'Spezia', 'Lille',
       'Paris Saint Germain', 'Rennes', 'Marseille', 'Montpellier',
       'Angers', 'Nantes', 'Nice', 'Mona

### Filtrar filas

In [15]:
df[df.player_name=='Aaron Connolly']

Unnamed: 0_level_0,player_name,year,games,goals,npg,shots,assists,yellow_cards,red_cards,position,team_name,time
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
7991,Aaron Connolly,2020,8,1,1,9,1,0,0,F S,Brighton,425
7991,Aaron Connolly,2019,24,3,3,36,1,0,0,F S,Brighton,1279


In [16]:
df[df['player_name']=='Aaron Connolly']

Unnamed: 0_level_0,player_name,year,games,goals,npg,shots,assists,yellow_cards,red_cards,position,team_name,time
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
7991,Aaron Connolly,2020,8,1,1,9,1,0,0,F S,Brighton,425
7991,Aaron Connolly,2019,24,3,3,36,1,0,0,F S,Brighton,1279


In [17]:
df.query('player_name == "Aaron Connolly"')

Unnamed: 0_level_0,player_name,year,games,goals,npg,shots,assists,yellow_cards,red_cards,position,team_name,time
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
7991,Aaron Connolly,2020,8,1,1,9,1,0,0,F S,Brighton,425
7991,Aaron Connolly,2019,24,3,3,36,1,0,0,F S,Brighton,1279


#### Uniendo lo aprendido

In [18]:
# Goles de Cristiano Ronaldo en 2014
cr7 = df[(df.player_name == 'Cristiano Ronaldo') & (df.year == 2014)]
cols = ['player_name', 'year', 'goals']
print(cr7[cols])

                 player_name  year  goals
player_id                                
2371       Cristiano Ronaldo  2014     48


In [19]:
# Goles de Ronaldo, Messi y Suárez en 2015
players = ['Cristiano Ronaldo', 'Lionel Messi', 'Luis Suárez']
top_players = df[(df.player_name.isin(players)) & (df.year == 2015)]
print(top_players[cols])

                 player_name  year  goals
player_id                                
2098             Luis Suárez  2015     40
2097            Lionel Messi  2015     26
2371       Cristiano Ronaldo  2015     35


### Subsetting con .loc

In [20]:
# Goles de Ronaldo, Messi y Suárez en 2015
df = df.reset_index()
df = df.set_index('player_name')
players = ['Cristiano Ronaldo', 'Lionel Messi', 'Luis Suárez']
cols = ['year', 'goals']
top_players = df.loc[players, cols]
print(top_players.query('year==2015'))

                   year  goals
player_name                   
Cristiano Ronaldo  2015     35
Lionel Messi       2015     26
Luis Suárez        2015     40


## Aplicar funciones a un DataFrame

- `.sum()` → suma todos los valores de una columna.
- `.mean()` → promedio de los valores de una columna.
- `.max()` → valor máximo de una columna.
- `.min()` → valor mínimo de una columna.
- `.cumsum()` → en cada fila va poniendo la suma acumulada de una columna.
- `.cummax()` → en cada fila va poniendo el valor máximo encontrado en orden de una columna.
- `.value_counts(sort=True)` → cuenta los distintos valores que existen en una columna (muy útil para contar categorías) y los ordena descendientemente.
- `.drop_duplicates(subset='col_name')` → elimina duplicados en una columna.

También es posible pasar funciones que nosotros mismos hayamos creado u otras funciones importadas de otras librerías. Para ello se usa `.agg(function)`.

In [21]:
# Máxima cantidad de goles hechas por un jugador en una temporada

max_goals = df['goals'].max()
cols = ['goals', 'year', 'team_name']
print(df[df.goals == max_goals][cols])

                   goals  year    team_name
player_name                                
Cristiano Ronaldo     48  2014  Real Madrid


In [22]:
# Porcentaje de disparos al arco que terminan en gol
total_shots = df['shots'].sum()
total_goals = df['goals'].sum()
print(round(total_goals / total_shots * 100, 2))

10.6


## Agrupar datos

- `df.groupby()`

In [23]:
# Top 10 jugadores que más goles han marcado
top_players = df.groupby('player_name')['goals'].sum()
print(top_players.sort_values(ascending=False).head(10))

player_name
Lionel Messi                 205
Cristiano Ronaldo            194
Robert Lewandowski           174
Luis Suárez                  154
Harry Kane                   148
Pierre-Emerick Aubameyang    141
Sergio Agüero                128
Edinson Cavani               125
Ciro Immobile                119
Mohamed Salah                117
Name: goals, dtype: int64


In [24]:
# Top 5 equipos con más tarjetas rojas y amarillas
red_cards = df.groupby('team_name')[['red_cards', 'yellow_cards']].sum()
print(red_cards.sort_values('red_cards', ascending=False).head())

           red_cards  yellow_cards
team_name                         
AC Milan          43           513
Genoa             42           562
Valencia          39           598
Bologna           38           477
Lazio             35           576


## Crear columnas

In [25]:
df['goals_assists'] = df.goals + df.assists
best_players = df.groupby('player_name')['goals_assists'].sum()
print(best_players.sort_values(ascending=False).head())

player_name
Lionel Messi          293
Cristiano Ronaldo     246
Luis Suárez           224
Robert Lewandowski    203
Harry Kane            178
Name: goals_assists, dtype: int64


# Ejercicios

1. Usa `df.describe()` y cuéntanos todos los insights que te dio y qué podría significar cada uno.
2. Encuentra la cantidad de goles totales hechos por cada posición.
3. ¿Cuál es el jugador que más tiempo ha jugado y cuál es la media de tiempo de todos los jugadores? *Esta pregunta tiene truco porque hay muchos jugadores suplentes que no juegan casi nunca y van a sesgar los datos, ¿cómo podrías solucionar esto?*
4. ¿Qué posición es la que más tiempo juega? ¿Y la que menos?
5. ¿Qué porcentaje de goles son hechos por penales? *La columna* `npg` *significa: goles hechos SIN penales.*
6. ¿Qué porcentaje de goles son hechos con asistencias?
7. ¿Cuál fue el equipo que más goles hizo cada año? ¿Salió campeón ese año?
8. ¿Cuántos jugadores jugaron todos los años del dataset? ¿Qué porcentaje del total representan?

In [26]:
# Aquí tu súper código. ¡Tú puedes!

In [27]:
goals_by_team_by_year = df.groupby(["year","team_name"])["goals"].sum()
goals_by_team_by_year.sort_values(ascending=False).reset_index().drop_duplicates('year')

Unnamed: 0,year,team_name,goals
0,2014,Real Madrid,116
1,2016,Barcelona,114
2,2015,Barcelona,109
6,2018,Paris Saint Germain,103
8,2017,Manchester City,103
11,2019,Manchester City,100
492,2020,Bayern Munich,34


# Regalos 🎁

Estos regalos son muy especiales porque no solo te ayudarán ahora, sino que te abrirán un nuevo camino que podrás usar el resto de tu vida.

Primero, como no podía faltar, el cheat sheet de todos los comandos de Pandas:
- [Cheat Sheet de Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

Y ahora, te abriré la puerta al mundo de los datasets. Te dejaré algunos lugares donde podrás conseguir datasets de todo lo que te puedas imaginar para que apliques todos tus conocimientos y los añadas a tu [propio portafolio](https://platzi.com/blog/deepnote).
- [Kaggle](https://www.kaggle.com/datasets): este es un sitio especial para data scientists que tiene MUCHOS datasets y competiciones para que apliques tus conocimientos.
- [Awesome Public Datasets](https://github.com/awesomedata/awesome-public-datasets): es un repositorio de GitHub que compiló un montón datasets públicos y los ordernó por categorías. Podrías usarlos como base para tus futuros proyectos de portafolio.
- [Datsets Seearch](https://datasetsearch.research.google.com/): Google tiene su propio buscador de datasets, prueba encontrar lo que necesitas aquí.

¡Has aprendido un montón, me llenas de orgullo! 💪

Me encantaría leer tus respuestas y comentarios en el [blog](https://platzi.com/blog/pandas) 💚

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=d21a300b-571d-4704-b81e-a7ba553b185a' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>