In [2]:
import pandas as pd

# ***Uso de pandas ***

## DataFrame

### Crear un DataFrame con Python

#### 1) Diccionario de listas (columna por columna)

In [None]:
import pandas as pd
football_dict = {
    "player": ["Lionel Messi", "Cristiano Ronaldo"],
    "year": [2016, 2016],
    "goals": [37, 25]
}
football_stats = pd.DataFrame(football_dict)
football_stats

Unnamed: 0,player,year,goals
0,Lionel Messi,2016,37
1,Cristiano Ronaldo,2016,25


#### 2) Lista de diccionarios (fila por fila)

In [None]:
football_list = [
    {"player": "Lionel Messi", "year": 2016, "goals": 37},
    {"player": "Cristiano Ronaldo", "year": 2016, "goals": 25},
]
football_stats = pd.DataFrame(football_list)
football_stats

Unnamed: 0,player,year,goals
0,Lionel Messi,2016,37
1,Cristiano Ronaldo,2016,25


## Importar datos

### Base de datos

Usaremos una base de datos de las 5 ligas top de Europa entre los años 2014 y 2020.
> Fuente: [Kaggle](https://www.kaggle.com/shushrutsharma/top-5-football-leagues?select=Fullmetadata.csv)

### Importar csv

`pd.read_csv('path/file.csv')`

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/edalgoca/mod02_python/main/football_stats.csv')


Importar con una columna como índice

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/edalgoca/mod02_python/main/football_mini_stats.csv', index_col='player')
print(df)

                   year  goals
player                        
Lionel Messi       2016     37
Cristiano Ronaldo  2016     25


In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/edalgoca/mod02_python/main/football_stats.csv', index_col='player_id')
df

Unnamed: 0_level_0,player_name,year,games,goals,npg,shots,assists,yellow_cards,red_cards,position,team_name,time
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
8865,Ollie Watkins,2020,9,6,5,22,1,0,0,F,Aston Villa,810
675,Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810
592,Ross Barkley,2020,6,2,2,17,1,0,0,M,Aston Villa,454
1024,Tyrone Mings,2020,9,2,2,7,1,2,0,D,Aston Villa,810
7726,Ezri Konsa Ngoyo,2020,9,2,2,7,0,0,0,D,Aston Villa,810
...,...,...,...,...,...,...,...,...,...,...,...,...
4267,Florian Hartherz,2014,10,0,0,1,2,1,1,D S,Paderborn,775
4268,Christian Strohdiek,2014,22,0,0,6,0,2,0,D S,Paderborn,1608
4311,Idir Ouali,2014,6,0,0,4,0,1,0,M S,Paderborn,296
4334,Mirnes Pepic,2014,2,0,0,0,0,0,0,S,Paderborn,20


## Inspeccionar un DataFrame

- `df.head()` → retorna las 5 primeras filas. También le puedes pasar un entero como parámetro y te devolverá esa cantidad de primeras filas.
- `df.tail()` → retorna las últimas 5 filas del dataset.
- `df.sample()` → es parecido a los 2 anteriores, pero este tomará muestras al azar del DataFrame.
- `df.shape` → retorna las filas y columnas que tiene el DataFrame.
- `df.size` → multiplica las filas y columnas y te da el total de datos del DataFrame.
- `df.info()` → este es genial, te da la cuenta de valores no nulos, el tipo de dato de cada columna (recuerda que solo puede haber un único tipo de dato por columna) y el uso de memoria. Cuando estés procesando los datos, será un gran aliado.
- `df.describe()` → te ayudará mucho con las primeras impresiones de los datos. Calcula algunas estadísticas descriptivas para cada columna.

In [None]:
print(df.sample(3))

                   player_name  year  games  goals  npg  shots  assists  \
player_id                                                                 
1293           Gonzalo Higuaín  2019     32      8    8     75        4   
6467       Giovanni Volpicelli  2017      1      0    0      1        0   
1736           Oliver McBurnie  2016      5      0    0      2        0   

           yellow_cards  red_cards position  team_name  time  
player_id                                                     
1293                  2          0      F S   Juventus  1866  
6467                  0          0        S  Benevento     1  
1736                  0          0        S    Swansea    69  


In [None]:
print(df.shape)

(18633, 12)


In [None]:
print(df.size)

223596


In [None]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18633 entries, 8865 to 4363
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   player_name   18633 non-null  object
 1   year          18633 non-null  int64 
 2   games         18633 non-null  int64 
 3   goals         18633 non-null  int64 
 4   npg           18633 non-null  int64 
 5   shots         18633 non-null  int64 
 6   assists       18633 non-null  int64 
 7   yellow_cards  18633 non-null  int64 
 8   red_cards     18633 non-null  int64 
 9   position      18633 non-null  object
 10  team_name     18633 non-null  object
 11  time          18633 non-null  int64 
dtypes: int64(9), object(3)
memory usage: 1.8+ MB
None


In [None]:
df.describe()

Unnamed: 0,year,games,goals,npg,shots,assists,yellow_cards,red_cards,time
count,18633.0,18633.0,18633.0,18633.0,18633.0,18633.0,18633.0,18633.0,18633.0
mean,2016.937691,17.072291,1.624054,1.478399,15.323888,1.138088,2.453979,0.127569,1207.483282
std,1.976606,11.375527,3.252418,2.891849,20.934645,1.936238,2.685745,0.370656,975.753086
min,2014.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
25%,2015.0,7.0,0.0,0.0,1.0,0.0,0.0,0.0,326.0
50%,2017.0,16.0,0.0,0.0,8.0,0.0,2.0,0.0,976.0
75%,2019.0,27.0,2.0,2.0,21.0,2.0,4.0,0.0,2004.0
max,2020.0,38.0,48.0,38.0,227.0,20.0,17.0,5.0,3420.0


## Ordenar los datos

In [None]:
df.sort_values('player_name', ascending=False)

Unnamed: 0_level_0,player_name,year,games,goals,npg,shots,assists,yellow_cards,red_cards,position,team_name,time
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
250,Ørjan Nyland,2015,6,0,0,0,0,0,0,GK,Ingolstadt,540
250,Ørjan Nyland,2016,12,0,0,0,0,0,0,GK S,Ingolstadt,1021
250,Ørjan Nyland,2019,7,0,0,0,0,0,0,GK S,Aston Villa,536
2646,Özkan Yildirim,2014,1,0,0,0,0,0,0,M,Werder Bremen,60
2646,Özkan Yildirim,2015,1,0,0,1,0,0,0,S,Werder Bremen,13
...,...,...,...,...,...,...,...,...,...,...,...,...
534,Aaron Cresswell,2018,20,0,0,11,1,1,0,D S,West Ham,1586
534,Aaron Cresswell,2020,11,0,0,4,3,0,0,D,West Ham,990
534,Aaron Cresswell,2019,31,3,3,18,0,7,0,D,West Ham,2739
7991,Aaron Connolly,2019,24,3,3,36,1,0,0,F S,Brighton,1279


In [None]:
print(df.sort_values(['team_name', 'goals'], ascending=[True, False]).head(3))

            player_name  year  games  goals  npg  shots  assists  \
player_id                                                          
1125       Carlos Bacca  2015     38     18   16     77        2   
2014       Jérémy Menez  2014     33     16    8     78        4   
1125       Carlos Bacca  2016     32     13    9     56        3   

           yellow_cards  red_cards position team_name  time  
player_id                                                    
1125                  2          0      F S  AC Milan  3179  
2014                  3          1    F M S  AC Milan  2713  
1125                  3          0      F S  AC Milan  2152  


## Subconjuntos y filtros de datos

### Subsetting columns

In [None]:
df['team_name'].unique()#retorna valores que son unicos es decir todos los valores 
                        #que no se repiten en data frame

array(['Aston Villa', 'Everton', 'Southampton', 'Leicester',
       'West Bromwich Albion', 'Crystal Palace', 'Chelsea', 'West Ham',
       'Tottenham', 'Arsenal', 'Newcastle United', 'Liverpool',
       'Manchester City', 'Manchester United', 'Burnley', 'Brighton',
       'Fulham', 'Wolverhampton Wanderers', 'Sheffield United', 'Leeds',
       'Sevilla', 'Real Sociedad', 'Getafe', 'Atletico Madrid',
       'Valencia', 'Athletic Club', 'Barcelona', 'Real Madrid', 'Levante',
       'Celta Vigo', 'Real Betis', 'Villarreal', 'Granada', 'Eibar',
       'Osasuna', 'Alaves', 'Elche', 'Real Valladolid', 'SD Huesca',
       'Cadiz', 'Verona', 'Roma', 'Lazio', 'Bologna', 'Juventus',
       'Udinese', 'Genoa', 'Sampdoria', 'Sassuolo', 'Napoli', 'Inter',
       'Atalanta', 'Fiorentina', 'AC Milan', 'Torino', 'Crotone',
       'Cagliari', 'Benevento', 'Parma Calcio 1913', 'Spezia', 'Lille',
       'Paris Saint Germain', 'Rennes', 'Marseille', 'Montpellier',
       'Angers', 'Nantes', 'Nice', 'Mona

### Filtrar filas

In [None]:
df[df.player_name=='Aaron Connolly']#busca coincidencias de registros focalizando su busqueda
                                    #utilizando un campus focal

Unnamed: 0_level_0,player_name,year,games,goals,npg,shots,assists,yellow_cards,red_cards,position,team_name,time
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
7991,Aaron Connolly,2020,8,1,1,9,1,0,0,F S,Brighton,425
7991,Aaron Connolly,2019,24,3,3,36,1,0,0,F S,Brighton,1279


In [None]:
df[df['player_name']=='Aaron Connolly']#busca coincidencias de registros focalizando su busqueda
                                       #utilizando un campus focal

Unnamed: 0_level_0,player_name,year,games,goals,npg,shots,assists,yellow_cards,red_cards,position,team_name,time
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
7991,Aaron Connolly,2020,8,1,1,9,1,0,0,F S,Brighton,425
7991,Aaron Connolly,2019,24,3,3,36,1,0,0,F S,Brighton,1279


In [None]:
df.query('player_name == "Aaron Connolly"')#busca coincidencias de registros focalizando su 
                                           #busqueda utilizando un campus focal

Unnamed: 0_level_0,player_name,year,games,goals,npg,shots,assists,yellow_cards,red_cards,position,team_name,time
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
7991,Aaron Connolly,2020,8,1,1,9,1,0,0,F S,Brighton,425
7991,Aaron Connolly,2019,24,3,3,36,1,0,0,F S,Brighton,1279


#### Uniendo lo aprendido

In [None]:
# Goles de Cristiano Ronaldo en 2014
cr7 = df[(df.player_name == 'Cristiano Ronaldo') & (df.year == 2014)]#filtra busque por nombre y año
cols = ['player_name', 'year', 'goals']#columnas de retorno
print(cr7[cols])#retorna descripcion de dt=cr7

                 player_name  year  goals
player_id                                
2371       Cristiano Ronaldo  2014     48


In [None]:
# Goles de Ronaldo, Messi y Suárez en 2015
players = ['Cristiano Ronaldo', 'Lionel Messi', 'Luis Suárez']#filtrado por jugadores
top_players = df[(df.player_name.isin(players)) & (df.year == 2015)]#".isin()" comprueba que los
print(top_players[cols])#asigna a las columnas el valor a           #valores declarados se 
                    #"top_players" que fue validado por "isin()"    #encuentren dentro del dt

                 player_name  year  goals
player_id                                
2098             Luis Suárez  2015     40
2097            Lionel Messi  2015     26
2371       Cristiano Ronaldo  2015     35


### Subsetting con .loc

In [None]:
# Goles de Ronaldo, Messi y Suárez en 2015
df = df.reset_index()#reseteamos las llaves principales del df (osea ahora ya no existe)
df = df.set_index('player_name')#sustituimos X una nueva llave primeria X column('player_name')
players = ['Cristiano Ronaldo', 'Lionel Messi', 'Luis Suárez']#valores del nuevo index
cols = ['year', 'goals']#valores de las columnas del df
top_players = df.loc[players, cols]#".loc[]"asigna los registros a la lista declarada
print(top_players.query('year==2015'))#muestra el df nuevo, con su nuevo index y campo eliminado

                   year  goals
player_name                   
Cristiano Ronaldo  2015     35
Lionel Messi       2015     26
Luis Suárez        2015     40


## Aplicar funciones a un DataFrame

- `.sum()` → suma todos los valores de una columna.
- `.mean()` → promedio de los valores de una columna.
- `.max()` → valor máximo de una columna.
- `.min()` → valor mínimo de una columna.
- `.cumsum()` → en cada fila va poniendo la suma acumulada de una columna.
- `.cummax()` → en cada fila va poniendo el valor máximo encontrado en orden de una columna.
- `.value_counts(sort=True)` → cuenta los distintos valores que existen en una columna (muy útil para contar categorías) y los ordena descendientemente.
- `.drop_duplicates(subset='col_name')` → elimina duplicados en una columna.

También es posible pasar funciones que nosotros mismos hayamos creado u otras funciones importadas de otras librerías. Para ello se usa `.agg(function)`.

In [None]:
# Máxima cantidad de goles hechas por un jugador en una temporada

max_goals = df['goals'].max()#retorna quien del dt hizo mas goles
cols = ['goals', 'year', 'team_name']#columnas que nos interesa que retorne
print(df[df.goals == max_goals][cols])#imprime df con las column y max_goals declarados

                   goals  year    team_name
player_name                                
Cristiano Ronaldo     48  2014  Real Madrid


In [None]:
# Porcentaje de disparos al arco que terminan en gol
total_shots = df['shots'].sum()#suma de los valores acumulados en 'shots'
total_goals = df['goals'].sum()#suma de los valores acumulados en 'goals'
print(round(total_goals / total_shots * 100, 2))#promediom y redondeado

10.6


## Agrupar datos

- `df.groupby()`

In [None]:
# Top 10 jugadores que más goles han marcado
top_players = df.groupby('player_name')['goals'].sum()#agrupa por 'player_name' y suma sus respectivos 'goals'
print(top_players.sort_values(ascending=False).head(10))#muestra los 10 registros en orden desc

player_name
Lionel Messi                 205
Cristiano Ronaldo            194
Robert Lewandowski           174
Luis Suárez                  154
Harry Kane                   148
Pierre-Emerick Aubameyang    141
Sergio Agüero                128
Edinson Cavani               125
Ciro Immobile                119
Mohamed Salah                117
Name: goals, dtype: int64


In [None]:
# Top 5 equipos con más tarjetas rojas y amarillas
red_cards = df.groupby('team_name')[['red_cards', 'yellow_cards']].sum()#lo mismo q el anterior
print(red_cards.sort_values('red_cards', ascending=False).head())#pero con variante D tarj rojas

           red_cards  yellow_cards
team_name                         
AC Milan          43           513
Genoa             42           562
Valencia          39           598
Bologna           38           477
Lazio             35           576


## Crear columnas

In [None]:
df['goals_assists'] = df.goals + df.assists#asigna nueva columna 'goals_assists'
best_players = df.groupby('player_name')['goals_assists'].sum()#lo mismo que el anterior
print(best_players.sort_values(ascending=False).head())#pero con variante del mejor jugador

player_name
Lionel Messi          293
Cristiano Ronaldo     246
Luis Suárez           224
Robert Lewandowski    203
Harry Kane            178
Name: goals_assists, dtype: int64


# Ejercicios

1. Usa `df.describe()` y cuéntanos todos los insights que te dio y qué podría significar cada uno.

`#insight-> Mejor jugador - Jugador mayor rendimiento(asistencias)`  
`#******-> npg(goles hechos excluyedo penaltis) - partidos jugados por año`

2. Encuentra la cantidad de goles totales hechos por cada posición.

`df.groupby('position')['goals'].sum()`

3. ¿Cuál es el jugador que más tiempo ha jugado y cuál es la media de tiempo de todos los jugadores? *Esta pregunta tiene truco porque hay muchos jugadores suplentes que no juegan casi nunca y van a sesgar los datos, ¿cómo podrías solucionar esto?*

`Mmax = df['time'].max()`  
`Mmin = df['time'].min()`

4. ¿Qué posición es la que más tiempo juega? ¿Y la que menos?

`#Agrupando los datos por posición y sumar el tiempo jugado`  
`posiciones = df.groupby('position')['time'].sum()`

5. ¿Qué porcentaje de goles son hechos por penales? *La columna* `npg` *significa: goles hechos SIN penales.*

`porcentaje_penales = (goles_totales - goles_npg) / goles_totales * 100`

6. ¿Qué porcentaje de goles son hechos con asistencias?

`porcentaje_asistencias = (goles_totales - tiros_asistidos) / goles_totales * 100`

7. ¿Cuál fue el equipo que más goles hizo cada año? ¿Salió campeón ese año?

`campeon = df[(df['year'] == year) & (df['team_name'] == team)]['champion'].values[False]`

8. ¿Cuántos jugadores jugaron todos los años del dataset? ¿Qué porcentaje del total representan?

`total_players = len(df['player_name'].unique())`  
`porcentaje_de_juegos_jugados = num_de_juegos_jugados / total_players * 100`


In [2]:
# Aquí tu súper código. ¡Tú puedes!
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/edalgoca/mod02_python/main/football_stats.csv', index_col='player_id')

In [4]:
df.head()#insight-> Mejor jugador - Jugador mayor rendimiento(asistencias)
                #-> npg(goles hechos excluyedo penaltis) - partidos jugados por año

Unnamed: 0_level_0,player_name,year,games,goals,npg,shots,assists,yellow_cards,red_cards,position,team_name,time
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
8865,Ollie Watkins,2020,9,6,5,22,1,0,0,F,Aston Villa,810
675,Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810
592,Ross Barkley,2020,6,2,2,17,1,0,0,M,Aston Villa,454
1024,Tyrone Mings,2020,9,2,2,7,1,2,0,D,Aston Villa,810
7726,Ezri Konsa Ngoyo,2020,9,2,2,7,0,0,0,D,Aston Villa,810
...,...,...,...,...,...,...,...,...,...,...,...,...
4267,Florian Hartherz,2014,10,0,0,1,2,1,1,D S,Paderborn,775
4268,Christian Strohdiek,2014,22,0,0,6,0,2,0,D S,Paderborn,1608
4311,Idir Ouali,2014,6,0,0,4,0,1,0,M S,Paderborn,296
4334,Mirnes Pepic,2014,2,0,0,0,0,0,0,S,Paderborn,20


In [17]:
#1. Usa `df.describe()` y cuéntanos todos los insights que te dio y qué podría significar c/u. 
print(df.describe())#insight-> Mejor jugador - Jugador mayor rendimiento(asistencias)  
                #       -> npg(goles hechos excluyedo penaltis) - partidos jugados por año

               year         games         goals           npg         shots   
count  18633.000000  18633.000000  18633.000000  18633.000000  18633.000000  \
mean    2016.937691     17.072291      1.624054      1.478399     15.323888   
std        1.976606     11.375527      3.252418      2.891849     20.934645   
min     2014.000000      1.000000      0.000000      0.000000      0.000000   
25%     2015.000000      7.000000      0.000000      0.000000      1.000000   
50%     2017.000000     16.000000      0.000000      0.000000      8.000000   
75%     2019.000000     27.000000      2.000000      2.000000     21.000000   
max     2020.000000     38.000000     48.000000     38.000000    227.000000   

            assists  yellow_cards     red_cards          time  
count  18633.000000  18633.000000  18633.000000  18633.000000  
mean       1.138088      2.453979      0.127569   1207.483282  
std        1.936238      2.685745      0.370656    975.753086  
min        0.000000      0.00000

In [37]:
#2. Encuentra la cantidad de goles totales hechos por cada posición.
df.groupby('position')['goals'].sum()

position
D          1238
D F           0
D F M        62
D F M S     637
D F S        25
D M         360
D M S      1213
D S        1494
F          1022
F M         982
F M S      9718
F S        8118
GK            1
GK S          1
M           764
M S        4536
S            90
Name: goals, dtype: int64

In [10]:
#3. ¿Cuál es el jugador que más tiempo ha jugado y cuál es la media de tiempo de todos 
#los jugadores? *Esta pregunta tiene truco porque hay muchos jugadores suplentes que no 
#juegan casi nunca y van a sesgar los datos, ¿cómo podrías solucionar esto?*
Mmax = df['time'].max()#3420
Mmin= df['time'].min()#501

In [6]:
umbral_minutos_jugados = Mmin
df2 = df[df['time'] > umbral_minutos_jugados]
jugador_mas_tiempo_jugado = df['time'].idxmax()
media_minutos_jugados = df['time'].mean()

print(f'El jugador que más tiempo ha jugado es {df.loc[jugador_mas_tiempo_jugado]["player_name"]}')
print(f'con {df.loc[jugador_mas_tiempo_jugado]["time"]} minutos jugados.')


El jugador que más tiempo ha jugado es player_id
741    Jordan Pickford
741    Jordan Pickford
741    Jordan Pickford
741    Jordan Pickford
741    Jordan Pickford
741    Jordan Pickford
Name: player_name, dtype: object
con player_id
741     900
741    3420
741    3420
741    3420
741    2610
741     180
Name: time, dtype: int64 minutos jugados.


In [9]:
tf = df[df['time'] > umbral_minutos_jugados]
tf.head()

Unnamed: 0_level_0,player_name,year,games,goals,npg,shots,assists,yellow_cards,red_cards,position,team_name,time
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
8865,Ollie Watkins,2020,9,6,5,22,1,0,0,F,Aston Villa,810
675,Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810
592,Ross Barkley,2020,6,2,2,17,1,0,0,M,Aston Villa,454
1024,Tyrone Mings,2020,9,2,2,7,1,2,0,D,Aston Villa,810
7726,Ezri Konsa Ngoyo,2020,9,2,2,7,0,0,0,D,Aston Villa,810


In [11]:
# 4. ¿Qué posición es la que más tiempo juega? ¿Y la que menos?
# Agrupando los datos por posición y sumar el tiempo jugado
posiciones = df.groupby('position')['time'].sum()

# Encontrando la posición que más tiempo juega
posicion_mas_tiempo = posiciones.idxmax()

# Encontrando la posición que menos tiempo juega
posicion_menos_tiempo = posiciones.idxmin()

print(f'La posición que más tiempo juega es {posicion_mas_tiempo}.')
print(f'La posición que menos tiempo juega es {posicion_menos_tiempo}.')

La posición que más tiempo juega es M S.
La posición que menos tiempo juega es D F.


In [5]:
#5. ¿Qué porcentaje de goles son hechos por penales? *La columna* `npg` 
#*significa: goles hechos SIN penales.*
goles_totales = df['goals'].sum()
goles_npg = df['npg'].sum()                                 #.2f-> calc. con resultado float
porcentaje_penales = (goles_totales - goles_npg) / goles_totales * 100
print(f'El porcentaje de goles realizados por "penales" es {porcentaje_penales:.2f}%')

El porcentaje de goles realizados por "penales" es 8.97%


In [30]:
#6. ¿Qué porcentaje de goles son hechos con asistencias?
goles_totales = df['goals'].sum()
tiros_asistidos = df['assists'].sum()

print(f'La cantidad de goles es: {goles_totales} y la cantidad de asisitencias son: {tiros_asistidos}')                    
porcentaje_asistencias = (goles_totales - tiros_asistidos) / goles_totales * 100
print(f'El porcentaje de goles realizados por "asistencias" es {porcentaje_asistencias:.2f}%')
#.2f-> calc. con resultado float

La cantidad de goles es: 30261 y la cantidad de asisitencias son: 21206
El porcentaje de goles realizados por "asistencias" es 29.92%


In [10]:
#7. ¿Cuál fue el equipo que más goles hizo cada año? ¿Salió campeón ese año?
# Agrupar los datos por año y equipo y sumar los goles
goles_hechos_por_equipo_año = df.groupby(['year', 'team_name'])['goals'].sum()

# Encontrar el equipo con la mayor cantidad de goles en cada año
goles_max_por_año = goles_hechos_por_equipo_año.groupby('year').idxmax()
df['champion'] = 'dato_de_campeon'#agregando columna champion
df = df.assign(champion=False)#añadiendo valor fijo a la columna champion por "false"

In [8]:
df.info()#devielve el valor de los columnas de un dataset y que tipo de datos almacenan

<class 'pandas.core.frame.DataFrame'>
Index: 18633 entries, 8865 to 4363
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   player_name   18633 non-null  object
 1   year          18633 non-null  int64 
 2   games         18633 non-null  int64 
 3   goals         18633 non-null  int64 
 4   npg           18633 non-null  int64 
 5   shots         18633 non-null  int64 
 6   assists       18633 non-null  int64 
 7   yellow_cards  18633 non-null  int64 
 8   red_cards     18633 non-null  int64 
 9   position      18633 non-null  object
 10  team_name     18633 non-null  object
 11  time          18633 non-null  int64 
 12  champion      18633 non-null  object
dtypes: int64(9), object(4)
memory usage: 2.0+ MB


In [48]:
# Verificar si ese equipo fue el campeón ese año
for year, team in goles_max_por_año.items():
    #valida si en el año correspondiente un equipo fue campeon (tomando en cuenta que
    #el equipo en cuestion este totalmente declarado campeon y existan esos datos como tal)
    campeon = df[(df['year'] == year) & (df['team_name'] == team)]['champion'].values[False]
    campeon='nose dXD'
    print(f'En {year}, {team} fue el equipo que más goles hizo. ¿Fue campeón? {campeon}')

En 2014, (2014, 'Real Madrid') fue el equipo que más goles hizo. ¿Fue campeón? nose dXD
En 2015, (2015, 'Barcelona') fue el equipo que más goles hizo. ¿Fue campeón? nose dXD
En 2016, (2016, 'Barcelona') fue el equipo que más goles hizo. ¿Fue campeón? nose dXD
En 2017, (2017, 'Manchester City') fue el equipo que más goles hizo. ¿Fue campeón? nose dXD
En 2018, (2018, 'Paris Saint Germain') fue el equipo que más goles hizo. ¿Fue campeón? nose dXD
En 2019, (2019, 'Manchester City') fue el equipo que más goles hizo. ¿Fue campeón? nose dXD
En 2020, (2020, 'Bayern Munich') fue el equipo que más goles hizo. ¿Fue campeón? nose dXD


In [9]:
df.head()

Unnamed: 0_level_0,player_name,year,games,goals,npg,shots,assists,yellow_cards,red_cards,position,team_name,time,champion
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
8865,Ollie Watkins,2020,9,6,5,22,1,0,0,F,Aston Villa,810,valor_de_champion
675,Jack Grealish,2020,9,5,5,26,5,2,0,F M,Aston Villa,810,valor_de_champion
592,Ross Barkley,2020,6,2,2,17,1,0,0,M,Aston Villa,454,valor_de_champion
1024,Tyrone Mings,2020,9,2,2,7,1,2,0,D,Aston Villa,810,valor_de_champion
7726,Ezri Konsa Ngoyo,2020,9,2,2,7,0,0,0,D,Aston Villa,810,valor_de_champion


In [6]:
#8. ¿Cuántos jugadores jugaron todos los años del dataset? ¿Qué porcentaje del total representan?
# Agrupando los datos por nombre de jugador y contando el número de años únicos en 
juegos_jugados = df.groupby('player_name')['year'].nunique()                    #los que jugaron

# Filtrando los jugadores que jugaron todos los años y hacer conteo
juegos_jugados = juegos_jugados[juegos_jugados == df['year'].nunique()]
num_de_juegos_jugados = len(juegos_jugados)

# Calculando porcentaje del total que representan en los juegos que jugaron
total_players = len(df['player_name'].unique())
porcentaje_de_juegos_jugados = num_de_juegos_jugados / total_players * 100

print(f'El número de jugadores que jugaron todos los años es {num_de_juegos_jugados}.')
print(f'El porcentaje de jugadores que jugaron todos los años es ({porcentaje_de_juegos_jugados:.2f}% del total).')

El número de jugadores que jugaron todos los años es 540.
El porcentaje de jugadores que jugaron todos los años es (8.75% del total).


In [None]:
goals_by_team_by_year = df.groupby(["year","team_name"])["goals"].sum()
goals_by_team_by_year.sort_values(ascending=False).reset_index().drop_duplicates('year')

Unnamed: 0,year,team_name,goals
0,2014,Real Madrid,116
1,2016,Barcelona,114
2,2015,Barcelona,109
6,2018,Paris Saint Germain,103
8,2017,Manchester City,103
11,2019,Manchester City,100
492,2020,Bayern Munich,34


Estos regalos son muy especiales porque no solo te ayudarán ahora, sino que te abrirán un nuevo camino que podrás usar el resto de tu vida.

Primero, como no podía faltar, el cheat sheet de todos los comandos de Pandas:
- [Cheat Sheet de Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

Y ahora, te abriré la puerta al mundo de los datasets. Te dejaré algunos lugares donde podrás conseguir datasets de todo lo que te puedas imaginar para que apliques todos tus conocimientos y los añadas a tu [propio portafolio](https://platzi.com/blog/deepnote).
- [Kaggle](https://www.kaggle.com/datasets): este es un sitio especial para data scientists que tiene MUCHOS datasets y competiciones para que apliques tus conocimientos.
- [Awesome Public Datasets](https://github.com/awesomedata/awesome-public-datasets): es un repositorio de GitHub que compiló un montón datasets públicos y los ordernó por categorías. Podrías usarlos como base para tus futuros proyectos de portafolio.
- [Datsets Seearch](https://datasetsearch.research.google.com/): Google tiene su propio buscador de datasets, prueba encontrar lo que necesitas aquí.