Este es un ejercicio divertido que en **Python**, que con la ayuda de **Pandas**, se puede resolver sin problemas.
Se trata de obtener datos interesantes del dataset de las Bundesliga (la Liga Alemana de Fútbol).

In [1]:
# Importamos pandas para el análisis.
import pandas as pd
# #from  itertools import combinations

In [2]:
# Cargamos el dataset desde un archivo csv.
df = pd.read_csv("data/raw/Bundesliga.csv")

In [3]:
# Imprimimos el head del dataset (los primeros 5 registros)
print("df.head:")
df.head()

df.head:


Unnamed: 0.1,Unnamed: 0,HomeTeam,AwayTeam,HomeGoals,AwayGoals,Round,Year,Date
0,1,Werder Bremen,Borussia Dortmund,3,2,1,1963,1963-08-24 09:30:00
1,2,Hertha BSC Berlin,1. FC Nuernberg,1,1,1,1963,1963-08-24 09:30:00
2,3,Preussen Muenster,Hamburger SV,1,1,1,1963,1963-08-24 09:30:00
3,4,Eintracht Frankfurt,1. FC Kaiserslautern,1,1,1,1963,1963-08-24 09:30:00
4,5,Karlsruher SC,Meidericher SV,1,4,1,1963,1963-08-24 09:30:00


In [4]:
# Revisamos los tipos de datos de cada columna que compone el dataset
print("df.dtypes:")
df.dtypes

df.dtypes:


Unnamed: 0     int64
HomeTeam      object
AwayTeam      object
HomeGoals      int64
AwayGoals      int64
Round          int64
Year           int64
Date          object
dtype: object

In [5]:
# Mostramos un resumen de los datos
print("df.info:")
df.info

df.info:


<bound method DataFrame.info of        Unnamed: 0                   HomeTeam              AwayTeam  HomeGoals  \
0               1              Werder Bremen     Borussia Dortmund          3   
1               2          Hertha BSC Berlin       1. FC Nuernberg          1   
2               3          Preussen Muenster          Hamburger SV          1   
3               4        Eintracht Frankfurt  1. FC Kaiserslautern          1   
4               5              Karlsruher SC        Meidericher SV          1   
...           ...                        ...                   ...        ...   
14013       14014          Arminia Bielefeld           Hannover 96          2   
14014       14015              Karlsruher SC     Hertha BSC Berlin          4   
14015       14016                1. FC Koeln            VfL Bochum          1   
14016       14017  Borussia Moenchengladbach     Borussia Dortmund          1   
14017       14018                 Schalke 04       1899 Hoffenheim          2

In [6]:
# Mostramos el nombre de las columnas
print("df.coluns:")
df.columns

df.coluns:


Index(['Unnamed: 0', 'HomeTeam', 'AwayTeam', 'HomeGoals', 'AwayGoals', 'Round',
       'Year', 'Date'],
      dtype='object')

In [7]:
# Se puede observar que la primer columna tiene un nombre atípico 'Unnamed: 0',
# por lo que vamos a cambiar el nombre de las columnas.
# Para ello, existen dos maneras diferentes de establecer los nombres de las columnas
# 1. Para todas las columnas
schema = ['index', 'homeTeam', 'awayTeam', 'homeGoals', 'awayGoals', 'round', 'year', 'date']
df.columns = schema

# 2. Sólo para las columnas seleccionadas
# df.rename(columns = {'Unnamed: 0': 'Index'}, inplace = True)

In [8]:
# Mostramos, nuevaente, el nombre de las columnas, el cual no será igual que en
# la instrucción anterior, ya que hemos modificado el nombre de todas las columnas.
print("df.coluns:")
df.columns

df.coluns:


Index(['index', 'homeTeam', 'awayTeam', 'homeGoals', 'awayGoals', 'round',
       'year', 'date'],
      dtype='object')

In [31]:
# Aplicamos un formato personalizado de fecha a la columna 'date'
pd.to_datetime(df.date).dt.strftime("%Y-%M-%D %H:%M:%S")

# Mostramos los primeros cinco registros del dataset
#df.head()

0        1963-30-08/24/63 09:30:00
1        1963-30-08/24/63 09:30:00
2        1963-30-08/24/63 09:30:00
3        1963-30-08/24/63 09:30:00
4        1963-30-08/24/63 09:30:00
                   ...            
14013    2009-30-05/23/09 08:30:00
14014    2009-30-05/23/09 08:30:00
14015    2009-30-05/23/09 08:30:00
14016    2009-30-05/23/09 08:30:00
14017    2009-30-05/23/09 08:30:00
Name: date, Length: 14018, dtype: object

In [38]:
# Contamos los valores que no son NA de cada columna y fila.
# Para este caso en específico, no existe un solo NA, por lo que nos regresará
# el número total de registros
print("Count:")
df.count()

Count:


index        14018
homeTeam     14018
awayTeam     14018
homeGoals    14018
awayGoals    14018
round        14018
year         14018
date         14016
dtype: int64

Si son observadores, se darán cuenta que no todas las columnas tienen el mismo número de observaciones/datos (14018). Esto es porque en la variable **'date'**, existen dos registros que no cumplen los requisitos, porque son NA. ¿Cómo podemos saber qué registros tienen datos faltantes

In [39]:
# Utilizaremos la función isna()
# Nos regresa las filas, en este caso dos, que contienen valores NA
df.loc[df.date.isna()]

Unnamed: 0,index,homeTeam,awayTeam,homeGoals,awayGoals,round,year,date
10803,10804,Hansa Rostock,VfL Bochum,3,0,17,1998,
10804,10805,Bayern Muenchen,Bayer Leverkusen,2,0,17,1998,


In [41]:
# Ahora vamos a filtrar al equipo 'Freibug', ya sea jugando como local (homeTeam)
# o como visitante (awayTeam)
df.loc[df['homeTeam'].str.contains('Freiburg') | df['awayTeam'].str.contains('Freiburg')]

Unnamed: 0,index,homeTeam,awayTeam,homeGoals,awayGoals,round,year,date
9127,9128,Bayern Muenchen,SC Freiburg,3,1,1,1993,1993-08-07 08:30:00
9134,9135,SC Freiburg,Wattenscheid 09,4,1,2,1993,1993-08-14 08:30:00
9146,9147,Borussia Dortmund,SC Freiburg,3,2,3,1993,1993-08-21 08:30:00
9149,9150,SC Freiburg,Hamburger SV,0,1,4,1993,1993-08-27 12:30:00
9163,9164,1. FC Koeln,SC Freiburg,2,0,5,1993,1993-09-01 12:30:00
...,...,...,...,...,...,...,...,...
12750,12751,Arminia Bielefeld,SC Freiburg,3,1,30,2004,2005-04-23 08:30:00
12760,12761,SC Freiburg,Borussia Dortmund,2,2,31,2004,2005-04-30 08:30:00
12767,12768,SC Freiburg,1. FC Kaiserslautern,1,2,32,2004,2005-05-07 08:30:00
12777,12778,Werder Bremen,SC Freiburg,4,1,33,2004,2005-05-14 08:30:00


In [11]:
# ¿Qué equipos ha metido 10 goles o más, siendo local, y a quién se los metió?
df.loc[df['homeGoals'] >= 10]

Filter: homeGoals >= 10


Unnamed: 0,index,homeTeam,awayTeam,homeGoals,awayGoals,round,year,date
943,944,Borussia Moenchengladbach,Schalke 04,11,0,18,1966,1967-01-07 08:30:00
1197,1198,Borussia Moenchengladbach,Borussia Neunkirchen,10,0,12,1967,1967-11-04 08:30:00
2455,2456,Bayern Muenchen,Borussia Dortmund,11,1,16,1971,1971-11-27 08:30:00
4456,4457,Borussia Moenchengladbach,Borussia Dortmund,12,0,34,1977,1978-04-29 08:30:00
5787,5788,Borussia Dortmund,Arminia Bielefeld,11,1,12,1982,1982-11-06 08:30:00
6363,6364,Borussia Moenchengladbach,Eintracht Braunschweig,10,0,8,1984,1984-10-11 14:00:00


In [13]:
# ¿Cuál fue el primer año del que se tiene registro en el torneo dentro de nuestro dataset?
print("Min year:")
df['year'].min()

Min year:


1963

In [42]:
# ¿Cuál fue el último año del que se tiene registro en el torneo dentro de nuestro dataset?
print("Max date:")
df['year'].max()

Max date:


2008

In [15]:
# ¿Cuál es el promedio de goles como local?
df['homeGoals'].mean()

Average home goals:


1.8981309744614068

In [16]:
# ¿Cuál es el promedio de goles como visitante?
print("Average away oals:")
df['awayGoals'].mean()

Average away oals:


1.1907547439006991

In [51]:
# ¿Cuál fue la máxima diferencia en el marcador?
# ¿En qué partido se llevó a cabo?
maxDiff = abs(df['homeGoals'].max() - df['awayGoals'].min())
df.loc[df['homeGoals'] - df['awayGoals'] == maxDiff]

Unnamed: 0,index,homeTeam,awayTeam,homeGoals,awayGoals,round,year,date
4456,4457,Borussia Moenchengladbach,Borussia Dortmund,12,0,34,1977,1978-04-29 08:30:00


In [54]:
# Ordenamos, en forma descendente, los goles como local 'homeGoals'
df.sort_values(by = ['homeGoals'], ascending = False)

Unnamed: 0,index,homeTeam,awayTeam,homeGoals,awayGoals,round,year,date
4456,4457,Borussia Moenchengladbach,Borussia Dortmund,12,0,34,1977,1978-04-29 08:30:00
2455,2456,Bayern Muenchen,Borussia Dortmund,11,1,16,1971,1971-11-27 08:30:00
5787,5788,Borussia Dortmund,Arminia Bielefeld,11,1,12,1982,1982-11-06 08:30:00
943,944,Borussia Moenchengladbach,Schalke 04,11,0,18,1966,1967-01-07 08:30:00
6363,6364,Borussia Moenchengladbach,Eintracht Braunschweig,10,0,8,1984,1984-10-11 14:00:00
...,...,...,...,...,...,...,...,...
9080,9081,1. FC Saarbruecken,Borussia Moenchengladbach,0,4,30,1992,1993-05-08 08:30:00
1324,1325,Hamburger SV,Karlsruher SC,0,0,26,1967,1968-03-16 08:30:00
4623,4624,Darmstadt 98,1. FC Koeln,0,1,19,1978,1979-02-17 08:30:00
9083,9084,1. FC Nuernberg,Bayern Muenchen,0,0,30,1992,1993-05-08 08:30:00


In [55]:
# Ordenamos, en forma descendente, los goles como visitante 'awayGoals'
df.sort_values(by = ['awayGoals'], ascending = False)

Unnamed: 0,index,homeTeam,awayTeam,homeGoals,awayGoals,round,year,date
719,720,Tasmania Berlin,Meidericher SV,0,9,27,1965,1966-03-26 08:30:00
739,740,Borussia Neunkirchen,TSV 1860 Muenchen,1,9,29,1965,1966-04-16 08:30:00
11180,11181,SSV Ulm,Bayer Leverkusen,1,9,25,1999,2000-03-18 08:30:00
10734,10735,Borussia Moenchengladbach,Bayer Leverkusen,2,8,10,1998,1998-10-30 13:00:00
4127,4128,Rot-Weiss Essen,Eintracht Frankfurt,1,8,32,1976,1977-05-07 09:30:00
...,...,...,...,...,...,...,...,...
10146,10147,Borussia Dortmund,Arminia Bielefeld,5,0,12,1996,1996-10-26 08:30:00
6200,6201,Borussia Moenchengladbach,VfB Stuttgart,2,0,24,1983,1984-03-10 08:30:00
10143,10144,VfB Stuttgart,Borussia Moenchengladbach,5,0,12,1996,1996-10-26 08:30:00
10142,10143,Hamburger SV,Karlsruher SC,2,0,12,1996,1996-10-26 08:30:00


In [58]:
# ¿Cuántos equipos componen la Bundesliga?
len(df['homeTeam'].unique())

52

In [60]:
# ¿Cuáles son los equipos que componen la Bundesliga?
pd.unique(df[['homeTeam', 'awayTeam']].values.ravel())

array(['Werder Bremen', 'Borussia Dortmund', 'Hertha BSC Berlin',
       '1. FC Nuernberg', 'Preussen Muenster', 'Hamburger SV',
       'Eintracht Frankfurt', '1. FC Kaiserslautern', 'Karlsruher SC',
       'Meidericher SV', '1. FC Saarbruecken', '1. FC Koeln',
       'TSV 1860 Muenchen', 'Eintracht Braunschweig', 'Schalke 04',
       'VfB Stuttgart', 'Borussia Neunkirchen', 'Hannover 96',
       'Tasmania Berlin', 'Borussia Moenchengladbach', 'Bayern Muenchen',
       'Fortuna Duesseldorf', 'MSV Duisburg', 'Rot-Weiss Essen',
       'Alemannia Aachen', 'Kickers Offenbach', 'Rot-Weiss Oberhausen',
       'Arminia Bielefeld', 'VfL Bochum', 'Wuppertaler SV',
       'Fortuna Koeln', 'Tennis Borussia Berlin', 'Bayer Uerdingen',
       'FC St. Pauli', 'Darmstadt 98', 'Bayer Leverkusen',
       'Waldhof Mannheim', 'FC Homburg', 'Blau-Weiss 90 Berlin',
       'Stuttgarter Kickers', 'Wattenscheid 09', 'Dynamo Dresden',
       'Hansa Rostock', 'SC Freiburg', 'VfB Leipzig', 'KFC Uerdingen',
     

In [67]:
# ¿Cuáles son los marcadores más comunes durante toda la Bundesliga?
# Mostramos los goles como local, como visitante y el número de veces.
df.groupby(['homeGoals','awayGoals']).size().sort_values(ascending = False).head()

homeGoals  awayGoals
1          1            1632
2          1            1203
1          0            1109
2          0            1092
0          0             914
dtype: int64

In [86]:
# lets look at the 15 most successful home teams
succes = df.sort_values(by=df.loc[df['homeGoals'] > df['awayGoals']], ascending = False)
succes.head(15)
# Veamos cuáles son los 15 equipos que como local, han vencido a los visitantes.
# df.loc[df['homeGoals'] > df['awayGoals']].head(15)

KeyError:        index          homeTeam                   awayTeam  homeGoals  \
0          1     Werder Bremen          Borussia Dortmund          3   
7          8        Schalke 04              VfB Stuttgart          2   
9         10   1. FC Nuernberg              Werder Bremen          3   
10        11      Hamburger SV         1. FC Saarbruecken          4   
12        13    Meidericher SV        Eintracht Frankfurt          3   
...      ...               ...                        ...        ...   
14007  14008  Bayer Leverkusen  Borussia Moenchengladbach          5   
14009  14010     VfL Wolfsburg              Werder Bremen          5   
14011  14012   Bayern Muenchen              VfB Stuttgart          2   
14012  14013   Energie Cottbus           Bayer Leverkusen          3   
14014  14015     Karlsruher SC          Hertha BSC Berlin          4   

       awayGoals  round  year                 date  
0              2      1  1963  1963-08-24 09:30:00  
7              0      1  1963  1963-08-24 09:30:00  
9              0      2  1963  1963-08-31 09:30:00  
10             2      2  1963  1963-08-31 09:30:00  
12             1      2  1963  1963-08-31 09:30:00  
...          ...    ...   ...                  ...  
14007          0     33  2008  2009-05-16 08:30:00  
14009          1     34  2008  2009-05-23 08:30:00  
14011          1     34  2008  2009-05-23 08:30:00  
14012          0     34  2008  2009-05-23 08:30:00  
14014          0     34  2008  2009-05-23 08:30:00  

[7281 rows x 8 columns]

In [117]:
marcador.sort_values(by = ['homeGoals', 'awayGoals'], ascending = False).head(15)

Unnamed: 0,index,homeTeam,awayTeam,homeGoals,awayGoals,round,year,date
10,11,Hamburger SV,1. FC Saarbruecken,4,2,2,1963,1963-08-31 09:30:00
18,19,Preussen Muenster,Meidericher SV,4,2,3,1963,1963-09-07 09:30:00
34,35,Preussen Muenster,VfB Stuttgart,4,2,5,1963,1963-09-21 09:30:00
13,14,1. FC Koeln,Karlsruher SC,4,0,2,1963,1963-08-31 09:30:00
0,1,Werder Bremen,Borussia Dortmund,3,2,1,1963,1963-08-24 09:30:00
12,13,Meidericher SV,Eintracht Frankfurt,3,1,2,1963,1963-08-31 09:30:00
23,24,Schalke 04,Borussia Dortmund,3,1,3,1963,1963-09-07 09:30:00
9,10,1. FC Nuernberg,Werder Bremen,3,0,2,1963,1963-08-31 09:30:00
26,27,Hamburger SV,Eintracht Frankfurt,3,0,4,1963,1963-09-14 09:30:00
27,28,1. FC Kaiserslautern,Werder Bremen,3,0,4,1963,1963-09-14 09:30:00


 # lets look at the 15 most successful home teams
  df.filter(record => record.homeGoals > record.awayGoals)
    .map(record => record.projectTo(homeTeam))
    .valueCounts()
    .sort(x => x.count, SortOrder.Descending)
    .map(x => (
      homeTeam: x.key.homeTeam,
      count: x.count
    ))
    .take(15)
    .barPlot(x = homeTeam, y = count)
    .show()

In [143]:
df.groupby(['homeTeam','awayTeam']).size().reset_index().rename(columns={0:'count'}).to_csv("data/raw/enfrentados.csv")