# Proyecto de la semana 3

In [53]:
# El propósito de este proyecto es reunir información de un archivo csv, una api y una
# página web, o de un archivo csv y dos páginas web, como es en este caso.

# El dataframe final contendrá la información de todos los partidos de todas las copas
# mundiales de futbol. Un archivo csv proveniente de kaggle.com, la página de la FIFA
# y el artículo de Wikipedia acerca de Rusia 2018 son las fuentes de información del
# presente proyecto.

# Parte 1: Extraer información de un archivo csv.

In [None]:
# El archivo WorldCupMatches.csv tiene datos de todas la copas mundiales de la FIFA, con
# excepción de Rusia 2018.

In [55]:
# Se importan la librerías necesarias.
import requests
from bs4 import BeautifulSoup as bs
import re
import pandas as pd
import numpy as np

In [70]:
# Se extrae información del archivo csv.
datos_fifa_csv = pd.read_csv('WorldCupMatches.csv', encoding='latin-1')

In [71]:
# Se habilita la opción para visualizar todos los registros de los dataframes a utilizar.
pd.set_option('display.max_rows', None)

In [72]:
# Se muestran las columnas del archivo csv.
datos_fifa_csv.columns

Index(['Year', 'Datetime', 'Stage', 'Stadium', 'City', 'Home Team Name',
       'Home Team Goals', 'Away Team Goals', 'Away Team Name',
       'Win conditions', 'Attendance', 'Half-time Home Goals',
       'Half-time Away Goals', 'Referee', 'Assistant 1', 'Assistant 2',
       'RoundID', 'MatchID', 'Home Team Initials', 'Away Team Initials'],
      dtype='object')

In [73]:
# Se checa si la información se guardó de manera correcta en el dataframe.
datos_fifa_csv.head()

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
0,1930.0,13 Jul 1930 - 15:00,Group 1,Pocitos,Montevideo,France,4.0,1.0,Mexico,,4444.0,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,1096.0,FRA,MEX
1,1930.0,13 Jul 1930 - 15:00,Group 4,Parque Central,Montevideo,USA,3.0,0.0,Belgium,,18346.0,2.0,0.0,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI),201.0,1090.0,USA,BEL
2,1930.0,14 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,24059.0,2.0,0.0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201.0,1093.0,YUG,BRA
3,1930.0,14 Jul 1930 - 14:50,Group 3,Pocitos,Montevideo,Romania,3.0,1.0,Peru,,2549.0,1.0,0.0,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU),201.0,1098.0,ROU,PER
4,1930.0,15 Jul 1930 - 16:00,Group 1,Parque Central,Montevideo,Argentina,1.0,0.0,France,,23409.0,0.0,0.0,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU),201.0,1085.0,ARG,FRA


In [74]:
# Se revisa si el dataframe contiene datos nulos.
datos_fifa_csv.isnull().sum()

Year                    3720
Datetime                3720
Stage                   3720
Stadium                 3720
City                    3720
Home Team Name          3720
Home Team Goals         3720
Away Team Goals         3720
Away Team Name          3720
Win conditions          3720
Attendance              3722
Half-time Home Goals    3720
Half-time Away Goals    3720
Referee                 3720
Assistant 1             3720
Assistant 2             3720
RoundID                 3720
MatchID                 3720
Home Team Initials      3720
Away Team Initials      3720
dtype: int64

In [75]:
# Se eliminan los datos nulos.
datos_fifa_csv.drop(datos_fifa_csv[datos_fifa_csv.Datetime.isnull()].index, inplace = True)

In [76]:
# Se muestra que los registros nulos han sido eliminados.
datos_fifa_csv.isnull().sum()

Year                    0
Datetime                0
Stage                   0
Stadium                 0
City                    0
Home Team Name          0
Home Team Goals         0
Away Team Goals         0
Away Team Name          0
Win conditions          0
Attendance              2
Half-time Home Goals    0
Half-time Away Goals    0
Referee                 0
Assistant 1             0
Assistant 2             0
RoundID                 0
MatchID                 0
Home Team Initials      0
Away Team Initials      0
dtype: int64

In [77]:
# Se borran las columnas innecesarias.
columns_to_erase = ['Attendance','Half-time Home Goals','Half-time Away Goals','Referee','Assistant 1','Assistant 2','RoundID','MatchID','Home Team Initials','Away Team Initials']
datos_fifa_csv = datos_fifa_csv.drop(columns_to_erase, axis=1)
datos_fifa_csv.columns

Index(['Year', 'Datetime', 'Stage', 'Stadium', 'City', 'Home Team Name',
       'Home Team Goals', 'Away Team Goals', 'Away Team Name',
       'Win conditions'],
      dtype='object')

In [78]:
# Se muestran los duplicados.
datos_fifa_csv.duplicated()

0      False
1      False
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28     False
29     False
30     False
31     False
32     False
33     False
34     False
35     False
36     False
37     False
38     False
39     False
40     False
41     False
42     False
43     False
44     False
45     False
46     False
47     False
48     False
49     False
50     False
51     False
52     False
53     False
54     False
55     False
56     False
57     False
58     False
59     False
60     False
61     False
62     False
63     False
64     False
65     False
66     False
67     False
68     False
69     False
70     False
71     False
72     False
73     False
74     False
75     False
76     False

In [79]:
# Se eliminan los duplicados.
datos_fifa_csv = datos_fifa_csv.drop_duplicates()

In [80]:
# Se observa que no hay duplicados.
datos_fifa_csv.duplicated()

0      False
1      False
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28     False
29     False
30     False
31     False
32     False
33     False
34     False
35     False
36     False
37     False
38     False
39     False
40     False
41     False
42     False
43     False
44     False
45     False
46     False
47     False
48     False
49     False
50     False
51     False
52     False
53     False
54     False
55     False
56     False
57     False
58     False
59     False
60     False
61     False
62     False
63     False
64     False
65     False
66     False
67     False
68     False
69     False
70     False
71     False
72     False
73     False
74     False
75     False
76     False

In [81]:
# Se observa si la columna Year tiene otra inconsistencia además del tipo incorrecto
# de dato.
datos_fifa_csv['Year'].value_counts()

1998.0    64
2002.0    64
2014.0    64
2006.0    64
2010.0    64
1982.0    52
1994.0    52
1990.0    52
1986.0    52
1978.0    38
1974.0    38
1958.0    35
1962.0    32
1966.0    32
1970.0    32
1954.0    26
1950.0    22
1938.0    18
1930.0    18
1934.0    17
Name: Year, dtype: int64

In [82]:
# Se visualiza la columna Stage.
datos_fifa_csv['Stage'].value_counts()

Round of 16                 64
Group 1                     62
Quarter-finals              62
Group B                     60
Group A                     60
Group 2                     59
Group 3                     56
Group 4                     55
Group E                     48
Group F                     48
Group C                     48
Group D                     48
Semi-finals                 34
Group G                     30
Group H                     30
Final                       19
Match for third place       15
Group 6                     12
First round                  9
Preliminary round            8
Group 5                      6
Third place                  2
Play-off for third place     1
Name: Stage, dtype: int64

In [83]:
# Se observa que los nombres de algunos estadios presentan inconvenientes.
datos_fifa_csv['Stadium'].value_counts()

Estadio Azteca                                        19
Olympiastadion                                        14
Jalisco                                               14
Nou Camp - Estadio Leï¿½n                             11
Nacional                                              10
Estadio Centenario                                    10
El Monumental - Estadio Monumental Antonio Vespuci     9
Parc des Princes                                       9
Stade de France                                        9
Stade Vï¿½lodrome                                      9
Stade du Parc Lescure                                  9
Wembley Stadium                                        9
Estadio Sausalito                                      8
Stade Municipal                                        8
Port Elizabeth Stadium                                 8
Rose Bowl                                              8
Maracanï¿½ - Estï¿½dio Jornalista Mï¿½rio Filho        8
Soccer City Stadium            

In [84]:
# Se corrige el nombre de los estadios con problemas.
datos_fifa_csv.replace({'Stadium' : 'Nou Camp - Estadio Leï¿½n'}, 'Nou Camp - Estadio León', inplace=True)
datos_fifa_csv.replace({'Stadium' : 'Stade Vï¿½lodrome'}, 'Stade Vélodrome', inplace=True)
datos_fifa_csv.replace({'Stadium' : 'Maracanï¿½ - Estï¿½dio Jornalista Mï¿½rio Filho'}, 'Maracanã - Estádio Jornalista Mário Filho', inplace=True)
datos_fifa_csv.replace({'Stadium' : 'Estadio Olï¿½mpico Chateau Carreras'}, 'Estadio Olímpico Chateau Carreras', inplace=True)
datos_fifa_csv.replace({'Stadium' : 'Estadio Josï¿½ Marï¿½a Minella'}, 'Estadio José María Minella', inplace=True)
datos_fifa_csv.replace({'Stadium' : 'Estadio Olï¿½mpico Universitario'}, 'Estadio Olímpico Universitario', inplace=True)
datos_fifa_csv.replace({'Stadium' : 'Estadio Municipal de Balaï¿½dos'}, 'Estadio Municipal de Balaídos', inplace=True)

In [27]:
# Se muestran los estadios con los nombres corregidos.
datos_fifa_csv['Stadium'].value_counts()

Estadio Azteca                                        19
Jalisco                                               14
Olympiastadion                                        14
Nou Camp - Estadio León                               11
Estadio Centenario                                    10
Nacional                                              10
Stade du Parc Lescure                                  9
Parc des Princes                                       9
Stade de France                                        9
Stade Vélodrome                                        9
Wembley Stadium                                        9
El Monumental - Estadio Monumental Antonio Vespuci     9
Port Elizabeth Stadium                                 8
Maracanã - Estádio Jornalista Mário Filho              8
Rasunda Stadium                                        8
Cape Town Stadium                                      8
Cuauhtemoc                                             8
Soccer City Stadium            

In [85]:
# Se revisan las ciudades con problemas en sus nombres.
datos_fifa_csv['City'].value_counts()

Mexico City                           23
Montevideo                            18
Guadalajara                           17
Johannesburg                          15
Rio De Janeiro                        15
Sao Paulo                             12
Buenos Aires                          12
Leon                                  11
Munich                                11
Dortmund                              10
Santiago De Chile                     10
Frankfurt/Main                        10
Stuttgart                             10
Gelsenkirchen                         10
London                                10
Marseilles                             9
Paris                                  9
Rome                                   9
Belo Horizonte                         9
Hanover                                9
Saint-Denis                            9
Milan                                  9
Bordeaux                               9
Hamburg                                8
Cordoba         

In [86]:
# Se corrige el nombre de las ciudades que así lo requieran.
datos_fifa_csv.replace({'City' : 'Dï¿½Sseldorf '}, 'Düsseldorf', inplace=True)
datos_fifa_csv.replace({'City' : 'Malmï¿½ '}, 'Malmö', inplace=True)
datos_fifa_csv.replace({'City' : 'La Coruï¿½A '}, 'La Coruña', inplace=True)
datos_fifa_csv.replace({'City' : 'Norrkï¿½Ping '}, 'Norrköping', inplace=True)

In [88]:
# Se muestra nuevamente la columna City con las correcciones.
datos_fifa_csv['City'].value_counts()

Mexico City                           23
Montevideo                            18
Guadalajara                           17
Johannesburg                          15
Rio De Janeiro                        15
Buenos Aires                          12
Sao Paulo                             12
Leon                                  11
Munich                                11
Frankfurt/Main                        10
Gelsenkirchen                         10
Santiago De Chile                     10
London                                10
Dortmund                              10
Stuttgart                             10
Marseilles                             9
Paris                                  9
Belo Horizonte                         9
Rome                                   9
Milan                                  9
Bordeaux                               9
Saint-Denis                            9
Hanover                                9
Solna                                  8
Puebla          

In [89]:
# Se muestran los nombres de los equipos locales.
datos_fifa_csv['Home Team Name'].value_counts()

Brazil                        78
Italy                         57
Argentina                     52
Germany FR                    43
England                       35
Germany                       32
Spain                         30
Netherlands                   29
France                        29
Uruguay                       28
Sweden                        27
Hungary                       18
Soviet Union                  18
Belgium                       17
Yugoslavia                    17
Mexico                        16
Poland                        16
Portugal                      16
USA                           15
Chile                         14
Korea Republic                14
Austria                       13
Switzerland                   12
Cameroon                      11
Paraguay                      11
Czechoslovakia                10
Japan                         10
Romania                        9
Nigeria                        9
Scotland                       9
Denmark   

In [90]:
# Se corrigen los nombres de los equipos locales.
datos_fifa_csv.replace({'Home Team Name' : 'rn">Serbia and Montenegro'}, 'Serbia and Montenegro', inplace=True)
datos_fifa_csv.replace({'Home Team Name' : "Cï¿½te d'Ivoire"}, 'Ivory Coast', inplace=True)
datos_fifa_csv.replace({'Home Team Name' : 'rn">Bosnia and Herzegovina'}, 'Bosnia and Herzegovina', inplace=True)
datos_fifa_csv.replace({'Home Team Name' : 'rn">United Arab Emirates'}, 'United Arab Emirates', inplace=True)
datos_fifa_csv.replace({'Home Team Name' : 'rn">Republic of Ireland'}, 'Republic of Ireland', inplace=True)
datos_fifa_csv.replace({'Home Team Name' : 'rn">Trinidad and Tobago'}, 'Trinidad and Tobago', inplace=True)

In [91]:
# Se muestran los datos corregidos de la columna Home Team Name.
datos_fifa_csv['Home Team Name'].value_counts()

Brazil                    78
Italy                     57
Argentina                 52
Germany FR                43
England                   35
Germany                   32
Spain                     30
France                    29
Netherlands               29
Uruguay                   28
Sweden                    27
Hungary                   18
Soviet Union              18
Yugoslavia                17
Belgium                   17
Poland                    16
Mexico                    16
Portugal                  16
USA                       15
Korea Republic            14
Chile                     14
Austria                   13
Switzerland               12
Cameroon                  11
Paraguay                  11
Japan                     10
Czechoslovakia            10
Nigeria                    9
Scotland                   9
Romania                    9
Denmark                    7
Bulgaria                   7
Algeria                    6
Costa Rica                 6
Colombia      

In [92]:
# Se visualizan los nombres de los equipos visitantes.
datos_fifa_csv['Away Team Name'].value_counts()

Mexico                        37
France                        30
Spain                         29
England                       27
Brazil                        26
Italy                         26
Argentina                     25
Belgium                       24
Uruguay                       23
Netherlands                   21
Switzerland                   21
Yugoslavia                    20
Czechoslovakia                20
Germany FR                    19
Chile                         19
Sweden                        19
Bulgaria                      19
USA                           18
Korea Republic                17
Paraguay                      16
Austria                       16
Poland                        15
Scotland                      14
Hungary                       14
Soviet Union                  13
Croatia                       13
Romania                       12
Germany                       12
Cameroon                      12
Colombia                      12
Portugal  

In [93]:
# Se corrigen los nombres de los equipos visitantes.
datos_fifa_csv.replace({'Away Team Name' : 'rn">Serbia and Montenegro'}, 'Serbia and Montenegro', inplace=True)
datos_fifa_csv.replace({'Away Team Name' : "Cï¿½te d'Ivoire"}, 'Ivory Coast', inplace=True)
datos_fifa_csv.replace({'Away Team Name' : 'rn">Bosnia and Herzegovina'}, 'Bosnia and Herzegovina', inplace=True)
datos_fifa_csv.replace({'Away Team Name' : 'rn">United Arab Emirates'}, 'United Arab Emirates', inplace=True)
datos_fifa_csv.replace({'Away Team Name' : 'rn">Republic of Ireland'}, 'Republic of Ireland', inplace=True)
datos_fifa_csv.replace({'Away Team Name' : 'rn">Trinidad and Tobago'}, 'Trinidad and Tobago', inplace=True)

In [94]:
# Se muestran los datos corregidos de la columna Away Team Name.
datos_fifa_csv['Away Team Name'].value_counts()

Mexico                    37
France                    30
Spain                     29
England                   27
Brazil                    26
Italy                     26
Argentina                 25
Belgium                   24
Uruguay                   23
Switzerland               21
Netherlands               21
Yugoslavia                20
Czechoslovakia            20
Chile                     19
Bulgaria                  19
Sweden                    19
Germany FR                19
USA                       18
Korea Republic            17
Paraguay                  16
Austria                   16
Poland                    15
Scotland                  14
Hungary                   14
Soviet Union              13
Croatia                   13
Colombia                  12
Germany                   12
Cameroon                  12
Romania                   12
Portugal                  10
Peru                      10
Morocco                    9
Costa Rica                 9
Nigeria       

In [95]:
# Se observa que la columna Year tiene tipo flotante de datos.
datos_fifa_csv['Year'].value_counts()

1998.0    64
2002.0    64
2014.0    64
2006.0    64
2010.0    64
1982.0    52
1994.0    52
1990.0    52
1986.0    52
1978.0    38
1974.0    38
1958.0    35
1962.0    32
1966.0    32
1970.0    32
1954.0    26
1950.0    22
1938.0    18
1930.0    18
1934.0    17
Name: Year, dtype: int64

In [96]:
# Misma situación para los goles de los locales.
datos_fifa_csv['Home Team Goals'].value_counts()

1.0     240
2.0     199
0.0     173
3.0     116
4.0      59
5.0      17
6.0      17
7.0       8
8.0       4
9.0       2
10.0      1
Name: Home Team Goals, dtype: int64

In [97]:
# Y para los goles de los visitantes.
datos_fifa_csv['Away Team Goals'].value_counts()

1.0    316
0.0    306
2.0    140
3.0     51
4.0     14
5.0      7
7.0      2
Name: Away Team Goals, dtype: int64

In [98]:
# Se cambia el tipo de dato a entero en las tres últimas columnas mencionadas.
datos_fifa_csv = datos_fifa_csv.astype({'Year':'int32','Home Team Goals':'int32','Away Team Goals':'int32'})

In [99]:
# Se visualiza que la columna Year está corregida.
datos_fifa_csv['Year'].value_counts()

2014    64
2010    64
2006    64
2002    64
1998    64
1994    52
1990    52
1986    52
1982    52
1974    38
1978    38
1958    35
1970    32
1966    32
1962    32
1954    26
1950    22
1938    18
1930    18
1934    17
Name: Year, dtype: int64

In [100]:
# La columna Home Team Goals está corregida.
datos_fifa_csv['Home Team Goals'].value_counts()

1     240
2     199
0     173
3     116
4      59
6      17
5      17
7       8
8       4
9       2
10      1
Name: Home Team Goals, dtype: int64

In [101]:
# Y también la columna Away Team Goals.
datos_fifa_csv['Away Team Goals'].value_counts()

1    316
0    306
2    140
3     51
4     14
5      7
7      2
Name: Away Team Goals, dtype: int64

In [102]:
# Se visualizan los primeros registros del dataframe ya con los datos corregidos.
datos_fifa_csv.head()

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions
0,1930,13 Jul 1930 - 15:00,Group 1,Pocitos,Montevideo,France,4,1,Mexico,
1,1930,13 Jul 1930 - 15:00,Group 4,Parque Central,Montevideo,USA,3,0,Belgium,
2,1930,14 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,2,1,Brazil,
3,1930,14 Jul 1930 - 14:50,Group 3,Pocitos,Montevideo,Romania,3,1,Peru,
4,1930,15 Jul 1930 - 16:00,Group 1,Parque Central,Montevideo,Argentina,1,0,France,


# Parte 2: Extraer información de la página de la FIFA.

In [103]:
# Al archivo csv le falta la información de Rusia 2018, por lo que la primera ronda de este
# torneo será obtenida de la página en inglés de la FIFA.

In [104]:
# Se descarga la información de la página de la fifa, con el soporte de la librería
# requests.
res=requests.get('https://www.fifa.com/worldcup/matches/').content

In [105]:
# Utilizando la librería BeautifulSoup se asigna la información, en un formato más legible
# a una variable denominada soup.
soup=bs(res, 'html.parser')

In [109]:
# Se genera una lista de 48 elementos con el valor 2018 en cada uno.
year_list = [2018 for i in range(48)]
len(year_list)

48

In [110]:
# Se obtiene el dato de fecha y hora de la página.
datetime=soup.find_all('div', {'class':'fi-mu__info__datetime'})

In [112]:
# Se genera una lista que almacena los datos de fecha y hora.
datetime_list = []
for x in range(len(datetime)):
    if x < 48:
        y = datetime[x].text
        a = y[12:31]
        datetime_list.append(a)
len(datetime_list)

48

In [125]:
# Se obtiene el dato del grupo del partido.
stage=soup.find_all('div', {'class':'fi-groupPhase fi__info__group fi-ltr--force'})
len(stage)

48

In [131]:
# Se almacenan los grupos de la primera ronda en una lista.
stage_list = [x.text for x in stage]
len(stage_list)

48

In [132]:
# Se extrae la información de los estadios.
stadium=soup.find_all('div', {'class':'fi__info__stadium'})
len(stadium)

64

In [134]:
# Se almacenan los nombres de los estadios en una lista.
stadium_list = [stadium[x].text for x in range(len(stadium)) if x < 48]
len(stadium_list)

48

In [139]:
# Se obtiene los nombres de las ciudades.
city=soup.find_all('div', {'class':'fi__info__venue'})
len(city)

64

In [140]:
# Se guardan las ciudades en una lista.
city_list = [city[x].text for x in range(len(city)) if x < 48]
len(city_list)

48

In [142]:
# Se obtiene el nombre de los equipos.
teams=soup.find_all('span', {'class':'fi-t__nText'})
len(teams)

128

In [157]:
# Se asignan los nombres de equipos locales y visitantes a sus respectivas listas.
home_team_list = []
away_team_list = []
for x in range(len(teams)):
    if x < 96:
        if x % 2 == 0:
            home_team_list.append(teams[x].text)
        else:
            away_team_list.append(teams[x].text)
print('Número de locales: {}'.format(len(home_team_list)))
print('Número de visitantes: {}'.format(len(away_team_list)))

Número de locales: 48
Número de visitantes: 48


In [155]:
# Se obtienen los resultados.
score=soup.find_all('span', {'class':'fi-s__scoreText'})
len(score)

64

In [156]:
# Se almacenan los goles locales y visitantes en las listas correspondientes.
home_team_goals_list = []
away_team_goals_list = []
for x in range(len(score)):
    if x < 48:
        goals = re.findall('\d',score[x].text)
        home_team_goals_list.append(goals[0])
        away_team_goals_list.append(goals[1])
print(len(home_team_goals_list))
print(len(away_team_goals_list))

48
48


In [158]:
# Se genera una lista con cadenas vacías para que el número de columnas de los dataframes
# sea el mismo.
win_conditions_list = ['' for i in range(48)]
len(win_conditions_list)

48

In [188]:
# Se genera un nuevo dataframe con los valores almacenados en las listas.
df_fifa = pd.DataFrame()
df_fifa['Year'] = year_list
df_fifa['Datetime'] = datetime_list
df_fifa['Stage'] = stage_list
df_fifa['Stadium'] = stadium_list
df_fifa['City'] = city_list
df_fifa['Home Team Name'] = home_team_list
df_fifa['Home Team Goals'] = home_team_goals_list
df_fifa['Away Team Goals'] = away_team_goals_list
df_fifa['Away Team Name'] = away_team_list
df_fifa['Win conditions'] = win_conditions_list

In [189]:
# Se visualiza la información contenida en el nuevo dataframe.
df_fifa

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions
0,2018,14 Jun 2018 - 18:00,Group A,Luzhniki Stadium,Moscow,Russia,5,0,Saudi Arabia,
1,2018,15 Jun 2018 - 17:00,Group A,Ekaterinburg Arena,Ekaterinburg,Egypt,0,1,Uruguay,
2,2018,15 Jun 2018 - 18:00,Group B,Saint Petersburg Stadium,St. Petersburg,Morocco,0,1,IR Iran,
3,2018,15 Jun 2018 - 21:00,Group B,Fisht Stadium,Sochi,Portugal,3,3,Spain,
4,2018,16 Jun 2018 - 13:00,Group C,Kazan Arena,Kazan,France,2,1,Australia,
5,2018,16 Jun 2018 - 16:00,Group D,Spartak Stadium,Moscow,Argentina,1,1,Iceland,
6,2018,16 Jun 2018 - 19:00,Group C,Mordovia Arena,Saransk,Peru,0,1,Denmark,
7,2018,16 Jun 2018 - 21:00,Group D,Kaliningrad Stadium,Kaliningrad,Croatia,2,0,Nigeria,
8,2018,17 Jun 2018 - 16:00,Group E,Samara Arena,Samara,Costa Rica,0,1,Serbia,
9,2018,17 Jun 2018 - 18:00,Group F,Luzhniki Stadium,Moscow,Germany,0,1,Mexico,


# Parte 3: Obtener información de la página de Wikipedia.

In [162]:
# La información relacionada con la fase de eliminación directa se extrae del artículo
# de Rusia 2018 de Wikipedia.

In [163]:
# Se obtiene la información de la página de Wikipedia.
res_2=requests.get('https://en.wikipedia.org/wiki/2018_FIFA_World_Cup').content

In [164]:
# Se extrae la información de fechas y horas.
soup_2=bs(res_2, 'html.parser')
fechas=soup_2.find_all('span', {'class':'bday dtstart published updated'})
horas=soup_2.find_all('div', {'class':'mobile-float-reset ftime'})
print(len(fechas))
print(len(horas))

64
64


In [165]:
# Se genera una lista de 16 elementos con el valor 2018 para cada uno.
year_wikipedia_list = [2018 for i in range(16)]
len(year_wikipedia_list)

16

In [166]:
# Se genera una lista con una concatenación de fecha y hora por cada elemento.
datetime_wikipedia_list = []
for x in range(len(fechas)):
    if x > 47:
        hora = horas[x].text
        datetime_wikipedia_list.append(fechas[x].text + ' - ' + hora[:5])
len(datetime_wikipedia_list)

16

In [167]:
# Se construye una lista con el nombre de las rondas de la segunda fase del mundial.
stage_wikipedia_list = []
for i in range(16):
    if i < 8:
        stage_wikipedia_list.append('Round of 16')
    elif i > 7 and i < 12:
        stage_wikipedia_list.append('Quarter-finals')
    elif i > 11 and i < 14:
        stage_wikipedia_list.append('Semi-finals')
    elif i == 14:
        stage_wikipedia_list.append('Third place play-off')
    else:
        stage_wikipedia_list.append('Final')
len(stage_wikipedia_list)

16

In [168]:
# Se extraen de la página las cadenas que contienen estadio y ciudad de cada partido.
sede = soup_2.find_all('div', {'itemprop':'location'})
len(sede)

64

In [170]:
# Se observa la forma en la que están escritos los datos de estadio y ciudad.
sede[0].text

'Luzhniki Stadium, Moscow'

In [173]:
# Se almacenan los datos en diferentes listas, una es axiliar y las otras almacenan los
# estadios y las ciudades.
sede_list = []
stadium_wikipedia_list = []
city_wikipedia_list = []
for x in range(len(sede)):
    if x > 47:
        sede_list = sede[x].text.split(', ')
        stadium_wikipedia_list.append(sede_list[0])
        city_wikipedia_list.append(sede_list[1])
print(len(stadium_wikipedia_list))
print(len(city_wikipedia_list))

16
16


In [175]:
# Se obtienen los marcadores completos (marcador y modo de desempate) de la página
# de Wikipedia.
complete_score=soup_2.find_all('th', {'class':'fscore'})
len(complete_score)

64

In [177]:
# Se almacena el número de goles de los locales y visitantes en diferentes listas, además
# se guarda el modo de desempate en otra.
home_goals_wikipedia_list = []
away_goals_wikipedia_list = []
win_conditions_wikipedia_list = []
for x in range(len(complete_score)):
    if x > 47:
        score_wiki = complete_score[x].text
        home_goals_wikipedia_list.append(score_wiki[0])
        away_goals_wikipedia_list.append(score_wiki[2])
        if score_wiki[0] == score_wiki[2]:
            win_conditions_wiki = 'Penalties'
        elif score_wiki[-8:] == '(a.e.t.)':
            win_conditions_wiki = score_wiki[-8:]
        else:
            win_conditions_wiki = ''
        win_conditions_wikipedia_list.append(win_conditions_wiki)
z = zip(home_goals_wikipedia_list,away_goals_wikipedia_list)
print(list(z))
print(win_conditions_wikipedia_list)

[('4', '3'), ('2', '1'), ('1', '1'), ('1', '1'), ('2', '0'), ('3', '2'), ('1', '0'), ('1', '1'), ('0', '2'), ('1', '2'), ('0', '2'), ('2', '2'), ('1', '0'), ('2', '1'), ('2', '0'), ('4', '2')]
['', '', 'Penalties', 'Penalties', '', '', '', 'Penalties', '', '', '', 'Penalties', '', '(a.e.t.)', '', '']


In [178]:
# Se almacenan en una lista los índices de los partidos donde hubo serie de penalties.
indexes_penalties = []
for x in range(len(win_conditions_wikipedia_list)):
    if win_conditions_wikipedia_list[x] == 'Penalties':
        indexes_penalties.append(x)
indexes_penalties

[2, 3, 7, 11]

In [180]:
# Se obtienen los marcadores de las series de penalties y se almacenan en una lista.
penalties_score = soup_2.find_all('th')
penalties_list = []
for x in range(len(penalties_score)):
    if penalties_score[x].text == 'Penalties':
        penalties_list.append(penalties_score[x+1].text)
penalties_list

['3–4', '3–2', '3–4', '3–4']

In [181]:
# Se genera una lista conteniendo tuplas de índice y marcador de serie de penalties.
zip_indexes_penalties = zip(indexes_penalties, penalties_list)
zip_indexes_penalties = list(zip_indexes_penalties)
zip_indexes_penalties

[(2, '3–4'), (3, '3–2'), (7, '3–4'), (11, '3–4')]

In [182]:
# Se agregan los marcadores de las series de penalties a la lista de modo de desempate.
for x in range(len(zip_indexes_penalties)):
    win_conditions_wikipedia_list[zip_indexes_penalties[x][0]] += ' ' + zip_indexes_penalties[x][1]
win_conditions_wikipedia_list

['',
 '',
 'Penalties 3–4',
 'Penalties 3–2',
 '',
 '',
 '',
 'Penalties 3–4',
 '',
 '',
 '',
 'Penalties 3–4',
 '',
 '(a.e.t.)',
 '',
 '']

In [183]:
# Se obtienen los nombres de los equipos.
all_teams = soup_2.find_all('span', {'itemprop':'name'})
len(all_teams)

128

In [184]:
# Se generan dos listas, una para equipos locales y otra para visitantes.
home_teams_wikipedia = []
away_teams_wikipedia = []
for x in range(len(all_teams)):
    if x > 95:
        aux_teams_wiki = all_teams[x].text
        if x % 2 == 0:
            home_teams_wikipedia.append(aux_teams_wiki.strip())
        else:
            away_teams_wikipedia.append(aux_teams_wiki.strip())
zip_teams_wiki = zip(home_teams_wikipedia, away_teams_wikipedia)
list(zip_teams_wiki)

[('France', 'Argentina'),
 ('Uruguay', 'Portugal'),
 ('Spain', 'Russia'),
 ('Croatia', 'Denmark'),
 ('Brazil', 'Mexico'),
 ('Belgium', 'Japan'),
 ('Sweden', 'Switzerland'),
 ('Colombia', 'England'),
 ('Uruguay', 'France'),
 ('Brazil', 'Belgium'),
 ('Sweden', 'England'),
 ('Russia', 'Croatia'),
 ('France', 'Belgium'),
 ('Croatia', 'England'),
 ('Belgium', 'England'),
 ('France', 'Croatia')]

In [190]:
# Se genera un nuevo dataframe que contendrá la información de las listas generadas.
df_wikipedia_fifa = pd.DataFrame()
df_wikipedia_fifa['Year'] = year_wikipedia_list
df_wikipedia_fifa['Datetime'] = datetime_wikipedia_list
df_wikipedia_fifa['Stage'] = stage_wikipedia_list
df_wikipedia_fifa['Stadium'] = stadium_wikipedia_list
df_wikipedia_fifa['City'] = city_wikipedia_list
df_wikipedia_fifa['Home Team Name'] = home_teams_wikipedia
df_wikipedia_fifa['Home Team Goals'] = home_goals_wikipedia_list
df_wikipedia_fifa['Away Team Goals'] = away_goals_wikipedia_list
df_wikipedia_fifa['Away Team Name'] = away_teams_wikipedia
df_wikipedia_fifa['Win conditions'] = win_conditions_wikipedia_list

In [191]:
# Se muestra la información del nuevo dataframe.
df_wikipedia_fifa

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions
0,2018,2018-06-30 - 17:00,Round of 16,Kazan Arena,Kazan,France,4,3,Argentina,
1,2018,2018-06-30 - 21:00,Round of 16,Fisht Olympic Stadium,Sochi,Uruguay,2,1,Portugal,
2,2018,2018-07-01 - 17:00,Round of 16,Luzhniki Stadium,Moscow,Spain,1,1,Russia,Penalties 3–4
3,2018,2018-07-01 - 21:00,Round of 16,Nizhny Novgorod Stadium,Nizhny Novgorod,Croatia,1,1,Denmark,Penalties 3–2
4,2018,2018-07-02 - 18:00,Round of 16,Cosmos Arena,Samara,Brazil,2,0,Mexico,
5,2018,2018-07-02 - 21:00,Round of 16,Rostov Arena,Rostov-on-Don,Belgium,3,2,Japan,
6,2018,2018-07-03 - 17:00,Round of 16,Krestovsky Stadium,Saint Petersburg,Sweden,1,0,Switzerland,
7,2018,2018-07-03 - 21:00,Round of 16,Otkritie Arena,Moscow,Colombia,1,1,England,Penalties 3–4
8,2018,2018-07-06 - 17:00,Quarter-finals,Nizhny Novgorod Stadium,Nizhny Novgorod,Uruguay,0,2,France,
9,2018,2018-07-06 - 21:00,Quarter-finals,Kazan Arena,Kazan,Brazil,1,2,Belgium,


# Parte 4: Creación del dataframe del total de los partidos de
# Rusia 2018.

In [187]:
# En esta parte del proyecto van a concatenarse los dataframes de las páginas de la FIFA
# y Wikipedia.

In [192]:
# Se concatenan los dataframes y la información se almacena en uno nuevo.
df_russia_2018 = pd.concat([df_fifa, df_wikipedia_fifa], axis=0)

In [193]:
# Se muestra la información del nuevo dataframe.
df_russia_2018

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions
0,2018,14 Jun 2018 - 18:00,Group A,Luzhniki Stadium,Moscow,Russia,5,0,Saudi Arabia,
1,2018,15 Jun 2018 - 17:00,Group A,Ekaterinburg Arena,Ekaterinburg,Egypt,0,1,Uruguay,
2,2018,15 Jun 2018 - 18:00,Group B,Saint Petersburg Stadium,St. Petersburg,Morocco,0,1,IR Iran,
3,2018,15 Jun 2018 - 21:00,Group B,Fisht Stadium,Sochi,Portugal,3,3,Spain,
4,2018,16 Jun 2018 - 13:00,Group C,Kazan Arena,Kazan,France,2,1,Australia,
5,2018,16 Jun 2018 - 16:00,Group D,Spartak Stadium,Moscow,Argentina,1,1,Iceland,
6,2018,16 Jun 2018 - 19:00,Group C,Mordovia Arena,Saransk,Peru,0,1,Denmark,
7,2018,16 Jun 2018 - 21:00,Group D,Kaliningrad Stadium,Kaliningrad,Croatia,2,0,Nigeria,
8,2018,17 Jun 2018 - 16:00,Group E,Samara Arena,Samara,Costa Rica,0,1,Serbia,
9,2018,17 Jun 2018 - 18:00,Group F,Luzhniki Stadium,Moscow,Germany,0,1,Mexico,


# Parte 5: Creación del dataframe final.

In [194]:
# En esta parte se concatenarán los dataframes del archivo csv y el de Rusia 2018.

In [195]:
# Se concatenan los dataframes y almacena la información en uno nuevo.
df_fifa_world_cup = pd.concat([datos_fifa_csv, df_russia_2018], axis=0)

In [196]:
# Se muestra la información del nuevo dataframe.
df_fifa_world_cup

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions
0,1930,13 Jul 1930 - 15:00,Group 1,Pocitos,Montevideo,France,4,1,Mexico,
1,1930,13 Jul 1930 - 15:00,Group 4,Parque Central,Montevideo,USA,3,0,Belgium,
2,1930,14 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,2,1,Brazil,
3,1930,14 Jul 1930 - 14:50,Group 3,Pocitos,Montevideo,Romania,3,1,Peru,
4,1930,15 Jul 1930 - 16:00,Group 1,Parque Central,Montevideo,Argentina,1,0,France,
5,1930,16 Jul 1930 - 14:45,Group 1,Parque Central,Montevideo,Chile,3,0,Mexico,
6,1930,17 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,4,0,Bolivia,
7,1930,17 Jul 1930 - 14:45,Group 4,Parque Central,Montevideo,USA,3,0,Paraguay,
8,1930,18 Jul 1930 - 14:30,Group 3,Estadio Centenario,Montevideo,Uruguay,1,0,Peru,
9,1930,19 Jul 1930 - 12:50,Group 1,Estadio Centenario,Montevideo,Chile,1,0,France,
