In [1]:
import glob # para mexer com vários arquivos varrendo todos com mesma extensão e transformando num grande data set
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt # mais usadas essa e a de baixo
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')
%matplotlib inline
matplotlib.style.use('default')
plt.rcParams['figure.figsize'] = [6, 4]

#Pandas Settings
pd.options.display.float_format = '{:,.2f}'.format

## Fazendo loop nos arquivos da pasta



In [2]:
# lista com o caminho + nome dos arquivos .csv (apenas caminho + nome.csv). não tem nenhuma informação extra

file_list = [f for f in glob.glob("*.csv")]

In [3]:
# obs: o "encoding = 'unicode_escape'" é usado para não dá erro que daria em alguns casos qnd 
# se lê como dataframe e há algum problema de codificação, então isso evita o erro

df = pd.read_csv(file_list[21],encoding = 'unicode_escape') # df é um dataframe apenas para o arquivo arquivo 21 do file_list
display(df.shape) # mostra as linhas e colunas. Se usasse num for podia mostrar linhas e colunas de cada arquivo
df.head()

(272, 58)

Unnamed: 0,Div,Date,HomeTeam,AwayTeam,FTHG,FTAG,FTR,HTHG,HTAG,HTR,...,BbMx>2.5,BbAv>2.5,BbMx<2.5,BbAv<2.5,BbAH,BbAHh,BbMxAHH,BbAvAHH,BbMxAHA,BbAvAHA
0,T1,07/08/09,Buyuksehyr,Besiktas,1,1,D,1.0,1.0,D,...,2.2,2.0,1.8,1.75,11,0.5,2.12,2.07,1.83,1.82
1,T1,08/08/09,Diyarbakirspor,Ankaragucu,2,2,D,1.0,2.0,A,...,2.33,2.14,1.7,1.64,13,0.0,1.85,1.79,2.11,1.98
2,T1,08/08/09,Sivasspor,Trabzonspor,1,2,A,0.0,1.0,A,...,2.22,2.07,1.75,1.68,13,0.0,2.05,1.94,1.89,1.83
3,T1,09/08/09,Bursaspor,Kasimpasa,2,1,H,0.0,0.0,D,...,2.12,2.03,1.82,1.73,12,-1.0,1.81,1.78,2.15,2.11
4,T1,09/08/09,Denizlispor,Fenerbahce,0,2,A,0.0,1.0,A,...,1.91,1.82,2.01,1.92,13,0.5,2.08,2.04,1.88,1.84


In [4]:
# criando um dataframe para todos os arquivos do file_list e não apenas para um como feito anteriormente

df_list = [pd.read_csv(f,encoding = 'unicode_escape') for f in file_list]

In [5]:
df_list[0].columns # aprensenta as colunas do dataframe 0

Index(['Div', 'Date', 'HomeTeam', 'AwayTeam', 'FTHG', 'FTAG', 'FTR', 'HTHG',
       'HTAG', 'HTR', 'HS', 'AS', 'HST', 'AST', 'HFKC', 'AFKC', 'HC', 'AC',
       'HY', 'AY', 'HR', 'AR', 'B365H', 'B365D', 'B365A', 'BWH', 'BWD', 'BWA',
       'IWH', 'IWD', 'IWA', 'LBH', 'LBD', 'LBA', 'PSH', 'PSD', 'PSA', 'WHH',
       'WHD', 'WHA', 'VCH', 'VCD', 'VCA', 'Bb1X2', 'BbMxH', 'BbAvH', 'BbMxD',
       'BbAvD', 'BbMxA', 'BbAvA', 'BbOU', 'BbMx>2.5', 'BbAv>2.5', 'BbMx<2.5',
       'BbAv<2.5', 'BbAH', 'BbAHh', 'BbMxAHH', 'BbAvAHH', 'BbMxAHA', 'BbAvAHA',
       'PSCH', 'PSCD', 'PSCA'],
      dtype='object')

## Gerando o dadaset final

In [6]:
for i in range(len(df_list)):
    
    # vai percorrer o dataframe e o if verifica se tem a coluna "Home" em df_list, se tiver (por conhecer o arquivo) 
    # se sabe que este df_list (nesta posição) tem uma nomenclatura diferente que pode atrapalhar na análise
    # dos dados, então padronizamos a nomenclatura, substituindo "Home" por "HomeTeam", "Away" por "AwayTeam"
    # "Res" por "FTR", ... e "AvgA" por "B365A" como está abaixo
    if 'Home' in list(df_list[i].columns):
        df_list[i] = df_list[i].rename(columns={'Home':'HomeTeam', 'Away':'AwayTeam', 'Res':'FTR',
                                              'AvgH':'B365H', 'AvgD':'B365D', 'AvgA':'B365A'})

In [7]:
# pegando as colunas que vc precisa em um momento
columns = ['HomeTeam','AwayTeam','FTR','B365H','B365D','B365A','Div','Date']
new_df_list = []
for i in range(len(df_list)):
    new_df_list.append(df_list[i][columns])

In [8]:
final_dataset = pd.concat(new_df_list, sort=False).reset_index(drop=True) # o reset_index é para remover a coluna de índice
final_dataset.shape

(33248, 8)

In [9]:
display(final_dataset.head())

Unnamed: 0,HomeTeam,AwayTeam,FTR,B365H,B365D,B365A,Div,Date
0,Asteras Tripolis,Giannina,A,1.7,3.4,5.5,G1,19/08/17
1,Olympiakos,Larisa,H,1.17,7.0,15.0,G1,19/08/17
2,Xanthi,Lamia,D,1.67,3.3,6.0,G1,19/08/17
3,AEK,Panetolikos,H,1.36,4.5,9.0,G1,20/08/17
4,Kerkyra,Panionios,A,3.75,3.1,2.1,G1,20/08/17


In [10]:
display(final_dataset.tail())

Unnamed: 0,HomeTeam,AwayTeam,FTR,B365H,B365D,B365A,Div,Date
33243,Gent,Mechelen,H,1.53,4.33,4.75,B1,12/03/17
33244,Kortrijk,Mouscron,A,2.75,3.4,2.3,B1,12/03/17
33245,Lokeren,Charleroi,D,3.6,3.3,1.95,B1,12/03/17
33246,Standard,Oostende,D,1.95,3.4,3.5,B1,12/03/17
33247,Westerlo,Genk,A,2.9,3.3,2.25,B1,12/03/17


In [11]:
final_dataset.info() # podemos ver que temos informações nulas
# pois no total temos colunas (que aqui estão em forma de linha) que não chega no total de índice que é
# 33248

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33248 entries, 0 to 33247
Data columns (total 8 columns):
HomeTeam    33160 non-null object
AwayTeam    33160 non-null object
FTR         33158 non-null object
B365H       33079 non-null float64
B365D       33079 non-null float64
B365A       33079 non-null float64
Div         33160 non-null object
Date        33160 non-null object
dtypes: float64(3), object(5)
memory usage: 1.4+ MB


In [12]:
# aqui removemos as colunas nulas 

final_dataset.dropna(inplace=True) 
final_dataset.shape

(33078, 8)

In [13]:
# resetando o índice de novo já que dropou para ir de 0 até o final
# sem ficar pulando nenhum valor

final_dataset = final_dataset.reset_index(drop=True)

In [14]:
final_dataset.info()

# agora podemos perceber que o total de índice é 33078 e todas as colunas do datasetfinal (HomeTeam, ..., Div)
# tem também 33078 no total

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33078 entries, 0 to 33077
Data columns (total 8 columns):
HomeTeam    33078 non-null object
AwayTeam    33078 non-null object
FTR         33078 non-null object
B365H       33078 non-null float64
B365D       33078 non-null float64
B365A       33078 non-null float64
Div         33078 non-null object
Date        33078 non-null object
dtypes: float64(3), object(5)
memory usage: 1.4+ MB


In [15]:
data = final_dataset.loc[0,'Date'].split('/')[::-1]
ano = '20' + data[0]
data[0] = ano
'-'.join(data)

'2017-08-19'

In [16]:
for key, row in final_dataset.iterrows():
    data = row['Date'].split('/')[::-1]
    if len(data[0]) == 2:
        ano = '20' + data[0]
    data[0] = ano
    final_dataset.loc[key,'Date'] = '-'.join(data)

In [17]:
final_dataset.to_csv('dados_com_data.csv', sep=';')