In [2]:
import pandas as pd                                    # Leitura dos dados
from sklearn.linear_model import LogisticRegression    # Aplicação de Regressão logística
from sklearn.model_selection import train_test_split   # Divisão em subconjuntos de treino e teste

In [5]:
# Importação dos dados
url = 'https://raw.githubusercontent.com/alinespaz/projetopuc/main/WorldCups.csv' # Localização do arquivo no GitHub
df_raw = pd.read_csv(url) # Leitura do arquivo
df_raw = df_raw.rename(columns={'Year': 'Ano'}) # Renomeação de campo para manter em Português
df_raw

Unnamed: 0,Ano,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
0,1930,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590.549
1,1934,Italy,Italy,Czechoslovakia,Germany,Austria,70,16,17,363.000
2,1938,France,Italy,Hungary,Brazil,Sweden,84,15,18,375.700
3,1950,Brazil,Uruguay,Brazil,Sweden,Spain,88,13,22,1.045.246
4,1954,Switzerland,Germany FR,Hungary,Austria,Uruguay,140,16,26,768.607
5,1958,Sweden,Brazil,Sweden,France,Germany FR,126,16,35,819.810
6,1962,Chile,Brazil,Czechoslovakia,Chile,Yugoslavia,89,16,32,893.172
7,1966,England,England,Germany FR,Portugal,Soviet Union,89,16,32,1.563.135
8,1970,Mexico,Brazil,Italy,Germany FR,Uruguay,95,16,32,1.603.975
9,1974,Germany,Germany FR,Netherlands,Poland,Brazil,97,16,38,1.865.753


In [6]:
# Unpivot dos dados necessários para a análise
df = pd.melt(df_raw, id_vars=['Ano'], value_vars=['Winner', 'Runners-Up', 'Third', 'Fourth'], var_name='Colocacao', value_name='Vencedor')
df

Unnamed: 0,Ano,Colocacao,Vencedor
0,1930,Winner,Uruguay
1,1934,Winner,Italy
2,1938,Winner,Italy
3,1950,Winner,Uruguay
4,1954,Winner,Germany FR
...,...,...,...
75,1998,Fourth,Netherlands
76,2002,Fourth,Korea Republic
77,2006,Fourth,Portugal
78,2010,Fourth,Uruguay


In [7]:
# Transformação de variáveis categóricas em numéricas, onde o que interessa é a Colocação 'Winner'
df['Colocacao'] = df['Colocacao'].map({'Winner': 1, 'Runners-Up': 0, 'Third': 0, 'Fourth': 0})
df

Unnamed: 0,Ano,Colocacao,Vencedor
0,1930,1,Uruguay
1,1934,1,Italy
2,1938,1,Italy
3,1950,1,Uruguay
4,1954,1,Germany FR
...,...,...,...
75,1998,0,Netherlands
76,2002,0,Korea Republic
77,2006,0,Portugal
78,2010,0,Uruguay


In [8]:
# Separação dos dados em variáveis de entrada e saída
X = df[['Ano']]
y = df['Colocacao']

In [9]:
# Divisão dos dados em treino e teste
# 20% dos dados serão usados como conjunto de teste e 80% como conjunto de treinamento - conjunto pequeno de dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [13]:
# Criação do modelo de regressão logística
model = LogisticRegression()

In [14]:
# Treinamento do modelo
model.fit(X_train, y_train)

LogisticRegression()

In [15]:
# Avaliação do modelo
accuracy = model.score(X_test, y_test)
print('Acurácia do modelo:', accuracy)

Acurácia do modelo: 0.6875


In [16]:
# Previsão para a Copa do Mundo de 2022
ano_2022 = [[2022]]
prediction = model.predict(ano_2022)
if prediction[0] == 1:
    print('O Brasil tem chances de conseguir o primeiro lugar na Copa do Mundo de 2022.')
else:
    print('O Brasil não tem chances de conseguir o primeiro lugar na Copa do Mundo de 2022.')

O Brasil não tem chances de conseguir o primeiro lugar na Copa do Mundo de 2022.


