# Projeto 2 de Ciência dos Dados

Integrantes: Ana Carolina Pela Tofetti, Eduardo Lima Pinelli e Rafael Seicali Malcervelli

# Introdução

O universo das apostas sempre envolveu o mundo dos esportes, seja em corridas de cavalo, jogos de futebol ou lutas de boxe. No entanto, os "e-sports" ou jogos eletrônicos - videogames - vem ganhando força em diversas competições grandiosas ja realizadas; os jogos que apresentam um cenário competitivo e profissional são muitos, como: League of Legends, Starcraft, Mortal Kombat, Rainbow Six Siege, Counter Strike Global Offensive. 

Em nosso trabalho, optamos pelo jogo Counter Strike Global Offensive como ferramenta de estudo. Queremos facilitar a escolha entre dois times que irão se enfrentar em algum campeonato futuro para que assim possamos ter mais certeza em qual deles apostar.

# Explicação

Counter Strike Global Offensive é um jogo online que consiste em duas equipes se enfrentando em duelos armados entre 30 rounds. Cada equipe tem 5 integrantes e cada um joga de um lado (contra-terrorista e terrorista), sendo que se uma equipe começa o jogo como terrorista, após 15 rounds, trocam-se os lados e a equipe passa a ser contra-terrorista.

O objetivo do terrorista é plantar uma bomba em qualquer um dos bombsites disponiveis (em todos os diferentes mapas, há um bombsite A e um bombsite B). Logo, o objetivo do contra-terrorista é defender os bombsites, evitando que a equipe adversária plante a bomba e, se ela for plantada, conseguir desarmá-la antes que exploda.

Normalmente que antes mesmo de se chegar nos bombsites e ter a oportunidade de plantar a bomba, os terroristas tem de lidar com possiveis contra-terroristas em confrontos armados.

A equipe que chegar a 16 de pontuação ganha o jogo.

# Importando bibliotecas

In [1]:
#Carregando as bibliotecas
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os
import re
import seaborn as sns
import statsmodels.api as sm
from collections import Counter

In [None]:
print('Esperamos trabalhar no diretório')
print(os.getcwd())

# Leitura do dataset e limpeza do mesmo

In [2]:
#Lendo o dataset
#Criando um novo dataframe somente com as partidas, mapas e times, excluindo as estatisticas de cada jogador, pois
#existem alguns jogadores que atualmente não estão mais participando do cenário competitivo do jogo.
data = pd.read_csv("matches_info.csv").iloc[:, 0:23]

#Apagando colunas desnecessárias
del data["Unnamed: 0"]
del data["date_match"] #data da partida
del data["event_name"] #nome do evento

#Esta função faz com que todas as colunas sejam expostas pelo DataFrame.
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', -1)

In [None]:
data.head(3)

# Funções utilizadas ao longo do código

In [3]:
#Função que conta a quantidade de aparições dos mapas, retornando um dicionário com cada um deles e suas frequencias
def contagem(lista):
    dicionario_contagem = {}
    for i in lista:
        dicionario_contagem[i] = lista.count(i)
        
    return dicionario_contagem

#Função que recebe uma lista e retorna o item mais frequente dela.
def mais_frequente(lista): 
    contagem = Counter(lista) 
    
    return contagem.most_common(1)[0][0] 

# Selecionando algumas variáveis relevantes

In [27]:
#Criando uma lista que contenha o nome de todos os times
lista_times1 = list(data.team1)
lista_times2 = list(data.team2)
lista_times = []

for time in lista_times1:
    if time in lista_times:
        pass
    else:
        lista_times.append(time)

for time in lista_times2:
    if time in lista_times:
        pass
    else:
        lista_times.append(time)
print("Lista dos times: {0}".format(lista_times))

#Criando uma lista que contenha o nome de todos os mapas
lista_mapas = []
lista_frq_mapas = []

lista_crua = list(data.map1_played) + list(data.map2_played) + list(data.map3_played)

for i in lista_crua:
    if i in lista_mapas or i == "NotPlayed":
        pass
    else:
        lista_mapas.append(i)

print("\n\nLista dos mapas: {0}".format(lista_mapas))

#Criando um dicionário que mostra a frequencia que cada mapa é jogado, ou seja, dentre todas as partidas, 
#qual a porcentagem que cada mapa foi jogado.
for i in lista_crua:
    if i == "NotPlayed":
        pass
    else:
        lista_frq_mapas.append(i)


soma_mapas = sum(contagem(lista_frq_mapas).values())
dicionario_frequencias_mapas = {}
for k, v in contagem(lista_frq_mapas).items():
    frq = v*(100) / soma_mapas
    dicionario_frequencias_mapas[k] = frq
    
print("\n\nDicionário recorrência dos mapas [%]: {0}".format(dicionario_frequencias_mapas))

Lista dos times: ['Astralis', 'Virtus.pro', 'FaZe', 'fnatic', 'Natus Vincere', 'Liquid', 'North', 'Gambit', 'SK', 'GODSENT', 'mousesports', 'Envy', 'FlipSid3', 'OpTic', 'Immortals', 'BIG', 'G2', 'PENTA', 'Vega Squadron', 'Cloud9', 'MIBR', 'Quantum Bellator Fire', 'Space Soldiers', 'Complexity', 'NiP', 'TYLOO', 'Winstrike', 'ENCE', 'Renegades', 'NRG', 'Vitality', 'AVANGAR', 'HellRaisers', 'CR4ZY', 'DreamEaters']


Lista dos mapas: ['Nuke', 'Train', 'Cache', 'Mirage', 'Overpass', 'Dust2', 'Cobblestone', 'Inferno', 'Vertigo']


Dicionário recorrência dos mapas [%]: {'Nuke': 8.638743455497382, 'Train': 13.612565445026178, 'Cache': 7.591623036649215, 'Mirage': 20.418848167539267, 'Overpass': 14.136125654450261, 'Dust2': 11.780104712041885, 'Cobblestone': 4.973821989528796, 'Inferno': 17.277486910994764, 'Vertigo': 1.5706806282722514}


In [7]:
#Criando um dicionário que consiste em ter como chave os times e como valor, um dicionário de mapas, contendo
#em sua chave os mapas e no valor as porcentagens de vitória que o time teve em cada mapa
dicionario_vencedores_mapas = {}
for k, v in dicionario_times_sorted.items():
    dicionario_vencedores_mapas[k] = dicionario_frequencias_mapas


In [8]:
#Criando um dataset mais limpo, para facilitar na visualização com apenas as variáveis que nos importam.
estatisticas = data.drop(columns=["maps_info", "team_lost_score",
                                 "team_won_score", "result_map1_played1", 
                                "result_half_score_map1", "result_map1_played2",
                                "result_map2_played1", 
                                "result_half_score_map2", "result_map2_played2",
                                "result_map3_played1", 
                                "result_half_score_map1"])
estatisticas.head(3)

Unnamed: 0,team1,team2,map1_played,team_winner_map1,team_loser_map1,map2_played,team_winner_map2,team_loser_map2,map3_played,team_winner_map3
0,Astralis,Virtus.pro,Nuke,Virtus.pro,Astralis,Overpass,Astralis,Virtus.pro,Train,Astralis
1,Virtus.pro,SK,Train,Virtus.pro,SK,Cobblestone,Virtus.pro,SK,Overpass,NotPlayed
2,Astralis,fnatic,Cache,Astralis,fnatic,Nuke,Astralis,fnatic,Dust2,NotPlayed


In [10]:
#Criando uma nova coluna "team_winner", que apresenta apenas os vencedores dos confrontos.
estatisticas["team_winner"] = "Teste"
contador = 0

#Criando uma lista que contenha apenas os times que ganharam os confrontos. Como cada confronto varia 
#seu tipo por campeonato (pode ser um jogo só ou uma melhor de 3)
lista_win = []
for lista in lista_vencedores:
    lista_win.append(mais_frequente(lista))

for mapa in estatisticas["map2_played"]:
    #Se o mapa 2 representar um "NotPlayed", significa que o confronto é de um jogo apenas, 
    #então, o vencedor do primeiro jogo é o vencedor do confronto
    if mapa == "NotPlayed":
        estatisticas["team_winner"][contador] = estatisticas["team_winner_map1"][contador]
        contador += 1
        
    else:
        estatisticas["team_winner"][contador] = lista_win[contador]
        contador += 1

In [50]:
estatisticas.head(10)

Unnamed: 0,team1,team2,map1_played,team_winner_map1,team_loser_map1,map2_played,team_winner_map2,team_loser_map2,map3_played,team_winner_map3,team_winner
0,Astralis,Virtus.pro,Nuke,Virtus.pro,Astralis,Overpass,Astralis,Virtus.pro,Train,Astralis,Astralis
1,Virtus.pro,SK,Train,Virtus.pro,SK,Cobblestone,Virtus.pro,SK,Overpass,NotPlayed,Virtus.pro
2,Astralis,fnatic,Cache,Astralis,fnatic,Nuke,Astralis,fnatic,Dust2,NotPlayed,Astralis
3,FaZe,SK,Mirage,FaZe,SK,Train,SK,FaZe,Overpass,SK,SK
4,Virtus.pro,North,Overpass,Virtus.pro,North,Cache,North,Virtus.pro,Cobblestone,Virtus.pro,Virtus.pro
5,fnatic,Gambit,Cache,fnatic,Gambit,Overpass,Gambit,fnatic,Dust2,fnatic,fnatic
6,Natus Vincere,Astralis,Overpass,Astralis,Natus Vincere,Mirage,Natus Vincere,Astralis,Dust2,Astralis,Astralis
7,Liquid,Astralis,Mirage,Astralis,Liquid,NotPlayed,NotPlayed,NotPlayed,NotPlayed,NotPlayed,Astralis
8,FaZe,Envy,Nuke,FaZe,Envy,NotPlayed,NotPlayed,NotPlayed,NotPlayed,NotPlayed,FaZe
9,North,GODSENT,Overpass,North,GODSENT,NotPlayed,NotPlayed,NotPlayed,NotPlayed,NotPlayed,North


In [71]:
#Criar um dicionário que contenha como chave os times e como valor, outro dicionário que contenha todos os mapas
#disponiveis para jogar (lista_mapas) e na sua chave, as porcentagens que cada time ganhou nesse mapa, dado todos os
#jogos que ja jogou nele antes. Se fizer isso, o trabalho ta quase pronto.

#dicionario_vitorias_mapas[time] = {mapa1: porcentagem_que_time_ganhou_dado_todos_os_jogos_que_jogou}

#output -> {"astralis": {"Nuke": 58.7664, "Mirage": 78.4242, "Dust2": 74.4234}, "avangar": {"Nuke": 58.7664, ....

dicionario_vitorias_mapas = {}

#criando listas suporte
lista_time1 = []
lista_time2 = []
lista_ganhou = []
lista_mapas_confrontos = []

#alimentando as listas suporte
for i in range (239):
    
    confronto2 = estatisticas.iloc[i, 6] != "NotPlayed"
    confronto3 = estatisticas.iloc[i, 9] != "NotPlayed"
    
    lista_time1.append(estatisticas.iloc[i, 0])
    lista_time2.append(estatisticas.iloc[i, 1])
    lista_ganhou.append(estatisticas.iloc[i,3])
    lista_mapas_confrontos.append(estatisticas.iloc[i,2])
    if confronto2:
        lista_time1.append(estatisticas.iloc[i, 0])
        lista_time2.append(estatisticas.iloc[i, 1])
        lista_ganhou.append(estatisticas.iloc[i,6])
        lista_mapas_confrontos.append(estatisticas.iloc[i,5])
    if confronto3:
        lista_time1.append(estatisticas.iloc[i, 0])
        lista_time2.append(estatisticas.iloc[i, 1])
        lista_ganhou.append(estatisticas.iloc[i,9])
        lista_mapas_confrontos.append(estatisticas.iloc[i,8])

#criando a estrutura do dicionário principal e outros 2 dicionários suporte
dicionario_vitorias_mapas = {}
for time in lista_times:
    dicionario_vitorias_mapas[time] = {}
    for mapa in lista_mapas:
        dicionario_vitorias_mapas[time][mapa] = 0
        
dicionario_vezes_ganhou = {}
for time in lista_times:
    dicionario_vezes_ganhou[time] = {}
    for mapa in lista_mapas:
        dicionario_vezes_ganhou[time][mapa] = 0
        
dicionario_vezes_jogou = {}
for time in lista_times:
    dicionario_vezes_jogou[time] = {}
    for mapa in lista_mapas:
        dicionario_vezes_jogou[time][mapa] = 0

#alimentando os dicionários suporte com os dados
for i in range(len(lista_mapas_confrontos)):
    
    time1 = lista_time1[i]
    time2 = lista_time2[i]
    ganhador = lista_ganhou[i]
    mapa = lista_mapas_confrontos[i]
    
    dicionario_vezes_jogou[time1][mapa] += 1
    dicionario_vezes_jogou[time2][mapa] += 1
    
    if time1 == ganhador:
        dicionario_vezes_ganhou[time1][mapa] += 1
    else:
        dicionario_vezes_ganhou[time2][mapa] += 1

#AQUI Q DA ERRADO q era eu tentando fazer dos dicionarios suporte o dicionario principal com as estatísticas
#ele ta contando as estatisticas de todos os times junto acho (?) pq os numeros tao dando iguais
for time in dicionario_vezes_jogou:
    dicmapas =  dicionario_vezes_jogou[time]
    for nomemapa in dicmapas:
        frqcmapa = dicmapas[nomemapa]
        if frqcmapa == 0:
            dicionario_vitorias_mapas[time][nomemapa] = 0
        else:
            dicionario_vitorias_mapas[time][nomemapa] = dicionario_vezes_ganhou[time][nomemapa]*100/dicionario_vezes_jogou[time][nomemapa]
            
print(dicionario_vencedores_mapas)


{'astralis': {'Nuke': 8.638743455497382, 'Train': 13.612565445026178, 'Cache': 7.591623036649215, 'Mirage': 20.418848167539267, 'Overpass': 14.136125654450261, 'Dust2': 11.780104712041885, 'Cobblestone': 4.973821989528796, 'Inferno': 17.277486910994764, 'Vertigo': 1.5706806282722514}, 'avangar': {'Nuke': 8.638743455497382, 'Train': 13.612565445026178, 'Cache': 7.591623036649215, 'Mirage': 20.418848167539267, 'Overpass': 14.136125654450261, 'Dust2': 11.780104712041885, 'Cobblestone': 4.973821989528796, 'Inferno': 17.277486910994764, 'Vertigo': 1.5706806282722514}, 'big': {'Nuke': 8.638743455497382, 'Train': 13.612565445026178, 'Cache': 7.591623036649215, 'Mirage': 20.418848167539267, 'Overpass': 14.136125654450261, 'Dust2': 11.780104712041885, 'Cobblestone': 4.973821989528796, 'Inferno': 17.277486910994764, 'Vertigo': 1.5706806282722514}, 'cloud9': {'Nuke': 8.638743455497382, 'Train': 13.612565445026178, 'Cache': 7.591623036649215, 'Mirage': 20.418848167539267, 'Overpass': 14.1361256544

In [9]:
#Criando um dicionário que mostra a frequencia dos times em relação as partidas jogadas, ou seja, 
#dentre todas as partidas, qual a porcentagem que cada time jogou.
soma_times = sum(contagem(lista_times).values())
dicionario_frequencias_times = {}
for k, v in contagem(lista_times).items():
    frq = v*(100) / soma_times
    dicionario_frequencias_times[k] = frq
    
#Criando um dicionário que mostra a porcentagem de vitória dos times a partir da soma de todas 
#as partidas computadas.
lista_vencedores_mapa2 = []
lista_vencedores_mapa3 = []

for i in data.team_winner_map2:
    if i == "NotPlayed":
        pass
    else:
        lista_vencedores_mapa2.append(i)

for i in data.team_winner_map3:
    if i == "NotPlayed":
        pass
    else:
        lista_vencedores_mapa3.append(i)

vencedores = list(data.team_winner_map1) + lista_vencedores_mapa2 + lista_vencedores_mapa3
soma_vencedores = sum(contagem(vencedores).values()) #A função contagem nos retorna um dicionário com as chaves
#sendo os times, e os valores a quantidade de jogos que eles ganharam.

dicionario_frequencias_vencedores = {}
dicionario_vencedores_sorted = {}
dicionario_times_sorted = {}
dicionario_vencedores_times = {}

for k, v in contagem(vencedores).items():
    frq = v*(100) / soma_vencedores
    dicionario_frequencias_vencedores[k] = frq

#Criando um dicionário que consiste em ter como chave os times, e como valor, um dicionário dos times, contendo
#em sua chave os times e no valor as porcentagens de vitória que o time teve com cada um dos times.
for time, v in dicionario_times_sorted.items():
    dicionario_vencedores_times[time] = dicionario_times_sorted
    if time in dicionario_times_sorted:
        dicionario_copia = dicionario_times_sorted.copy()
        dicionario_copia.pop(time)
        dicionario_vencedores_times[time] = dicionario_copia

#Transformando todos as keys em lowercase, para poder ordená-las melhor.
dict_lower_vencedores = {}
for k, v in dicionario_frequencias_vencedores.items():
    key = k.lower()
    dict_lower_vencedores[key] = dicionario_frequencias_vencedores[k]
    
dict_lower_times = {}
for k, v in dicionario_frequencias_times.items():
    key = k.lower()
    dict_lower_times[key] = dicionario_frequencias_times[k]
    
dict_lower_mapas = {}
for k, v in dicionario_frequencias_mapas.items():
    key = k.lower()
    dict_lower_mapas[key] = dicionario_frequencias_mapas[k]   
    
#Organizando os dicionários em ordem alfabetica, facilitando sua visualização
dict_lower_vencedores = dict((k, v) for k, v in dict_lower_vencedores.items()) 
for key in sorted(dict_lower_vencedores):
    dicionario_vencedores_sorted[key] = dict_lower_vencedores[key]
    
dict_lower_times = dict((k, v) for k, v in dict_lower_times.items()) 
for key in sorted(dict_lower_times):
    dicionario_times_sorted[key] = dict_lower_times[key]

#Criando uma lista de listas: cada lista representa uma linha do dataframe, ou seja, um confronto.
lista_vencedores = []
lista_adicional = []
for i in range(0, 239):
    lista_adicional.append(estatisticas.iloc[ i , 3])
    lista_adicional.append(estatisticas.iloc[ i , 6])
    lista_adicional.append(estatisticas.iloc[ i , 9])
    lista_vencedores.append(lista_adicional)
    lista_adicional = []

lista_confrontos = []
lista_add = []
for i in range(0, 240):
    lista_add.append(lista_times1[i])
    lista_add.append(lista_times2[i])
    lista_confrontos.append(lista_add)
    lista_add = []