## Analíses de Jogos de Tenistas Profissionais

Aluno: Elias Faria Silva - 2018127254

GitHub: [git](https://github.com/eliasfariasilva/Tennis-Analises---ICD)

Youtube: [youtube](https://www.youtube.com/watch?v=bwVQoRwYJ-0&ab_channel=EliasFaria)

### Introdução

O tênis é um esporte de precisão e estratégia que tem conquistado uma base de fãs global. Com jogadores talentosos competindo em diversos torneios ao redor do mundo, surge a curiosidade de entender os fatores que influenciam o desempenho e o sucesso de um jogador nesse esporte altamente competitivo.

Com o surgimento e a evolução dos sistemas de classificação no tênis, o ranking se tornou uma métrica essencial para avaliar a posição e o desempenho dos jogadores profissionais. Ao investigar o impacto do ranking em um jogo de tênis, podemos compreender como a classificação influencia a mentalidade, a confiança e as estratégias adotadas pelos jogadores durante as partidas. Além disso, examinar os dados relacionados ao ranking permitirá uma análise mais abrangente sobre a consistência dos jogadores ao longo do tempo e sua capacidade de manter um desempenho competitivo.

Outro fator crítico no jogo de tênis é o saque, que desempenha um papel fundamental na determinação do resultado de uma partida. Analisar o impacto do saque é essencial para entender como os jogadores podem usar essa habilidade para obter vantagens estratégicas e controlar o ritmo do jogo. Ao explorar os dados relacionados ao desempenho do saque, poderemos identificar padrões e correlações entre a eficácia do saque e os resultados obtidos pelos jogadores.


### Perguntas

* O ranking no tênis profissional masculino é uma boa medida de classificação?
* Qual a previsão de sets jogados por partida? 

### Dados

Para esse projeto, foi utilizado os resitórios presentes na conta git JeffSackmann. O período analisado foi de 2009, quando houve a alteração de pontuação nos torneios ATP, até 2016. Os repositórios utlizados foram:

#### tennis_atp

**Descrição:** Neste repositório foi utilizado principalmente um tipos de informações presente, divido por ano. Cada documento anual conta com informações de cada partida, com resultados de todas as partidas desde torneios challenger até torneios Grand Slam, informando placar, jogadores, ranking de cada jogador entre outros dados.

**Fonte:** [tennis_atp link](https://github.com/JeffSackmann)

### Bibliotecas Utilizadas

In [534]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime

#Regressão
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

#MLP
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import LabelEncoder
from sklearn.neural_network import MLPClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler


### Carregando os dados

In [1003]:
atp = pd.read_csv('Data.csv', encoding='latin-1', low_memory=False)
atp.head()

Unnamed: 0,ATP,Location,Tournament,Date,Series,Court,Surface,Round,Best of,Winner,...,UBW,UBL,LBW,LBL,SJW,SJL,MaxW,MaxL,AvgW,AvgL
0,1,Adelaide,Australian Hardcourt Championships,3/01/2000,International,Outdoor,Hard,1st Round,3,Dosedel S.,...,,,,,,,,,,
1,1,Adelaide,Australian Hardcourt Championships,3/01/2000,International,Outdoor,Hard,1st Round,3,Enqvist T.,...,,,,,,,,,,
2,1,Adelaide,Australian Hardcourt Championships,3/01/2000,International,Outdoor,Hard,1st Round,3,Escude N.,...,,,,,,,,,,
3,1,Adelaide,Australian Hardcourt Championships,3/01/2000,International,Outdoor,Hard,1st Round,3,Federer R.,...,,,,,,,,,,
4,1,Adelaide,Australian Hardcourt Championships,3/01/2000,International,Outdoor,Hard,1st Round,3,Fromberg R.,...,,,,,,,,,,


Alguns tratamento se fazem necessários para evitar informações erradas nas analises. As datas dos jogos estão como string, é necessário alterar para formato de data. 

Os valores nulos ou não numericos das colunas referente aos rankings também devem ser trados. Nesse caso iremos substituir por 0. 

As datas devem ser filtradas para o périodo pré-definido e também selecionando apenas os torneios escolhidos.

As colunas com informações a mais que precisamos também serão removidas.

In [455]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8388 entries, 25996 to 46597
Data columns (total 25 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   ATP         8388 non-null   int64         
 1   Location    8388 non-null   object        
 2   Tournament  8388 non-null   object        
 3   Date        8388 non-null   datetime64[ns]
 4   Series      8388 non-null   object        
 5   Court       8388 non-null   object        
 6   Surface     8388 non-null   object        
 7   Round       8388 non-null   object        
 8   Best of     8388 non-null   int64         
 9   Winner      8388 non-null   object        
 10  Loser       8388 non-null   object        
 11  WRank       8388 non-null   float64       
 12  LRank       8388 non-null   float64       
 13  W1          8334 non-null   float64       
 14  L1          8334 non-null   float64       
 15  W2          8248 non-null   float64       
 16  L2          8248 non-nul

In [454]:
#Convertendo as datas para ser reconhecidas como data
formato = "%d/%m/%Y"
atp['Date'] = pd.to_datetime(atp['Date'], dayfirst="TRUE")
#Removendo os valores "NR" para 0 e convertendo os rankings para numerico
atp['WRank'].replace('NR', 0, inplace=True)
atp['LRank'].replace('NR', 0, inplace=True)
atp['WRank'] = pd.to_numeric(atp['WRank'])
atp['LRank'] = pd.to_numeric(atp['LRank'])

atp['WRank'].fillna(0, inplace=True)
atp['LRank'].fillna(0, inplace=True)

# Filtrando os dados para datas acima de 2008 e selecionando também apenas os torneiosmais relevantes do circuito.
data = atp.loc[atp['Date']>'31/12/2008']
data = data.loc[data['Series'].isin(['Masters 1000', 'Grand Slam', ])]

#Filtrando apenas as colunas que serão utilizadas
data = data[['ATP', 'Location', 'Tournament', 'Date', 'Series', 'Court', 'Surface', 'Round', 'Best of', 'Winner', 'Loser', 'WRank', 'LRank', 'W1', 'L1', 'W2', 'L2', 'W3', 'L3', 'W4', 'L4', 'W5', 'L5', 'Wsets', 'Lsets']]
data.head()

Unnamed: 0,ATP,Location,Tournament,Date,Series,Court,Surface,Round,Best of,Winner,...,W2,L2,W3,L3,W4,L4,W5,L5,Wsets,Lsets
25996,6,Melbourne,Australian Open,2009-01-19,Grand Slam,Outdoor,Hard,1st Round,5,Ferrer D.,...,6.0,7.0,6.0,1.0,6.0,7.0,6.0,4.0,3.0,2.0
25997,6,Melbourne,Australian Open,2009-01-19,Grand Slam,Outdoor,Hard,1st Round,5,Berdych T.,...,6.0,4.0,6.0,3.0,,,,,3.0,0.0
25998,6,Melbourne,Australian Open,2009-01-19,Grand Slam,Outdoor,Hard,1st Round,5,Mayer F.,...,6.0,1.0,6.0,2.0,,,,,3.0,0.0
25999,6,Melbourne,Australian Open,2009-01-19,Grand Slam,Outdoor,Hard,1st Round,5,Hrbaty D.,...,2.0,6.0,6.0,2.0,7.0,5.0,,,3.0,1.0
26000,6,Melbourne,Australian Open,2009-01-19,Grand Slam,Outdoor,Hard,1st Round,5,Soderling R.,...,6.0,4.0,6.0,4.0,7.0,5.0,,,3.0,1.0


A partir da analise das informações do dataset resultante, pode-se perceber que as informçãoes sobre os jogos estão completas, apenas o placar de 54 partidas estão vazios, representando 99,35% dos dados completos. 

#### Gráfico de Dispersão

![image.png](attachment:image.png)

Com os gráficos de dispersão apresentados, podemos observar que, nos torneios previstos, que aproxima da parte positiva de uma hiperbole. Apresentando uma tendência inicial dos rankings menores serem favoritos.

#### Histogramas

![image.png](attachment:image.png)

No histograma dos sets dos jogadores perdededores, mostra que é mais comum jogos com vitoria em sets diretos do que jogos mais disputados, com uma distribuição da vitória dos sets maiores.

![image.png](attachment:image.png)

Pelo histograma dos jogos por meses, pode perceber tendência de 3 momentos durante o ano de jogos. O primeiro momento em Janeiro, com uma quantidade significativa de jogos nesse mês, o segundo momento entre março e junho, com a maioria dos jogos do ano nesse periodo e, após uma diminuição de jogos em Julho, a fase final da temporada entre Agosto e Novembro, com um ritmo de jogos já menor após o mês de Agosto.

![image.png](attachment:image.png)

No histograma de jogos por superficie, podemos perceber uma maior quantidade em jogos em quadra rapida, com mais do dobro do segundo piso mais comum, o saibro. E por último, grama mostra ser um piso menos comum, apesar do torneio mais tradicional do tênis ser na grama.

![image.png](attachment:image.png)

E finalmente, um histograma com resultados mais óbvios. A quantidade de jogos em cada fase diminui de acordo com o estágio que cada fase representa.

### Analises

Inicialmente, iremos definir alguns parâmetros base, para que seja possível analisar com maior base os resultados apresentados futuramente. Dois parâmetros serão os mais importantes.
O primeiro deles é a mediana do ranking dos jogadores, podendo então entender o que seria um jogador acima da média e um jogador abaixo da média no caso estudado. 
E, em seguida, a têndencia de um jogador com menor ranking vencer um jogador de ranking maior. Esse parâmetro será essencial para tentarmos identificar tendências nos resultados. Chamaremos esse indicie de favoritismo.

Ranking Mediano dos Vencedores: 23

Ranking Mediano do Perdedores: 51

Favoritismo: 70.62%

#### Separação dos grupos de rankings

Para fazer as analises de tendências, separamos os rankings em grupos, coforme tabela abaixo.

![image-2.png](attachment:image-2.png)

### Tendências no favoritismo

Para tentar encontrar algum padrão, ou alguma situação que o ranking não mostre relavância, iremos separar os dados pelos fatores abaixo e observar a taxa de favoritismo e anlisar a hipotese considerada.

1. Entre Grupos: Será observado o aproveitamento do favoritismo entre os grupos de ranking definido anteriormente
   Hipotese: Quanto maior a distância entre os grupos, maior o aproveitamento.
   
2. Estágio do Torneio: Será observado o aproveitamento de acordo com o avanço das fases do torneio.
   Hipotese: Quanto maior a fase do torneio menor o aproveitamento do favoritismo
   
3. Superficie: Será comparado o aproveitamento de acordo com cada superficie
   Hipotese: Superficies mais rápidas, tendem a ter um aproveitamento do favoritismo maior. 

#### Favoritismo Geral por Grupo

![image.png](attachment:image.png)

A primeira analise mostrou uma forte tendência de maior aproveitamento de acordo com grupos com ranking maiores. E cada grupo com rankings menores também mostrou uma tendência de aproveitamento maior.

#### Favoritismo Por Estágio do Torneio

![image.png](attachment:image.png)

O aproveitamento por estágio nos mostrou alguns pontos interessantes. Analisando a linha do Ranking 1-3 vemos uma clara tendência de menor aproveitamento de acordo com a evolução do torneio. A linha do Ranking 4-10 nos mostra a mesma tendência da linha anterior. Ponto interessante a ser analisado é que até as quartas de finais, esse grupo tende a ser favorito de seus jogos, porém, a partir da semifinal, tendem a enfrentar jogadores do grupo 1-3, logo, há uma alteração na tendência do gráfico. As demais linhas do gráfico, tiveram uma tendência de crescimento, que pode ser explicado com o aumento da diferença entre os ranking de acordo com o decorrer do torneio. Outro fator que reforça essa afirmativa é que grupos com rankings maiores nem apresentam jogos em estágios mais avançados.

#### Favoritismo por Estágio do Torneio Entre os Grupos

Nesse momento será feito a analise da combinação dos dois casos apresentados anteriormente.

**1ª Rodada**

![image.png](attachment:image.png)

**2ª Rodada**

![image.png](attachment:image.png)

**3ª Rodada**

![image.png](attachment:image.png)

**4ª Rodada**

![image.png](attachment:image.png)

**Quartas de Final**

![image.png](attachment:image.png)

**Semi-Final**

![image.png](attachment:image.png)

**Final**

![image.png](attachment:image.png)

A partir dos gráficos apresentados, reafirmaram as conclusões feitas nas duas analises iniciais com tendencia de maior aproveitamento dos rankings menores e também de maior aproveitamento de acordo com a discrepância entre os rankings. Alguns dados não seguiram a tendência, o que é explicado pela falta de quantidade de dados daquele caso, resepresentando com menor assertividade aquela hipotese.

#### Por Superficie

![image.png](attachment:image.png)

A quadra de grama, o piso mais rápido, apresentou o maior aproveitamento do favoritismo. Entretanto, o saibro apresentou uma taxa superior à quadra de cimento (também conhecida como quadra rápida). Logo, a hipotese que diz que em superficies mais rápidas apresentam uma maior tendência de favoritismo se torna apenas parcialmente verdadeira. Vale também citar que a diferença entre as superficies foram bem pequenas, não apresentando nenhuma diferença significativa.

### Regressão

Em seguida, será relizada uma regressão linear dos dados do Ranking do Vencedor x Ranking do Perdedor.
A regressão será realizada apenas entre os jogadores com ranking menor que 400, onde há a massiva maioria dos jogos.

![image.png](attachment:image.png)

Com o modelo da regressão podemos entender algumas têndencias porém se demostrou bastante falho. Irei numerar algumas conclusões importantes que pôde ser observada.
1. Jogos com Vencedores com o rank 1-10 demostrou uma têndencia esperada no começo da reta, fazendo sua origem em y ser maior que 0. Mostrando favoritismo desses jogadores.
2. A inclinação da reta determinada pelos jogos com jogadores com rankings pequenos fez com que os jogos com jogadores com ranking maiores não demonstrasse a realidade. A partir do WRank 100 já podemos observar que o azarão começa a ter probabilidade de vencer maior que o favorito. 
3. Poucos jogos entre jogadores de ranking baixo e ranking alto faz com esse jogos representem pouco peso na determinação da regressão e demonstra uma tendencia falha. Pôde-se observar que,jogos entre jogadores de ranking 300-100 e 1-10, o jogador de ranking maior se torna favorito. O que já foi demonstrado anteriormente não ser verdade.

### Treinamento MLP

Com o intuito de se descobrir algum padrão e se obter um algoritmo de previsão melhor, será realizado um modelo de rede neural artificial MLP para tentar obter uma previsão de resultado mais interessante.

![image.png](attachment:image.png)

O modelo apresentou desempenho semelhante ao indicie de aproveitamento dos favoritos, logo, pode se dizer que o modelo não conseguiu identificar nenhum padrão significativo que demonstrasse uma falha no ranking da ATP.

### Previsão de set jogados

Nessa etapa, será realizada o treinamento de dois modelos MLP para prever a quantidade de sets que serão jogados em uma partida. Será dividido em jogos de melhor de 5 sets e jogos melhor de 3 sets.

**Resultado:**

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

Apesar de não apresentar uma eficência muito elevada, o modelo conseguiu prever com certa qualidade a quantidade de sets jogados, levando em consideração a dificuldade de se realizar essa previsão.

### Conclusão

Com base nas análises realizadas, podemos tirar algumas conclusões sobre o favoritismo e os resultados no tênis:

1. Os jogadores com rankings mais altos têm uma tendência geral de obter melhores resultados. Cada grupo de jogadores com rankings mais baixos também apresentou um desempenho relativamente melhor.

2. Conforme o torneio avança, os jogadores com rankings entre 1 e 3 e entre 4 e 10 tendem a ter um desempenho um pouco pior. Isso ocorre porque, nessas fases, eles enfrentam jogadores de grupos com rankings mais altos. Por outro lado, os demais grupos mostram um aumento no desempenho, possivelmente devido à maior diferença de rankings entre os jogadores.

3. Em relação às superfícies das quadras, observamos que a grama, que é considerada uma superfície mais rápida, tem um aproveitamento ligeiramente melhor. No entanto, o saibro também apresenta um desempenho superior em comparação com as quadras de cimento, que são consideradas rápidas. Portanto, embora as superfícies mais rápidas estejam associadas a um maior favoritismo, as diferenças entre elas não são muito significativas.

4. Ao utilizar modelos de regressão para prever os resultados, constatamos algumas tendências, mas também identificamos algumas limitações. Os jogadores com rankings de 1 a 10 têm uma maior probabilidade de vitória, como era esperado. No entanto, a influência dos jogadores com rankings mais baixos afeta a precisão das previsões para jogadores com rankings mais altos. A partir do ranking 100, os jogadores menos favorecidos começam a ter uma chance maior de vitória do que os favoritos. É importante ressaltar que a falta de jogos entre jogadores com grandes diferenças de ranking limita a confiabilidade dessas previsões.

5. O modelo MLP utilizado também não apresentou resultados significativamente diferentes dos índices de favoritismo. Isso indica que o modelo não foi capaz de identificar padrões significativos que questionassem a validade do ranking da ATP.

6. O modelo MLP para prever a quantidade de sets jogados em uma partida, embora não tenham alcançado uma precisão muito alta, eles foram capazes de prever com relativa qualidade a quantidade de sets, considerando a dificuldade dessa previsão.

Em resumo, as análises realizadas nos permitem entender algumas tendências e padrões relacionados ao favoritismo e aos resultados no tênis. No entanto, é importante lembrar que as conclusões obtidas são baseadas nos dados disponíveis e nas características específicas do esporte, e que existem limitações inerentes a essas análises.