<a href="https://colab.research.google.com/github/rafaelnduarte/Cerrado_Basquete/blob/master/An%C3%A1lise_de_Dados_Cerrado_Basquete.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Análise de Dados e Inteligência Artificial - Cerrado Basquete


> O intuito deste projeto é realizar **análises estatísticas** e encontrar soluções de **Inteligência Artificial** que possam suprir a equipe técnica com insights que possam ajudar a equipe com seu planejamento tático, técnico, desenvolvimento de jogadores, contratação de jogadores, etc.


<center><img alt="Cerrado Basquete" width="70%" src="https://scontent.fbsb4-1.fna.fbcdn.net/v/t1.0-9/13876325_1740697609531696_2785376768243641308_n.png?_nc_cat=106&_nc_oc=AQmYjLnt8XvgiNE5BPKufa3e-JPVBGONNYqfUjrdzTRj79dX81DMDA3FxOXHZo2YY8OpKtIL_lHfUbRYWKC0lMTY&_nc_ht=scontent.fbsb4-1.fna&oh=2adf231a0d124ca9e4c39d193a0ee296&oe=5E62AE67
"></center>

Este trabalho é inspirado no que é feito por equipes da [NBA]('https://www.nba.com/'), como o **Houston Rockets**, e desafios de **Ciência de Dados** propostos pelo [Google Cloud]('https://cloud.google.com/') e [NCAA]('https://www.ncaa.com/sports/basketball-men/d1') na plataforma [Kaggle]('https://www.kaggle.com/c/mens-machine-learning-competition-2019').

## Referências
**O que podemos aprender com os trabalhos anteriores?**

Podemos, com o apoio desses projetos, estabelecer um framework de trabalho, encontrar objetivos claros e mensuráveis,a fim de melhorar a performance, e, consequentemente, os resultados do time.

O desafio da NCAA e Google Cloud promove a construção de um modelo de Machine Learning capaz de prever os resultados do **March Madness**. Através da análise de uma base extensiva de dados, os modelos são capazes de identificar quais variáveis são mais importantes para definir a vitória de um time, resultados dos jogos, etc.

Na NBA, times como o **Houston Rockets**, pioneiro nesse tipo trabalho, utilizam desses insumos para a tomada de decisão desde contratação de jogadores, incluindo o [caso do jogador Carmelo Anthony]('https://heavy.com/sports/2019/03/carmelo-anthony-analytics-cj-miles/'), a ascensão do volume de bolas de 3 pontos, bem como a "abolição" do arremesso de média distância, estão atribuídos ao uso extensivo na análise de dados em equipes de ponta da NBA. Podemos ver mais sobre esse assunto neste [link]('https://towardsdatascience.com/nba-data-analytics-changing-the-game-a9ad59d1f116').

Além desta análise, o estado da arte em termos de inteligência artificial no basquete é o uso de **visão computacional** em vídeos dos jogos, aquisitando dados e observando padrões que nem o mais treinado dos olhos seriam capazes de observar, acompanhar e principalmente, transformar em dados palpáveis e mensuráveis.

## Pipeline e forma de trabalho

Hoje em dia, a LNB faz um trabalho muito bom na coleta e disponibilização de dados dos jogos, equipes e jogadores das ligas, e nos dá insumos para trabalhar com análise dos dados do **Cerrado**, para entendermos melhor o time, as deficiências e pontos fortes da equipe, que fatores mais influenciam nas vitórias e derrotas, bem como analisar os outros times para encontrar as mesmas respostas, além de trabalhar com modelos preditivos que nos façam enxergar de forma clara, imparcial, sem viés as variáveis que podem nos ajudar a melhorar, e trabalhar a parte tática e técnica em busca desses aprimoramentos.

Através de trabalho colaborativo com a comissão técnica, buscando sempre fazer a ponte entre os dados e as percepções, conhecimentos e experiências dos integrantes, buscar o maior volume de informações valiosas que possam ajudar a evolução do time.

**Pipeline**
> * Aquisição dos dados
* Limpeza e organização dos dados
* Análise extensiva dos dados 
* Criação, Manutenção e Aprimoramento de modelos de inteligência artificial
* Relatórios com insights retirados dos dados analizados.

**Metas e Projeções**
> **Curto Prazo**
* Análises extensivas dos dados do Cerrado e seus jogadores, bem como dados das equipes dos campeonatos em que o time participar, fornecendo insights que ajudem a comissão técnica nos processos de tomada de decisão.
* Modelos preditivos de inteligência artificial que utilizam esses dados como referência para aprimorar e testar as hipóteses levantadas na etapa da análise de dados.

> **Médio/Longo Prazo**
* Utilização de Visão Computacional (Computer Vision) e algoritmos mais sofisticados e complexos de inteligência artificial, assim como é feito na NBA. Isso nos dará a vantagem de obter um volume imensamente maior de dados relevantes, únicos e proprietários, aos quais somente nós teremos acessos, medindo aspectos do jogo capazes de ser mensurados somente por sistemas como esse.



## Diferencial

**Análise de Dados X Ciência de Dados**

O que diferencia o trabalho proposto de uma análise de dados convencional, é o uso de algoritmos de Inteligência Artificial (Machine Learning) para adquirir e analisar dados, de forma imparcial, com capacidade de processamento e registro muito maior do que um ser humano seria capaz.

Além disso, meu background com o basquete me faz identificar correlações e variáveis que vão além do óbvio, como por exemplo, a correlação entre vencer o jogo e pegar mais rebotes ou cometer menos turnovers. Esse tipo de análise, a equipe técnica já é capaz.

O diferencial oferecido se encontra no par de olhos extra analisando os dados, bem como técnicas estatísticas e algoritmos de inteligência artificial capazes de explorar os dados e fazer predições imparciais, que vão além do óbvio, e que busca e mede a importância e influência de detalhes que nossos pensamentos parciais não nos deixam analisar.

## Resultados

Com isso em mente, vamos analisar os dados disponíveis, e, de forma resumida, apresentar uma prévia do trabalho que pode ser realizado, e o tipo de informação que pode ser oferecido à comissão técnica.

### Aquisição dos dados

Os dados utilizados nesse projeto foram disponibilizados pela [LNB]('https://lnb.com.br/liga-ouro/'), e são referentes à temporada 2019 da Liga Ouro, divisão de acesso ao NBB.

In [0]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

sns.set()

In [0]:
# importando dados do time temporada 2019
df_ouro = pd.read_csv('https://raw.githubusercontent.com/rafaelnduarte/Cerrado_Basquete/master/data/Cerrado_stats.CSV', encoding='latin-1')

# importando dados de jogos / rodada 1 - turno 1 / 2019
df_t1 = pd.read_csv('https://raw.githubusercontent.com/rafaelnduarte/Cerrado_Basquete/master/data/cerrado_r1_t1.csv',encoding='latin-1')

# importando dados de jogos / rodada 1 - turno 2 / 2019
df_t2 = pd.read_csv('https://raw.githubusercontent.com/rafaelnduarte/Cerrado_Basquete/master/data/cerrado_r1_t2.csv', encoding='latin-1')

# imoprtando dados dos jogadores na temporada 2019
df_players = pd.read_csv('https://raw.githubusercontent.com/rafaelnduarte/Cerrado_Basquete/master/data/liga_ouro_players.csv', encoding='latin-1')



In [9]:
df_ouro.head(7)

Unnamed: 0,id,equipe,ef,jo,pts,3pc,3pt,3p_pct,2pc,2pt,2p_pct,llc,llt,ll_pct,en,rt,ro,rd,as,br,et,vi,er,br_er,ia_pct,to,fc,t_fc,dd,td
0,1,Oral Sin/Campo Mourao,88.76,21,82.62,8.62,26.71,32.26,20.95,42.24,49.61,14.86,21.24,69.96,0.76,41.71,12.48,29.24,15.0,9.52,15.71,2.95,15.71,0.61,0.95,1.52,22.71,0.07,0.0,0.0
1,2,Sao Paulo,90.04,24,80.83,6.04,19.13,31.59,24.17,49.38,48.95,14.38,20.08,71.58,2.21,42.83,13.13,29.71,13.83,7.75,14.58,2.33,14.58,0.53,0.95,3.67,19.71,0.19,0.0,0.0
2,3,Rio Claro,81.0,16,79.81,9.06,27.56,32.88,18.75,35.38,53.0,15.13,22.5,67.22,1.06,37.75,9.19,28.56,14.13,6.69,15.81,3.19,15.81,0.42,0.89,1.0,21.94,0.05,0.0,0.0
3,4,UNIFACISA,85.72,25,78.72,7.44,22.32,33.33,22.56,45.04,50.09,11.28,17.44,64.68,1.52,41.08,12.04,29.04,37.79,6.48,12.04,2.32,12.04,0.54,27.64,2.12,18.76,0.11,0.0,0.0
4,5,Cerrado Basquete,75.94,16,78.25,8.81,27.44,32.12,17.88,37.13,48.15,16.06,22.94,70.03,0.25,37.81,9.63,28.19,11.5,7.38,15.56,3.19,15.56,0.47,0.74,1.31,18.06,0.07,0.0,0.0
5,6,Pato Basquete,77.71,14,77.5,9.43,29.36,32.12,16.93,33.86,50.0,15.36,23.07,66.56,0.57,40.57,12.0,28.57,11.64,5.14,13.64,2.71,13.64,0.38,0.85,1.43,23.0,0.06,0.0,0.0
6,7,Londrina,80.39,18,75.11,7.61,22.78,33.41,19.17,36.94,51.88,13.94,22.11,63.07,0.67,36.5,8.72,27.78,13.06,6.61,11.39,3.22,11.39,0.58,1.15,1.78,18.94,0.09,0.0,0.0


In [10]:
df_players.head()

Unnamed: 0,rank,jogador,equipe,jo,min,ef,pts,rt,as,br,to,er
0,1,Vieira #11,Cerrado Basquete,16,33.92,19.81,22.75,6.56,4.25,2.06,0.06,4.75
1,2,Tatum #2,Rio Claro,11,28.13,18.64,16.45,6.91,2.55,0.91,0.45,1.82
2,3,Jones #2,São Paulo,22,36.11,17.05,18.55,6.32,2.32,1.14,0.23,2.05
3,4,Gerson #1,Basquete Blumenau,13,32.88,16.92,16.15,9.46,1.54,0.85,0.62,2.54
4,5,Stocks #23,São Paulo,22,33.87,15.91,17.18,4.09,4.68,2.41,0.09,3.68


In [16]:
df_t1.head(7)

Unnamed: 0,fase,rodada,mandante,WId,LId,Wpts,Lpts,Wa3c,La3c,Wa2c,La2c,Wllc,Lllc,Wrt,Lrt,Wass,Lass,Wto,Lto,Wen,Len,Wbr,Lbr,Wfc,Lfc,Wef,Lef
0,1,1,5,5,3,68,61,8,6,12,15,20,13,46,35,12,12,2,2,0,0,10,15,24,30,63,51
1,1,1,5,2,5,72,71,6,10,21,15,12,11,41,35,13,13,2,1,2,0,6,10,17,17,73,70
2,1,1,8,5,8,84,74,8,7,18,22,24,9,39,43,7,18,0,4,0,4,9,4,12,25,89,73
3,1,1,6,5,6,81,80,6,8,25,21,13,14,35,42,6,11,1,3,0,0,7,6,22,23,79,78
4,1,1,5,5,4,82,75,14,4,13,26,14,11,36,49,16,16,2,2,1,2,4,7,17,19,82,87
5,1,1,1,1,5,86,67,9,4,27,16,5,23,45,38,20,5,4,0,0,0,9,9,26,15,103,43
6,1,1,7,7,5,90,86,7,9,23,23,23,13,36,40,15,10,4,0,0,0,6,4,22,22,109,75


In [19]:
df_t2.head(7)

Unnamed: 0,fase,rodada,mandante,WId,LId,Wpts,Lpts,Wa3c,La3c,Wa2c,La2c,Wllc,Lllc,Wrt,Lrt,Wass,Lass,Wto,Lto,Wen,Len,Wbr,Lbr,Wfc,Lfc,Wef,Lef
0,1,2,5,5,8,81,70,14,4,10,22,19,14,44,41,16,18,1,2,0,2,88,9,23,23,83,78
1,1,2,3,5,3,87,74,9,5,23,20,14,19,35,43,10,7,0,2,0,0,7,6,19,17,89,70
2,1,2,2,2,5,81,69,5,9,29,16,8,10,45,35,17,9,8,1,4,1,7,8,14,15,101,62
3,1,2,5,6,5,93,76,10,9,22,20,19,9,43,34,18,11,3,2,2,1,6,3,17,17,113,72
4,1,2,5,7,5,85,76,14,8,16,18,11,16,48,44,17,18,5,2,0,0,4,11,16,22,99,89
5,1,2,5,1,5,91,88,12,8,23,23,9,18,51,42,17,15,3,2,1,0,12,7,24,13,108,87
6,1,2,4,4,5,103,84,9,9,31,17,14,23,44,33,16,10,1,2,1,0,12,4,25,17,121,77


In [21]:
# juntando datasets das temporadas
df_t1_idx = df_t1.shape[0]
df_t2_idx = df_t2.shape[0]

df_temp = pd.concat(objs=[df_t1, df_t2], axis=0).reset_index(drop=True)

print("Shape of the DataFrame")
print("Variables:\t{}\nEntries:\t{}".format(df_temp.shape[1], df_temp.shape[0]))


Shape of the DataFrame
Variables:	27
Entries:	14
