**Projeto Final - Disciplina: Softwares para uso em Ciência de Dados II**
* **Professor: Marcos Guimarães**
* **Análise de Dados - UFC**

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in 

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Any results you write to the current directory are saved as output.

**Base de dados com registros de todas as lutas do UFC desde 2013**

UFC - Ultimate Fighting Championship, uma organização americana de artes marciais mistas, também conhecida por MMA (Mixed Martial Arts).

As lutas deste campeonato envolvem uma mistura de estilos, como o Jiu Jitsu, Boxe, Wrestling, Muay Thay, Karate e outras.

Uma das particularidades dos campeonatos UFC é o ringue de oito lados (octógono), fechados por uma grade, onde os lutadores combatem em 3 assaltos de 5 minutos. Em lutas de disputa do título são 5 assaltos de 5 minutos.

As análises foram realizadas com uma base de dados que contém registros de lutas desde 1993. Para uma melhor visualização foram seleccionadas apenas 11 variáveis.



**O primeiro passo foi realizar o carregamento da base de dados**
Como a base está no formato csv, o carregamento será realizado utilizando os comando pd.read_csv

In [None]:
data = pd.read_csv('/kaggle/input/ufcdata/data.csv')

**As próximas etapas consiste em uma análise exploratória da base de dados. **


In [None]:
#Analisando a base
data.info()

**Através do comando verificamos que a base de dados possui 145 entradas da coluna R_fighter até a R_age**


**Para visualizar melhor o conteúdo da base de dados será realizada uma análise com o comando data.head**

In [None]:
#Visualizando o dataframe
data.head(10)

**Para faciliar as análise foram selecionadas 11 variáveis (colunas)**

In [None]:
#Selecionando apenas as variáveis necessárias para a analise 
df = pd.DataFrame(data,columns=['R_fighter','B_fighter', 'R_age', 'date','weight_class','location','Winner','R_wins','B_wins', 'B_age', 'no_of_rounds'])

**Após o carregamento do novo dataframe (df), foi realizada nova análise exploratória**

In [None]:
#Verificando as informações do novo dataframe df
df.info()

In [None]:
df['date'].min()

**A nova análise identificou valores missings em duas variáveis R_age, B_age**

In [None]:
df['date'].describe()

In [None]:
#Verificando se existem valores nulos
pd.isnull(df)

**Foi realizada uma análise para confirmar a existente de valores nulos**

In [None]:
df.isnull().sum

** Para uma melhor análise dos dados, optou-se por realizar a imputação de dados pela média de idade dos Lutadores. **

In [None]:
#Imputação de idade pela média nos lutadores do time Vermelho
from scipy.stats import mode
mode(df['R_age'])
mode(df['R_age']).mode[0]
df['R_age'].fillna(df['R_age'].mean(), inplace=True)

In [None]:
#Imputação de idade pela média nos lutadores do time Azul
from scipy.stats import mode
mode(df['B_age'])
mode(df['B_age']).mode[0]
df['B_age'].fillna(df['B_age'].mean(), inplace=True)

In [None]:
#Verificando se os dados foram imputados
df.info()

**Após a imputação dos dados e realizar uma nova análise para verificar se os valores foram realmente inputados, foi realizada uma anális descritiva nos dados**

In [None]:
#Realizando analise descritiva após a imputação dos dados
df.describe()

**A analise foi realizada nas variáveis numericas, o resultado mostra:**
* Média de idade dos lutadores do time azul: 29 anos, com desvio padrão de 4, sendo que 75% possui idade de 32 anos e 25% até 26 anos
* Média de idade dos lutadores do time vermelho: 29 anos, com desvio padrão de 4,11, sendo que 75% possui idade de 32 anos e 25% até 26 anos
Ou seja os times em relação a idade são muito parecidos. 
No que se refere a vitórias temos:
* Média de vitórias do time azul: 2,48 contra 3,59 do time vermelho com média de 3,11 rounds
* O número máximo de vitórias foi: 20 para o time vermelho e 23 para o time azul

**Para melhorar as análises foi realizada conversão do campo date e em seguida separação 'Ano', 'Mês', 'Dia'**

In [None]:
#converter o campo date
df['date']= pd.to_datetime(df['date'])

In [None]:
#criando novas colunas com base na data
df['day'] = df['date'].dt.day
df['month'] = df['date'].dt.month
df['year']= df['date'].dt.month

In [None]:
#Realizando uma análise descritiva no dataframe
df.head()

**Para uma melhor análise foi realizada o agrupamento da variável mês por número de vitorias e feito o calculo da média**
**Optou-se por apresentar o resultado em forma de gráfico de linhas**

In [None]:
#Média de vitórias por mês, lutadores do time vermelho
df.groupby('month')['R_wins'].mean()

In [None]:
import matplotlib.pyplot as plt
plt.plot(df.groupby('month')['R_wins'].mean())
plt.xlabel('Ano')
plt.ylabel('Média de Vitórias')
plt.title('Média de vitórias por mês Lutadores Vermelhos')

In [None]:
#Média de vitórias por mês, lutadores do time Azul
df.groupby('month')['B_wins'].mean()

In [None]:
plt.plot(df.groupby('month')['B_wins'].mean())
plt.xlabel('Ano')
plt.ylabel('Média de Vitórias')
plt.title('Média de vitórias por mês Lutadores Azul')

In [None]:
import seaborn as sns

In [None]:
df.corr()

In [None]:
#GRÁFICO DE CORRELAÇÃO JUNTAMENTE COM A DISTRIBUIÇÃO - Vitórias X Idade dos lutadores
Correlacao= df[['R_wins','no_of_rounds','R_age']]
Correlacao
sns.jointplot(data=Correlacao,y='R_wins',x='R_age',kind='reg', color='r')


**Apesar de demonstrar uma relação linear, observa-se altos valores de resíduos quando analisamos a distribuição das variáveis, principalmente a variável R_age que demonstra maior assimetria*

In [None]:
#GRÁFICO DE CORRELAÇÃO JUNTAMENTE COM A DISTRIBUIÇÃO - Vitórias X Idade dos lutadores
Correlacao= df[['B_wins','no_of_rounds','B_age']]
Correlacao
sns.jointplot(data=Correlacao,y='B_wins',x='B_age',kind='reg', color='b')

**Apesar de demonstrar uma relação linear, observa-se altos valores de resíduos quando analisamos a distribuição das variáveis, principalmente a variável B_age que demonstra maior assimetria*

**Nas análises abaixo, foram realizadas com gráficos de boxplot.
Com objetivo de verificar a variação das idades em relação as quantidade vitórias de cada time 'azul' ou 'vermelho'**

In [None]:
sns.boxplot(x='year', y='B_wins', data=df)

In [None]:
sns.boxplot(x='year', y='R_wins', data=df)

In [None]:
#Box plote mês Vitórias
fig, ax1 = plt.subplots(1, 1, figsize=(15, 4))
sns.boxplot('month', 'R_wins', data=df, ax=ax1)

In [None]:
fig, ax1 = plt.subplots(1, 1, figsize=(15, 4))
sns.boxplot('month', 'B_wins', data=df, ax=ax1)

**Analise do número de vitórias entre os dois times 'Azul' e 'vermelho'
Visualização da correlação dessas variávies em gráficos de histograma e gráfico de dispersão**

In [None]:
sns.pairplot(df, height=3, vars=["B_wins", "R_wins"])

**Em relação aos lutadores dos dois times 'azul' e 'vermelho' percebe-se que as vitórias são pouco correlacionadas e que ambos os times possuem simetria a direita**

In [None]:
#Analise do número de vitorias entre os lutadores do time Vermelho e Azul 
fig, ax = plt.subplots(1, figsize=(15, 5))
sns.distplot(df['R_wins'])
sns.distplot(df['B_wins'])
plt.legend(labels=['Azul','Vermelho'], loc="upper right")

**O gráfico apresenta a distribuição de vitórias dos dois times 'azul' e 'vermelho'. Verifica-se que o time vermlho possui um número maior de vitórias e uma distribuição menos homogênia em relação ao time azul. Ambos com simetria a esquerda.**

In [None]:
#Gráfico de barras Lutas por idade lutadores azul
sns.barplot(x='year',y='B_wins', data=df)
plt.title('vitórias por ano lutadores Azuis')
plt.xlabel('Ano')
plt.ylabel('Número de Vitórias')

In [None]:
#Gráfico de barras Lutas por idade lutadores vermelho
sns.barplot(x='year',y='R_wins', data=df)
plt.title('vitórias por ano lutadores Vermelhos')
plt.xlabel('Ano')
plt.ylabel('Número de Vitórias')