### - Título e nome dos integrantes;
### - Introdução: motivação e objetivos da análise;
### - Dados usados: descrição do(s) dataset(s) e exploração inicial dos dados;
### - Pré-processamento: limpeza e transformação dos dados necessários, explicando as decisões tomadas;
### - Perguntas: mostrar cada pergunta e executar o passo a passo para respondê-las (vocês devem utilizar regressão linear ou agrupamento em pelo menos uma pergunta);
### - Conclusão: resumir os resultados encontrados e explicar por que são importantes. Apontar limitações, trabalhos futuros e melhorias que podem ser feitas.

In [3]:
import numpy as np
import pandas as pd
import statistics as st
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.cluster import KMeans
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D

In [4]:
df = pd.read_csv('./Datasets/stats_pl.csv')

## Universidade Federal da Paraíba
## Centro de Informática
## Curso: *Ciência de Dados e Inteligência Artificial*
## Grupo: *Arthur Ricardo, Danilo Henrique, Vinicius dos Santos*
    
## <h1><center><font color='red'> Data analysis of COVID-19 and Status of the PL</font></center></h1>

# 1. Introdução

O presente trabalho tem como objetivo aprofundar o conhecimento em ciência dados analisando datasets através de métodos como medidas de centralidade e dispersão, visualização de dados, limpeza e transformação, aplicações de regressão linear e agrupamentos.
 
Os datasets utilizados foram sobre o COVID-19 e Status da Premier League. Com eles foi possível definirmos objetivos como analisar a correlação entre duas features e visualiza-las gráficamente através de agrupamentos utilizando o algoritmo KMeans e como predizer um resultado de acordo com as informações contidas nos datasets.
    
Para fazer a análise do dataset é preciso verificar se os dados estão prontos para serem testados, com isso verificamos a presença de dados duplicados, faltantes e a correlação alta entre features. Depois de identificarmos essas features fazemos a limpeza e transformação no dataset.

Utilizando a linguagem Python e com o auxílio de diversas bibliotecas como Pandas, Numpy, Seaborn, Sklearn, entre outras, podemos realizar todos os cálculos e visualizar graficamente os resultados.

## 2. Dados Usados

### 2.1 Status da Premier League

O dataset *Status da Premier league* são estatísticas coletadas do Opta (coletor de estatísticas oficiais da Premier League) de cada equipe em cada temporada (totais da temporada) de 2006/2007 (ou seja, a temporada a partir da qual a coleta dessas estatísticas detalhadas começou) a 2017/2018.

As estatísticas podem ser categorizadas da seguinte forma:

**Geral**

*Colunas* (1-5)

wins, losses, goals, yellow cards, red cards

**Ataque**

*Colunas 6-15*

shots, shots on target, hit woodwork, goals from header, goals from penalty, goals from free kick, goals from inside box, goals from outside box, goals from counter attack, offsides

**Defesa**

*Colunas 16-28*

clean sheets, goals conceded, saves, blocks, interceptions, tackles, last man tackles, clearances, headed clearances, own goals, penalties conceded, goals conceded from penalty

**Time**

*Colunas 29-34*

passes, through balls, long passes, backwards passes, crosses, corners taken

**Outros**

*Colunas 35-42*

touches, big chances missed, clearances off line, dispossessed, penalties saved, high claims, punches, season

### 2.2 COVID-19

O dataset do COVID-19 possui 103 linhas e 13 colunas. Cada linha é uma região e as colunas informam a população da região, o número de casos, o número de mortes, o número de testes entre outras informações.

### 3. Exploração Inicial dos Dados

Inicialmente carregamos e visualizamo os dados e fizemos uma exploração inicial, ou seja, acessamos colunas específicas, calculamos as médidas de centralidade e dispersão de algumas colunas e do dataset inteiro. Sendo assim, obtivemos a média, moda, mediana e desvio padrão dessas features e do dataset todo. 

As *medidas de centralidade* são calculadas da seguinte forma:

**Média**: Soma todos valores e divide pela quantidade de valores somados.

**Moda**: Retorna o termo que mais aparece.

**Mediana**: Retorna o termo do meio.

As *medidas de dispersão* são calculadas da seguinte forma:

**Variância**: A variância mede o quanto os valores estão espalhados em relação a média. Ela é a media das distâncias quadráticas de cada ponto até a média.

**Desvio padrão**: Tirando a raiz quadrada da variância obtivemos o desvio padrão.

### 3.1 Exploração Inicial dos Dados - Status da PL

In [5]:
df.mean()

wins                       14.150000
losses                     14.150000
goals                      51.062500
total_yel_card             61.079167
total_red_card              2.862500
total_scoring_att         514.241667
ontarget_scoring_att      168.116667
hit_woodwork               12.283333
att_hd_goal                 9.016667
att_pen_goal                3.650000
att_freekick_goal           1.495833
att_ibox_goal              43.341667
att_obox_goal               7.741667
goal_fastbreak              2.983333
total_offside              86.291667
clean_sheet                10.945833
goals_conceded             51.062500
saves                      51.736364
outfielder_block          132.133333
interception              555.179167
total_tackle              762.133333
last_man_tackle             5.900000
total_clearance          1252.416667
head_clearance            675.236364
own_goals                   1.966667
penalty_conceded            4.750000
pen_goals_conceded          3.650000
t

In [6]:
df.var()

wins                    3.627029e+01
losses                  3.132469e+01
goals                   2.625526e+02
total_yel_card          1.015711e+02
total_red_card          3.248797e+00
total_scoring_att       9.212000e+03
ontarget_scoring_att    1.501476e+03
hit_woodwork            2.324156e+01
att_hd_goal             1.338884e+01
att_pen_goal            4.211715e+00
att_freekick_goal       1.782409e+00
att_ibox_goal           2.051966e+02
att_obox_goal           1.338905e+01
goal_fastbreak          5.849093e+00
total_offside           4.299899e+02
clean_sheet             1.722300e+01
goals_conceded          1.744940e+02
saves                   3.181674e+03
outfielder_block        1.020275e+03
interception            1.998350e+04
total_tackle            1.096297e+04
last_man_tackle         2.955481e+01
total_clearance         1.070817e+05
head_clearance          3.347567e+04
own_goals               2.166248e+00
penalty_conceded        5.117155e+00
pen_goals_conceded      3.726360e+00
t