# Projeto #1 - Análise Exploratória de Dados

[Instruções](https://github.com/thvmm/pos-ds-ia/tree/master/projeto_1#instru%C3%A7%C3%B5es) e [Critérios de Avaliação](https://github.com/thvmm/pos-ds-ia/tree/master/projeto_1#crit%C3%A9rios-de-avalia%C3%A7%C3%A3o)


### 1) **(5%)** Qual a base escolhida e qual seu interesse nela?

A base de dados escolhida para realização deste projeto foi a [NFL Statistics](https://www.kaggle.com/kendallgillies/nflstatistics), que contém dados de Scouts dos jogadores durante a temporada da NFL (National Football League), a liga mais famosa de Futebol Americano.
O Dataset escolhido contém dados de diversos eventos que ocorrem em uma partida do esporte (Punts, Passing, Running, Field Goal Kicks e etc), esses eventos foram agrupados em arquivos do tipo *csv* por partidas e por temporada desde 1947 até 2016.

O objetivo deste projeto é utilizar, dentre os dados da base, *Career_Stats_Passing.csv* e *Game_Logs_Quarterback.csv* para realizar uma análise exploratória do perfil de *Passing* dos Quarterbacks da NFL.

A proposta é fazer uma análise entre os Quarterbacks campeões para analisar e tentar definir, visualmente, um perfil de Passing entre os campeões do esporte (*Campeões da NFL*).
Outra proposta é realizar uma análise do Quarterback campeão em relação aos demais na temporada, para isso a base 
Qual foi o comportamento desse profissional em relação aos outros Quarterbacks que atuaram na sua temporada?
Quais Quarterbacks também obtiveram um perfil parecido com o perfil dos *Campeões da NFL*?


### 2) **(5%)** Descrição básica do conjunto de dados escolhido pelo aluno (1 parágrafo).
- Identificação da variável a serem trabalhadas
- Classificação das variáveis como: contínua ou discreta.


O conjunto de dados *Career_Stats_Passing.csv* contém as seguintes informações que serão utilizados nas análises

### Identificadores
* Identificador do Jogador (variável discreta) - *Player Id*

* Ano da temporada (variável discreta) - *Year*

* Time do Quarterback (variável discreta) - *Team*

### Features
* Número de jogos na temporada (variável discreta) - *Games Played*

* Número de tentativas de passe (variável discreta) - *Passes Attempted*

* Porcentagem de passes completos (variável contínua) - *Completion Percentage*

* Jardas ganhas por jogo (variável discreta) - *Passing yards*

* Média de jardas ganhas por jogo (variável contínua) - *Passing yards per game*

* Taxa de Interceptações por jogo (variável contínua) - *Int Rate*

* Número de Sacks (variável discreta) - *Sacks*

* Nota do Quarterback em passes (variável contínua) - *Passer Rating*





### 2) **(15%)** Faça uma avaliação descritiva da sua base. Quantas linhas ela possui? Quais os tipos de dados? Quantas e quais features possuem?

Cada variável escolhida pelo aluno precisa passar por ao menos 1 pré-processamento. O pré-processamento pode ser (mas não está limitado a):
- Checagem se os valores estão dentro de um limite permitido ou razoável.
- Tratamento de valores ausentes por eliminação ou substituição.
- Conversão do tipo de dados.


In [324]:
# Importing packages
import pandas as pd
import numpy as np

In [311]:
# Filter features to be considered in my analysis

selected_data = ['Player Id', 'Year', 'Team', 'Games Played','Passes Attempted', 'Completion Percentage',
'Passing Yards', 'Passing Yards Per Game',
'Int Rate', 'Sacks', 'Passer Rating']

pass_stats = pd.read_csv('data/Career_Stats_Passing.csv')
pass_stats = pass_stats[selected_data]
pass_stats.describe()

Unnamed: 0,Year,Games Played,Passes Attempted,Completion Percentage,Passing Yards Per Game,Int Rate,Sacks,Passer Rating
count,8525.0,8525.0,4347.0,4239.0,4337.0,4239.0,4347.0,8525.0
mean,1982.052551,10.294311,121.799172,46.688818,76.568388,7.43482,7.73545,32.226111
std,23.822176,5.305723,170.226894,27.811635,88.260241,16.452146,12.330431,40.485956
min,1924.0,0.0,0.0,0.0,-4.0,0.0,0.0,0.0
25%,1965.0,6.0,2.0,33.3,1.2,0.0,0.0,0.0
50%,1985.0,12.0,26.0,50.8,31.0,3.1,0.0,0.0
75%,2003.0,15.0,201.0,60.0,151.3,6.6,12.0,64.9
max,2016.0,17.0,727.0,100.0,342.3,100.0,76.0,158.3


In [325]:
# Filter relevant data
pass_stats = pass_stats[
    (pass_stats.Year <= 2016) &
    (pass_stats.Team != '') &
    (pass_stats['Player Id'] != None)]

In [326]:
# Format some features to type integer

int_features = ['Games Played', 'Passes Attempted', 'Sacks']

for col in int_features:
    pass_stats[col] = pass_stats[col].fillna(0).astype(int)


In [327]:
# Format some features to type float
float_features = ['Completion Percentage', 'Passing Yards', 'Passing Yards Per Game', 'Int Rate', 'Passer Rating']

for col in float_features:
    pass_stats[col] = pass_stats[col].replace(',', '.', regex=True).fillna(0).astype(float)

In [328]:
# Format some features to type str
str_features = ['Team']

for col in str_features:
    pass_stats[col] = pass_stats[col].astype(str).fillna('')

### Após o processamento de dados realizado acima, minha base possui as seguintes features e seus respectivos tipo de dados:

In [316]:
pass_stats.dtypes

Player Id                  object
Year                        int64
Team                       object
Games Played                int64
Passes Attempted            int64
Completion Percentage     float64
Passing Yards             float64
Passing Yards Per Game    float64
Int Rate                  float64
Sacks                       int64
Passer Rating             float64
dtype: object

In [329]:
# Normalize 'Completion Percentage' from 0 to 1
pass_stats['Completion Percentage'] = pass_stats['Completion Percentage'] / 100
pass_stats['Completion Percentage'].describe()

count    8.525000e+03
mean     2.321571e-13
std      3.048892e-13
min      0.000000e+00
25%      0.000000e+00
50%      0.000000e+00
75%      5.060000e-13
max      1.000000e-12
Name: Completion Percentage, dtype: float64

In [308]:
# Set a minimum considered values of Passes Attempted and Games Played
pass_stats = pass_stats[(pass_stats['Passes Attempted'] >= 10) & (pass_stats['Games Played'] > 5)]

### 4) **(60%)** Nos blocos seguintes construa análises que vão justificar suas conclusões.

#### 4.1) **(20%)** Análise 1 -  Distribuição dos valores para cada uma das variáveis
- Exemplo para variável contínua: se o conjunto de dados possui a variável "idade". Quantos % possui a idade entre 0 e 30 anos? 31 a 59? 60+?

- Exemplo para variável discreta: se o conjunto de dados possui a variável "gênero", quantos % do conjunto de dados é do sexo feminino, quantos % é masculino? Inclua outros gêneros se houver.


Quantos porcentos 

In [297]:
more_than_70 = pass_stats[(pass_stats['Completion Percentage'] >= 0.65)]

more_than_70 = more_than_70.sort_values('Completion Percentage', ascending = False)
len(more_than_70) / len(pass_stats)

0.07022900763358779

#### 4.2) **(20%)** Análise 2 - Dependência entre variáveis
O aluno deve apresentar as mesmas distribuições para cada valor da variável dependente. Exemplo: Em um conjunto de dados em que as variáveis independentes são idade e sexo, e a variável dependente é renda. O aluno pode dividir a renda em 3 "grupos", <1000 reais, entre 1000 e 10000 reais e >1000 reais. Para cada um desses grupos, é necessário apresentar a distribuição das variáveis "idade" e "sexo".


In [9]:
# Implemente sua análise aqui. Use mais blocos se achar que ficará mais organizado.

#### 4.3) **(20%)** Análise 3 - Correlação entre variáveis

O aluno deve apresentar 3 análises de correlação entre variáveis do conjunto de dados trabalhado. Exemplo: Em um conjunto de dados com as informações de temperatura e ocorrência de incêndios, eu gostaria de saber a incidência de correlação entre as duas variáveis.



In [10]:
# Primeiro par de variáveis: Implemente sua análise aqui. Use mais blocos se achar que ficará mais organizado.

In [11]:
# Segundo par de variáveis: Implemente sua análise aqui. Use mais blocos se achar que ficará mais organizado.

In [12]:
# Terceiro par de variáveis: Implemente sua análise aqui. Use mais blocos se achar que ficará mais organizado.

### 5) Conclusões **15%**

*O que é possível concluir com os dados que você analisou? Se fosse fazer uma apresentação, o que levaria como os maiores destaques e por que?*