# Turing Academy 

## Aula 2: Bibliotecas

### Questões

Para começar, importe as bibliotecas necessárias (NumPy, Pandas, Matplotlib e Seaborn) com seus "apelidos":

## Pandas: manipulação de dados em *DataFrames*

Nesse notebook, serão utilizados dois arquivos do tipo **csv**, são eles: `jogos_info.csv`, que contém o nome dos jogos e algumas de suas informações — como ano de lançamento e a *publisher* — e `jogos_vendas.csv`, que também contém o nome dos jogos e o número de vendas. Abra cada um dos arquivos em *dataframes* usando Pandas e junte os dois em um só *dataframe*, que será utilizado para as análises e os gráficos.

Mostre as características do *dataset*: 

* exiba suas 10 primeiras linhas;
* mostre as informações de cada coluna; 
* descreva as colunas que possuem dados numéricos.

Remova as linhas que possuem dados faltantes

Agora, crie no *dataframe* uma coluna que forneça o número de vendas totais, chamada `'Global_Sales'`.

Crie um *dataframe* que contenha os jogos disponíveis para o NES. Mostre a média de vendas globais, o jogo mais popular da plataforma e o menos popular também.

No *dataframe* original, encontre:

* o jogo mais popular do primeiro ano presente nos dados;
* o jogo mais popular do último ano também presente nos dados.

Além disso, mostre todas as informações disponíveis no *dataframe* para cada um dos jogos acima.

Procure seu jogo favorito. Se encontrá-lo, mostre sua linha do *dataframe*:


## Matplotlib e Seaborn: visualização e análise dos dados

Agora, com esse mesmo *dataframe*, vamos visualizar os seus dados e as correlações existentes entre eles — como suas variações ao longo do tempo ou entre países. 

### Gráficos de Linha

Inicialmente, vamos verificar como se comportaram as vendas globais ao longo das 4 décadas que o dataset cobre. Considerando o fator "tempo", é interessante visualizarmos um gráfico de linha.

Utilize Seaborn para plotar o gráfico de linha: Vendas globais X Tempo.

### Plots categóricos

Agora, vamos verificar o número de vendas por região através de dois gráficos: um gráfico de barras e um gráfico de setores. Para isso, vamos utilizar o jogo **Super Mario Bros.** de 1985.

* Utilize Seaborn ou Matplotlib para plotar um gráfico de barras.
  * Nele, cada barra deve ser uma região contemplada no dataset (NA, EU, JP e outros) e sua altura fica determinada pela quantidade de vendas.
  
    
* Utilize Matplotlib para plotar um gráfico de setores (*pizza*).
  * Nele, cada repartição deve ser uma região contemplada no dataset (NA, EU, JP e outros) e sua área fica determinada pela quantidade relativa de vendas (percentual de vendas).

* Não esqueça de melhorar a apresentação do seu gráfico: adicione um título e uma legenda para o eixo y.

***
**Dicas:**
* Utilizar a Seaborn é um pouco mais intuitivo para o gráfico de barras.
* Certifique-se de criar uma legenda para os valores do eixo x — e.g. uma lista com o nome de cada uma das regiões.
* Para obter a altura de cada a barra, o método `DataFrame.iloc` é uma boa alternativa.
***

Sua próxima tarefa: condensar informações. Como os dois gráficos anteriores acabam sendo complementares, exiba ambos em uma mesma figura, lado a lado.

Utilize Matplotlib para plotar o gráfico de barras e o gráfico de setores lado a lado, em uma mesma figura.

***
**Dicas:**
* Utilize `plt.subplot()` para criar vários gráficos em uma mesma figura;

* Se achar necessário, aumente o tamanho da figura;

* Nos subplots, costuma ser mais intuitivo utilizar apenas gráficos da Matplotlib, mas isso não é necessário;

* Quando utilizamos *subplots*, alguns comandos (como de título e legenda) passam a ser precedidos por `set_`.
  * Isto é: `plt.ylabel()` transforma-se em `ax.set_ylabel()`; sendo `ax` a variável que armazena um determinado *subplot*.
***

### Plots Estatísticos

Utilizando Matplotlib, faça um histograma do número de vendas para `JP_Sales`:

Percebemos então uma grande concentração dos dados. Para ajudar a explicar esse fato, mostre a porcentagem de jogos que passaram de 1 milhão de vendas.

Então, para dar mais utilidade aos gráficos, devemos agora recortar nosso *dataset*. Reutilizando os conceitos de *slicing* do NumPy, crie, por meio dos operadores lógicos dessa biblioteca, um **novo *dataframe*** que satisfaça as seguintes condições:
  * `NA_Sales < 1`
  * `EU_Sales < 0.1`

***
**Dica:**
* O NumPy introduz funções que atuam como os operadores lógicos (`and`, `or` e outros), mas que são mais abrangentes.
***

Finalmente, vamos voltar a olhar para a distribuição dos dados. Considerando esse novo dataset, exiba as curvas de distribuição de densidades para as vendas na América do Norte.

Utilize Seaborn para plotar a curva de distribuição de densidades (isto é, o "histograma suavizado") para as vendas.

Com esse mesmo dataset, podemos verificar uma outra forma de visualizar dados: *boxplot*. Esse plot existe tanto na biblioteca Matplotlib quanto na Seaborn, ficando a sua escolha qual utilizar.

### Plots de Correlação

Seu objetivo agora é verificar se as vendas na América do Norte acompanham as vendas na Europa, ou se elas correlacionam-se melhor com as vendas no Japão. Para isso, utilizaremos *scatterplots*. 

* Utilize Seaborn para plotar o gráfico de dispersão de vendas na Europa por vendas na América do Norte.
  * Os marcadores devem se diferenciar pela coloração consoante o **ano de lançamento** do jogo.


* Utilize Seaborn para plotar o gráfico de dispersão de vendas no Japão por vendas na América do Norte.
  * Os marcadores devem se diferenciar pela coloração consoante o **gênero** do jogo.

***
**Observação:** para esses gráficos, utilize o *dataset* original.
***

Ainda que os dados continuem substancialmente amontados (afinal, temos uma grande quantidade deles), já percebemos que existe uma correlação maior do número de vendas na América do Norte com o número de vendas na Europa. Para verificar isso de fato: através de uma mapa de calor exiba a matriz de correlação do dataset.

* Utilize a biblioteca Pandas para criar a matriz de correlação do dataset.

* Através da Seaborn plote o *heatmap* da matriz de correlação.

***
**Dicas:**
* Lembre-se de que em uma matriz de correlação os valores oscilam entre -1 e 1;
* Utilize o parâmetro `annot=True` para garantir que os valores estejam no interior das células.
***