<center><div style="font-size:32px;display:inline-block;line-height:1.1;font-weight:bold;margin:0 0 15px" class="aula-title">Capítulo 9: dicionários e a biblioteca Pandas</div></center>

# Atividade 1: Dicionários

Dicionários, ou arrays associativos, são uma das estruturas de dados presentes na linguagem Python.

Os dicionários são pares de chave-valor. São vistos como **mapeamentos** (uma coleção associativa ordenada) em Python. Mapeamentos são uma coleção de objetos identificados por **chaves**. As listas, por exemplo, são sequências e identificadas pela sua posição relativa. Já os dicionários são **identificados** pela sua chave correspondente.

A sintaxe de um dicionário é dada a seguir:

> ```
>meu_dicionario = {
>    key1: value1,
>    key2: value2,
>    key3: value3
>    }
```

Outra forma:

> ```
> meu_dicionario = {key1: value1, key2: value2, keyN: valueN}
>```

Outra forma:

>```
>dicionario = {}
>dicionario['Elemento 1'] = 'Valor 1'
>dicionario['Elemento 2'] = 'Valor 2'

In [None]:
port_ingles = {"oi": "hi", "bom": "good", "tchau": "bye"}

In [None]:
salario = {"Vendas": 3000, "Administrativo": 5000, "TI": 2500}

Uma chave possui apenas um valor, que pode ser de qualquer tipo.

### Exemplo 1: criando um dicionário

In [None]:
# dicionario de notas

Para acessar uma chave específica, a sintaxe é similar ao acesso em uma lista. Porém, ao invés de passar a posição do elemento, passa-se a **chave**. Se o seu dicionário for impresso em uma ordem diferente da minha, não se preocupe. A ordem não importa e é randomica.

In [None]:
alunos['Ana']

### Exemplo 2: alguns métodos dos dicionários

**Método `keys()`**: recebe um dicionário e retorna uma lista com as chaves.

**Método `values()`**: também retorna uma lista de valores do dicionário.

**Método `items()`**: retorna uma lista de tuplas cujo os elementos são chave, valor.

Os métodos citados acima não recebem parâmetros ao serem invocados.

No Python 2.x existia o método **`has_key()`**, porém foi retirado do python 3.x. Na atual versão, o equivalente a este método é o **operador** `in`, que retorna `True` se a chave estiver contida no dicionário; senão, `False`.

**Método `len()`**: retorna o comprimento de um dicionário.

**Método `del`**: remove um item do dicionário.

**Tarefa 1:** crie uma lista de telefone com 5 contatos.

**Tarefa 2:** percorra o dicionário e imprima as chaves.

**Tarefa 3:** percorra o dicionário e imprima as chaves e os valores.

---

# Atividade 2: biblioteca `pandas`

A biblioteca `pandas` é uma das bibliotecas mais famosas e utilizadas, principalmente em ciência de dados.

Você pode verificar a documentação oficial no site abaixo:

> https://pandas.pydata.org/docs/

De acordo com a própria documentação do pandas, esta biblioteca é construída em cima do NumPy e a ideia é ser integrada a outras de uso majoritariamente científico. Além de ser também uma dependência da  `statsmodels`, uma importante biblioteca estatística.

Primeiro, vamos importar o pandas com a sintaxe a seguir:
>```
> import pandas as pd
```

### Exemplo 3: importanto a biblioteca `pandas`.

Existem dois principais objetos na biblioteca `pandas` que são os `DataFrame` e as `Series`. A diferença entre eles consiste na dimensão de dados, onde a primeira é *2-Dimensional* e comporta diferentes tipos de dados e a segunda é *1-Dimensional* e homogênea.

`DataFrame` são tabelas, em que cada entrada corresponde a uma linha e uma coluna, respectivamente. 

### Exemplo 2: criando `DataFrame`

No DataFrame acima você criou um dado tabular alocando em uma variável chamada `df`. Esta é um nome comum para nomear os dataframes criados. Outra forma de se criar é:

>```pd.DataFrame( {} )```

<div style="font-size:12px;display:inline-block;line-height:1.1;font-weight:bold" class="obs">Obs.: não é uma boa prática este espaço entre os parênteses, porém foi utilizado apenas para fins didáticos.</div>



Perceba que a criação de um `DataFrame` é através de dicionários, em que as *keys* serão os **nomes das colunas** e o *value* será uma lista, que representa as **linhas**.

Um conjunto de dados bem famoso para quem inicia na biblioteca Pandas ou em análise de dados é o *Titanic*. Vamos trabalhar com ele inicialmente.

### Exemplo 3: guardando os nomes e as idades dos passageiros do navio Titanic.

**Tarefa 2:** crie um DataFrame que contenha nome de 5 alunos e as suas respectivas notas durante um ano letivo.

### Exemplo 4: mudando o `index`.

### Exemplo 5: importando DataFrame com `pandas_datareader`

Primeiro, vamos instalar a biblioteca `pandas_datareader`. Esta biblioteca é utilizada para acessar dados remotos, nela encontramos fontes como *Yahoo*, *Quandl*, *World Bank*, etc.

Digite no *powershell*:

>` conda install -c anaconda pandas-datareader`

Em seguida, importe o módulo `data` utilizando a seguinte sintaxe:

>` from pandas_datareader import data as web`

A documentação pode ser vista no seguinte link: https://pandas-datareader.readthedocs.io/en/latest/index.html.

O código acima indica como pegaremos os dados provenientes da web utilizando a biblioteca em questão.

Vamos utilizar o `pandas_datareader` para ter acesso aos preços diários de algumas ações listadas na bolsa de valores brasileira, a B3. Isso é útil quando se quer criar **modelos preditivos**, **analisar dados**, **otimizar uma carteira de investimento** ou **automatizar operações**.

### Exemplo 6: visualizando os dataframes

Esses conjuntos de dados referem-se aos preços negociados das ações diariamente desde 01 de janeiro de 2020. Trata-se de um conjunto temporal de dados (série temporal), ou seja, um conjunto cujo as observações são igualmente espaçadas ao longo do tempo.

Uma breve explicação sobre as colunas desses *datasets*:

- **High:** preço máximo daquele ativo no dia.

- **Low:** preço mínimo daquele ativo no dia.

- **Open:** preço de abertura do ativo.

- **Close:** preço de fechamento do ativo.

- **Volume:** volume financeiro negociado.

- **Adj Close:** preço de fechamento ajustado, ou seja, é o preço após a distribuição de dividendos, splits, etc.


### Exemplo 7: importando um DataFrame de um arquivo `.csv`

Na internet existem diversos sites em que você pode encontrar bases de dados, planilhas e conjuntos de dados no geral para se trabalhar. Vamos trabalhar com um arquivo csv chamado "Salary".

Para simplificar, baixe o arquivo no mesmo diretório dos seus notebooks.

A sintaxe para importá-lo é:

> ```pd.read_csv(caminho)```

<div style="font-size:12px;display:inline-block;line-height:1.1;font-weight:bold" class="obs">Obs.: lembre-se de, ao digitar o caminho, trocar o caracter `\` por `/`.</div>

Vamos guardá-lo em uma variável e, por curiosidade, vamos ver os parâmetros que o método `read_csv` recebe.

Para isso, ao digitar `pd.read_csv`, aperte as teclas `Shift + Tab`.

Vamos visualizar o nosso conj. de dados.

### Exemplo 8: renomeando as colunas

### Exemplo 9: criando novas colunas em um DataFrame

Vamos começar criando um DataFrame simples.

Criando uma nova coluna referente ao `mês de nascimento`.

**Tarefa 4:** crie um dataframe de uma loja com 5 funcionários.

**Tarefa 5:** a partir do dataframe anterior, insira novas colunas como tempo de serviço e se tem férias marcada.

### Exemplo 10: alguns métodos do pandas

Para saber o tamanho do nosso dataset, utilizamos o método `.shape`.

Ele nos retorna uma tupla, onde o primeiro item é o **número de linhas** e o segundo o **número de colunas**.

Visualizar os primeiros dados, utiliza-se o método `.head()`.

Visualizar os últimos dados, utiliza-se o método `.tail()`.

Em ambas as estruturas acima, `.head()` e `.tail()`, é possível definir a quantidade de dados como parâmetro que você quer observar. Se você não informa o parâmetro, ele, por padrão, mostra as **cinco** primeiras e últimas entradas, respectivamente.

Visualizar as informações do arquivo, o método `.info()` é utilizado.

Quando se faz uma EDA (Análise Exploratória de Dados) ou quer treinar um modelo de ML existem algumas coisas que merecem ser observadas no resultado de `.info()`. Por exemplo, a quantidade de valores `NaN`, que significa `Not A Number`. São valores **nulos**.

Neste dataset especificamente, podemos perceber que enquanto as colunas `Nome`, `Cargo`, `Departamento` contém 32181 valores não-nulos, a coluna `Salário Anual` possui 32182.

O que isso quer dizer?

A interpretação depende do que o dataset, em si, quer nos informar. Como tratamos de salários de funcionários, seria uma espécie de *funcionário fantasma*? Alguém que foi demitido e esqueceram de tirar? Ou, melhor ainda, **a companhia está gastando mais sem necessidade?**

Para retirar os valores `NaN`, existe um método específico: `.dropna()`.

Para saber os tipos de dados, utiliza-se o método `dtypes`.

Para visualizar algumas informações estatísticas, podemos utilizar o método `describe`.

Perceba que a coluna `Salário Anual` não era pra ser um objeto e sim float. Neste caso, é necessário fazer uma transformação a fim de tirarmos algunas informações estatísticas.

**Tarefa 6:** volte ao pequeno conjunto de dados e extraia informações estatísticas da coluna `Salário`.

In [None]:
df_loja['Salário'].describe()

**Tarefa 7:** calcule a média utilizando o método `.mean()` do salário dos funcionários.

In [None]:
df_loja['Salário'].mean()

**Tarefa 8:** calcule o desvio padrão da coluna `Salário`.

> Para calcular os quantiles, utilize este mesmo nome como método.

In [None]:
df_loja['Salário'].std()

### Exemplo 11: transformar tipo `object` para `float`

Se visualizarmos especificamente a coluna `Salário Anual` nos deparamos com um problema.

Os campos dos salários estão como `object` e possuem um cifrão antes dele, o que nos impede de extrair algumas informações estatísticas.

Para resolver este problema, precisamos de uma estrutura para, primeiro, retirar o cifrão; posteriormente, converter para dados do tipo `float`.

Se agora invocarmos o método `.describe()`, a saída deve ser diferente.

Veja que agora temos uma saída mais adequada para se trabalhar, em que **informações estatísticas** são impressas.

- **Count:** quantidade de dados.

- **mean:** média dos dados.

- **std:** **_standard deviation_**, desvio padrão dos dados.

- **min:** menor valor.

- **25%:** primeiro quartil.

- **50%:** segundo quartil correspondente a **mediana**.

- **75%:** terceiro quartil.

- **max:** o valor máximo.

Nós modificamos o tipo de dado partindo de `object` e chegando até um `float`. Porém, existem outros dados que podem ser transformados e dependendo do problema, **devem** ser modificados. Por exemplo, o `Datetime`, principalmente quando se trabalha com **séries temporais**.

### Exemplo 12: métodos de seleção de dados

Para selecionar um intervalo de dados, utilizamos os métodos `.loc()` e `.iloc()`. Ambos são muito úteis. Pode-se dizer que são os `slices` da lib Pandas.

#### Método `.loc()`

O `.loc()` seleciona os dados baseados nos labels das colunas. A sintaxe é:

>```
>df.loc[<linha>, <coluna>]
```

Vamos pegar o dado localizado na posição 4 do nosso dataset de salários.

Vamos pegar o intervalo entre 10 a 20 pessoas no mesmo dataset.

#### Método `.iloc()`

O `.iloc()` é parecido com o `.loc()`. A diferença consiste que este é baseado na localização, ou seja, é dado por um inteiro que seleciona a posição e não o label.

### Exemplo 13: utilizando `widgets` e `pandas`

Primeiro, vamos importar as bibliotecas.

In [None]:
from ipywidgets import FloatSlider
from ipywidgets import IntSlider

Customizando os widgets.

---

# Atividade 3: Para casa

### Exercício 1: extração de datasets

Extraia outros dois conjuntos de dados de sua preferência e faça uma análise sobre ele em markdown. Abordando as características, possíveis problemas de negócio. 

> Não entre no mérito de código.

### Exercício 2: identificação de problemas no dataset
Ainda nos conjuntos de dados escolhidos por você, aponte problemas nos dados como: *outliers*, *NaN*, inconsistências.

### Exercício 3: extração de informações estatísticas

Extraia informações estatísticas do conjunto de dados de ações. Faça para outros 5 ativos.

> A sintaxe adotada pelo site do *Yahoo Finance* é: CODIGODAACAO.SA.

### Exercício 4: DataFrame e widgets
Personalize a consulta dos dados de um DataFrame utilizando widgets. Pode ser qualquer conjunto de dados, inclusive os dados na aula.

### Exercício 5: série temporal e `Datetime`

Faça uma pesquisa a fim de identificar um conjunto de dados que se trata de uma série temporal e utilize o `Datetime`. Se não precisar de nenhuma conversão de tipos, explique a importância do `Datetime` para aquele *dataset* especificamente.