# Bases de dados

Renato Naville Watanabe

## Bases de dados

Termo utilizado para indicar um aglomerado, ou conjunto, de dados que deve ser manipulado pelo computador.

Pode ser definida como qualquer conjunto de dados para o qual se deseja:

- Armazenar

- Recuperar

- Visualizar

conteúdo.

**Exemplo (sem uso de computador): Lista de supermercado**

é uma base simples.

- Armazenamento (persistência): permite uso futuro.

- Recuperação: acesso deve ser rápido e preciso.

- Visualização: forma de apresentação.

![lista](imagens/shopping.png)

### Exemplos de base de dados (sistemas computacionais)

- controle de clientes
- correntistas
- alunos

### Características para grande volume de dados e grande quantidade de usuários

- Compartilhamento: 
    + troca de informação entre usuários
    + acesso compartilhado aos dados. 
    + Segurança de infra-estrutura (garante funcionamento do hardware) e de acesso (controla permissões de usuários).
    
- Regras de Consistência: 
    + garantem coerência e qualidade dos dados
    + evitam valores inválidos.

### Tabelas

Existem vários modos de organizar uma base de dados: quando representada por uma planilha, a base de dados pode ser vista como uma matriz de dados: 

- Facilita a visualização global dos dados.
- Identifica a posição de cada item de dado (linhas).
- Identifica os atributos dos dados (colunas).

É muito comum chamar a matriz de tabela.
Resultados de buscas e consultas em SGBD são apresentados em forma de tabelas.

### Exemplo de tabela

In [1]:
import pandas as pd
compras = pd.read_csv('dados/compras.csv')
compras

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data
0,Suco,ValeSuco,1,l,3.0,Arpoador,12/05/2011
1,Suco,Flash,1,l,4.5,Arpoador,18/05/2011
2,Tomate,-,1,kg,3.5,Noite,14/05/2011
3,Arroz,Tio José,4,kg,8.64,Noite,14/05/2011
4,Arroz,Sem Broto,5,kg,9.99,Arpoador,10/06/2011
5,Arroz,Da TV,1,kg,1.99,Noite,14/06/2011
6,Feijão,Sem Broto,1,kg,4.0,Arpoador,12/05/2011
7,Tomate,-,1,kg,2.99,Noite,16/05/2011
8,Ovo,A Granja,12,u,3.19,Arpoador,12/06/2011
9,Ovo,Caseiro,6,u,1.45,Noite,14/05/2011


### Organização de dados

- **Linhas da tabela**: armazenam indivíduous ou itens de dados.

- **Colunas da tabela**: armazenam atributos (propriedades ou características) vinculados a cada item de dado armazenado nas linhas.

In [2]:
compras.head(3)

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data
0,Suco,ValeSuco,1,l,3.0,Arpoador,12/05/2011
1,Suco,Flash,1,l,4.5,Arpoador,18/05/2011
2,Tomate,-,1,kg,3.5,Noite,14/05/2011


![tabela](imagens/tabela.png)

- **Tabela**: conjunto de tuplas
- **Colunas**: atributos
- **Linhas**: tuplas, itens de dados ou instâncias
- **Campos**: valores dos atributos

### Tipos de dados

Toda a base de dados deve reservar uma especial atenção para a escolha dos tipos de valores armazenados (tipos de dados).

A escolha correta dos tipos de dados permite elevar o nível de qualidade da base:

- Controlar possíveis erros de cadastramento de valores.
- Previne inconsistências. Por exemplo:
    + evita o armazenamento de letras em locais destinados a valores numéricos;
    + evita datas escritas de forma incorreta.

### Pandas

A biblioteca que utilizaremos para trabalhar com bases de dados é o [Pandas](https://pandas.pydata.org/). Esta biblioteca tem ferramentas para trabalhar com diferentes estruturas e realizar diferentes análises de dados. Para usar a biblioteca Pandas, devemos importá-la primeiro. A biblioteca Pandas trabalha muito bem junto com o Numpy. Todos os comandos que funcionam em vetores do Numpy funcionam também em DataFrames do Pandas.

Existem diversas formas de criar um DataFrame do Pandas. O primeiro é inserindo os dados (valores dos campos) de cada um dos campos. Isso é feito com o comando *pd.DataFrame*. Os dados de cada um dos atributos são inseridos com o comando *np.array*.

In [3]:
import pandas as pd
import numpy as np


alunos = pd.DataFrame({'faltas':np.array([8,2,5,12,15,9,6]),
                      'notas': np.array([78,92,90,58,43,74,81])})
alunos

Unnamed: 0,faltas,notas
0,8,78
1,2,92
2,5,90
3,12,58
4,15,43
5,9,74
6,6,81


### Acessando os valores de um campo

Para acessar todos os valores de um campo, basta escrever o nome da variável em que o DataFrame, seguido de colchetes com o nome do campo entre aspas. Por exemplo, para acessar os valores do campo *faltas*, basta:

In [4]:
print(alunos['faltas'])

0     8
1     2
2     5
3    12
4    15
5     9
6     6
Name: faltas, dtype: int64


E para acessar o campo *notas*:

In [5]:
print(alunos['notas'])

0    78
1    92
2    90
3    58
4    43
5    74
6    81
Name: notas, dtype: int64


A biblioteca de gráficos matplotlib também funciona com o Pandas. Para fazer o gráfico notas em função do número de faltas, pode-se usar o comando abaixo:

In [6]:
import matplotlib.pyplot as plt

plt.figure()
plt.plot(alunos['faltas'], alunos['notas'], marker = 'o', linestyle = '', 
         color = 'red', markersize = 15)
plt.grid()
plt.xlabel('Faltas')
plt.ylabel('Notas')
plt.show()


<Figure size 640x480 with 1 Axes>

### Arquivos estruturados

Arquivos estruturados (ou flat files) são arquivos de dados organizados sob uma estrutura rígida e pré-definida:

- Os arquivos estruturados são muito usados para a troca de dados entre sistemas  computacionais diferentes que não mantêm, entre si, um canal direto de comunicação.
- Definem-se caracteres (ou sequências de caracteres) que exercerão o papel de delimitadores de linha e de coluna.

**[Exemplo](dados/compras.csv)**: Arquivo CSV (“Comma Separated Values”)

Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data  
Suco,ValeSuco,1,l,3.00,Arpoador,12/05/2011  
Suco,Flash,1,l,4.50,Arpoador,12/05/2011  
Tomate, - ,1,kg,3.50,Noite,14/05/2011  
Arroz,Tio José,5,kg,8.64,Noite,14/05/2011  

### Carregando arquivos CSV

A forma mais utilizada para criar DataFrames no Pandas é com dados disponíveis em arquivos com dados (por exemplo, arquivos CSV). Para fazer isso, basta usar o comando *pd.read_csv*.

In [7]:
compras = pd.read_csv('dados/compras.csv')
compras

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data
0,Suco,ValeSuco,1,l,3.0,Arpoador,12/05/2011
1,Suco,Flash,1,l,4.5,Arpoador,18/05/2011
2,Tomate,-,1,kg,3.5,Noite,14/05/2011
3,Arroz,Tio José,4,kg,8.64,Noite,14/05/2011
4,Arroz,Sem Broto,5,kg,9.99,Arpoador,10/06/2011
5,Arroz,Da TV,1,kg,1.99,Noite,14/06/2011
6,Feijão,Sem Broto,1,kg,4.0,Arpoador,12/05/2011
7,Tomate,-,1,kg,2.99,Noite,16/05/2011
8,Ovo,A Granja,12,u,3.19,Arpoador,12/06/2011
9,Ovo,Caseiro,6,u,1.45,Noite,14/05/2011


### Manipulação dos dados

Duas operações importantes para recuperação (**Consultas**) e visualização (**Ordenação**) dos dados.

- **Consultas**: é uma forma de recuperação de dados que consiste em realizar consultas sobre a base de dados, verificando valores e propriedades dos dados armazenados.

- **Ordenação**: é uma operação comum quando se trabalha com dados. Dados ordenados facilitam a localização de informação e identificação de padrões. Além disso, a ordenação de dados pode ser considerada uma operação básica e presente em praticamente todos os sistemas que trabalham com visualização de dados.

### Consultas

Podemos fazer consultas a um DataFrame do Pandas colocando entre colchetes uma expressão lógica que retorne o valor True para os elementos que satisfazem alguma condição.

Por exemplo, para selecionarmos todos os itens (tuplas) cujo campo Produto tenha o valor Arroz, basta usar o seguinte comando.

In [8]:
compras[compras['Produto'] == 'Arroz']

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data
3,Arroz,Tio José,4,kg,8.64,Noite,14/05/2011
4,Arroz,Sem Broto,5,kg,9.99,Arpoador,10/06/2011
5,Arroz,Da TV,1,kg,1.99,Noite,14/06/2011


Se quisermos selecionar tuplas que satisfaçam mais de uma condição, devemos usar os comandos *np.logical_and* (para a operação lógica E) ou *np.logical_or* (para a operação lǵica OU).

Por exemplo, para selecionarmos as tuplas que têm campo Produto igual a Arroz e a quantidade seja maior ou igual a 4, pode se usar o comando abaixo. 

In [9]:
arroz = compras[np.logical_and(compras['Produto'] == 'Arroz', compras['Qtd'] >= 4)]
arroz

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data
3,Arroz,Tio José,4,kg,8.64,Noite,14/05/2011
4,Arroz,Sem Broto,5,kg,9.99,Arpoador,10/06/2011


Note que o resultado da consulta foi gravado em outra variável, que também é um DataFrame do Pandas.

### Ordenação

Para ordenar uma tabela (DataFrame), basta usar o comando *sort_values*. Como argumento da função sort_values, deve vir qual (ou quais) campo você deseja usar para a ordenação.

Por exemplo, para ordenar de acordo com o campo Preço, utiliza-se o seguinte comando:

In [10]:
compras.sort_values(['Preço'])

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data
9,Ovo,Caseiro,6,u,1.45,Noite,14/05/2011
5,Arroz,Da TV,1,kg,1.99,Noite,14/06/2011
7,Tomate,-,1,kg,2.99,Noite,16/05/2011
0,Suco,ValeSuco,1,l,3.0,Arpoador,12/05/2011
8,Ovo,A Granja,12,u,3.19,Arpoador,12/06/2011
2,Tomate,-,1,kg,3.5,Noite,14/05/2011
10,Suco,Flash,1,l,3.99,Noite,21/07/2011
6,Feijão,Sem Broto,1,kg,4.0,Arpoador,12/05/2011
1,Suco,Flash,1,l,4.5,Arpoador,18/05/2011
3,Arroz,Tio José,4,kg,8.64,Noite,14/05/2011


Para ordenar por ordem descendente dos valores, utiliza-se:

In [11]:
compras.sort_values(['Preço'], ascending=False)

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data
4,Arroz,Sem Broto,5,kg,9.99,Arpoador,10/06/2011
3,Arroz,Tio José,4,kg,8.64,Noite,14/05/2011
1,Suco,Flash,1,l,4.5,Arpoador,18/05/2011
6,Feijão,Sem Broto,1,kg,4.0,Arpoador,12/05/2011
10,Suco,Flash,1,l,3.99,Noite,21/07/2011
2,Tomate,-,1,kg,3.5,Noite,14/05/2011
8,Ovo,A Granja,12,u,3.19,Arpoador,12/06/2011
0,Suco,ValeSuco,1,l,3.0,Arpoador,12/05/2011
7,Tomate,-,1,kg,2.99,Noite,16/05/2011
5,Arroz,Da TV,1,kg,1.99,Noite,14/06/2011


Se você colocar mais de um campo como argumento da função sort_values, a ordenação ocorrerá seguindo a ordem de prioridade igual à ordem em que os campos aparecem no argumento da função sort_values.

Por exemplo, no comando abaixo a ordenação ocorre seguindo a ordem crescente do campo Preço. Quando o valor do campo Preço é igual, a ordenação ocorre seguindo o valor do campo Qtd.

In [12]:
compras.sort_values(['Preço', 'Qtd'])

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data
9,Ovo,Caseiro,6,u,1.45,Noite,14/05/2011
5,Arroz,Da TV,1,kg,1.99,Noite,14/06/2011
7,Tomate,-,1,kg,2.99,Noite,16/05/2011
0,Suco,ValeSuco,1,l,3.0,Arpoador,12/05/2011
8,Ovo,A Granja,12,u,3.19,Arpoador,12/06/2011
2,Tomate,-,1,kg,3.5,Noite,14/05/2011
10,Suco,Flash,1,l,3.99,Noite,21/07/2011
6,Feijão,Sem Broto,1,kg,4.0,Arpoador,12/05/2011
1,Suco,Flash,1,l,4.5,Arpoador,18/05/2011
3,Arroz,Tio José,4,kg,8.64,Noite,14/05/2011


### Lidando com datas

Normalmente após ler algum arquivo que contenha algum campo com datas, a data é entendida como uma string (sequência de caracteres). Isso significa que não é possível ordenar de acordo com a data nem fazer um gráfico em que um dos eixos seja a coluna com datas.

É necessário converter a string para o formato de datas. Isso é feito com o comando *pd.to_datetime*. Por exemplo, para converter a coluna Data para o formato de data, faz-se:

In [13]:
compras['Data'] = pd.to_datetime(compras['Data'], format = '%d/%m/%Y')
compras

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data
0,Suco,ValeSuco,1,l,3.0,Arpoador,2011-05-12
1,Suco,Flash,1,l,4.5,Arpoador,2011-05-18
2,Tomate,-,1,kg,3.5,Noite,2011-05-14
3,Arroz,Tio José,4,kg,8.64,Noite,2011-05-14
4,Arroz,Sem Broto,5,kg,9.99,Arpoador,2011-06-10
5,Arroz,Da TV,1,kg,1.99,Noite,2011-06-14
6,Feijão,Sem Broto,1,kg,4.0,Arpoador,2011-05-12
7,Tomate,-,1,kg,2.99,Noite,2011-05-16
8,Ovo,A Granja,12,u,3.19,Arpoador,2011-06-12
9,Ovo,Caseiro,6,u,1.45,Noite,2011-05-14


Dentro do comando *to_datetime*, na opção dada pela palavra-chave *format* deve estar contido o formato em que a data está escrita. O %d significa dia, %m, significa mês e %Y significa ano com quatro dígitos (se fosse ano com 2 dígitos seria %y).

Agora é possível ordenar de acordo com a Data. 

In [14]:
compras = compras.sort_values(['Data', 'Preço'])
compras

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data
0,Suco,ValeSuco,1,l,3.0,Arpoador,2011-05-12
6,Feijão,Sem Broto,1,kg,4.0,Arpoador,2011-05-12
9,Ovo,Caseiro,6,u,1.45,Noite,2011-05-14
2,Tomate,-,1,kg,3.5,Noite,2011-05-14
3,Arroz,Tio José,4,kg,8.64,Noite,2011-05-14
7,Tomate,-,1,kg,2.99,Noite,2011-05-16
1,Suco,Flash,1,l,4.5,Arpoador,2011-05-18
4,Arroz,Sem Broto,5,kg,9.99,Arpoador,2011-06-10
8,Ovo,A Granja,12,u,3.19,Arpoador,2011-06-12
5,Arroz,Da TV,1,kg,1.99,Noite,2011-06-14


Agora que o Pandas entende que o dado contido no campo 'Data' é uma data você pode xtrair informações como o dia ou o mês.

Por exemplo, para extrair a informação do ano de cada uma das datas, basta:

In [15]:
print(compras['Data'].dt.year)

0     2011
6     2011
9     2011
2     2011
3     2011
7     2011
1     2011
4     2011
8     2011
5     2011
10    2011
Name: Data, dtype: int64


De forma similar, para extrair a informação do dia e do mês:

In [16]:
print(compras['Data'].dt.day)
print(compras['Data'].dt.month)

0     12
6     12
9     14
2     14
3     14
7     16
1     18
4     10
8     12
5     14
10    21
Name: Data, dtype: int64
0     5
6     5
9     5
2     5
3     5
7     5
1     5
4     6
8     6
5     6
10    7
Name: Data, dtype: int64


### Contando valores iguais

É possível contar quantas vezes os valores de um campo específico aparecem. Isso é feito com o comando *value_counts*.

In [17]:
compras['Produto'].value_counts()


Suco      3
Arroz     3
Tomate    2
Ovo       2
Feijão    1
Name: Produto, dtype: int64

### Criando um novo campo

É possível criar novos campos em um DataFrame. Por exemplo, para criar um novo campo 'Preço/Un', e atribuir valores igual ao valor contido em Preço dividido pelo valor contido em quantidade, deve-se digitar o seguinte comando:

In [18]:
compras['Preço/Un'] = compras['Preço']/compras['Qtd']
compras

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data,Preço/Un
0,Suco,ValeSuco,1,l,3.0,Arpoador,2011-05-12,3.0
6,Feijão,Sem Broto,1,kg,4.0,Arpoador,2011-05-12,4.0
9,Ovo,Caseiro,6,u,1.45,Noite,2011-05-14,0.241667
2,Tomate,-,1,kg,3.5,Noite,2011-05-14,3.5
3,Arroz,Tio José,4,kg,8.64,Noite,2011-05-14,2.16
7,Tomate,-,1,kg,2.99,Noite,2011-05-16,2.99
1,Suco,Flash,1,l,4.5,Arpoador,2011-05-18,4.5
4,Arroz,Sem Broto,5,kg,9.99,Arpoador,2011-06-10,1.998
8,Ovo,A Granja,12,u,3.19,Arpoador,2011-06-12,0.265833
5,Arroz,Da TV,1,kg,1.99,Noite,2011-06-14,1.99


Cuidado: se o campo já existir, os valores já existentes serão sobrepostos pelos novos.

### Selecionando um valor de uma coluna

Adicioando '.values' após ter selecionado a coluna, a coluna é transformada em um vetor do Numpy. 

Por exemplo, a coluna (campo) 'Preços':

In [19]:
print(compras['Preço'].values)

[3.   4.   1.45 3.5  8.64 2.99 4.5  9.99 3.19 1.99 3.99]


Então, para selecionar o valor da coluna 'Preço' do quinto elemento (lembrando que no Python o índice começa do 0):

In [21]:
print(compras['Preço'].values[4])

8.64


### Mostrando o começo ou o fim de uma tabela

Com o comando '.head()' acrescentado após o nome do DataFrame é mostrado o começo da tabela.

In [49]:
compras.head()

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data,Preço/Un
0,Suco,ValeSuco,1,l,3.0,Arpoador,2011-05-12,3.0
6,Feijão,Sem Broto,1,kg,4.0,Arpoador,2011-05-12,4.0
9,Ovo,Caseiro,6,u,1.45,Noite,2011-05-14,0.241667
2,Tomate,-,1,kg,3.5,Noite,2011-05-14,3.5
3,Arroz,Tio José,4,kg,8.64,Noite,2011-05-14,2.16


Por default (padrão), o número de linhas mostradas é cinco. Se você quiser outro número, é só especificar o número entre os parênteses. Por exemplo, para mostrar as primeiras três linhas:

In [51]:
compras.head(3)

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data,Preço/Un
0,Suco,ValeSuco,1,l,3.0,Arpoador,2011-05-12,3.0
6,Feijão,Sem Broto,1,kg,4.0,Arpoador,2011-05-12,4.0
9,Ovo,Caseiro,6,u,1.45,Noite,2011-05-14,0.241667


Com o comando '.tail()' acrescentado após o nome do DataFrame é mostrado o fim da tabela.

In [52]:
compras.tail()

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data,Preço/Un
1,Suco,Flash,1,l,4.5,Arpoador,2011-05-18,4.5
4,Arroz,Sem Broto,5,kg,9.99,Arpoador,2011-06-10,1.998
8,Ovo,A Granja,12,u,3.19,Arpoador,2011-06-12,0.265833
5,Arroz,Da TV,1,kg,1.99,Noite,2011-06-14,1.99
10,Suco,Flash,1,l,3.99,Noite,2011-07-21,3.99


Por default (padrão), o número de linhas mostradas é cinco. Se você quiser outro número, é só especificar o número entre os parênteses. Por exemplo, para mostrar as duas últimas linhas:

In [53]:
compras.tail(2)

Unnamed: 0,Produto,Fabricante,Qtd,Medida,Preço,Supermercado,Data,Preço/Un
5,Arroz,Da TV,1,kg,1.99,Noite,2011-06-14,1.99
10,Suco,Flash,1,l,3.99,Noite,2011-07-21,3.99


### Contando os itens de uma tabela do Pandas

Existem diversas maneiras de saber quantos itens existem em um DataFrame do Pandas.

A primeira é com o comando 'len()' (na verdade o comando len serve para qualquer tipo de variável do Python que tenha diversos elementos, como um vetor do Numpy):

In [40]:
print(len(compras))

11


Uma outra maneira é acrescentando '.shape'. Ele vai retornar um conjunto com dois valores: o número de linhas e o número de colunas.

In [47]:
forma = compras.shape
print(forma)

(11, 8)


O comando '.shape' retorna esse conjunto com dois elementos (técnicamente conhecida como tupla). Portanto, para saber o número de linhas é só pegar o primeiro dos elementos (índice 0). Para pegar o número de colunas, é só pegar o segundo elemento (índice 1).

In [48]:
linhas = forma[0]
colunas = forma[1]
print('O número de linhas é', linhas)
print('O número de colunas é', colunas)

O número de linhas é 11
O número de colunas é 8


### Tarefa (para agora)

- Escrever um script de Python e executá-lo no Spyder para fazer o que pedido a seguir.

- O script deve estar com comentários explicando as funções do script.

- Todos os resultados devem ser mostrados no Console ao executar o script.

- Coloque no seu repositório do Github o arquivo '.py' contendo o script feito por você com o nome "Tarefa9SeuNome.py".


- **1)** Para este item você deverá usar o arquivo com a [porcentagem da população brasileira que é analfabeta, dividida por unidade da federação, de 1981 a 2014 (analfabetismo.csv, encontrado na pasta aula5/dados)](dados/analfabetismo.csv) (dados disponibilizados por Ipeadata). 

   + Faça um gráfico da taxa de analfabetismo em São Paulo em função do tempo (anos).


### Tarefa (para antes da próxima aula)

- Escrever um script de Python e executá-lo no Spyder para fazer o que é pedido a seguir.

- O script deve estar com comentários explicando as funções do script.

- Todos os resultados devem ser mostrados no Console e todos os gráficos devem ser mostrados na tela ao executar o script.

- Não se esqueça de indicar o significado de cada eixo, colocando a unidade da abscissa e da ordenada nos gráficos.

- Coloque no seu repositório do Github o arquivo '.py' contendo o script feito por você com o nome "Tarefa10SeuNome.py".

**1)** Para este item você deverá usar o arquivo [com todos os resultados do campeonato Brasileiro de futebol de 2018 (tabelaBrasileirao2018.csv encontrado na pasta aula5/dados)](dados/tabelaBrasileirao2018.csv) (dados obtidos [desta](<https://pt.wikipedia.org/wiki/Resultados_do_Campeonato_Brasileiro_de_Futebol_de_2018_-_S%C3%A9rie_A_(primeiro_turno)>) e [desta](<https://pt.wikipedia.org/wiki/Resultados_do_Campeonato_Brasileiro_de_Futebol_de_2018_-_S%C3%A9rie_A_(segundo_turno)>) página da Wikipedia).

- Calcule (e mostre o resultado na tela) a porcentagem de jogos que o time da casa (mandante) ganhou o jogo.

- Calcule (e mostre o resultado na tela) a porcentagem de jogos que o time da casa (mandante) não perdeu o jogo.

**2)**  Para este item você deverá usar o arquivo com a [taxa de inflação mensal (IGP-DI) no Brasil de fevereiro de 1944 a junho de 2019](dados/inflacaoMensal.csv) (dados disponibilizados por Ipeadata). 

- Faça um gráfico da taxa de inflação mensal em função do tempo.
- Mostre em que mês e ano e qual foi a maior taxa de inflação mensal medida neste período (fevereiro de 1944 a junho de 2019).

Dica: para fazer o gráfico, note que um mês corresponde a um doze avos de ano. Para facilitar a criação do gráfico você pode criar uma outra coluna que corresponda ao ano adicionado da fração correspondente ao mês.

**3)** Para este item você pode usar [esse histórico de visualização do Netflix](dados/netflix.csv) ou, se você tiver acesso ao Netflix, usar o seu [histórico](https://www.netflix.com/viewingactivity) (após entrar com a sua senha, role até o final da página e clique em "Baixar tudo").

   + Mostre quais são os 10 programas mais vistos.
   + Em qual mês do ano foi assistido mais programas? 
    
Sugestão: No seu script, depois do comando para carregar o arquivo, coloque a seguinte sequência de instruções:

```python
data['Categoria'] = 'Filme'  
data['Categoria'][data['Title'].str.contains(": Temporada|: Stranger|: Parte")] = 'Série'  
data['Programa'] = data['Title']  
data[['Programa','Episódio']] = data[data['Categoria']=='Série']['Title'].str.split(pat = ': Temporada|: Stranger Things|: Parte', expand = True, n = 1)   
data.loc[data['Categoria']=='Filme', 'Programa'] = data.loc[data['Categoria']=='Filme', 'Title']  
data = data.drop(columns = 'Title')  
```
A sequência de instruções acima cria uma coluna com o tipo do programa (Filme/Série), uma coluna com o nome do programa e uma outra coluna com o nome do episódio (no caso de ser uma série). Isso facilitará realizar a tarefa.

Na sequência acima, *data* é o nome da variável na qual foi guardado o DataFrame com a informação vinda do arquivo de histórico. Se você der outro nome, mude o nome da variável no código acima. 

Pode ser que o seu arquivo esteja em português. Nesse caso, o campo 'Title' terá o nome 'Título' e você deverá alterar o código acima substituindo 'Title' por 'Título'.

### Referências

- Chalco, JM, *Slides de Bases Computacionais da Ciência*, (2014)
- Leite, S, *Slides de Bases Computacionais da Ciência*, (2018)
- [Marietto, MGB et al.; **Bases computacionais da Ciência** (2013)](http://prograd.ufabc.edu.br/images/pdf/bases_computacionais_livro.pdf).
- [Pandas documentation](https://pandas.pydata.org/pandas-docs/stable/)
- [Ipeadata](http://www.ipeadata.gov.br)
- [Wikipedia](https://pt.wikipedia.org/wiki/Wikip%C3%A9dia:P%C3%A1gina_principal)