# 1. Utilizando o python para lidar com datasets

Neste cenário, iremos simular a criação de um dataset com várias tabelas e utilizar o python para referenciar e manipular informações através do dataset.

## 1.1 Simulando um dataset

Para o nosso caso de uso, utilizaremos a biblioteca [Faker](https://github.com/joke2k/faker). Para instalar a biblioteca, basta criar uma célula e executar o comando `pip install faker`. A biblioteca será instalada no ambiente do google colab. A biblioteca Faker é utilizada para gerar dados fictícios em diversas línguas diferentes. A primeira etapa da atividade envolve utilizar a biblioteca para gerar um conjunto de tabelas de dados com as especificações abaixo. Pede-se que os dados sejam gerados com a biblioteca (ver documentação extendida) e, posteriormente sejam criados dataframes para cada uma das situações. 

O dataset vai representar um conjunto de tabelas de bases de dados de clientes em uma livraria. Pretende-se simular o seguinte dataset:
* Clientes (250 entradas): <id_cliente, nome_cliente, idade_cliente>
* Vendedores (5 entradas): <id_vendedor, nome_vendedor>
* Categoria (5 entradas): <id_categoria, nome_categoria>
* Livros (50 entradas): <id_livro, nome_livro, id_categoria, valor_livro>
* Vendas (1000 entradas): <id_cliente, id_vendedor, id_livro, quantidade_livro>

Observações:
* Os identificadores de cliente, vendedor e livro devem ser números únicos. Para facilitar, use id's sequenciais;
* As idades de clientes devem ser números aleatórios entre 15 e 80;
* As quantidades de livros devem estar no intervalo `[1, 10]`;
* Os valores de livro devem estar no intervalo `[10, 500]`;
* O e-mail de um cliente deve ser o nome completo dele, em letras minúsculas, separado por `_`. Suponha que o único provedor de e-mails seja o gmail, para o nosso dataset. Por exemplo, `Cassia Almeida` teria o e-mail `cassia_almeida@gmail.com`.

DICAS:
* Para realizar a importação da biblioteca utilize `from faker import Faker`, após ter instalado a mesma no Google Colab;
* Para replicar os valores, de forma que cada vez que você rode inicice novamente o notebook, a mesma sequência de valores aleatórios apareça, você deve determinar o seed de geração de valores da biblioteca. Para isso, utilize `Faker.seed(10289)`;
* `fake = Faker(locale='en_US')` cria uma instância do Faker alinhado com dados de um determinado local. Vamos gerar os dados em inglês (O Faker só gera nomes em português bem. Sentenças e textos não. Outros caminhos, envolvendo por exemplo a biblioteca `nltk` não são tão simples para gerar sentenças e frases);
* Para gerar dados únicos, há o método `unique`, que vai ser utilizado como `fake.unique.<...>` para garantir que algo não se repita;
* Para gerar nomes dos livros, ou outros nomes, você pode usar os métodos `fake.word`, `fake.text` ou `fake.sentence`. Para controlar a quantidade de caracteres do texto com o `text`, utilize o parâmetro `max_nb_chars`. Já o `sentence` tem outro parâmetro chamado `nb_words`, que seleciona quantas palavras irão compor a sentença;
* Para gerar números inteiros aleatórios, você pode usar o método `numpy.random.randint`;
* Para gerar números reais aleatórios, você pode usar métodos a estilo do `numpy.random.uniform`. Não é o único tipo de método de amostragem de distribuições (tópico que veremos no futuro), mas é suficiente para a simulação desse trabalho.
* Ao gerar a tabela de Vendas, você terá de selecionar entre combinações únicas de Livros vendidos a Clientes por Vendedores. Para sortear os elementos dessa tabela, primeiro você deve gerar uma combinação de todas essa possíveis interações. Para isso, da biblioteca `itertools` utilize o método `product`. A partir disso, selecione aleatoriamente um subconjunto de casos para simular vendas diferentes. Para esse subconjunto, gere aleatoriamente as quantidades de livros que foram vendidos em cada venda;
* Para selecionar elementos tendo por base outra coluna já gerada, você pode usar método `numpy.random.choice`. Todavia, esse método só seleciona elementos com uma dimensão. Uma forma de selecionar elementros de múltiplas dimensões (como será o caso da tabela Vendas), você pode usar o `numpy.random.shuffle`, que embaralha automaticamente uma lista de elementos ou, também, o método `numpy.random.permutation`. Nesses últimos casos, tendo o vetor embaralhado, basta pegar os primeiros `n` elementos, que serão `n` elementos aleatórios;

Olhe exemplos de documentação na internet para compreender como utilizar o método. Para esta primeira etapa, gere um dataset com as especificações mostradas. Ao fim, exiba a head de cada um dos dataframes criados.

# Células de código

In [1]:
pip install faker

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [1]:
from faker import Faker

In [2]:
Faker.seed(10289)

## Tabela Clientes

In [3]:
fake = Faker(locale='en_US')

In [4]:
import random as rd

In [5]:
client_id = []
name_client = []
age_client = []
for i in range(0,250):
    number = fake.unique.random_int(min=1,max=999)
    client_id.append(number)
    name_client.append(fake.unique.name())
    age = fake.random_int(min=15,max=80)
    age_client.append(age)

In [6]:
import pandas as pd

clientes = {"id_cliente":client_id,
            "nome_cliente":name_client,
            "idade_cliente":age_client}

clientes_df = pd.DataFrame(clientes)
clientes_df

Unnamed: 0,id_cliente,nome_cliente,idade_cliente
0,55,David Edwards,56
1,157,Janice Turner,33
2,134,Jaime Coleman,15
3,881,Kevin Barton,18
4,621,Ashley Gomez,74
...,...,...,...
245,121,Amber Gonzalez,69
246,935,Matthew Holden,22
247,884,Kathy Knight,55
248,127,Wendy Smith,77


## Tabela Vendedores

In [7]:
vendor_id = []
vendor_name = []
for i in range(0,5):
    idn = fake.unique.random_int(min=1,max=25)
    vendor_id.append(idn)
    vendor_name.append(fake.unique.name())

In [8]:
vendedores = {"id_vendedor":vendor_id,
              "nome_vendedor":vendor_name}

vendedores_df = pd.DataFrame(vendedores)
vendedores_df

Unnamed: 0,id_vendedor,nome_vendedor
0,21,Gregory Bartlett
1,18,James Gould
2,2,Carly Leonard
3,11,Alyssa Gilbert
4,5,Kyle Massey


## Tabela Categorias

In [9]:
id_cat = []
cat_name = ["Romance","Terror","Ficção Científica","Infantil","Drama"]
for i in range(0,5):
    id_cat.append(fake.unique.random_int(min=1,max=10))

In [11]:
categoria = {"id_categoria":id_cat,
             "nome_categoria":cat_name}

categoria_df = pd.DataFrame(categoria)
categoria_df

Unnamed: 0,id_categoria,nome_categoria
0,10,Romance
1,2,Terror
2,7,Ficção Científica
3,5,Infantil
4,6,Drama


## Tabela Livros

In [12]:
book_id = []
book_name = []
cat_id = []
book_price = []
for i in range(0,50):
    book_id.append(fake.unique.random_int(min=1,max=200))
    book_name.append(fake.sentence(nb_words=5))
    number = id_cat[rd.randint(0,4)]
    cat_id.append(number)
    book_price.append(fake.unique.random_int(min=10,max=500))

In [13]:
livros = {"id_livro":book_id,
          "nome_livro":book_name,
          "id_categoria":cat_id,
          "valor_livro":book_price}

livros_df = pd.DataFrame(livros)
livros_df

Unnamed: 0,id_livro,nome_livro,id_categoria,valor_livro
0,176,Look begin accept parent.,7,354
1,126,You occur understand two young.,10,23
2,68,Institution left phone.,5,197
3,197,Green hold another.,6,463
4,9,Reality purpose ground century course apply.,5,16
5,58,All suggest note.,2,106
6,128,To try produce what or institution.,6,417
7,88,Rise whom possible east painting.,5,493
8,155,Force fire style really maintain.,5,226
9,160,Whose somebody high each hard.,7,363


## Tabela Vendas

In [14]:
sales_clients = []
sales_vendor_id = []
sales_book_id = []
amount_book = []
for i in range(0,1000):
    sales_clients.append(list(clientes_df["id_cliente"])[rd.randint(0,249)])
    sales_vendor_id.append(list(vendedores_df["id_vendedor"])[rd.randint(0,4)])
    sales_book_id.append(list(livros_df["id_livro"])[rd.randint(0,49)])
    amount_book.append(rd.randint(1,10))

In [15]:
vendas = {"id_cliente":sales_clients,
          "id_vendedor":sales_vendor_id,
          "id_livro":sales_book_id,
          "quantidade_livro":amount_book}

vendas_df = pd.DataFrame(vendas)
vendas_df

Unnamed: 0,id_cliente,id_vendedor,id_livro,quantidade_livro
0,654,2,79,4
1,808,5,58,7
2,871,18,39,6
3,264,2,47,4
4,809,5,158,7
...,...,...,...,...
995,456,21,15,7
996,494,5,111,4
997,912,21,39,7
998,355,18,63,6


## 1.2 Manipulando múltiplos dataframes em paralelo

Tendo um dataset gerado para o cenário atual, é possível, com `numpy`, `pandas`, dentre outras bibliotecas, incluindo o próprio python puro, realizar busca e manipulação dos dados. Para exercitar esses conceitos, solicita-se que você gere, utilizando a interface do pandas. um conjunto de novas tabelas com as seguintes informações:
1. Uma nova tabela de Livros, onde, ao invés de haver um código para a categoria, há uma coluna com o nome da categoria;
1. Uma nova tabela de Vendas, que relaciona o nome do Vendedor, o nome do Cliente e o nome do Livro, além da quantidade vendida.

# Células de código

## Tabela livros

In [16]:
copy_books = livros_df
copy_books

Unnamed: 0,id_livro,nome_livro,id_categoria,valor_livro
0,176,Look begin accept parent.,7,354
1,126,You occur understand two young.,10,23
2,68,Institution left phone.,5,197
3,197,Green hold another.,6,463
4,9,Reality purpose ground century course apply.,5,16
5,58,All suggest note.,2,106
6,128,To try produce what or institution.,6,417
7,88,Rise whom possible east painting.,5,493
8,155,Force fire style really maintain.,5,226
9,160,Whose somebody high each hard.,7,363


In [17]:
copy_books.merge(categoria_df)

Unnamed: 0,id_livro,nome_livro,id_categoria,valor_livro,nome_categoria
0,176,Look begin accept parent.,7,354,Ficção Científica
1,160,Whose somebody high each hard.,7,363,Ficção Científica
2,28,Teacher research so sound cover character.,7,95,Ficção Científica
3,183,Avoid he series five.,7,181,Ficção Científica
4,159,Walk ability business owner.,7,339,Ficção Científica
5,113,Available again computer skin take.,7,210,Ficção Científica
6,79,Hundred present wife cut.,7,395,Ficção Científica
7,165,Week meet positive per.,7,69,Ficção Científica
8,93,Share student car official.,7,480,Ficção Científica
9,126,You occur understand two young.,10,23,Romance


## 1.3 Fazendo consultas compostas utilizando os múltiplos dataframes do dataset

Vamos supor que queiramos retirar um conjunto de informações a respeito dessas tabelas de dados, que estão representadas com DataFrames. Essas informações poderiam ser úteis para um cenário real onde tivessemos esses dados a respeito das vendas da livraria. Implemente um código para extrair as seguintes informações. Esse código vai requerer o uso de algumas funções apresentadas em sala de aula a respeito dos dataframes:
1. Os nomes dos livros que tiveram alguma venda já realizada e os nomes dos livros que não tiveram nenhuma venda realizada;
1. Uma lista de clientes cadastrados na loja mas que nunca compraram nenhum livro;
1. Uma lista com as quantidades vendidas de cada livro. Apresente, ao final, o livro mais vendido e o livro menos vendido;
1. Uma lista com os nomes dos clientes e os nomes dos livros que aquele cliente comprou;
1. Para cada vendedor, os nomes dos clientes que eles já atenderam;
1. Um relatório de quantos clientes, em média, cada vendedor atendeu. Apresente também o nome do vendedor que atendeu o menor número de clientes e o maior número de clientes e quantos clientes esses vendedores atenderam.
1. Para cada categoria, resgate a quantidade de livros que estão em cada categoria. Apresente a categoria que tem mais livros e também a categoria que tem menos livros.

In [None]:
# Células de código

## 1.4 Exibindo dados com o pandas / matplotlib

A biblioteca `pandas` tem integração com a biblioteca `matplotlib` para a exibicação de gráficos a respeito dos dados. Ou seja, é possível utilizar os métodos do pandas ou, extrair os dados do pandas e utilizar a tela padrão de desenho da `matplotlib`, a `matplotlib.pyplot` para realizar desenhos de listas, dicionários, ou arrays numpy. Há, portanto, uma correspondência entre as funções de desenho que o pandas tem e as funções que a tela `pyplot` do `matplotlib` tem. Para exercitar esses conceitos, vamos utilizar o caso de uso atual e realizar algumas exibições de gráficos.

Para utilizar o matplotlib, usualmente realiza-se o import do tipo `import matplotlib.pyplot as plt` e, o `plt` tem a tela padrão de desenho do matplotlib. A biblioteca suporta funcionalidades mais complexas, como por exemplo mútiplos desenhos independentes em paralelo, altíssimos níveis de customização de gráficos, dentre outras funcionalidades. Mas para a nossa finalidade utilizaremos esse padrão.

Embora o `pandas` ofereça boas funcionalidades de exibição de gráficos, em algumas circunstâncias, a depender do nível de customização requerido, pode ser interessante utilizar o `matplotlib` ao invés do `pandas`.

Dentre os gráficos, alguns são interessantes:
* `plot`: gráficos de linha usuais;
* `bar` ou `barh`: gráfico de barras verticais ou horizontais;
* `hist`: histogramas de dados;
* `box`: para os boxplot;
* `kde` ou `density`: para plots de densidade (distribuição contínua) de dados;
* `scatter`: para mostrar a dispersão dos dados;

Esses gráficos tanto podem ser obtidos a partir dos DataFrames (ou seja, como métodos desses objetos) ou podem ser acessados como métodos do `plt` do matplotlib.

Implemente os códigos que exibem os items a seguir:
1. Gráfico de barras horizontais que exibe a quantidade de vendas realizadas por cada vendedor;
1. Um gráfico de barras verticais onde, para cada vendedor, exibe-se a quantidade de livros vendidos por categoria. Dica: usar a função `unstack` após o agrupamento por múltiplas colunas;
1. Um plot (gráfico de linha usual) que relaciona a quantidade de clientes atentidos por vendedor. Desenhar uma linha horizontam vermelha especificando a média da quantidade de clientes. Isso será útil para comparar os atendimentos dos vendedores com relação à média de clientes atendidos por vendedor. Dica: atribua o retorno do plot a uma variável `ax`. Essa variável `ax` é um objeto do `matplotlib` e tem métodos de plot embutidos, como por exemplo o `axhline` (para linhas horizontais). Se quiser colocar uma legenda explicando cada plot, basta utilizar `ax.legend`;
1. A distribuição de quantidades de livros comprados por clientes. Faça o histograma usual e também desenhe a densidade desses dados. DICA: para usar o plot de `kde` será necessário importar a biblioteca científica `scipy`;
1. Um gráfico de barras da quantidade de livros por categoria. Adicione uma linha horizontal com a média da quantidade de livros por categoria.

In [None]:
# Células de código

# 2. Atividade bônus

Faça o download de algum banco de dado de seu interesse no Kagle e faça uma análise descrivita de informações, além de plots, do que julgar relevante apresentar sobre o banco de dados escolhido.

In [None]:
# Células de código