# Preços de medicamentos segundo a ANVISA

A Agência Nacional de Vigilância Sanitária - ANVISA, disponibiliza, através do portal de [dados abertos](http://dados.gov.br/dataset/anvisa-precos-de-medicamentos) do governo federal, uma lista de tipos de medicamentos e seus respectivos preços de fábrica.



> > > ![ANVISA](http://www.signove.com/wp-content/uploads/2016/10/agencia-nacional-de-vigilancia-sanitaria-anvisa-original-1.png =400x)

Estes dados abertos já estão disponíveis juntamente a este Notebook em um arquivo chamado "*dataset.csv*". O arquivo em formato csv é organizado na forma de uma tabela, onde as colunas são separadas por ponto e vírgula e as linhas separadas por "\n".
Com as bibliotecas NumPy e Pandas, poderemos analizar e organizar melhor os dados deste dataset.
Você verá que, os dados na forma que estão, precisarão passar por uma "limpeza", isto é, precisaremos formatar estes dados de forma mais adequada para, só então, obtermos informações interesantes e úteis.

**Nota:** Use Python 2

# 0º Upload dos dados

Antes de qualquer coisa precisamos enviar o dataset para nosso NoteBook.

Execute a célula abaixo e um botão para upload de arquivo surgirá.

In [1]:
# Fazendo Upload do dataset em csv
from google.colab import files
uploaded = files.upload()
for fn in uploaded.keys():
  print('Arquivo recebido: "{name}" com tamanho de {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

# 1º Importando via NumPy

Muito bem, hora de ler os dados com ajuda da biblioteca NumPy. Para isso vamos usar a função nativa "getfromtxt()".

Importe a biblioteca numpy com o nome padrão "np" e execute a função genfromtxt(*nomeArquivo*, delimiter='*delimitador*').

Salve os dados importados em uma variável chamada *dataset*, mas não antes de remover a primeira linha da tabela, pois a primeira linha é o cabeçalho dos dados. Uma possibilidade é usar o parametro *skip_header* como na documentação: https://docs.scipy.org/doc/numpy/reference/generated/numpy.genfromtxt.html


**Nota**: Para este dataset as colunas são separadas por ponto e vírgula(;).

**Nota2**: Para este dataset configure o data type para string: dtype='string'.

---
**Exercicio**:

In [0]:
# Insira seu código aqui


# 2º Iniciando a exploração

Na seção anterior removemos o cabeçalho das informações do nosso dataset. Sem problemas, aqui vai uma descrição das informações contidas em cada coluna:

| N° Coluna | Nome da Coluna |Descrição |
| ------ | ------ | ------ |
| ** 0 ** | NU_CNPJ | Código de identificação da pessoa jurídica. |
| ** 1 ** | NO_RAZAO_SOCIAL | Razão Social da pessoa jurídica. |
| ** 2 ** | NU_REGISTRO | Número de registro do medicamento na Anvisa. |
| ** 3 ** | CO_GGREM | Código da apresentação de um produto. |
| ** 4 ** | CO_EAN | Número que representa o código de barras do produto. |
| ** 5 ** | NO_PRODUTO | Nome do medicamento. |
| ** 6 ** | DS_APRESENTACAO | Descrição da apresentação de um produto. |
| ** 7 ** | DS_CAS | Número de registro presente no banco de dados do Chemical Abstract Service - CAS. |
| ** 8 ** | DS_SUBSTANCIA | Nome da Substância da apresentação do medicamento. |
| ** 9 ** | TP_PRODUTO | Tipo do produto referente à apresentação. Valores de domínio: 1 - GENÉRICO, 2 - PATENTE, 3 - REFERÊNCIA, 4 - SIMILAR, 5 - NOVO, 6 - ESPECÍFICO, 7 - BIOLÓGICOS, 8 - DINAMIZADO, 9 - FITOTERÁPICO, 10 - RADIOFÁRMACO, 11 - BIOLÓGICOS NOVOS.  |
| ** 10 ** | TP_LCCT | Indicador de medicamento com ou sem crédito tributário de PIS/PASEP E COFINS. Assume os valores: I, II, III, N e NA |
| ** 11 ** | ST_REST_HOSP | Indica que o medicamento é ou não de venda exclusiva a hospitais. |
| ** 12 ** | ST_CAP | Indica que o medicamento está ou não na lista do cap. |
| ** 13 ** | ST_CONFAZ87 | Indica que o medicamento está ou não na lista do confaz que isenta de ICMS. |
| ** 14 ** | NU_PF0_INTEIRO | Preço Fábrica de teto permitido para a comercialização com isenção do imposto de ICMS. |
| ** 15 ** | NU_PF18_INTEIRO | Preço Fábrica de teto permitido para a comercialização sem isenção do imposto de ICMS. |

---

Com isso em mente, vamos checar o .shape do nosso dataset para verificarmos se o número de colunas é compatível com a descrição da tabela anterior. Vamos ver também quantas linhas temos na tabela.

---

**Exercício**: 

In [0]:
# Insira seu código aqui


# 3º Mão na massa

Muit bem, temos um dataset carregado e checado. Vamos dar uma olhada na primeira, **na linha do meio** e na ultima linha do nosso dataset.
Execute print() nas linhas adequadas.

---
**Exercício**:

In [0]:
# Insira seu código aqui


---
Oops, parece que nosso dataset tem algumas colunas com ??? no lugar da informação que deveria estar lá. Isso ocorre por um problema com o algoritmo do NumPy que não é compatível com caracteres especiais(á, é,ç, etc).

# 4º Apelando para o Pandas

A biblioteca Pandas não possue o mesmo problema que o Numpy, vamos importar o nosso dataset e guarda-lo na variável *datasetPD*.
Não esqueça de importar a biblioteca Pandas com seu nome padrão: pd.

Execute o método head() para checar as 5 primeiras linhas do nosso dataset e verifique se os dados foram lidos corretamete.

**Nota**: assim como numpy, informe o separador(;) e o tipo de dado(string) além de index_col=0 para avisar ao pandas que nosso dataset tem a descrição das linhas na primeira linha.

---

**Exercício**:

In [0]:
# Insira seu código aqui


Wow, me sinto tão informado O.O

# 5º Começando a limpeza

A linha NU_PF0_INTEIRO, de acordo com a descrição fornecida na seção 2 é o preço de fábrica do medicamento com isenção, mas note que a coluna seguinte(última coluna) também tem uma informação parecida, mas sem a insenção de ICMS.

Temos um problema, as duas colunas preços, mas qual usar, ambas? ou será que uma das colunas não representa corretamente os dados?

Bom, façamos o seguinte: vamos selecionar a penultima e a última coluna no nosso dataset e guarda-las em *suspeito1* e *suspeiro2* respectivamente.

Selecione as colunas da forma que preferir, usando o nome ou o número. Printe os primeiros elementos de ambos: *suspeito1* e *suspeito2.*

As duas colunas estão com os dados corretos?

---

**Exercício**:

In [0]:
# Insira seu código aqui


# 6º Analisando os dados (Difícil)

Os Tipos de medicamentos são listados na tabela do item 2 e estão na coluna TP_PRODUTO do dataset. É uma coluna interessante, mas quantos medicamentos de cada tipo estão presentes em no dataset?

Use value_counts() sob a coluna para descobrir, salve isso em uma variável.

Usando a variável que você acabou de criar: qual a porcentagem de cada tipo em relação ao todo?


**Dica:** A variável criada é um Pandas.Serie, logo tem todos os método e atributos pertinentes a uma Serie pandas, como Serie.sum() e Serie.size, por exemplo.

**Nota:** Tudo bem se a percentagem de cada contagem for apróximada/erredondada, ou seja se a soma das percentagens não for 100%.

---

**Exercício**:

In [0]:
# Insira seu código aqui


# 7º Human friendly

Os Tipos de medicamentos estão no formato de números que representam cada tipo, para saber o real tipo daquele medicamento é nescessário consultar a tabela do item 2. Isso não é muito bom para um humano lendo o dataset.

Substitua os códigos dos produtos em TP_PRODUTO por suas respectivas categorias em string conforme listado na tabela do item 2.

Sinta-se livre para fazer isso da forma que quiser, mas usar um **for** pode aumentar muito o tempo de execução.

Salve isso em um dataframe temporário para evitar alterações no original, nos vamos precisar do dataset como está para as questões seguintes. Use datasetPD.copy() para realizar a cópia.

**Dica1:** O TP_PRUDUTO é a coluna 8 do dataset. 

**Dica2:** Serie.srt.replace("original", "novo") pode ser útil nessa situação.

**Nota:** Cuidado, podem haver NaN no lugar dos códigos dos tipos

---

**Exercício**:

In [0]:
# Insira seu código aqui


# 8 Remoção de outliers (Difícil)

Quando se esta fazendo uma analize dos dados podemos ter problemas por conta dos dados que estão distantes da massa de dados anaizada, esse são os "outliers". Para ter uma analize mais fiel dos dados vamos remover de cada tipo de medicamento os preços da coluna "NU_PF18_INTEIRO" que são "outliers".  
Ao final da sua resposta deve ter um dataset sem outliers para cada tipo de medicamento. Esse dataset devará ser usado na solução das proximas qustões.

**Exercício**:

In [0]:
# Insira seu código aqui


# 9 Razão social da pessoa jurídica mais comum

Na coluna "NO_RAZAO_SOCIAL" qual o valor que mais se repete?

**Exercício**:

In [0]:
# Insira seu código aqui


# 10 Media, moda e mediana de cada tipo (Muito Dificil)

Nos exercicios anteriores trabalhamos com as colunas de preços e tipos dos medicamentos. Agora vamos separar mais uma vez os medicamentos por tipos e dizer qual a média, moda e mediana de cada tipo em relação aos preços na coluna "NU_PF18_INTEIRO". Os resultados deverão ser armazenados dentro de três dicionários chamado:
  - armazenar as médias em **mean**
  - armazenar as modas em **mode**
  - armazenar as medianas em **median**
  
Nesse dicionário a chave será o tipo do medicamento e o valor será a média/moda/mediana dependendo do dicionário.  
**NÃO** utilize as fuções **Series.mean()**, **Series.mode()** e **Series.median()**.

**Exercício**:

In [0]:
# Insira seu código aqui
