# <center> Trabalho 01: Exploração de Dados </center>
## <center> Usando a linguagem Python </center>
## <center> Preço de Medicamentos </center>

# Conjunto de dados

O conjunto se trata de uma amostra de dados de preços de medicamentos extraídos do portal brasileiro de dados abertos. Mais informações através do link: [http://dados.gov.br/dataset/anvisa-precos-de-medicamentos](http://dados.gov.br/dataset/anvisa-precos-de-medicamentos)

## Objetivo

* Produzir um relatório técnico contendo a análise exploratória do conjunto de dados:
    * Para cada variável/atributo da amostra, informar que tipo de atributo se enquandra (nominal, ordenal, intervalar, racional) bem como sua dimensão (discreto, contínuo);
    * No campo {TP_PRODUTO}, informar a frequência em que aparece o valor {GENÉRICO} e {ESPECÌFICO}
    * No campo {NU_PF18_INTEIRO}, calcular a média, mediana, amplitude, variância e desvio padrão.

In [1]:
import pandas as pd
medicamentos = pd.read_csv('./Dataset/TA_PRECOS_MEDICAMENTOS.csv', sep = ";", encoding = "latin")
medicamentos

Unnamed: 0,NU_CNPJ,NO_RAZAO_SOCIAL,NU_REGISTRO,CO_GGREM,CO_EAN,NO_PRODUTO,DS_APRESENTACAO,DS_CAS,DS_SUBSTANCIA,TP_PRODUTO,TP_LCCT,ST_REST_HOSP,ST_CAP,ST_CONFAZ87,NU_PF0_INTEIRO,NU_PF18_INTEIRO
0,60726692000181,MARJAN INDÚSTRIA E COMÉRCIO LTDA,1015501950021,5.248018e+14,7896226102634,OSTENAN,10 MG COMP REV CX COM 30,121268-17-5,ALENDRONATO DE SÓDIO TRI-HIDRATADO,4.0,N,N,N,N,,76.44
1,60726692000181,MARJAN INDÚSTRIA E COMÉRCIO LTDA,1015501950072,5.248018e+14,7896226102627,OSTENAN,10 MG COMP REV CX COM 15,121268-17-5,ALENDRONATO DE SÓDIO TRI-HIDRATADO,4.0,N,N,N,N,,38.39
2,4038750000103,LIBRA COMERCIO DE PRODUTOS FARMACEUTICOS LTDA,1206900220020,5.238038e+14,7730711011233,TEICOPLANINA,400 MG PÓ LIOFILIZADO SOL INJ CX C/ 1 FR/AMP X...,99999-99-9,NC/NI,1.0,I,N,N,N,0.0,296.38
3,60726692000181,MARJAN INDÚSTRIA E COMÉRCIO LTDA,1015500410028,5.248001e+14,7896226100449,AMBROTEN,XPE ADU FR COM 100ML,18683-91-5,ambroxol,4.0,N,N,N,N,0.0,12.88
4,4038750000103,LIBRA COMERCIO DE PRODUTOS FARMACEUTICOS LTDA,1206900260022,5.238033e+14,7730711011493,OXALIPLATINA,50 MG PÓ LIOFILIZADO FR/AMP X 500 MG,99999-99-9,NC/NI,1.0,I,N,N,N,0.0,1186.81
5,4038750000103,LIBRA COMERCIO DE PRODUTOS FARMACEUTICOS LTDA,SI/NC,5.238028e+14,SI/NC,LIBRACTAM,1 FA - 3G,99999-99-9,NC/NI,4.0,II,N,N,N,0.0,0.00
6,4038750000103,LIBRA COMERCIO DE PRODUTOS FARMACEUTICOS LTDA,SI/NC,5.238029e+14,SI/NC,LIBRATECAM,1 FA - 100MG,99999-99-9,NC/NI,4.0,I,N,N,N,0.0,0.00
7,4038750000103,LIBRA COMERCIO DE PRODUTOS FARMACEUTICOS LTDA,SI/NC,5.238030e+14,SI/NC,LIFOS,1G PO LIOF 1 FA,99999-99-9,NC/NI,4.0,I,N,N,N,0.0,0.00
8,4038750000103,LIBRA COMERCIO DE PRODUTOS FARMACEUTICOS LTDA,1206900340018,5.238031e+14,7730711010151,MEGASTROL,160 MG COMP CX C/ 3 BL C/ 10 COMP,99999-99-9,NC/NI,4.0,I,N,N,N,0.0,3.07
9,4038750000103,LIBRA COMERCIO DE PRODUTOS FARMACEUTICOS LTDA,1206900100025,5.238032e+14,7730711010809,METOTREXATO,25 MG/ML SOL INJ CX C/ 1 FR/AMP 20 ML,99999-99-9,NC/NI,4.0,I,N,N,N,0.0,154.65


### Variáveis

| Campo      | Descrição                     | tipo       | tipo    |
| ---------- | ----------------------------- | ---------- | ------- |
| NU_CNPJ    | código de identificação da pessoa jurídica | Nominal   | discreto |
| NO_RAZAO_SOCIAL | Razão Social da Pessoa Jurídica | Nominal | discreto |
| NU_REGISTRO  | Número de registro do medicamento na Anvisa | Nominal   | discreto    |
| CO_GGREM | Código da apresentação de um produtor | Nominal  | discreto      |
| CO_EAN  | Número que representa o código de barras do produto. |  Nominal  |  discreto  |
| NO_PRODUTO | Nome do medicamento. | Nominal  | discreto        |
| DS_APRESENTACAO | Descrição da apresentação de um produto. |  Nominal   | discreto   |
| DS_CAS | Número de registro presente no banco de dados do Chemical Abstract Service - CAS, onde são designados às substâncias, de maneira sequencial, à medida que estas são colocadas na Base de Dados do CAS. Desta forma, cada número de registro CAS é um identificador numérico único, que designa apenas uma substância e que não possui significado químico algum. |  Ordinal  | discreto       |
| DS_SUBSTANCIA | Nome da substância da apresentação do medicamento. |  Nominal   | discreto    |
| TP_PRODUTO | Tipo do produtor referente à apresentação. Valores de domínio: 1- Genérico, 2 - Patente, 3 - Referência, 4 - Similar, 5 - Novo, 6 - Específico, 7 - Biológicos, 8 - Dinamizado, 9 - Fitoterápico, 10 - Radiofármaco, 11 - Biológicos Novos | Ordinal | discreto  |
| TP_LCCT | Indicador de Medicamento com ou sem crédito tributário de PIS/PASEP e COFINS. Assume os valores: I, II, III, N e NA. | Nominal |  discreto    |
| ST_REST_HOSP | Indica que o medicamento é ou não de venda exclusiva a hospitais. | Nominal | discreto |
| ST_CAP | Indica que o medicamento está ou não na lista do cap e por isso devera ser comercializado junto ao governo com preços diferenciados, sendo um desconto mínimo obrigatório a ser aplicado pelas distribuidoras e empresas produtoras de medicamentos ao preço de produtos vendidos a entes da administração pública. A aplicação do coeficiente estabelece um preço teto para compras governamentais, a partir do qual se deve iniciar o processo de negociação. | Nominal  |  discreto |
| ST_CONFAZ87 | Indica que o medicamento está ou não na lista do confaz que isenta de ICMS algumas apresentações quando vendidas a entes da Administração Pública. | Nominal | discreto |
| NU_PF0_INTEIRO | Preço Fábrica de teto permitido para a comercialização com isenção do imposto de ICMS. | Racional | contínuo  |
| NU_PF18_INTEIRO | Preço Fábrica de teto permitido para a comercialização sem isenção do imposto de ICMS. | Racional |  contínuo         |

### Avaliação do campo {TP_PRODUTO}

Sabe-se que o campo {TP_PRODUTO} pode conter 11 valores possíveis:
1. Genérico
2. Patente
3. Referência
4. Similar
5. Novo
6. Específico
7. Biológicos 
8. Dinamizado
9. Fitoterápico
10. Radiofármacos
11. Biológicos Novos

O problema solicita que informe a frequência com que aparece os valores **Genérico** [1] e **Específico** [6]

In [16]:
pd.crosstab(index=medicamentos["TP_PRODUTO"], columns = "count").apply(lambda x: (x/x.sum())*100, axis=0)

col_0,count
TP_PRODUTO,Unnamed: 1_level_1
1.0,27.112258
3.0,0.008191
4.0,43.633534
5.0,14.735635
6.0,8.750051
7.0,4.312569
8.0,0.296924
9.0,1.03002
10.0,0.004096
11.0,0.116722


O código acima informa que o **Genérico** tem frequência aproximada de 0.271 (27.1%) e **Específico** tem frequência aproximada de 0.087 (8.7%)

### Avaliação do Campo {NU_PF18_INTEIRO}

In [18]:
import numpy as np

Cálculo da média do campo:

In [20]:
np.nanmean(medicamentos["NU_PF18_INTEIRO"])

384.19651559873734

Cálculo da mediana do campo:

In [21]:
np.nanmedian(medicamentos["NU_PF18_INTEIRO"])

33.630000000000003

Cálculo da Amplitude do campo:

In [22]:
np.nanmax(medicamentos["NU_PF18_INTEIRO"]) - np.nanmin(medicamentos["NU_PF18_INTEIRO"])

372185.40999999997

Cálculo da variancia do campo:

In [23]:
np.nanvar(medicamentos["NU_PF18_INTEIRO"])

12009210.339989169

Cálculo do Desvio Padrão do campo:

In [24]:
np.nanstd(medicamentos["NU_PF18_INTEIRO"])

3465.430758215949