## Imports

In [1]:
import requests

# biblioteca para manipulação e análise de dados
import pandas as pd

# O pandas normalmente limita a quantidade de colunas que sao apresentadas visualmente nos dataframes
# essa linha so faz com que nao haja esse limite, ja que a base possui 40 colunas
pd.options.display.max_columns = None

# PREÇOS DE MEDICAMENTOS

# Download

In [2]:
url = 'https://dados.anvisa.gov.br/dados/TA_PRECO_MEDICAMENTO.csv'
response = requests.get(url)
filename = url.split('/')[-1]

# download do arquivo .csv
with open (filename, 'wb') as file:
    file.write(response.content)

## Read

In [3]:
database = pd.read_csv('./TA_PRECO_MEDICAMENTO.csv', sep=';', low_memory = False, decimal = ',')

### Tamanho

In [4]:
# (rows, columns)
database.shape

(25224, 40)

### Colunas

In [5]:
database.columns

Index(['SUBSTÂNCIA', 'CNPJ', 'LABORATÓRIO', 'CÓDIGO GGREM', 'REGISTRO',
       'EAN 1', 'EAN 2', 'EAN 3', 'PRODUTO', 'APRESENTAÇÃO',
       'CLASSE TERAPÊUTICA', 'TIPO DE PRODUTO (STATUS DO PRODUTO)',
       'REGIME DE PREÇO', 'PF Sem Impostos', 'PF 0%', 'PF 12%', 'PF 17%',
       'PF 17% ALC', 'PF 17,5%', 'PF 17,5% ALC', 'PF 18%', 'PF 18% ALC',
       'PF 20%', 'PMC 0%', 'PMC 12%', 'PMC 17%', 'PMC 17% ALC', 'PMC 17,5%',
       'PMC 17,5% ALC', 'PMC 18%', 'PMC 18% ALC', 'PMC 20%',
       'RESTRIÇÃO HOSPITALAR', 'CAP', 'CONFAZ 87', 'ICMS 0%',
       'ANÁLISE RECURSAL',
       'LISTA DE CONCESSÃO DE CRÉDITO TRIBUTÁRIO (PIS/COFINS)',
       'COMERCIALIZAÇÃO 2018', 'TARJA'],
      dtype='object')

### Amostra

In [6]:
database.head()

Unnamed: 0,SUBSTÂNCIA,CNPJ,LABORATÓRIO,CÓDIGO GGREM,REGISTRO,EAN 1,EAN 2,EAN 3,PRODUTO,APRESENTAÇÃO,CLASSE TERAPÊUTICA,TIPO DE PRODUTO (STATUS DO PRODUTO),REGIME DE PREÇO,PF Sem Impostos,PF 0%,PF 12%,PF 17%,PF 17% ALC,"PF 17,5%","PF 17,5% ALC",PF 18%,PF 18% ALC,PF 20%,PMC 0%,PMC 12%,PMC 17%,PMC 17% ALC,"PMC 17,5%","PMC 17,5% ALC",PMC 18%,PMC 18% ALC,PMC 20%,RESTRIÇÃO HOSPITALAR,CAP,CONFAZ 87,ICMS 0%,ANÁLISE RECURSAL,LISTA DE CONCESSÃO DE CRÉDITO TRIBUTÁRIO (PIS/COFINS),COMERCIALIZAÇÃO 2018,TARJA
0,CEFALOTINA SÓDICA,04.301.884/0001-75,AUROBINDO PHARMA INDÚSTRIA FARMACÊUTICA LIMITADA,500100106155118,1516700060050,7898362000000.0,,,CEFALOTINA SÓDICA,1G PÓ P/ SOL INJ CT 50 FA VD INC (EMB HOSP),J01D2 - CEFALOSPORINAS INJETÁVEIS,Genérico,Regulado,209.28,209.28,237.82,252.15,252.15,253.67,253.67,255.22,255.22,261.6,,,,,,,,,,Sim,Não,Não,Não,,POSITIVA,Sim,Tarja Vermelha
1,CEFAZOLINA SÓDICA,04.301.884/0001-75,AUROBINDO PHARMA INDÚSTRIA FARMACÊUTICA LIMITADA,500100204157115,1516700030038,7898362000000.0,,,CEFAZOLINA SÓDICA,1 G PÓ P/ SOL INJ CT 50 FA VD INC (EMB HOSP),J01D2 - CEFALOSPORINAS INJETÁVEIS,Genérico,Regulado,413.28,413.28,469.64,497.93,497.93,500.95,500.95,504.0,504.0,516.6,,,,,,,,,,Sim,Não,Não,Não,,POSITIVA,Sim,Tarja Vermelha
2,CEFOTAXIMA SÓDICA,04.301.884/0001-75,AUROBINDO PHARMA INDÚSTRIA FARMACÊUTICA LIMITADA,500100310151117,1516700050063,7898362000000.0,,,CEFOTAXIMA SÓDICA,1 G PÓ P/ SOL INJ CT 50 FA VD INC (EMB HOSP),J01D2 - CEFALOSPORINAS INJETÁVEIS,Genérico,Regulado,1529.87,1529.87,1738.48,1843.21,1843.21,1854.38,1854.38,1865.69,1865.69,1912.33,,,,,,,,,,Sim,Não,Não,Não,,POSITIVA,Sim,Tarja Vermelha
3,CLORIDRATO DE CIPROFLOXACINO MONOIDRATADO,04.301.884/0001-75,AUROBINDO PHARMA INDÚSTRIA FARMACÊUTICA LIMITADA,500100410113111,1516700070099,7898362000000.0,,,CLORIDRATO DE CIPROFLOXACINO,500 MG COM REV CT 2 BL AL PLAS INC X 07,J01G1 - FLUORQUINOLONAS ORAIS,Genérico,Regulado,21.9,21.9,24.89,26.39,26.39,26.55,26.55,26.71,26.71,27.38,30.28,34.41,36.48,36.48,36.7,36.7,36.93,36.93,37.85,Não,Não,Sim,Não,,POSITIVA,Sim,Tarja Vermelha
4,CEFALEXINA,04.301.884/0001-75,AUROBINDO PHARMA INDÚSTRIA FARMACÊUTICA LIMITADA,500100801112111,1516700080035,7898362000000.0,,,CEFALEXINA,500 MG COM REV CT BL AL PVC/PVDC INC X 8,J01D1 - CEFALOSPORINAS ORAIS,Genérico,Regulado,9.94,9.94,11.29,11.97,11.97,12.05,12.05,12.12,12.12,12.42,13.74,15.61,16.55,16.55,16.66,16.66,16.76,16.76,17.17,Não,Não,Não,Não,,POSITIVA,Sim,Tarja Vermelha


## (a) O produto com o maior preço de fábrica sem impostos

#### Maior preço

In [7]:
# Identifica maior preço da coluna
maiorPreco = database['PF Sem Impostos'].max()

In [8]:
print('R$', maiorPreco)

R$ 1197574.08


#### Produto com maior Preço

In [9]:
# Seleciona um dataframe apenas com a(s) linha(s) que apresenta(m) o maior preço
produtoMaiorPreco = database[ database['PF Sem Impostos'] == maiorPreco ]

In [10]:
# Nome do(s) produto(s)
list(produtoMaiorPreco['PRODUTO'])

['SOFOSBUVIR']

#### Dado do produto

In [11]:
# Apresenta todos os dados da(s) linha(s) que apresenta(m) o maior preço
produtoMaiorPreco

Unnamed: 0,SUBSTÂNCIA,CNPJ,LABORATÓRIO,CÓDIGO GGREM,REGISTRO,EAN 1,EAN 2,EAN 3,PRODUTO,APRESENTAÇÃO,CLASSE TERAPÊUTICA,TIPO DE PRODUTO (STATUS DO PRODUTO),REGIME DE PREÇO,PF Sem Impostos,PF 0%,PF 12%,PF 17%,PF 17% ALC,"PF 17,5%","PF 17,5% ALC",PF 18%,PF 18% ALC,PF 20%,PMC 0%,PMC 12%,PMC 17%,PMC 17% ALC,"PMC 17,5%","PMC 17,5% ALC",PMC 18%,PMC 18% ALC,PMC 20%,RESTRIÇÃO HOSPITALAR,CAP,CONFAZ 87,ICMS 0%,ANÁLISE RECURSAL,LISTA DE CONCESSÃO DE CRÉDITO TRIBUTÁRIO (PIS/COFINS),COMERCIALIZAÇÃO 2018,TARJA
23087,SOFOSBUVIR,53.359.824/0004-61,BLANVER FARMOQUIMICA E FARMACEUTICA S.A.,541018070000206,1152400050026,7898582000000.0,,,SOFOSBUVIR,400 MG COM REV CX 50 FR PLAS OPC X 28,J05B1 - PRODUTOS PARA HEPATITES VIRAIS,Genérico,Regulado,1197574.08,1341283.18,1549970.07,1657460.77,1442859.22,1669036.28,1451604.31,1680776.5,1460455.27,1729438.34,1799283.63,2070425.3,2209270.18,1994668.23,2224189.54,2006757.8,2239312.56,2018993.73,2301940.03,Não,Sim,Não,Não,,NEGATIVA,Sim,Tarja Vermelha


## (b) Possíveis tipos de Produtos

In [12]:
list(database['TIPO DE PRODUTO (STATUS DO PRODUTO)'].unique())

['Genérico',
 'Novo (Referência)',
 'Novo',
 'Específico',
 'Similar',
 'Biológicos',
 'Similar (Referência)',
 'Genérico (Referência)',
 'Biológico Novo',
 'Específico (Referência)',
 'Radiofármaco']

#### Quantidade de produtos em cada tipo

In [13]:
database['TIPO DE PRODUTO (STATUS DO PRODUTO)'].value_counts()

Genérico                   8762
Similar                    8679
Novo (Referência)          2855
Específico                 1800
Novo                       1443
Biológicos                 1213
Similar (Referência)        330
Genérico (Referência)        82
Biológico Novo               58
Radiofármaco                  1
Específico (Referência)       1
Name: TIPO DE PRODUTO (STATUS DO PRODUTO), dtype: int64

## (c) O genérico mais barato

In [14]:
# dataframe apenas com produtos dos tipos Genericos

# produtos do tipo Genérico (Referência) não foram incluídos

df_genericos = database[ (database['TIPO DE PRODUTO (STATUS DO PRODUTO)'] == 'Genérico') ]

In [15]:
df_genericos.shape

(8762, 40)

#### Preço

In [16]:
# verifica o mais barato dentre os genéricos
maisBarato = df_genericos['PF Sem Impostos'].min()

In [17]:
print('R$', maisBarato)

R$ 0.51


#### Produto

In [18]:
# Seleciona um dataframe apenas com a(s) linha(s) que apresenta(m) o menor preço entre os genéricos
genericoMaisBarato = df_genericos[ df_genericos['PF Sem Impostos'] == maisBarato ]

In [19]:
# Nome do(s) produto(s)
list(genericoMaisBarato['PRODUTO'])

['METILSULFATO DE NEOSTIGMINA']

#### Dados do produto

In [20]:
# Apresenta todos os dados da(s) linha(s) que apresenta(m) o menor preço entre os genéricos
genericoMaisBarato

Unnamed: 0,SUBSTÂNCIA,CNPJ,LABORATÓRIO,CÓDIGO GGREM,REGISTRO,EAN 1,EAN 2,EAN 3,PRODUTO,APRESENTAÇÃO,CLASSE TERAPÊUTICA,TIPO DE PRODUTO (STATUS DO PRODUTO),REGIME DE PREÇO,PF Sem Impostos,PF 0%,PF 12%,PF 17%,PF 17% ALC,"PF 17,5%","PF 17,5% ALC",PF 18%,PF 18% ALC,PF 20%,PMC 0%,PMC 12%,PMC 17%,PMC 17% ALC,"PMC 17,5%","PMC 17,5% ALC",PMC 18%,PMC 18% ALC,PMC 20%,RESTRIÇÃO HOSPITALAR,CAP,CONFAZ 87,ICMS 0%,ANÁLISE RECURSAL,LISTA DE CONCESSÃO DE CRÉDITO TRIBUTÁRIO (PIS/COFINS),COMERCIALIZAÇÃO 2018,TARJA
3252,METILSULFATO DE NEOSTIGMINA,58.430.828/0001-60,BLAU FARMACÊUTICA S.A.,504416030054806,1163701340010,7896015000000.0,,,METILSULFATO DE NEOSTIGMINA,"0,5 MG/ML SOL INJ CT AMP VD TRANS X 1 ML",N07X0 - TODOS OS OUTROS PRODUTOS PARA O SISTEM...,Genérico,Regulado,0.51,0.51,0.58,0.61,0.61,0.62,0.62,0.62,0.62,0.64,0.71,0.8,0.84,0.84,0.86,0.86,0.86,0.86,0.88,Não,Não,Não,Não,,POSITIVA,Não,Tarja Vermelha


# Salvando registros sem campos em branco

A grande maioria das colunas EAN 2 e EAN 3 possuem campos vazios. Todas linhas possuem pelo menos algum campo vazio.

In [21]:
# Contagem de campos vazios para cada coluna
database.isna().sum(axis = 0)

SUBSTÂNCIA                                                   0
CNPJ                                                         0
LABORATÓRIO                                                  0
CÓDIGO GGREM                                                 0
REGISTRO                                                     0
EAN 1                                                       15
EAN 2                                                    25049
EAN 3                                                    25224
PRODUTO                                                      0
APRESENTAÇÃO                                                 0
CLASSE TERAPÊUTICA                                           0
TIPO DE PRODUTO (STATUS DO PRODUTO)                          0
REGIME DE PREÇO                                              0
PF Sem Impostos                                              0
PF 0%                                                        0
PF 12%                                                 

### Drop

In [22]:
# drop em todas linhas que possuem campos vazios
output = database.dropna(how = 'any')

### Save

In [23]:
# como o resultado é um dataframe vazio, salvará apenas as colunas no arquivo
output.to_csv('output.csv')