# Análise de Venda de Medicamentos Controlados e Antimicrobianos - Medicamentos Industrializados

Projeto de análise de vendas de medicamentos controlados e antimicrobianos exclusivamente industrializados na Região Metropolitana da Baixada Santista (RMBS) composta por nove municípios no litoral do estado de São Paulo, através de dados extraídos do Sistema Nacional de Gerenciamento de Produtos Controlados (SNGPC) e disponibilizados no [portal de dados abertos](https://dados.gov.br/dados/conjuntos-dados/venda-de-medicamentos-controlados-e-antimicrobianos---medicamentos-industrializados) da Agência Nacional de Vigilância Sanitária (Anvisa). Através da análise das informações de vendas, dados geográricos, perfil de pacientes e características de medicamentos, aplicando a metodologia CRISP-DM, o objetivo é extrair insights de negócios, sugerir soluções aos problemas identificados e apresentar propostas de aprimoramento.

## Demanda do negócio

A análise dos dados possibilitará a obtenção de insigths, a identificação de tendências e a proposição de soluções estratégicas. Além disso, esse processo permitirá direcionar recursos de forma mais eficaz para áreas de maior demanda, aprimorando, assim, a gestão logística e o controle de estoque. Para atender a esses objetivos, foi definida as seguintes demandas de negócio:

- Compreender as tendências, padrões e características das vendas farmacêuticas.
- Construção de perfis de pacientes com base nos mendicamentos receitados.
- Compreender a demanda de medicamentos com base no perfil dos pacientes, por tempo e por município.
- Obter insights, identificar oportunidades e propor soluções a problemas.

## Compreensão dos dados

Os dados que serão utilizados na análise compreendem o período de 12 meses do ano de 2019, que integram um conjunto de doze arquivos em formato "CSV". Os dados foram extraídos do Sistema Nacional de Gerenciamento de Produtos Controlados (SNGPC), provenientes apenas de farmácias e drogarias privadas que periodicamente devem enviar os dados a respeito de todas as vendas realizadas de medicamentos sujeitos à escrituração no SNGPC. Os dados foram disponibilizados no [portal de dados abertos](https://dados.gov.br/dados/conjuntos-dados/venda-de-medicamentos-controlados-e-antimicrobianos---medicamentos-industrializados) da Agência Nacional de Vigilância Sanitária (Anvisa).


## Tópico da análise

- Construir uma ABT (analytical base table) para execução das análises.

## Dicionário de dados

**ANO_VENDA:** Ano da venda do medicamento.<br>
**MES_VENDA:** Mês da venda do medicamento.<br>
**UF_VENDA:** Unidade Federativa do endereço da farmácia ou drogaria, cadastrado no banco de dados da Anvisa, representando a UF onde ocorreu a venda.<br>
**MUNICIPIO_VENDA:** Município do endereço da farmácia ou drogaria, cadastrado no banco de dados da Anvisa, representando o Município onde ocorreu a venda.<br>
**PRINCIPIO_ATIVO:** Nome do princípio ativo do medicamento industrializado, conforme cadastrado no registro do medicamento, no banco de dados da Anvisa.<br>Quando um medicamento tem mais de um princípio ativo, cada um deles é separado pelo caractere “+”.<br>Ex.: “PRINCÍPIO ATIVO 1 + PRINCÍPIO ATIVO 2”<br>
**DESCRICAO_APRESENTACAO:** Uma Apresentação de Medicamento representa O modo como um medicamento é apresentado na embalagem. Exemplo: Medicamento X, pode ter duas apresentações diferentes:<br>• Apresentação 1:<br>Uma caixa com 1 blister de alumínio com 20 comprimidos, cada comprimido com 5 mg de princípio ativo.<br>Nesse caso, a descrição da apresentação seria:<br>“5 MG COM CT BL AL X 20”<br>• Apresentação 2:<br>Uma caixa com 1 frasco de vidro com 50 mL de um xarope, com concentração do princípio ativo de 15 mg por mL.<br>Nesse caso, a descrição da apresentação seria:<br>15MG/ML XPE CT FR VD x 50 ML<br>Esses exemplos representam descrições de apresentações diferentes para um mesmo medicamento.<br>Os termos utilizados na descrição das apresentações seguem o disposto no Vocabulário Controlado da Anvisa, disponível no link:<br>[http://portal.anvisa.gov.br/documents/33836/2501339/Vocabul%C3%A1rio+Controlado/fd8fdf08-45dc-402a-8dcf-fbb3fd21ca75](http://portal.anvisa.gov.br/documents/33836/2501339/Vocabul%C3%A1rio+Controlado/fd8fdf08-45dc-402a-8dcf-fbb3fd21ca75)<br>
**QTD_VENDIDA:** Quantidade vendida de caixas ou frascos do medicamento.<br>
**UNIDADE_MEDIDA:** Indica se a quantidade vendida do medicamento foi de caixas ou frascos.<br>
**CONSELHO_PRESCRITOR:** Conselho de Classe do profissional que prescreveu o medicamento vendido.<br>
**UF_CONSELHO_PRESCRITOR:** Unidade Federativa do Conselho de Classe do profissional que prescreveu o medicamento vendido.<br>
**TIPO_RECEITUARIO:** Tipo de receituário utilizado na prescrição.<br>Valores e respectivos tipos de receituário:<br>1 – Receita de Controle Especial em 2 vias (Receita Branca);<br>2 – Notificação de Receita B (Notificação Azul);<br>3 – Notificação de Receita Especial (Notificação Branca);<br>4 – Notificação de Receita A (Notificação Amarela);<br>5 – Receita Antimicrobiano em 2 vias.<br>
**CID10:** Classificação Internacional de Doença (aplicável apenas a medicamentos antimicrobianos).<br>
**SEXO:** Sexo do paciente (aplicável apenas a medicamentos antimicrobianos).<br>Valor 1 para o sexo masculino, valor 2 para o sexo feminino.<br>
**IDADE:** Valor numérico que representa a idade do paciente, em meses ou anos (aplicável apenas a medicamentos antimicrobianos).<br>
**UNIDADE_IDADE:** Unidade de medida da idade do paciente, que pode ser em meses ou anos (aplicável apenas a medicamentos antimicrobianos).<br>Valor 1 para unidade de medida em anos, valor 2 para unidade de medida em meses.<br>

## Sumário

1. Importação de bibliotecas
2. Criação e iniciação de uma sessão Spark
3. Criação do dataset a partir da leitura dos arquivos *.csv
4. Análise dos dados para construção da ABT
5. Construção da ABT
6. Salvando a ABT em formato parquet
7. Movendo arquivos *.csv processados

-------------------------------------

### 1. Importação de bibliotecas


In [1]:
from pyspark.sql import SparkSession
from datetime import datetime
import glob
import os
import shutil


### 2. Criação e iniciação de uma sessão Spark

In [2]:
appName = 'PySpark - ABT de Vendas Farmaceuticas'

spark = SparkSession.builder \
    .appName(appName) \
    .config('spark.driver.memory', '8g') \
    .config('spark.driver.cores', '2') \
    .config('spark.executor.memory', '8g') \
    .config('spark.executor.cores', '4') \
    .master('local[*]') \
    .getOrCreate()

spark.sparkContext.setLogLevel("ERROR")

spark


### 3. Criação do dataset a partir da leitura dos arquivos *.csv

In [3]:
# Obtém o ano e mês atual
agora = datetime.now()
ano_atual = agora.year

print(f'\nAgora: {agora}')
print(f'\nAno:   {ano_atual}')



Agora: 2024-05-07 22:25:28.425494

Ano:   2024


In [4]:
# Definindo manualmente o ano
ano_atual = 2019

print(f'\nAno:   {ano_atual}')


Ano:   2019


In [5]:
# Lista de caminhos para os arquivos CSV
caminhos_csv = glob.glob('dados/*.csv')

# DataFrame vazio
df = None

# Loop para ler e unir os arquivos CSV
for caminho_csv in caminhos_csv:
    # Extraindo o 'ano' do nome do arquivo CSV
    ano_venda = int(os.path.basename(caminho_csv).split('_')[-1].split('.')[0][:4])
        
    if ano_venda == ano_atual:
        df_temp = spark.read.csv(caminho_csv, sep=';', header=True, encoding='cp1252', inferSchema=True)

        if df is None:
            df = df_temp
        else:
            df = df.union(df_temp)

# Exibir o esquema do DataFrame combinado
df.printSchema()

root
 |-- ANO_VENDA: integer (nullable = true)
 |-- MES_VENDA: integer (nullable = true)
 |-- UF_VENDA: string (nullable = true)
 |-- MUNICIPIO_VENDA: string (nullable = true)
 |-- PRINCIPIO_ATIVO: string (nullable = true)
 |-- DESCRICAO_APRESENTACAO: string (nullable = true)
 |-- QTD_VENDIDA: integer (nullable = true)
 |-- UNIDADE_MEDIDA: string (nullable = true)
 |-- CONSELHO_PRESCRITOR: string (nullable = true)
 |-- UF_CONSELHO_PRESCRITOR: string (nullable = true)
 |-- TIPO_RECEITUARIO: decimal(1,0) (nullable = true)
 |-- CID10: string (nullable = true)
 |-- SEXO: integer (nullable = true)
 |-- IDADE: double (nullable = true)
 |-- UNIDADE_IDADE: integer (nullable = true)



In [6]:
# Exibir as 20 primeiras linhas do DataFrame combinado
df.show(truncate=False)


+---------+---------+--------+---------------+-----------------------------------------+------------------------------------------+-----------+--------------+-------------------+----------------------+----------------+-----+----+-----+-------------+
|ANO_VENDA|MES_VENDA|UF_VENDA|MUNICIPIO_VENDA|PRINCIPIO_ATIVO                          |DESCRICAO_APRESENTACAO                    |QTD_VENDIDA|UNIDADE_MEDIDA|CONSELHO_PRESCRITOR|UF_CONSELHO_PRESCRITOR|TIPO_RECEITUARIO|CID10|SEXO|IDADE|UNIDADE_IDADE|
+---------+---------+--------+---------------+-----------------------------------------+------------------------------------------+-----------+--------------+-------------------+----------------------+----------------+-----+----+-----+-------------+
|2019     |1        |DF      |TAGUATINGA     |CLORIDRATO DE CIPROFLOXACINO MONOIDRATADO|500 MG COM REV CT BL AL PLAS PVDC OPC X 14|2          |CAIXA         |CRM                |DF                    |5               |NULL |1   |42.0 |1            |


In [7]:
# Contar o número de linhas no DataFrame
qtde_linhas = df.count()
print(f'\nO DataFrame tem {qtde_linhas} linhas.')

# Obter o número de colunas no DataFrame
qtde_colunas = len(df.columns)
print(f'\nO DataFrame tem {qtde_colunas} colunas.')


O DataFrame tem 76237943 linhas.

O DataFrame tem 15 colunas.


### 4. Análise dos dados para construção da ABT

In [8]:
# Criando uma View temporária para uso do SparkSQL
df.createOrReplaceTempView('tb_medicamentos')

In [9]:
# Verificando a volume total de registros dos 9 municípios da RMBS
qtde_linhas_rmbs = spark.sql('''
    SELECT
        COUNT(*) AS QTDE_TOTAL
    FROM 
        tb_medicamentos
    WHERE
        UF_VENDA = 'SP' AND    
        MUNICIPIO_VENDA IN ('BERTIOGA', 'CUBATÃO', 'GUARUJÁ', 'ITANHAÉM', 'MONGAGUÁ', 'PERUÍBE', 
                            'PRAIA GRANDE', 'SANTOS', 'SÃO VICENTE')
''')

qtde_linhas_rmbs.show()


+----------+
|QTDE_TOTAL|
+----------+
|    737718|
+----------+



In [10]:
# Coletar o resultado da primeira consulta
qtde_rmbs = qtde_linhas_rmbs.first()['QTDE_TOTAL']

# Verificando a volume total de registros de cada 1 dos 9 municípios da RMBS
spark.sql('''
    SELECT
        MUNICIPIO_VENDA,
        COUNT(*) AS QTDE_TOTAL,
        ROUND(100*(COUNT(*)/{}), 3) AS QTDE_TOTAL_PERCENT
    FROM 
        tb_medicamentos
    WHERE
        UF_VENDA = 'SP' AND
        MUNICIPIO_VENDA IN ('BERTIOGA', 'CUBATÃO', 'GUARUJÁ', 'ITANHAÉM', 'MONGAGUÁ', 'PERUÍBE', 
                            'PRAIA GRANDE', 'SANTOS', 'SÃO VICENTE')
    GROUP BY
        MUNICIPIO_VENDA
    ORDER BY 
        QTDE_TOTAL DESC
'''.format(qtde_rmbs)).show()


+---------------+----------+------------------+
|MUNICIPIO_VENDA|QTDE_TOTAL|QTDE_TOTAL_PERCENT|
+---------------+----------+------------------+
|         SANTOS|    224685|            30.457|
|   PRAIA GRANDE|    121221|            16.432|
|    SÃO VICENTE|    109525|            14.846|
|        GUARUJÁ|    100975|            13.687|
|        CUBATÃO|     43922|             5.954|
|        PERUÍBE|     42342|              5.74|
|       ITANHAÉM|     39390|             5.339|
|       MONGAGUÁ|     29791|             4.038|
|       BERTIOGA|     25867|             3.506|
+---------------+----------+------------------+



### 5. Construção da ABT

In [11]:
# Selecionando os dados que irão compor a ABT
abt_rmbs_00 = spark.sql('''
    SELECT
        ANO_VENDA,
        MES_VENDA,
        UF_VENDA,
        MUNICIPIO_VENDA,
        PRINCIPIO_ATIVO,
        DESCRICAO_APRESENTACAO,
        QTD_VENDIDA,
        UNIDADE_MEDIDA,
        CONSELHO_PRESCRITOR,
        UF_CONSELHO_PRESCRITOR,
        TIPO_RECEITUARIO,
        CID10,
        SEXO,
        IDADE,
        UNIDADE_IDADE,
        TO_DATE(concat(ANO_VENDA, lpad(MES_VENDA, 2, '0'), '01'), 'yyyyMMdd') AS DATA_REF,
        CURRENT_DATE AS DATA_PROC 
    FROM
        tb_medicamentos
    WHERE
        UF_VENDA = 'SP' AND
        MUNICIPIO_VENDA IN ('BERTIOGA', 'CUBATÃO', 'GUARUJÁ', 'ITANHAÉM', 'MONGAGUÁ', 'PERUÍBE', 
                            'PRAIA GRANDE', 'SANTOS', 'SÃO VICENTE')    
''')

abt_rmbs_00.show(truncate=False)

+---------+---------+--------+---------------+-------------------------+------------------------------------------+-----------+--------------+-------------------+----------------------+----------------+-----+----+-----+-------------+----------+----------+
|ANO_VENDA|MES_VENDA|UF_VENDA|MUNICIPIO_VENDA|PRINCIPIO_ATIVO          |DESCRICAO_APRESENTACAO                    |QTD_VENDIDA|UNIDADE_MEDIDA|CONSELHO_PRESCRITOR|UF_CONSELHO_PRESCRITOR|TIPO_RECEITUARIO|CID10|SEXO|IDADE|UNIDADE_IDADE|DATA_REF  |DATA_PROC |
+---------+---------+--------+---------------+-------------------------+------------------------------------------+-----------+--------------+-------------------+----------------------+----------------+-----+----+-----+-------------+----------+----------+
|2019     |1        |SP      |SANTOS         |AZITROMICINA DI-HIDRATADA|500 MG COM REV CT BL AL PLAS PVC TRANS X 5|1          |CAIXA         |CRM                |SP                    |5               |NULL |2   |44.0 |1            

In [12]:
# Exibir o esquema da ABT
abt_rmbs_00.printSchema()

root
 |-- ANO_VENDA: integer (nullable = true)
 |-- MES_VENDA: integer (nullable = true)
 |-- UF_VENDA: string (nullable = true)
 |-- MUNICIPIO_VENDA: string (nullable = true)
 |-- PRINCIPIO_ATIVO: string (nullable = true)
 |-- DESCRICAO_APRESENTACAO: string (nullable = true)
 |-- QTD_VENDIDA: integer (nullable = true)
 |-- UNIDADE_MEDIDA: string (nullable = true)
 |-- CONSELHO_PRESCRITOR: string (nullable = true)
 |-- UF_CONSELHO_PRESCRITOR: string (nullable = true)
 |-- TIPO_RECEITUARIO: decimal(1,0) (nullable = true)
 |-- CID10: string (nullable = true)
 |-- SEXO: integer (nullable = true)
 |-- IDADE: double (nullable = true)
 |-- UNIDADE_IDADE: integer (nullable = true)
 |-- DATA_REF: date (nullable = true)
 |-- DATA_PROC: date (nullable = false)



In [13]:
# Contar o número de linhas
qtde_linhas = abt_rmbs_00.count()
print(f'\nA ABT tem {qtde_linhas} linhas.')

# Obter o número de colunas
qtde_colunas = len(abt_rmbs_00.columns)
print(f'\nA ABT tem {qtde_colunas} colunas.')


A ABT tem 737718 linhas.

A ABT tem 17 colunas.


### 6. Salvando a ABT em formato parquet

In [14]:
# Diretório onde os dados serão salvos
caminho_parquet = f'dados/ABT/{ano_venda}'

# Verifica se o diretório Parquet para o ano de venda já existe
if os.path.exists(caminho_parquet):
    # Gravando os dados em formato 'parquet'
    abt_rmbs_00.write.partitionBy('DATA_REF').parquet(caminho_parquet, mode='append')
    # Validando a quantidade de linhas
    read_abt_rmbs = spark.read.format('parquet').load(caminho_parquet)
    print(f'\nA ABT "parquet" tem {read_abt_rmbs.count()} linhas.')
else:
    print(f'\nOcorreu um erro: o diretório "{caminho_parquet}" não existe!')


A ABT "parquet" tem 737718 linhas.


### 7. Movendo arquivos *.csv processados

In [15]:
# Criando o nome do diretório de destino com base na data atual
data_corrente = datetime.now().strftime('%Y%m%d')
nome_diretorio_destino = f'{ano_venda}_processado_{data_corrente}'

# Movendo os arquivos CSV processados para o diretório de destino
caminho_destino = os.path.join('dados', nome_diretorio_destino)
os.makedirs(caminho_destino, exist_ok=True)
for caminho_csv in caminhos_csv:
    shutil.move(caminho_csv, caminho_destino)

In [16]:
spark.stop()