# Análise de Venda de Medicamentos Controlados e Antimicrobianos - Medicamentos Industrializados

Projeto de análise de vendas de medicamentos controlados e antimicrobianos exclusivamente industrializados na Região Metropolitana da Baixada Santista (RMBS) composta por nove municípios no litoral do estado de São Paulo, através de dados extraídos do Sistema Nacional de Gerenciamento de Produtos Controlados (SNGPC) e disponibilizados no [portal de dados abertos](https://dados.gov.br/dados/conjuntos-dados/venda-de-medicamentos-controlados-e-antimicrobianos---medicamentos-industrializados) da Agência Nacional de Vigilância Sanitária (Anvisa). Através da análise das informações de vendas, dados geográricos, perfil de pacientes e características de medicamentos, aplicando a metodologia CRISP-DM, o objetivo é extrair insights de negócios, sugerir soluções aos problemas identificados e apresentar propostas de aprimoramento.

## Demanda do negócio

A análise dos dados possibilitará a obtenção de insigths, a identificação de tendências e a proposição de soluções estratégicas. Além disso, esse processo permitirá direcionar recursos de forma mais eficaz para áreas de maior demanda, aprimorando, assim, a gestão logística e o controle de estoque. Para atender a esses objetivos, foi definida as seguintes demandas de negócio:

- Compreender as tendências, padrões e características das vendas farmacêuticas.
- Construção de perfis de pacientes com base nos mendicamentos receitados.
- Compreender a demanda de medicamentos com base no perfil dos pacientes, por tempo e por município.
- Obter insights, identificar oportunidades e propor soluções a problemas.
- Elaboração de painel de informações de medicamentos baseado em filtros.

## Compreensão dos dados

Os dados que serão utilizados na análise compreendem o período de uma ano, outubro de 2020 até setembro de 2021, que integram um conjunto de doze arquivos em formato "CSV". Os dados foram extraídos do Sistema Nacional de Gerenciamento de Produtos Controlados (SNGPC), provenientes apenas de farmácias e drogarias privadas que periodicamente devem enviar os dados a respeito de todas as vendas realizadas de medicamentos sujeitos à escrituração no SNGPC. Os dados foram disponibilizados no [portal de dados abertos](https://dados.gov.br/dados/conjuntos-dados/venda-de-medicamentos-controlados-e-antimicrobianos---medicamentos-industrializados) da Agência Nacional de Vigilância Sanitária (Anvisa).


## Tópico da análise

- Construir ABTs (analytical base table) para execução das análises.

## Dicionário de dados

**ANO_VENDA:** Ano da venda do medicamento.<br>
**MES_VENDA:** Mês da venda do medicamento.<br>
**UF_VENDA:** Unidade Federativa do endereço da farmácia ou drogaria, cadastrado no banco de dados da Anvisa, representando a UF onde ocorreu a venda.<br>
**MUNICIPIO_VENDA:** Município do endereço da farmácia ou drogaria, cadastrado no banco de dados da Anvisa, representando o Município onde ocorreu a venda.<br>
**PRINCIPIO_ATIVO:** Nome do princípio ativo do medicamento industrializado, conforme cadastrado no registro do medicamento, no banco de dados da Anvisa.<br>Quando um medicamento tem mais de um princípio ativo, cada um deles é separado pelo caractere “+”.<br>Ex.: “PRINCÍPIO ATIVO 1 + PRINCÍPIO ATIVO 2”<br>
**DESCRICAO_APRESENTACAO:** Uma Apresentação de Medicamento representa O modo como um medicamento é apresentado na embalagem. Exemplo: Medicamento X, pode ter duas apresentações diferentes:<br>• Apresentação 1:<br>Uma caixa com 1 blister de alumínio com 20 comprimidos, cada comprimido com 5 mg de princípio ativo.<br>Nesse caso, a descrição da apresentação seria:<br>“5 MG COM CT BL AL X 20”<br>• Apresentação 2:<br>Uma caixa com 1 frasco de vidro com 50 mL de um xarope, com concentração do princípio ativo de 15 mg por mL.<br>Nesse caso, a descrição da apresentação seria:<br>15MG/ML XPE CT FR VD x 50 ML<br>Esses exemplos representam descrições de apresentações diferentes para um mesmo medicamento.<br>Os termos utilizados na descrição das apresentações seguem o disposto no Vocabulário Controlado da Anvisa, disponível no link:<br>[http://portal.anvisa.gov.br/documents/33836/2501339/Vocabul%C3%A1rio+Controlado/fd8fdf08-45dc-402a-8dcf-fbb3fd21ca75](http://portal.anvisa.gov.br/documents/33836/2501339/Vocabul%C3%A1rio+Controlado/fd8fdf08-45dc-402a-8dcf-fbb3fd21ca75)<br>
**QTD_VENDIDA:** Quantidade vendida de caixas ou frascos do medicamento.<br>
**UNIDADE_MEDIDA:** Indica se a quantidade vendida do medicamento foi de caixas ou frascos.<br>
**CONSELHO_PRESCRITOR:** Conselho de Classe do profissional que prescreveu o medicamento vendido.<br>
**UF_CONSELHO_PRESCRITOR:** Unidade Federativa do Conselho de Classe do profissional que prescreveu o medicamento vendido.<br>
**TIPO_RECEITUARIO:** Tipo de receituário utilizado na prescrição.<br>Valores e respectivos tipos de receituário:<br>1 – Receita de Controle Especial em 2 vias (Receita Branca);<br>2 – Notificação de Receita B (Notificação Azul);<br>3 – Notificação de Receita Especial (Notificação Branca);<br>4 – Notificação de Receita A (Notificação Amarela);<br>5 – Receita Antimicrobiano em 2 vias.<br>
**CID10:** Classificação Internacional de Doença (aplicável apenas a medicamentos antimicrobianos).<br>
**SEXO:** Sexo do paciente (aplicável apenas a medicamentos antimicrobianos).<br>Valor 1 para o sexo masculino, valor 2 para o sexo feminino.<br>
**IDADE:** Valor numérico que representa a idade do paciente, em meses ou anos (aplicável apenas a medicamentos antimicrobianos).<br>
**UNIDADE_IDADE:** Unidade de medida da idade do paciente, que pode ser em meses ou anos (aplicável apenas a medicamentos antimicrobianos).<br>Valor 1 para unidade de medida em anos, valor 2 para unidade de medida em meses.<br>

## Sumário

1. Importação de bibliotecas
2. Criação e iniciação de uma sessão Spark
3. Criação do dataset a partir da leitura dos arquivos *.csv
4. Análise dos dados para construção da ABTs
   1. Construção da primeira ABT
   2. Construção da segunda ABT
5. Salvando a ABT em formato parquet

-------------------------------------

### 1. Importação de bibliotecas


In [28]:
from pyspark.sql import SparkSession
import glob


### 2. Criação e iniciação de uma sessão Spark

In [29]:
appName = 'PySpark - ABT de Vendas Farmaceuticas'

spark = SparkSession.builder \
    .appName(appName) \
    .config('spark.driver.memory', '8g') \
    .config('spark.driver.cores', '2') \
    .config('spark.executor.memory', '8g') \
    .config('spark.executor.cores', '4') \
    .master('local[*]') \
    .getOrCreate()

spark.sparkContext.setLogLevel("ERROR")

spark


### 3. Criação do dataset a partir da leitura dos arquivos *.csv

In [30]:
# Lista de caminhos para os arquivos CSV
caminhos_csv = glob.glob('dados/*.csv')

# DataFrame vazio
df = None

# Loop para ler e unir os arquivos CSV
for caminho_csv in caminhos_csv:
    df_temp = spark.read.csv(caminho_csv, sep=';', header=True, encoding='cp1252', inferSchema=True)
    
    if df is None:
        df = df_temp
    else:
        df = df.union(df_temp)

# Exibir o esquema do DataFrame combinado
df.printSchema()

root
 |-- ANO_VENDA: integer (nullable = true)
 |-- MES_VENDA: integer (nullable = true)
 |-- UF_VENDA: string (nullable = true)
 |-- MUNICIPIO_VENDA: string (nullable = true)
 |-- PRINCIPIO_ATIVO: string (nullable = true)
 |-- DESCRICAO_APRESENTACAO: string (nullable = true)
 |-- QTD_VENDIDA: integer (nullable = true)
 |-- UNIDADE_MEDIDA: string (nullable = true)
 |-- CONSELHO_PRESCRITOR: string (nullable = true)
 |-- UF_CONSELHO_PRESCRITOR: string (nullable = true)
 |-- TIPO_RECEITUARIO: decimal(1,0) (nullable = true)
 |-- CID10: string (nullable = true)
 |-- SEXO: integer (nullable = true)
 |-- IDADE: double (nullable = true)
 |-- UNIDADE_IDADE: integer (nullable = true)



In [31]:
# Exibir as 20 primeiras linhas do DataFrame combinado
df.show(truncate=False)


+---------+---------+--------+---------------+------------------------+---------------------------------------------------------+-----------+--------------+-------------------+----------------------+----------------+-----+----+-----+-------------+
|ANO_VENDA|MES_VENDA|UF_VENDA|MUNICIPIO_VENDA|PRINCIPIO_ATIVO         |DESCRICAO_APRESENTACAO                                   |QTD_VENDIDA|UNIDADE_MEDIDA|CONSELHO_PRESCRITOR|UF_CONSELHO_PRESCRITOR|TIPO_RECEITUARIO|CID10|SEXO|IDADE|UNIDADE_IDADE|
+---------+---------+--------+---------------+------------------------+---------------------------------------------------------+-----------+--------------+-------------------+----------------------+----------------+-----+----+-----+-------------+
|2020     |10       |BA      |JEQUIÉ         |BROMAZEPAM              |6 MG CAP GEL C/ MCGRAN AP CT BL AL PVC ACLAR PL X 30     |3          |FRASCO        |CRM                |BA                    |2               |NULL |NULL|NULL |NULL         |
|2020   

In [32]:
# Contar o número de linhas no DataFrame
qtde_linhas = df.count()
print(f'\nO DataFrame tem {qtde_linhas} linhas.')

# Obter o número de colunas no DataFrame
qtde_colunas = len(df.columns)
print(f'\nO DataFrame tem {qtde_colunas} colunas.')


O DataFrame tem 73950048 linhas.

O DataFrame tem 15 colunas.


### 4. Análise dos dados para construção das ABTs

In [33]:
# Criando uma View temporária para uso do SparkSQL
df.createOrReplaceTempView('tb_medicamentos')

In [34]:
# Verificando a volume total de registros dos 9 municípios da RMBS
qtde_linhas_rmbs = spark.sql('''
    SELECT
        COUNT(*) AS QTDE_TOTAL
    FROM 
        tb_medicamentos
    WHERE
        UF_VENDA = 'SP' AND    
        MUNICIPIO_VENDA IN ('BERTIOGA', 'CUBATÃO', 'GUARUJÁ', 'ITANHAÉM', 'MONGAGUÁ', 'PERUÍBE', 
                            'PRAIA GRANDE', 'SANTOS', 'SÃO VICENTE')
''')

qtde_linhas_rmbs.show()


+----------+
|QTDE_TOTAL|
+----------+
|    736196|
+----------+



In [35]:
# Coletar o resultado da primeira consulta
qtde_rmbs = qtde_linhas_rmbs.first()['QTDE_TOTAL']

# Verificando a volume total de registros de cada 1 dos 9 municípios da RMBS
spark.sql('''
    SELECT
        --UF_VENDA,
        MUNICIPIO_VENDA,
        COUNT(*) AS QTDE_TOTAL,
        ROUND(100*(COUNT(*)/{}), 3) AS QTDE_TOTAL_PERCENT
    FROM 
        tb_medicamentos
    WHERE
        UF_VENDA = 'SP' AND
        MUNICIPIO_VENDA IN ('BERTIOGA', 'CUBATÃO', 'GUARUJÁ', 'ITANHAÉM', 'MONGAGUÁ', 'PERUÍBE', 
                            'PRAIA GRANDE', 'SANTOS', 'SÃO VICENTE')
    GROUP BY
        --UF_VENDA,
        MUNICIPIO_VENDA
    ORDER BY 
        QTDE_TOTAL DESC
'''.format(qtde_rmbs)).show()


+---------------+----------+------------------+
|MUNICIPIO_VENDA|QTDE_TOTAL|QTDE_TOTAL_PERCENT|
+---------------+----------+------------------+
|         SANTOS|    214327|            29.113|
|   PRAIA GRANDE|    126257|             17.15|
|    SÃO VICENTE|    104507|            14.196|
|        GUARUJÁ|     94778|            12.874|
|        PERUÍBE|     44902|             6.099|
|       ITANHAÉM|     42737|             5.805|
|        CUBATÃO|     41304|              5.61|
|       BERTIOGA|     34645|             4.706|
|       MONGAGUÁ|     32739|             4.447|
+---------------+----------+------------------+



#### 1. Construção da primeira ABT

In [36]:
# Selecionando os dados que irão compor a ABT
abt_rmbs_00 = spark.sql('''
    SELECT
        ANO_VENDA,
        MES_VENDA,
        UF_VENDA,
        MUNICIPIO_VENDA,
        PRINCIPIO_ATIVO,
        DESCRICAO_APRESENTACAO,
        QTD_VENDIDA,
        UNIDADE_MEDIDA,
        CONSELHO_PRESCRITOR,
        UF_CONSELHO_PRESCRITOR,
        TIPO_RECEITUARIO,
        CID10,
        SEXO,
        IDADE,
        UNIDADE_IDADE,
        TO_DATE(concat(ANO_VENDA, lpad(MES_VENDA, 2, '0'), '01'), 'yyyyMMdd') AS DATA_REF,
        CURRENT_DATE AS DATA_PROC 
    FROM
        tb_medicamentos
    WHERE
        UF_VENDA = 'SP' AND
        MUNICIPIO_VENDA IN ('BERTIOGA', 'CUBATÃO', 'GUARUJÁ', 'ITANHAÉM', 'MONGAGUÁ', 'PERUÍBE', 
                            'PRAIA GRANDE', 'SANTOS', 'SÃO VICENTE')    
''')

abt_rmbs_00.show(truncate=False)

+---------+---------+--------+---------------+--------------------------------------------------------+-----------------------------------------------------+-----------+--------------+-------------------+----------------------+----------------+-----+----+-----+-------------+----------+----------+
|ANO_VENDA|MES_VENDA|UF_VENDA|MUNICIPIO_VENDA|PRINCIPIO_ATIVO                                         |DESCRICAO_APRESENTACAO                               |QTD_VENDIDA|UNIDADE_MEDIDA|CONSELHO_PRESCRITOR|UF_CONSELHO_PRESCRITOR|TIPO_RECEITUARIO|CID10|SEXO|IDADE|UNIDADE_IDADE|DATA_REF  |DATA_PROC |
+---------+---------+--------+---------------+--------------------------------------------------------+-----------------------------------------------------+-----------+--------------+-------------------+----------------------+----------------+-----+----+-----+-------------+----------+----------+
|2020     |10       |SP      |MONGAGUÁ       |ACETATO DE PREDNISOLONA + GATIFLOXACINO SESQUI-HIDRATADO|3 M

In [37]:
# Exibir o esquema da ABT
abt_rmbs_00.printSchema()

root
 |-- ANO_VENDA: integer (nullable = true)
 |-- MES_VENDA: integer (nullable = true)
 |-- UF_VENDA: string (nullable = true)
 |-- MUNICIPIO_VENDA: string (nullable = true)
 |-- PRINCIPIO_ATIVO: string (nullable = true)
 |-- DESCRICAO_APRESENTACAO: string (nullable = true)
 |-- QTD_VENDIDA: integer (nullable = true)
 |-- UNIDADE_MEDIDA: string (nullable = true)
 |-- CONSELHO_PRESCRITOR: string (nullable = true)
 |-- UF_CONSELHO_PRESCRITOR: string (nullable = true)
 |-- TIPO_RECEITUARIO: decimal(1,0) (nullable = true)
 |-- CID10: string (nullable = true)
 |-- SEXO: integer (nullable = true)
 |-- IDADE: double (nullable = true)
 |-- UNIDADE_IDADE: integer (nullable = true)
 |-- DATA_REF: date (nullable = true)
 |-- DATA_PROC: date (nullable = false)



In [38]:
# Contar o número de linhas
qtde_linhas = abt_rmbs_00.count()
print(f'\nA ABT tem {qtde_linhas} linhas.')

# Obter o número de colunas
qtde_colunas = len(abt_rmbs_00.columns)
print(f'\nA ABT tem {qtde_colunas} colunas.')


A ABT tem 736196 linhas.

A ABT tem 17 colunas.


#### 2. Construção da segunda ABT

In [39]:
# Selecionando os dados que irão compor a ABT de vendas
abt_rmbs_01 = spark.sql('''
    SELECT
        ANO_VENDA,
        MES_VENDA,
        UF_VENDA,
        MUNICIPIO_VENDA,
        PRINCIPIO_ATIVO,
        DESCRICAO_APRESENTACAO,
        SUM(QTD_VENDIDA) AS SOMA_QTD_VENDIDA,
        UNIDADE_MEDIDA,
        TO_DATE(concat(ANO_VENDA, lpad(MES_VENDA, 2, '0'), '01'), 'yyyyMMdd') AS DATA_REF,
        CURRENT_DATE AS DATA_PROC 
    FROM
        tb_medicamentos
    WHERE
        UF_VENDA = 'SP' AND
        MUNICIPIO_VENDA IN ('BERTIOGA', 'CUBATÃO', 'GUARUJÁ', 'ITANHAÉM', 'MONGAGUÁ', 'PERUÍBE', 
                            'PRAIA GRANDE', 'SANTOS', 'SÃO VICENTE')
    GROUP BY
        ANO_VENDA,
        MES_VENDA,
        UF_VENDA,
        MUNICIPIO_VENDA,
        PRINCIPIO_ATIVO,
        DESCRICAO_APRESENTACAO,
        UNIDADE_MEDIDA
''')

abt_rmbs_01.show(truncate=False)

+---------+---------+--------+---------------+--------------------------------------------------------+----------------------------------------------------+----------------+--------------+----------+----------+
|ANO_VENDA|MES_VENDA|UF_VENDA|MUNICIPIO_VENDA|PRINCIPIO_ATIVO                                         |DESCRICAO_APRESENTACAO                              |SOMA_QTD_VENDIDA|UNIDADE_MEDIDA|DATA_REF  |DATA_PROC |
+---------+---------+--------+---------------+--------------------------------------------------------+----------------------------------------------------+----------------+--------------+----------+----------+
|2020     |10       |SP      |MONGAGUÁ       |CEFALEXINA                                              |500 MG COM REV CT BL AL PVC/PVDC TRANS X 8          |34              |CAIXA         |2020-10-01|2023-10-25|
|2020     |10       |SP      |MONGAGUÁ       |CLORIDRATO DE AMITRIPTILINA                             |75 MG COM REV CT BL AL PLAS OPC X 30                |

In [40]:
# Exibir o esquema da ABT
abt_rmbs_01.printSchema()

root
 |-- ANO_VENDA: integer (nullable = true)
 |-- MES_VENDA: integer (nullable = true)
 |-- UF_VENDA: string (nullable = true)
 |-- MUNICIPIO_VENDA: string (nullable = true)
 |-- PRINCIPIO_ATIVO: string (nullable = true)
 |-- DESCRICAO_APRESENTACAO: string (nullable = true)
 |-- SOMA_QTD_VENDIDA: long (nullable = true)
 |-- UNIDADE_MEDIDA: string (nullable = true)
 |-- DATA_REF: date (nullable = true)
 |-- DATA_PROC: date (nullable = false)



In [41]:
# Contar o número de linhas
qtde_linhas = abt_rmbs_01.count()
print(f'\nA ABT tem {qtde_linhas} linhas.')

# Obter o número de colunas
qtde_colunas = len(abt_rmbs_01.columns)
print(f'\nA ABT tem {qtde_colunas} colunas.')


A ABT tem 130464 linhas.

A ABT tem 10 colunas.


### 5. Salvando as ABTs em formato parquet

In [42]:
# Convertendo a ABT (sql) para o formato 'parquet'
caminho_00 = 'dados/ABT/00'
caminho_01 = 'dados/ABT/01'

abt_rmbs_00.write.partitionBy('DATA_REF').parquet(caminho_00, mode='overwrite')
abt_rmbs_01.write.partitionBy('DATA_REF').parquet(caminho_01, mode='overwrite')

In [43]:
# Validando a quantidade de linhas
read_abt_rmbs_00 = spark.read.format('parquet').load(caminho_00)
read_abt_rmbs_01 = spark.read.format('parquet').load(caminho_01)

print(f'\nA primeira ABT \'parquet\' tem {read_abt_rmbs_00.count()} linhas.')
print(f'\nA segunda ABT \'parquet\' tem {read_abt_rmbs_01.count()} linhas.')



A primeira ABT 'parquet' tem 736196 linhas.

A segunda ABT 'parquet' tem 130464 linhas.
