# Análise de Dados - Medicamentos Antimicrobianos

## Objetivo
Compreender a distribuição das vendas de medicamentos antimicrobianos no território brasileiro durante o mês de Novembro de 2021.

# Importando Bibliotecas Necessárias

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Obtendo os Dados
Fonte dos Dados: Os dados utilizados para essa análise estão disponíveis no site de Dados Abertos do Governo Federal. Acesso: <br>
https://dados.gov.br/dados/conjuntos-dados/venda-de-medicamentos-controlados-e-antimicrobianos---medicamentos-industrializados 

# Entendendo o Significado dos Dados

<table border="1">
        <tr>
            <th>Campo</th>
            <th>Descrição</th>
        </tr>
        <tr>
            <td>ANO_VENDA</td>
            <td>Ano da venda do medicamento.</td>
        </tr>
        <tr>
            <td>MES_VENDA</td>
            <td>Mês da venda do medicamento.</td>
        </tr>
        <tr>
            <td>UF_VENDA</td>
            <td>Unidade Federativa do endereço da farmácia ou drogaria, cadastrado no banco de dados da Anvisa, onde ocorreu a venda.</td>
        </tr>
        <tr>
            <td>MUNICIPIO_VENDA</td>
            <td>Município do endereço da farmácia ou drogaria, cadastrado no banco de dados da Anvisa, onde ocorreu a venda.</td>
        </tr>
        <tr>
            <td>PRINCIPIO_ATIVO</td>
            <td>Nome do princípio ativo do medicamento industrializado, conforme cadastrado no registro do medicamento, no banco de dados da Anvisa. Quando um medicamento tem mais de um princípio ativo, cada um deles é separado pelo caractere "+".</td>
        </tr>
        <tr>
            <td>DESCRICAO_APRESENTACAO</td>
            <td>Uma Apresentação de Medicamento representa o modo como um medicamento é apresentado na embalagem. Os termos utilizados na descrição das apresentações seguem o disposto no Vocabulário Controlado da Anvisa.</td>
        </tr>
        <tr>
            <td>QTD_VENDIDA</td>
            <td>Quantidade vendida de caixas ou frascos do medicamento.</td>
        </tr>
        <tr>
            <td>UNIDADE_MEDIDA</td>
            <td>Indica se a quantidade vendida do medicamento foi de caixas ou frascos.</td>
        </tr>
        <tr>
            <td>CONSELHO_PRESCRITOR</td>
            <td>Conselho de Classe do profissional que prescreveu o medicamento vendido.</td>
        </tr>
        <tr>
            <td>UF_CONSELHO_PRESCRITOR</td>
            <td>Unidade Federativa do Conselho de Classe do profissional que prescreveu o medicamento vendido.</td>
        </tr>
        <tr>
            <td>TIPO_RECEITUARIO</td>
            <td>
                Tipo de receituário utilizado na prescrição.<br>
                1 – Receita de Controle Especial em 2 vias (Receita Branca);
                2 – Notificação de Receita B (Notificação Azul);
                3 – Notificação de Receita Especial (Notificação Branca);
                4 – Notificação de Receita A (Notificação Amarela);
                5 – Receita Antimicrobiano em 2 vias.
            </td>
        </tr>
        <tr>
            <td>CID10</td>
            <td>Classificação Internacional de Doença (aplicável apenas a medicamentos antimicrobianos).</td>
        </tr>
        <tr>
            <td>SEXO</td>
            <td>Sexo do paciente (aplicável apenas a medicamentos antimicrobianos). Valor 1 para o sexo masculino, valor 2 para o sexo feminino.</td>
        </tr>
        <tr>
            <td>IDADE</td>
            <td>Valor numérico que representa a idade do paciente, em meses ou anos (aplicável apenas a medicamentos antimicrobianos).</td>
        </tr>
        <tr>
            <td>UNIDADE_IDADE</td>
            <td>Unidade de medida da idade do paciente, que pode ser em meses ou anos (aplicável apenas a medicamentos antimicrobianos). Valor 1 para unidade de medida em anos, valor 2 para unidade de medida em meses.</td>
        </tr>
</table>

*OBS*: Foi retirado dessa análise as colunas ```ANO_VENDA, MES_VENDA, DESCRICAO_APRESENTACAO```, pois possuem os mesmo dado para todas as linhas que percorrem o dataset. Além disso, a informação conjunta dessas duas colunas nos diz que os dados são do mês Novembro do ano de 2021, informação a qual já é citada no início dessa análise. 

# Visualizando os Dados

In [2]:
caminho_dataset = '/home/yurilima/antimicrobianos_csv/EDA_Industrializados_202111.csv'
dataset_medicamentos = pd.read_csv(caminho_dataset,
                                   sep=';', 
                                   on_bad_lines='skip', 
                                   encoding='latin-1', 
                                  usecols=['UF_VENDA', 
                                           'MUNICIPIO_VENDA', 
                                           'PRINCIPIO_ATIVO', 
                                           'QTD_VENDIDA',
                                           'UNIDADE_MEDIDA', 
                                           'CONSELHO_PRESCRITOR', 
                                           'UF_CONSELHO_PRESCRITOR',
                                           'TIPO_RECEITUARIO', 
                                           'CID10', 
                                           'SEXO', 
                                           'IDADE', 
                                           'UNIDADE_IDADE'])
dataset_medicamentos.head()

Unnamed: 0,UF_VENDA,MUNICIPIO_VENDA,PRINCIPIO_ATIVO,QTD_VENDIDA,UNIDADE_MEDIDA,CONSELHO_PRESCRITOR,UF_CONSELHO_PRESCRITOR,TIPO_RECEITUARIO,CID10,SEXO,IDADE,UNIDADE_IDADE
0,MT,TANGARÁ DA SERRA,SULFAMETOXAZOL + TRIMETOPRIMA,1,CAIXA,CRM,MT,5.0,,1.0,37.0,1.0
1,MT,TANGARÁ DA SERRA,SULFAMETOXAZOL + TRIMETOPRIMA,1,CAIXA,CRM,MT,5.0,,1.0,40.0,1.0
2,MT,TANGARÁ DA SERRA,SULFAMETOXAZOL + TRIMETOPRIMA,2,CAIXA,CRM,MT,5.0,,1.0,45.0,1.0
3,MT,TANGARÁ DA SERRA,SULFAMETOXAZOL + TRIMETOPRIMA,5,CAIXA,CRM,MT,5.0,,2.0,34.0,1.0
4,MT,TANGARÁ DA SERRA,SULFAMETOXAZOL + TRIMETOPRIMA,1,CAIXA,CRM,MT,5.0,,2.0,36.0,1.0


# Explorando os Dados
Analisando os campos disponíveis na base de dados.

In [3]:
dataset_medicamentos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2785568 entries, 0 to 2785567
Data columns (total 12 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   UF_VENDA                object 
 1   MUNICIPIO_VENDA         object 
 2   PRINCIPIO_ATIVO         object 
 3   QTD_VENDIDA             int64  
 4   UNIDADE_MEDIDA          object 
 5   CONSELHO_PRESCRITOR     object 
 6   UF_CONSELHO_PRESCRITOR  object 
 7   TIPO_RECEITUARIO        float64
 8   CID10                   object 
 9   SEXO                    float64
 10  IDADE                   float64
 11  UNIDADE_IDADE           float64
dtypes: float64(4), int64(1), object(7)
memory usage: 255.0+ MB


Para iniciar a exploração dos dados vamos separá-los em tipos de dados: 
- Categóricos
    - Nominais
    - Ordinais
- Numéricos
    - Discretos
    - Continuos

## Distribuição Global de Dados Categóricos

In [4]:
def mostrar_frequencias(dataset):
    tamanho = len(dataset)
    print('__________________________RELATÓRIO_GERAL__________________________')
    print(f'__________________________TAMANHO: {tamanho}__________________________')
    
    for coluna in dataset:
        nulos = dataset[coluna].isnull().sum()
        print('__________''FREQUÊNCIA RELATIVA_'+coluna+'___________')
        print(dataset[coluna].value_counts(normalize=True) * 100)
        print('O campo {} apresenta {:.2%} de valores nulos.'.format(coluna, (nulos/tamanho)))

### Nominais

O panorama geral do dados nominais pode ser realizado através de uma breve distribuição de frequência relativa dessas informações e, além disso retornar a quantidade de valores nulos em cada campo dos dados nominais.

In [5]:
dados_nominais = ['UF_VENDA',
                  'MUNICIPIO_VENDA',
                  'PRINCIPIO_ATIVO',
                  'UNIDADE_MEDIDA',
                  'CONSELHO_PRESCRITOR',
                  'TIPO_RECEITUARIO',
                  'CID10', 
                  'SEXO', 
                  'UNIDADE_IDADE']

mapa = {'SEXO': {1.0:'Masculino', 2.0:'Feminino'},
       'UNIDADE_IDADE': {1.0:'Anos', 2.0:'Meses'},
       'TIPO_RECEITUARIO': {1.0: 'Receita Branca', 
                            2.0:'Notificação Azul', 
                            3.0:'Notificação Branca',
                            4.0:'Notificação Amarela',
                            5.0:'Receita Antimicrobiano em 2 vias'}}

for coluna, dicionario in mapa.items():
    dataset_medicamentos[coluna] = dataset_medicamentos[coluna].map(dicionario)

dataset_medicamentos_nominais = dataset_medicamentos[dados_nominais]

mostrar_frequencias(dataset_medicamentos_nominais)

__________________________RELATÓRIO_GERAL__________________________
__________________________TAMANHO: 2785568__________________________
__________FREQUÊNCIA RELATIVA_UF_VENDA___________
SP    21.030217
MG    14.774545
RS     8.617883
PR     7.908261
RJ     6.663058
GO     5.202422
BA     4.877354
SC     4.669066
PE     3.137888
PB     2.336292
ES     2.245826
MT     2.202531
RN     2.183971
CE     2.095407
PA     1.826486
MA     1.576160
MS     1.364354
DF     1.193222
SE     1.057415
RO     0.963430
AL     0.869553
TO     0.812689
PI     0.736331
AM     0.694401
AC     0.451901
RR     0.256931
AP     0.252408
Name: UF_VENDA, dtype: float64
O campo UF_VENDA apresenta 0.00% de valores nulos.
__________FREQUÊNCIA RELATIVA_MUNICIPIO_VENDA___________
SÃO PAULO              2.327461
RIO DE JANEIRO         1.386611
CURITIBA               1.210274
GOIÂNIA                0.816386
SALVADOR               0.766307
                         ...   
MACIEIRA               0.000036
SANTA ROSA DA SERR

### Numéricos

In [6]:
dados_numericos = ['IDADE', 'QTD_VENDIDA']

dataset_medicamentos_numericos = dataset_medicamentos[dados_numericos]

mostrar_frequencias(dataset_medicamentos_numericos)

__________________________RELATÓRIO_GERAL__________________________
__________________________TAMANHO: 2785568__________________________
__________FREQUÊNCIA RELATIVA_IDADE___________
30.0     2.482398
35.0     2.464801
45.0     2.391507
36.0     2.293018
25.0     2.286146
           ...   
956.0    0.000056
535.0    0.000056
241.0    0.000056
754.0    0.000056
610.0    0.000056
Name: IDADE, Length: 729, dtype: float64
O campo IDADE apresenta 35.74% de valores nulos.
__________FREQUÊNCIA RELATIVA_QTD_VENDIDA___________
1      53.285793
2      20.985523
3       8.527309
4       4.697103
5       2.315542
         ...    
587     0.000036
607     0.000036
797     0.000036
321     0.000036
555     0.000036
Name: QTD_VENDIDA, Length: 914, dtype: float64
O campo QTD_VENDIDA apresenta 0.00% de valores nulos.


# Perguntas Feitas a Partir do Relatório Geral dos Dados

Para fins de permitir que esse relatório tenha objetivos de exploração, foi decidido que esses dados vão análisados da perspectiva das unidades federativas que compoẽm o *nordeste* do país. E as perguntas que podem ser feitas a partir desse dados são:
- Qual o estado do nordeste que teve mais vendas no período de Novembro de 2021?
- Quais os dez medicamentos mais vendidos do nordeste?
- Qual o medicamento mais vendido em cada estado?
- Qual o municípios em cada estado do nordeste que teve mais vendas?
- Quais os CID10 mais presentes em cada estado?
- Na distribuição de idades, podemos achar recem-nascidos? Se sim, quais são os medicamentos mais vendidos para essa faixa de idade. 
- Quais os Conselhos Regionais de Medicina que mais liberaram receitas?
- Quais os tipos de receitas mais presentes em cada estado?
- No nordeste, foi prescrito medicamentos mais para homens ou para mulheres?

### Filtrando a base de dados focando no Nordeste

In [7]:
estados_nordeste = ['AL', 'BA', 'CE', 'MA', 'PB', 'PE', 'PI', 'RN', 'SE']
nordeste = dataset_medicamentos.loc[dataset_medicamentos['UF_VENDA'].isin(estados_nordeste),:]

nordeste.head()

Unnamed: 0,UF_VENDA,MUNICIPIO_VENDA,PRINCIPIO_ATIVO,QTD_VENDIDA,UNIDADE_MEDIDA,CONSELHO_PRESCRITOR,UF_CONSELHO_PRESCRITOR,TIPO_RECEITUARIO,CID10,SEXO,IDADE,UNIDADE_IDADE
248,BA,MEDEIROS NETO,DEXAMETASONA + SULFATO DE NEOMICINA + SULFATO ...,1,CAIXA,CRM,BA,Receita Antimicrobiano em 2 vias,,Feminino,45.0,Anos
249,BA,MEDEIROS NETO,DEXAMETASONA + SULFATO DE NEOMICINA + SULFATO ...,1,FRASCO,CRM,BA,Receita Antimicrobiano em 2 vias,,Masculino,36.0,Anos
250,BA,MEDEIROS NETO,DIAZEPAM,1,CAIXA,CRM,BA,Notificação Azul,,,,
251,BA,MEDEIROS NETO,DIPROPIONATO DE BETAMETASONA + SULFATO DE GENT...,1,CAIXA,CRM,BA,Receita Antimicrobiano em 2 vias,,Masculino,6.0,Anos
252,BA,MEDEIROS NETO,DIPROPIONATO DE BETAMETASONA + SULFATO DE GENT...,1,CAIXA,CRM,BA,Receita Antimicrobiano em 2 vias,,Masculino,23.0,Anos


Analisando as características do filtro para o Nordeste, podemos perceber que temos 525647 linhas e 12 colunas como suas dimensões, representando aproximadamente 18,9% de todos os dados. O próximo passo é fazer o tratamento dos dados nulos e em seguida visualizar os dados e extrair insights da presente base de dados a partir das perguntas feitas para esse projeto. 

In [8]:
porcentagem_dados_nordeste = nordeste.shape[0]/dataset_medicamentos.shape[0]
print('A parcela de dados representada pelo nordeste é de {:.2%}'.format(porcentagem_dados_nordeste))

A parcela de dados representada pelo nordeste é de 18.87%


Contudo, a um detalhe interessante nos dados no que diz respeito ao unidade de idade que nos traz a informação que algumas idades são medidade em anos e outras em meses, o que leva a crer que os remédios estão sendo prescritos para recém-nascidos, crianças e adolescentes. Por essa razão o conjunto de dados filtrados para a região do nordeste sofrerá uma divisão pelos valores de unidade a qual a idade é mensurada.
- Igual a ```Anos``` > Adultos
- Igual a ```Meses```> Jovens (recém-nascidos, crianças e adolescentes)

# Dividindo a Base de Dados A partir da Unidade

In [15]:
jovens = nordeste.query('UNIDADE_IDADE == "Meses"')
mostrar_frequencias(jovens)

__________________________RELATÓRIO_GERAL__________________________
__________________________TAMANHO: 6018__________________________
__________FREQUÊNCIA RELATIVA_UF_VENDA___________
PE    24.592888
BA    21.169824
CE    14.772350
MA    11.232968
RN    10.584912
PB     7.660352
SE     5.516783
AL     2.259887
PI     2.210037
Name: UF_VENDA, dtype: float64
O campo UF_VENDA apresenta 0.00% de valores nulos.
__________FREQUÊNCIA RELATIVA_MUNICIPIO_VENDA___________
SALVADOR                 7.726820
FORTALEZA                7.045530
SÃO LUÍS                 6.763044
RECIFE                   3.755400
NATAL                    3.456298
                           ...   
LAJE                     0.016617
LAGOA SALGADA            0.016617
LUCRÉCIA                 0.016617
SANTA CRUZ DA VITÓRIA    0.016617
LAGOA DO OURO            0.016617
Name: MUNICIPIO_VENDA, Length: 572, dtype: float64
O campo MUNICIPIO_VENDA apresenta 0.00% de valores nulos.
__________FREQUÊNCIA RELATIVA_PRINCIPIO_ATIVO_____

In [16]:
adultos = nordeste.query('UNIDADE_IDADE == "Anos"')
mostrar_frequencias(adultos)

__________________________RELATÓRIO_GERAL__________________________
__________________________TAMANHO: 301184__________________________
__________FREQUÊNCIA RELATIVA_UF_VENDA___________
BA    26.592382
PE    16.660248
RN    12.891455
PB    12.230729
CE     9.703703
MA     7.814160
SE     6.058091
AL     4.586897
PI     3.462335
Name: UF_VENDA, dtype: float64
O campo UF_VENDA apresenta 0.00% de valores nulos.
__________FREQUÊNCIA RELATIVA_MUNICIPIO_VENDA___________
SALVADOR         5.968113
FORTALEZA        4.726679
RECIFE           3.708696
NATAL            3.599129
JOÃO PESSOA      3.316909
                   ...   
BAIANÓPOLIS      0.000332
PIRAPEMAS        0.000332
COITÉ DO NÓIA    0.000332
GUARATINGA       0.000332
PERI MIRIM       0.000332
Name: MUNICIPIO_VENDA, Length: 1190, dtype: float64
O campo MUNICIPIO_VENDA apresenta 0.00% de valores nulos.
__________FREQUÊNCIA RELATIVA_PRINCIPIO_ATIVO___________
AZITROMICINA DI-HIDRATADA                                     8.627197
AMOXICI

### Analisando Variáveis Categóricas e Numéricas do Nordeste

In [10]:
#Nominais
mostrar_frequencias(nordeste[dados_nominais])

__________________________RELATÓRIO_GERAL__________________________
__________________________TAMANHO: 525647__________________________
__________FREQUÊNCIA RELATIVA_UF_VENDA___________
BA    25.846623
PE    16.628650
PB    12.380742
RN    11.573547
CE    11.104220
MA     8.352564
SE     5.603570
AL     4.608035
PI     3.902048
Name: UF_VENDA, dtype: float64
O campo UF_VENDA apresenta 0.00% de valores nulos.
__________FREQUÊNCIA RELATIVA_MUNICIPIO_VENDA___________
SALVADOR             4.060900
FORTALEZA            3.342928
RECIFE               2.604790
NATAL                2.530025
JOÃO PESSOA          2.360520
                       ...   
CUMBE                0.000190
MALHADA              0.000190
ISAÍAS COELHO        0.000190
JACOBINA DO PIAUÍ    0.000190
FELIZ DESERTO        0.000190
Name: MUNICIPIO_VENDA, Length: 1367, dtype: float64
O campo MUNICIPIO_VENDA apresenta 0.00% de valores nulos.
__________FREQUÊNCIA RELATIVA_PRINCIPIO_ATIVO___________
AZITROMICINA DI-HIDRATADA         

In [11]:
#Numéricos
mostrar_frequencias(nordeste[dados_numericos])

__________________________RELATÓRIO_GERAL__________________________
__________________________TAMANHO: 525647__________________________
__________FREQUÊNCIA RELATIVA_IDADE___________
25.0     2.620426
35.0     2.619124
36.0     2.594059
30.0     2.498356
45.0     2.318344
           ...   
856.0    0.000326
992.0    0.000326
743.0    0.000326
719.0    0.000326
107.0    0.000326
Name: IDADE, Length: 320, dtype: float64
O campo IDADE apresenta 41.56% de valores nulos.
__________FREQUÊNCIA RELATIVA_QTD_VENDIDA___________
1         51.241232
2         20.864573
3          9.526355
4          4.789526
5          2.556849
            ...    
365        0.000190
789626     0.000190
416        0.000190
332        0.000190
268        0.000190
Name: QTD_VENDIDA, Length: 466, dtype: float64
O campo QTD_VENDIDA apresenta 0.00% de valores nulos.


# Tratando os dados

## Adultos

## Jovens