<a href="https://colab.research.google.com/github/liliansom/med_ind/blob/main/med_ind_analise.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Atividades a serem desenvolvidas:

1. Limpeza e Pré-processamento de Dados:
Lidar com valores ausentes: Decidir se vai imputar, preencher ou remover linhas/colunas com dados faltantes.
Tratar outliers: Identificar e lidar com outliers que podem distorcer a análise.
Converter tipos de dados, se necessário, garantindo que colunas relacionadas a datas estejam no formato correto.

2. Análise Exploratória de Dados (EDA):
Tendências de Vendas:
Vendas mensais: Identificar se há meses com vendas excepcionalmente altas ou baixas.
Análise por estado (UF_VENDA): Quais estados têm o maior número de vendas? Existem padrões regionais?
Produtos Mais Vendidos:
Baseado no PRINCIPIO_ATIVO: Quais são os medicamentos mais populares?
Baseado na DESCRICAO_APRESENTACAO: Quais apresentações ou dosagens são mais vendidas?
Demografia dos Consumidores:
Distribuição de idade dos compradores.
Distribuição de gênero dos compradores.
Correlações:
Existe uma correlação entre o tipo de medicamento e a idade do comprador?
Existe uma correlação entre o gênero do comprador e o tipo de medicamento?

3. Visualização de Dados:
Gráficos de barras para mostrar as vendas por estado, por medicamento e por gênero.
Histogramas para distribuição de idade.
Heatmaps para correlações.
Gráficos de linha para tendências de vendas ao longo dos meses.

4. Insights e Recomendações:
Com base na EDA, identifique insights interessantes sobre os hábitos de compra e padrões.
Formule recomendações para farmácias ou empresas farmacêuticas com base nas tendências observadas.

# Importando base e bibliotecas

In [2]:
from google.colab import drive
import pandas as pd

drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
%cd '/content/drive/My Drive/Colab Notebooks/med_ind_2021_11/EDA_Industrializados_202111.csv'

[Errno 20] Not a directory: '/content/drive/My Drive/Colab Notebooks/med_ind_2021_11/EDA_Industrializados_202111.csv'
/content


In [4]:
df = pd.read_csv('/content/drive/My Drive/Colab Notebooks/med_ind_2021_11/EDA_Industrializados_202111.csv', encoding='latin1', delimiter=';')


In [5]:
display(df)

Unnamed: 0,ANO_VENDA,MES_VENDA,UF_VENDA,MUNICIPIO_VENDA,PRINCIPIO_ATIVO,DESCRICAO_APRESENTACAO,QTD_VENDIDA,UNIDADE_MEDIDA,CONSELHO_PRESCRITOR,UF_CONSELHO_PRESCRITOR,TIPO_RECEITUARIO,CID10,SEXO,IDADE,UNIDADE_IDADE
0,2021,11,MT,TANGARÁ DA SERRA,SULFAMETOXAZOL + TRIMETOPRIMA,800 MG + 160 MG COM CT BL AL PLAS TRANS X 10,1,CAIXA,CRM,MT,5.0,,1.0,37.0,1.0
1,2021,11,MT,TANGARÁ DA SERRA,SULFAMETOXAZOL + TRIMETOPRIMA,800 MG + 160 MG COM CT BL AL PLAS TRANS X 10,1,CAIXA,CRM,MT,5.0,,1.0,40.0,1.0
2,2021,11,MT,TANGARÁ DA SERRA,SULFAMETOXAZOL + TRIMETOPRIMA,800 MG + 160 MG COM CT BL AL PLAS TRANS X 10,2,CAIXA,CRM,MT,5.0,,1.0,45.0,1.0
3,2021,11,MT,TANGARÁ DA SERRA,SULFAMETOXAZOL + TRIMETOPRIMA,800 MG + 160 MG COM CT BL AL PLAS TRANS X 10,5,CAIXA,CRM,MT,5.0,,2.0,34.0,1.0
4,2021,11,MT,TANGARÁ DA SERRA,SULFAMETOXAZOL + TRIMETOPRIMA,800 MG + 160 MG COM CT BL AL PLAS TRANS X 10,1,CAIXA,CRM,MT,5.0,,2.0,36.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2785563,2021,11,RJ,NOVA FRIBURGO,FOSFOMICINA TROMETAMOL,"5,631G GRAN CT ENV AL PE X 8G",1,FRASCO,CRM,RJ,5.0,,2.0,85.0,1.0
2785564,2021,11,RJ,NOVA FRIBURGO,GABAPENTINA,300 MG CAP DURA CT BL AL AL X 30,2,CAIXA,CRO,RJ,1.0,,,,
2785565,2021,11,RJ,NOVA FRIBURGO,GABAPENTINA,300 MG CAP DURA CT BL AL PLAS OPC X 30,1,CAIXA,CRM,RJ,1.0,,1.0,45.0,1.0
2785566,2021,11,RJ,NOVA FRIBURGO,GABAPENTINA,300 MG CAP DURA CT BL AL PLAS OPC X 30,1,CAIXA,CRM,RJ,1.0,,1.0,65.0,1.0


# Dicionário de Dados

* ANO_VENDA: Ano da venda do medicamento.
* MES_VENDA: Mês da venda do medicamento.
* UF_VENDA: Unidade Federativa do endereço da farmácia ou drogaria, cadastrado no banco de dados da Anvisa, representando a UF onde ocorreu a venda.
* MUNICIPIO_VENDA: Município do endereço da farmácia ou drogaria, cadastrado no banco de dados da Anvisa, representando o Município onde ocorreu a venda.
* PRINCIPIO_ATIVO: Nome do princípio ativo do medicamento industrializado, conforme cadastrado no registro do medicamento, no banco de dados da Anvisa. Quando um medicamento tem mais de um princípio ativo, cada
um deles é separado pelo caractere “+”.
* DESCRICAO_APRESENTACAO: Uma Apresentação de Medicamento representa O modo como um medicamento é apresentado na embalagem.
* QTD_VENDIDA: Quantidade vendida de caixas ou frascos do medicamento.
* UNIDADE_MEDIDA: Indica se a quantidade vendida do medicamento foi de caixas ou frascos.
* CONSELHO_PRESCRITOR: Conselho de Classe do profissional que prescreveu o medicamento vendido.
* UF_CONSELHO_PRESCRITOR: Unidade Federativa do Conselho de Classe do profissional que prescreveu o medicamento vendido.
* TIPO_RECEITUARIO: Tipo de receituário utilizado na prescrição. Valores e respectivos tipos de receituário:
(1) Receita de Controle Especial em 2 vias (Receita Branca);
(2) Notificação de Receita B (Notificação Azul);
(3) Notificação de Receita Especial (Notificação Branca);
(4) Notificação de Receita A (Notificação Amarela);
(5) Receita Antimicrobiano em 2 vias.
* CID10: Classificação Internacional de Doença (aplicável apenas a medicamentos antimicrobianos).
* SEXO: Sexo do paciente (aplicável apenas a medicamentos
antimicrobianos). (1) sexo masculino, (2) sexo feminino.
* IDADE: Valor numérico que representa a idade do paciente, em meses ou anos (aplicável apenas a medicamentos antimicrobianos).
* UNIDADE_IDADE: Unidade de medida da idade do paciente, que pode ser em meses ou anos (aplicável apenas a medicamentos
antimicrobianos). (1) unidade de medida em anos,
(2) unidade de medida em meses.

# Análise Exploratória

In [6]:
df.shape

(2785568, 15)

In [7]:
df.dtypes

ANO_VENDA                   int64
MES_VENDA                   int64
UF_VENDA                   object
MUNICIPIO_VENDA            object
PRINCIPIO_ATIVO            object
DESCRICAO_APRESENTACAO     object
QTD_VENDIDA                 int64
UNIDADE_MEDIDA             object
CONSELHO_PRESCRITOR        object
UF_CONSELHO_PRESCRITOR     object
TIPO_RECEITUARIO          float64
CID10                      object
SEXO                      float64
IDADE                     float64
UNIDADE_IDADE             float64
dtype: object

In [8]:
df.isnull().sum()

ANO_VENDA                       0
MES_VENDA                       0
UF_VENDA                        0
MUNICIPIO_VENDA                 0
PRINCIPIO_ATIVO              4827
DESCRICAO_APRESENTACAO          0
QTD_VENDIDA                     0
UNIDADE_MEDIDA                  0
CONSELHO_PRESCRITOR             0
UF_CONSELHO_PRESCRITOR          0
TIPO_RECEITUARIO                0
CID10                     2774250
SEXO                       995525
IDADE                      995525
UNIDADE_IDADE              995525
dtype: int64

In [9]:
display(df[df['PRINCIPIO_ATIVO'].isnull() == True])

Unnamed: 0,ANO_VENDA,MES_VENDA,UF_VENDA,MUNICIPIO_VENDA,PRINCIPIO_ATIVO,DESCRICAO_APRESENTACAO,QTD_VENDIDA,UNIDADE_MEDIDA,CONSELHO_PRESCRITOR,UF_CONSELHO_PRESCRITOR,TIPO_RECEITUARIO,CID10,SEXO,IDADE,UNIDADE_IDADE
82,2021,11,MT,TANGARÁ DA SERRA,,"0,275 MG/ML+3,850 MG/ML+11.000 UI/ML+20 MG/ML ...",1,CAIXA,CRM,MT,5.0,,2.0,2.0,1.0
2128,2021,11,SC,MAFRA,,"0,275 MG/ML+3,850 MG/ML+11.000 UI/ML+20 MG/ML ...",1,FRASCO,CRM,SC,1.0,,1.0,6.0,1.0
2129,2021,11,SC,MAFRA,,"0,275 MG/ML+3,850 MG/ML+11.000 UI/ML+20 MG/ML ...",1,FRASCO,CRM,SC,5.0,,1.0,5.0,1.0
8606,2021,11,MT,TERRA NOVA DO NORTE,,"0,275 MG/ML+3,850 MG/ML+11.000 UI/ML+20 MG/ML ...",1,FRASCO,CRM,MT,5.0,,2.0,36.0,1.0
9089,2021,11,SC,MARAVILHA,,"0,275 MG/ML+3,850 MG/ML+11.000 UI/ML+20 MG/ML ...",1,CAIXA,CRM,SC,5.0,,1.0,28.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2785240,2021,11,RS,PORTO ALEGRE,,3 MG/ML SOL OFT CT FR PLAS OPC GOT X 5 ML,1,FRASCO,CRM,RS,5.0,,1.0,68.0,1.0
2785241,2021,11,RS,PORTO ALEGRE,,3 MG/ML SOL OFT CT FR PLAS OPC GOT X 5 ML,1,FRASCO,CRM,RS,5.0,,2.0,15.0,1.0
2785242,2021,11,RS,PORTO ALEGRE,,3 MG/ML SOL OFT CT FR PLAS OPC GOT X 5 ML,3,FRASCO,CRM,RS,5.0,,2.0,2.0,1.0
2785243,2021,11,RS,PORTO ALEGRE,,3 MG/ML SOL OFT CT FR PLAS OPC GOT X 5 ML,3,FRASCO,CRMV,RS,5.0,,,,


In [10]:
df['IDADE'].value_counts()

30.0     44436
35.0     44121
45.0     42809
36.0     41046
25.0     40923
         ...  
956.0        1
535.0        1
241.0        1
754.0        1
610.0        1
Name: IDADE, Length: 729, dtype: int64

# Tratamento dos Dados

## Nulos
* Retirar coluna do CID10
* Princípio Ativo dá para ver o que fazer
* Sexo, Idade, Unidade_Idade são muitos nulos tb

## Tipos
SEXO e UNIDADE_MEDIDA são int

In [11]:
df = df.drop('CID10', axis=1)


df['SEXO'] = df['SEXO'].astype(int)
df['UNIDADE_IDADE'] = df['UNIDADE_IDADE'].astype(int)

IntCastingNaNError: ignored