# ALUNOS: 

- Aluno1: __Antonio_____________________________________
- Aluno2: __Danilo____________________________________
- Aluno3: __Pedro___________________________________



# CIÊNCIA DE DADOS

## Etapas previstas para realizar Análise e Tratamento de Dados:
- Importar as bibliotecas necessárias 
- Importar a base de dado e realizar o merge, caso necessário
- Tratamento dos Dados
- Visualização dos dados
- Verificar a base estatística dos dados numéricos e não numéricos
- Verificar as colunas categóricas
- Análise da base de dados
- Conclusões obtidas

## Análise de Custos e Desperdícios de Materiais 

O desafio consiste no gerenciamento de recursos próprios: controlar custos crescentes, evitar desperdícios e garantir que os insumos sejam utilizados de forma eficiente e adequada. Os dados de consumo mensal trazem informações ricas sobre materiais, medicamentos, operações, centros de custo, especialidades médicas e estabelecimentos. A partir deles, é possível identificar
padrões de uso, prever demandas futuras e, principalmente, analisar perdas e desperdícios. Neste
desafio, os alunos deverão aplicar os conhecimentos adquiridos em sala de aula para explorar essas
informações e propor soluções práticas que apoiem a gestão hospitalar.

## Mineração de Dados
- Explorar e preparar os dados de consumo mensal. 
- Mapear itens com maior impacto financeiro e identificar padrões de consumo por material, operação, centro de custo e especialidade. 
- Consumos atípicos (picos sazonais não justificados).
- Itens subutilizados ou de baixa rotatividade.
- Identificar itens similares (ex.: medicamentos com a mesma finalidade terapêutica) e avaliar sobreposição de consumo.

## Inteligência Artificial
- Desenvolver modelos de previsão de consumo
- Aplicar metodologias para agrupar especialidades e centros de custo com padrões de consumo semelhantes.
- Implementar detecção de anomalias para identificar consumos desproporcionais, potenciais desperdícios e possíveis substituições por itens similares de menor custo.

## Resultados Esperados:
- Evolução do consumo mensal.
- Comparativo de consumo.
- Indicadores de perdas e desperdícios (consumo anômalo, estoques sem giro, itens de alto custo com alternativas similares).
- Previsão de consumo para apoiar planejamento de compras.
- Grupos de especialidades/centros de custo com padrões de consumo similares.
- Lista de possíveis anomalias e desperdícios detectados.
- Recomendações estratégicas para otimização do uso de recurso próprio.
Bônus: outras analises não indicadas acima


## Importar as bibliotecas necessárias e a base de dados. Realizar o merge, caso necessário e Realizar a visualização da mesma 

In [1]:
# Importar as bibliotecas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt


In [2]:
# Abre o arquivo Excel movimento_estoque_faturamento.xlsx sem carregar dados
xls = pd.ExcelFile('data/movimento_estoque_faturamento.xlsx')
# Pega todos os nomes de abas, exceto "Query" 
abas = [a for a in xls.sheet_names if a.lower() != 'query']


In [3]:
# Armazena os DataFrames de cada aba em uma lista
dfs = []  

for aba in abas:
    
    df = pd.read_excel(xls, sheet_name=aba)
    dfs.append(df)

In [4]:
# Concatena todos os DataFrames das abas em um só
df_arquivo1 = pd.concat(dfs, ignore_index=True)

# carrega o segundo arquivo Excel
df_arquivo2 = pd.read_excel('data/dimensao_material_hospital.xlsx')

In [5]:
# realizar o merge
df_final = pd.merge(df_arquivo1, df_arquivo2, on='id_item')

In [6]:
# Salvar o DataFrame final em CSV
df_final.to_csv('data/df_final.csv', index=False)

In [7]:
# Para carregar
df_final = pd.read_csv('data/df_final.csv')

  df_final = pd.read_csv('data/df_final.csv')


In [8]:
# Visualizar a base de dados
display(df_final.head())

Unnamed: 0,ds_centro_custo,cd_centro_custo,ds_estabelecimento,cd_material,cd_acao,nr_atendimento,dt_movimento_estoque,cd_local_estoque,ds_local_estoque,cd_conta_contabil,...,cd_grupo_material,ds_grupo_material,qt_conv_estoque_consumo,dt_cadastramento,cd_unidade_medida_compra,ds_unidade_medida_compra,cd_unidade_medida_estoque,ds_unidade_medida_estoque,cd_unidade_medida_consumo,ds_unidade_medida_consumo
0,Posto Carambeí,9722,Laboratorio Unimed Ponta Grossa,49862,1,,2024-10-17 15:46:02.000,537,Posto Carambeí,71111911113905.0,...,3,Impressos e Material de Expediente,1.0,2007-08-31 09:05:52.000,Un,Unidade,Un,Unidade,Un,Unidade
1,SADT - RADIOLOGIA,9112,Hospital Geral Unimed,42281,1,,2024-10-17 13:49:55.000,11,Almoxarifado,71111911113905.0,...,3,Impressos e Material de Expediente,1.0,2006-10-23 09:02:51.000,Pct,Pacote,Pct,Pacote,Pct,Pacote
2,Coleta Ambulatorial,9765,Laboratorio Unimed Ponta Grossa,36215,1,,2024-10-09 10:29:11.000,62,Almoxarifado Laboratório,71111911113103.0,...,4,Materiais Hospitalares,1.0,2009-06-10 18:23:32.000,Pç,Peça,Pç,Peça,Pç,Peça
3,3º ANDAR - UNIDADE DE INTERNAÇÃO,9103,Hospital Geral Unimed,69295,1,,2024-10-17 14:04:47.000,11,Almoxarifado,71111911113905.0,...,3,Impressos e Material de Expediente,1.0,2019-06-24 15:40:59.000,Fl,Folha,Fl,Folha,Fl,Folha
4,3º ANDAR - UNIDADE DE INTERNAÇÃO,9103,Hospital Geral Unimed,16810,1,,2024-10-17 14:04:47.000,11,Almoxarifado,71111911113905.0,...,3,Impressos e Material de Expediente,1.0,2000-08-23 16:21:57.000,Un,Unidade,Un,Unidade,Un,Unidade


In [9]:
# Apresentando todas as colunas do DataFrame
with pd.option_context("display.max_columns", None):
    display(df_final)

Unnamed: 0,ds_centro_custo,cd_centro_custo,ds_estabelecimento,cd_material,cd_acao,nr_atendimento,dt_movimento_estoque,cd_local_estoque,ds_local_estoque,cd_conta_contabil,nr_lote_contabil,ds_operacao,cd_operacao,dt_referencia,qt_estoque,vl_estoque,vl_movimento,vl_consumo,qt_consumo,vl_movimento_2,id_item,id_material_hospital,ds_material_hospital,ie_ativo,cd_classe_material,ds_classe_material,cd_subgrupo_material,ds_subgrupo_material,cd_grupo_material,ds_grupo_material,qt_conv_estoque_consumo,dt_cadastramento,cd_unidade_medida_compra,ds_unidade_medida_compra,cd_unidade_medida_estoque,ds_unidade_medida_estoque,cd_unidade_medida_consumo,ds_unidade_medida_consumo
0,Posto Carambeí,9722,Laboratorio Unimed Ponta Grossa,49862,1,,2024-10-17 15:46:02.000,537,Posto Carambeí,71111911113905.0,,Consumo,1,2024-10-01 00:00:00.000,1.0,1.89,1.89,1.89,1.0,1.89,6910249862,49862,"Pilha Pequena ""AA"" Alcalina",True,170,Material de Expediente,51,Material de Expediente,3,Impressos e Material de Expediente,1.0,2007-08-31 09:05:52.000,Un,Unidade,Un,Unidade,Un,Unidade
1,SADT - RADIOLOGIA,9112,Hospital Geral Unimed,42281,1,,2024-10-17 13:49:55.000,11,Almoxarifado,71111911113905.0,,Consumo,1,2024-10-01 00:00:00.000,3.0,64.35,64.35,64.35,3.0,64.35,6910242281,42281,Papel Sulfite A4 Branco 210x297mm Pcte com 500...,True,170,Material de Expediente,51,Material de Expediente,3,Impressos e Material de Expediente,1.0,2006-10-23 09:02:51.000,Pct,Pacote,Pct,Pacote,Pct,Pacote
2,Coleta Ambulatorial,9765,Laboratorio Unimed Ponta Grossa,36215,1,,2024-10-09 10:29:11.000,62,Almoxarifado Laboratório,71111911113103.0,,Consumo,1,2024-10-01 00:00:00.000,500.0,13.35,13.35,13.35,500.0,13.35,6910236215,36215,Stopper Cor da pele,True,121,Curativos,37,Curativos,4,Materiais Hospitalares,1.0,2009-06-10 18:23:32.000,Pç,Peça,Pç,Peça,Pç,Peça
3,3º ANDAR - UNIDADE DE INTERNAÇÃO,9103,Hospital Geral Unimed,69295,1,,2024-10-17 14:04:47.000,11,Almoxarifado,71111911113905.0,,Consumo,1,2024-10-01 00:00:00.000,20.0,44.00,44.00,44.00,20.0,44.00,6910269295,69295,"Folha A4 com 8 etiquetas tamanho 7,5x10 cm Quí...",True,170,Material de Expediente,51,Material de Expediente,3,Impressos e Material de Expediente,1.0,2019-06-24 15:40:59.000,Fl,Folha,Fl,Folha,Fl,Folha
4,3º ANDAR - UNIDADE DE INTERNAÇÃO,9103,Hospital Geral Unimed,16810,1,,2024-10-17 14:04:47.000,11,Almoxarifado,71111911113905.0,,Consumo,1,2024-10-01 00:00:00.000,1.0,1.82,1.82,1.82,1.0,1.82,6910216810,16810,Pincel Azul p/ Quadro Branco,True,170,Material de Expediente,51,Material de Expediente,3,Impressos e Material de Expediente,1.0,2000-08-23 16:21:57.000,Un,Unidade,Un,Unidade,Un,Unidade
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4877535,FARMÁCIA CENTRAL,9306,Hospital Geral Unimed,51226,1,,2023-12-12 14:24:43.000,57,CAF,71111911113105.0,,Saída por troca comercial,141,2023-12-01 00:00:00.000,3.0,40.50,40.50,-40.50,-3.0,-40.50,6910251226,51226,Plastic anel 13mm,True,109,Materiais Diversos,39,Outros,4,Materiais Hospitalares,1.0,2009-07-07 14:40:22.000,Un,Unidade,Un,Unidade,Un,Unidade
4877536,FARMÁCIA CENTRAL,9306,Hospital Geral Unimed,55434,1,,2023-12-12 14:19:59.000,57,CAF,71111911113105.0,,Saída por troca comercial,141,2023-12-01 00:00:00.000,2.0,34.49,34.49,-34.49,-2.0,-34.49,6910255434,55434,"Tubo nasotraqueal Polar Norte 7,0 Portex",True,147,Sondas em Geral,34,Sondas/Drenos,4,Materiais Hospitalares,1.0,2014-05-20 11:39:02.000,Un,Unidade,Un,Unidade,Un,Unidade
4877537,FARMÁCIA CENTRAL,9306,Hospital Geral Unimed,3081,1,,2023-11-24 16:32:22.000,57,CAF,71111911113205.0,,Saída por troca comercial,141,2023-11-01 00:00:00.000,10.0,26.08,26.08,-26.08,-10.0,-26.08,691023081,3081,"AmioDARONA: 50mg/mL - sol. inj., amp (3mL)",True,630,Antiarrítimico,124,Sistema Cardiovascular,1,Medicamentos,1.0,1998-01-08 11:12:08.000,Amp,Ampola,Amp,Ampola,Amp,Ampola
4877538,FARMÁCIA CENTRAL,9306,Hospital Geral Unimed,71276,1,,2023-11-24 16:53:57.000,57,CAF,71111911113205.0,,Saída por troca comercial,141,2023-11-01 00:00:00.000,1.0,558.48,558.48,-558.48,-1.0,-558.48,6910271276,71276,"Eritromax 40000 UI - sol inj, seringa 1 mL",True,399,Antianêmicos,131,Sangue e Órgaos Hematopoiéticos,1,Medicamentos,1.0,2019-11-25 08:49:44.000,Ser,Seringa,Ser,Seringa,Ser,Seringa


## Tratamento dos dados: verificar e corrigir o domínios dos campos, se há dados faltantes, verificar cardinalidade, identificar colunas categóricas, de visualizar as informações estatísticas da base (dados numéricos e não numéricos)

### Resumo das bases


In [14]:
df_final.columns.tolist()

['ds_centro_custo',
 'cd_centro_custo',
 'ds_estabelecimento',
 'cd_material',
 'cd_acao',
 'nr_atendimento',
 'dt_movimento_estoque',
 'cd_local_estoque',
 'ds_local_estoque',
 'cd_conta_contabil',
 'nr_lote_contabil',
 'ds_operacao',
 'cd_operacao',
 'dt_referencia',
 'qt_estoque',
 'vl_estoque',
 'vl_movimento',
 'vl_consumo',
 'qt_consumo',
 'vl_movimento_2',
 'id_item',
 'id_material_hospital',
 'ds_material_hospital',
 'ie_ativo',
 'cd_classe_material',
 'ds_classe_material',
 'cd_subgrupo_material',
 'ds_subgrupo_material',
 'cd_grupo_material',
 'ds_grupo_material',
 'qt_conv_estoque_consumo',
 'dt_cadastramento',
 'cd_unidade_medida_compra',
 'ds_unidade_medida_compra',
 'cd_unidade_medida_estoque',
 'ds_unidade_medida_estoque',
 'cd_unidade_medida_consumo',
 'ds_unidade_medida_consumo']

In [15]:
print(df_final.dtypes)

ds_centro_custo               object
cd_centro_custo                int64
ds_estabelecimento            object
cd_material                    int64
cd_acao                        int64
nr_atendimento               float64
dt_movimento_estoque          object
cd_local_estoque               int64
ds_local_estoque              object
cd_conta_contabil             object
nr_lote_contabil             float64
ds_operacao                   object
cd_operacao                    int64
dt_referencia                 object
qt_estoque                   float64
vl_estoque                   float64
vl_movimento                 float64
vl_consumo                   float64
qt_consumo                   float64
vl_movimento_2               float64
id_item                        int64
id_material_hospital           int64
ds_material_hospital          object
ie_ativo                        bool
cd_classe_material             int64
ds_classe_material            object
cd_subgrupo_material           int64
d

In [16]:
print(df_final.describe(include='all').T)

                               count   unique  \
ds_centro_custo              4877540      220   
cd_centro_custo            4877540.0      NaN   
ds_estabelecimento           4877540        5   
cd_material                4877540.0      NaN   
cd_acao                    4877540.0      NaN   
nr_atendimento             4744885.0      NaN   
dt_movimento_estoque         4877540  1522221   
cd_local_estoque           4877540.0      NaN   
ds_local_estoque             4877540       61   
cd_conta_contabil          4877455.0    101.0   
nr_lote_contabil                 0.0      NaN   
ds_operacao                  4877540       12   
cd_operacao                4877540.0      NaN   
dt_referencia                4877540       24   
qt_estoque                 4877540.0      NaN   
vl_estoque                 4877540.0      NaN   
vl_movimento               4877540.0      NaN   
vl_consumo                 4877540.0      NaN   
qt_consumo                 4877540.0      NaN   
vl_movimento_2      

### Domínios incorretos, caso existam

### Tratamento dos valores nulos, caso existam


### Cardinalidade dos dados

### Tratamento dos valores duplicados, caso existam

### Excluir linhas e colunas desnecessárias

### Verificando informações estatísticas da base

In [None]:
# Para dados numéricos


In [None]:
# Para dados não numéricos


### Verificando cardinalidade

### Tratamento das colunas categóricas

### Análise da base

### Conclusões obtidas

# Matplotlib

Preparar visualizações das principais informações obtidas na base de dados apresentada pela UNIMED, como, por exemplo:
### - Apresentar os top 15 materiais (subgrupos) mais consumidos dos últimos anos (apresentando por ano)
### - Apresentar os 15 materiais (subgrupos) menos consumidos dos últimos anos (apresentando por ano)
### - Selecionar algumas especialidades médicas com consumos acima da média dos últimos anos (apresentando por ano)
### - Apresentar materiais com estoques parados nos últimos anos (apresentando por ano)

Busquem extrair mais ***três principais informações da base*** e preparem, de acordo com as boas práticas de visualização de dados (ex: cores, tamanhos, gráficos comparativos, legenda, tipo de gráfico, usem legendas, títulos, o annotate entre outros recursos vistos nas aulas presenciais)


In [None]:
# Apresentar os top 15 materiais (subgrupos) mais consumidos dos últimos anos (apresentando por ano)


In [None]:
# Apresentar os 15 materiais (subgrupos) menos consumidos dos últimos anos (apresentando por ano)


In [None]:
# Selecionar algumas especialidades médicas com consumos acima da média dos últimos anos (apresentando por ano)


In [None]:
# Apresentar materiais com estoques parados nos últimos anos (apresentando por ano)


## Extrair mais 3 principais informações da base e elaborem os gráficos para visualizá-las. Cada código em uma célula separada