# 🏥 Análise Lixo Hospitalar 

## 📚 Importando bibliotecas que serão utilizadas

In [49]:
import glob
import pandas as pd

## 📖 Lendo o arquivo csv
- Importação e leitura do arquivo

In [50]:
HOSPITAL_TRASH_RECORD_FEBRUARY_DATA_PATH = 'data/2022/02 2022 FEVEREIRO REGISTRO DIµRIO DE LIXO.xlsx - 01.02.2022.csv'
hospital_trash_february_df = pd.read_csv(HOSPITAL_TRASH_RECORD_FEBRUARY_DATA_PATH)
hospital_trash_february_df

Unnamed: 0,CONTROLE DIÁRIO DE PRODUÇÃO DE LIXO,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12
0,1/1/2022,,,,,,,,RESPONSÁVEL PELA PESAGEM,,,,
1,SETOR,KG,,,,,,,,,,,
2,,CLASSE D,,,,,,,CLASSE A (INFECTANTE),,CLASSE E (PERFURO CORTANTE),,CLASSE B (MEDICAMENTOS)
3,,NÃO RECICLÁVEL,,,,RECICLÁVEL,,,,,,,
4,NUTRIÇÃO,,,,,,,,,,,,
5,ADM,24.70,,,,,,,,,,,
6,AMBULATÓRIO,139.18,,,,,,,27.90,,,,
7,FARMÁCIA,30.80,,,,,,,,,,,
8,CME,27.13,,,,,,,0.55,,,,
9,CECAE,24.05,,,,,,,,,,,


## 🫧 Limpeza dos Dados
1. Organização de colunas 
2. Tratamento de dados ausentes 
3. Correção de tipos de dados

### 1. Organização de colunas
- Deletar as 4 primeiras linhas do dataframe que não correspondem as colunas
- Renomear colunas para nomes descritivos

In [51]:
hospital_trash_february_df = pd.read_csv(HOSPITAL_TRASH_RECORD_FEBRUARY_DATA_PATH, skiprows=[0, 1, 2 ,3])
hospital_trash_february_df.columns = ['SETOR',
                              'Classe_D-Nao_Reciclavel','Classe_D-Nao_Reciclavel', 'Classe_D-Nao_Reciclavel', 'Classe_D-Nao_Reciclavel',
                              'Classe_D-Reciclavel','Classe_D-Reciclavel','Classe_D-Reciclavel', 
                              'Classe_A (Infectante)', 'Classe_A (Infectante)', 
                              'Classe_E (Perfuro_Cortante)', 'Classe_E (Perfuro_Cortante)', 
                              'Classe_B (Medicamentos)']
hospital_trash_february_df

Unnamed: 0,SETOR,Classe_D-Nao_Reciclavel,Classe_D-Nao_Reciclavel.1,Classe_D-Nao_Reciclavel.2,Classe_D-Nao_Reciclavel.3,Classe_D-Reciclavel,Classe_D-Reciclavel.1,Classe_D-Reciclavel.2,Classe_A (Infectante),Classe_A (Infectante).1,Classe_E (Perfuro_Cortante),Classe_E (Perfuro_Cortante).1,Classe_B (Medicamentos)
0,NUTRIÇÃO,,,,,,,,,,,,
1,ADM,24.7,,,,,,,,,,,
2,AMBULATÓRIO,139.18,,,,,,,27.9,,,,
3,FARMÁCIA,30.8,,,,,,,,,,,
4,CME,27.13,,,,,,,0.55,,,,
5,CECAE,24.05,,,,,,,,,,,
6,CEROF,12.8,,,,,,,0.35,,,,
7,PEDIATRIA,31.9,,,,,,,0.9,,,,
8,DIP,25.12,,,,,,,,,,,
9,CCA,29.3,,,,,,,3.8,,,,


### 2. Tratamento de Dados Ausentes
- Identificar dados ausentes

In [52]:
hospital_trash_february_df.isnull().sum()

SETOR                           0
Classe_D-Nao_Reciclavel         3
Classe_D-Nao_Reciclavel        19
Classe_D-Nao_Reciclavel        19
Classe_D-Nao_Reciclavel        19
Classe_D-Reciclavel            18
Classe_D-Reciclavel            19
Classe_D-Reciclavel            19
Classe_A (Infectante)           7
Classe_A (Infectante)          19
Classe_E (Perfuro_Cortante)    18
Classe_E (Perfuro_Cortante)    19
Classe_B (Medicamentos)        18
dtype: int64

In [53]:
hospital_trash_february_df.isnull()

Unnamed: 0,SETOR,Classe_D-Nao_Reciclavel,Classe_D-Nao_Reciclavel.1,Classe_D-Nao_Reciclavel.2,Classe_D-Nao_Reciclavel.3,Classe_D-Reciclavel,Classe_D-Reciclavel.1,Classe_D-Reciclavel.2,Classe_A (Infectante),Classe_A (Infectante).1,Classe_E (Perfuro_Cortante),Classe_E (Perfuro_Cortante).1,Classe_B (Medicamentos)
0,False,True,True,True,True,True,True,True,True,True,True,True,True
1,False,False,True,True,True,True,True,True,True,True,True,True,True
2,False,False,True,True,True,True,True,True,False,True,True,True,True
3,False,False,True,True,True,True,True,True,True,True,True,True,True
4,False,False,True,True,True,True,True,True,False,True,True,True,True
5,False,False,True,True,True,True,True,True,True,True,True,True,True
6,False,False,True,True,True,True,True,True,False,True,True,True,True
7,False,False,True,True,True,True,True,True,False,True,True,True,True
8,False,False,True,True,True,True,True,True,True,True,True,True,True
9,False,False,True,True,True,True,True,True,False,True,True,True,True


### 3. Correção de Tipos de Dados
- Identificar o tipo de dados de cada coluna

In [54]:
hospital_trash_february_df.dtypes

SETOR                           object
Classe_D-Nao_Reciclavel        float64
Classe_D-Nao_Reciclavel        float64
Classe_D-Nao_Reciclavel        float64
Classe_D-Nao_Reciclavel        float64
Classe_D-Reciclavel             object
Classe_D-Reciclavel            float64
Classe_D-Reciclavel            float64
Classe_A (Infectante)          float64
Classe_A (Infectante)          float64
Classe_E (Perfuro_Cortante)     object
Classe_E (Perfuro_Cortante)    float64
Classe_B (Medicamentos)         object
dtype: object

## ✏️ Manipulação de Dados
- Concatenação para um dataframe

In [55]:
hospital_trash_2022_df = pd.concat(map(pd.read_csv, glob.glob('data/2022/*.csv')), keys=['Fevereiro', 'Março', 'Abril', 'Agosto', 'Julho', 'Junho', 'Maio', 'Outubro', 'Setembro', 'Dezembro'], verify_integrity=True)
hospital_trash_2022_df

Unnamed: 0,Unnamed: 1.1,CONTROLE DIÁRIO DE PRODUÇÃO DE LIXO,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13
Fevereiro,0,1/1/2022,,,,,,,,RESPONSÁVEL PELA PESAGEM,,,,,
Fevereiro,1,SETOR,KG,,,,,,,,,,,,
Fevereiro,2,,CLASSE D,,,,,,,CLASSE A (INFECTANTE),,CLASSE E (PERFURO CORTANTE),,CLASSE B (MEDICAMENTOS),
Fevereiro,3,,NÃO RECICLÁVEL,,,,RECICLÁVEL,,,,,,,,
Fevereiro,4,NUTRIÇÃO,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Dezembro,21,,,,,,,,,,,,,,
Dezembro,22,,,,,,,,,,,,,,
Dezembro,23,,,,,,,,,,,,,,
Dezembro,24,,,,,,,,,,,,,,
