# 🏥 Análise Lixo Hospitalar 

## 📚 Importando bibliotecas que serão utilizadas

In [88]:
import glob
import pandas as pd

## 📖 Lendo o arquivo csv
- Importando e lendo os arquivos

In [89]:
HOSPITAL_TRASH_RECORD_2022_DATA_PATH = glob.glob('data/2022/*.csv')
hospital_trash_2022_df = [pd.read_csv(file_path) for file_path in HOSPITAL_TRASH_RECORD_2022_DATA_PATH]
hospital_trash_2022_df

[   CONTROLE DIÁRIO DE PRODUÇÃO DE LIXO      Unnamed: 1  Unnamed: 2  \
 0                             1/1/2022             NaN         NaN   
 1                                SETOR              KG         NaN   
 2                                  NaN        CLASSE D         NaN   
 3                                  NaN  NÃO RECICLÁVEL         NaN   
 4                            NUTRIÇÃO              NaN         NaN   
 5                                  ADM          24.70          NaN   
 6                          AMBULATÓRIO         139.18          NaN   
 7                             FARMÁCIA          30.80          NaN   
 8                                  CME          27.13          NaN   
 9                                CECAE          24.05          NaN   
 10                               CEROF          12.80          NaN   
 11                           PEDIATRIA          31.90          NaN   
 12                                 DIP          25.12          NaN   
 13   

## 🫧 Limpeza dos Dados
1. Removendo linhas indesejadas
2. Organizando as colunas 
3. Tratando os dados ausentes 
4. Corrigindo os tipos de dados

### 1. Removendo linhas indesejadas
- Analisando se todas possuem a palavra 'Nutrição' ou 'NUTRIÇÃO'
- Removendo as primeiras linhas até a palavra 'Nutrição' ou 'NUTRIÇÃO'

In [90]:
keyword_one = 'NUTRIÇÃO' 
keyword_two = 'Nutrição'

def verify_word_in_column(list_dataframe_for_keyword, keyword_one, keyword_two):  #-> bool
    list_dataframe_as_string = list_dataframe_for_keyword.to_string()
    if keyword_one in list_dataframe_as_string or keyword_two in list_dataframe_as_string: 
        return True
    return False
    
all(verify_word_in_column(list_dataframe_for_keyword, keyword_one, keyword_two) for list_dataframe_for_keyword in hospital_trash_2022_df)

True

In [91]:
def delete_rows_unwanted(list_dataframe_for_delete_rows, keyword_one, keyword_two): #-> 
    for index, row in list_dataframe_for_delete_rows.iterrows():
        if any(keyword_one in str(valor) or keyword_two in str(valor) for valor in row):
            return list_dataframe_for_delete_rows.iloc[index:]
    return list_dataframe_for_delete_rows

hospital_trash_2022_df = [delete_rows_unwanted(list_dataframe_for_delete_rows, keyword_one, keyword_two) for list_dataframe_for_delete_rows in hospital_trash_2022_df]     
hospital_trash_2022_df

[   CONTROLE DIÁRIO DE PRODUÇÃO DE LIXO Unnamed: 1  Unnamed: 2  Unnamed: 3  \
 4                            NUTRIÇÃO         NaN         NaN         NaN   
 5                                  ADM     24.70          NaN         NaN   
 6                          AMBULATÓRIO    139.18          NaN         NaN   
 7                             FARMÁCIA     30.80          NaN         NaN   
 8                                  CME     27.13          NaN         NaN   
 9                                CECAE     24.05          NaN         NaN   
 10                               CEROF     12.80          NaN         NaN   
 11                           PEDIATRIA     31.90          NaN         NaN   
 12                                 DIP     25.12          NaN         NaN   
 13                                 CCA     29.30          NaN         NaN   
 14                                 CMA     36.40          NaN         NaN   
 15                                 CMB     28.18          NaN  

### 2. Organização de colunas
- Concatenando os dataframes com nomes para cada mês
- Renomeando colunas para nomes descritivos

In [92]:
hospital_trash_2022_df = pd.concat(hospital_trash_2022_df, keys=['Fevereiro', 'Março', 'Abril', 'Agosto', 'Julho', 'Junho', 'Maio', 'Outubro', 'Setembro', 'Dezembro'], verify_integrity=True)
hospital_trash_2022_df

Unnamed: 0,Unnamed: 1.1,CONTROLE DIÁRIO DE PRODUÇÃO DE LIXO,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13
Fevereiro,4,NUTRIÇÃO,,,,,,,,,,,,,
Fevereiro,5,ADM,24.70,,,,,,,,,,,,
Fevereiro,6,AMBULATÓRIO,139.18,,,,,,,27.90,,,,,
Fevereiro,7,FARMÁCIA,30.80,,,,,,,,,,,,
Fevereiro,8,CME,27.13,,,,,,,0.55,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Dezembro,21,,,,,,,,,,,,,,
Dezembro,22,,,,,,,,,,,,,,
Dezembro,23,,,,,,,,,,,,,,
Dezembro,24,,,,,,,,,,,,,,


In [99]:
new_names_columns = ['SETOR',
                     'Classe_D-Nao_Reciclavel','Classe_D-Nao_Reciclavel', 'Classe_D-Nao_Reciclavel', 'Classe_D-Nao_Reciclavel',
                    'Classe_D-Reciclavel','Classe_D-Reciclavel','Classe_D-Reciclavel', 
                    'Classe_A (Infectante)', 'Classe_A (Infectante)', 
                    'Classe_E (Perfuro_Cortante)', 'Classe_E (Perfuro_Cortante)', 
                    'Classe_B (Medicamentos)', 'Classe_B (Medicamentos)']

hospital_trash_2022_df.columns = new_names_columns
hospital_trash_2022_df

Unnamed: 0,Unnamed: 1,SETOR,Classe_D-Nao_Reciclavel,Classe_D-Nao_Reciclavel.1,Classe_D-Nao_Reciclavel.2,Classe_D-Nao_Reciclavel.3,Classe_D-Reciclavel,Classe_D-Reciclavel.1,Classe_D-Reciclavel.2,Classe_A (Infectante),Classe_A (Infectante).1,Classe_E (Perfuro_Cortante),Classe_E (Perfuro_Cortante).1,Classe_B (Medicamentos),Classe_B (Medicamentos).1
Fevereiro,4,NUTRIÇÃO,,,,,,,,,,,,,
Fevereiro,5,ADM,24.70,,,,,,,,,,,,
Fevereiro,6,AMBULATÓRIO,139.18,,,,,,,27.90,,,,,
Fevereiro,7,FARMÁCIA,30.80,,,,,,,,,,,,
Fevereiro,8,CME,27.13,,,,,,,0.55,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Dezembro,21,,,,,,,,,,,,,,
Dezembro,22,,,,,,,,,,,,,,
Dezembro,23,,,,,,,,,,,,,,
Dezembro,24,,,,,,,,,,,,,,


### 3. Tratamento de Dados Ausentes
- Identificando dados ausentes

In [101]:
hospital_trash_2022_df.isnull().sum()

SETOR                            7
Classe_D-Nao_Reciclavel         51
Classe_D-Nao_Reciclavel        181
Classe_D-Nao_Reciclavel        199
Classe_D-Nao_Reciclavel        199
Classe_D-Reciclavel            178
Classe_D-Reciclavel            186
Classe_D-Reciclavel            199
Classe_A (Infectante)           68
Classe_A (Infectante)          189
Classe_E (Perfuro_Cortante)    190
Classe_E (Perfuro_Cortante)    197
Classe_B (Medicamentos)        190
Classe_B (Medicamentos)        198
dtype: int64

In [102]:
hospital_trash_2022_df.isnull()

Unnamed: 0,Unnamed: 1,SETOR,Classe_D-Nao_Reciclavel,Classe_D-Nao_Reciclavel.1,Classe_D-Nao_Reciclavel.2,Classe_D-Nao_Reciclavel.3,Classe_D-Reciclavel,Classe_D-Reciclavel.1,Classe_D-Reciclavel.2,Classe_A (Infectante),Classe_A (Infectante).1,Classe_E (Perfuro_Cortante),Classe_E (Perfuro_Cortante).1,Classe_B (Medicamentos),Classe_B (Medicamentos).1
Fevereiro,4,False,True,True,True,True,True,True,True,True,True,True,True,True,True
Fevereiro,5,False,False,True,True,True,True,True,True,True,True,True,True,True,True
Fevereiro,6,False,False,True,True,True,True,True,True,False,True,True,True,True,True
Fevereiro,7,False,False,True,True,True,True,True,True,True,True,True,True,True,True
Fevereiro,8,False,False,True,True,True,True,True,True,False,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Dezembro,21,True,True,True,True,True,True,True,True,True,True,True,True,True,True
Dezembro,22,True,True,True,True,True,True,True,True,True,True,True,True,True,True
Dezembro,23,True,True,True,True,True,True,True,True,True,True,True,True,True,True
Dezembro,24,True,True,True,True,True,True,True,True,True,True,True,True,True,True


### 4. Correção de Tipos de Dados
- Identificando o tipo de dados de cada coluna

In [103]:
hospital_trash_2022_df.dtypes

SETOR                           object
Classe_D-Nao_Reciclavel         object
Classe_D-Nao_Reciclavel        float64
Classe_D-Nao_Reciclavel        float64
Classe_D-Nao_Reciclavel        float64
Classe_D-Reciclavel             object
Classe_D-Reciclavel             object
Classe_D-Reciclavel            float64
Classe_A (Infectante)           object
Classe_A (Infectante)          float64
Classe_E (Perfuro_Cortante)     object
Classe_E (Perfuro_Cortante)     object
Classe_B (Medicamentos)         object
Classe_B (Medicamentos)         object
dtype: object

## ✏️ Manipulação de Dados