### **Introdução e contextualização**

A empresa Clamed Data Insights, especializada em soluções de análise de dados voltadas para o setor de saúde, recebeu uma base de informações de um conjunto de clínicas e hospitais. O objetivo é identificar padrões, anomalias e tendências que possam apoiar decisões estratégicas sobre qualidade de atendimento, custos e eficiência operacional.


### **Leitura do dataset e importação das bibliotecas que serão utilizadas**

In [11]:
# Importação das bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Leitura do dataset
df_dataset = pd.read_csv('healthcare_dataset.csv')

### **Limpeza e preparação dos dados**

In [None]:
# Leitura inicial dos dados
# - df_dataset.head()
# - df_dataset.info()
# - df_dataset.describe().round(2)
# - df_dataset.shape
# - (df_dataset.duplicated().sum())

# Problemas identificados na análise inicial:
# - Duplicatas encontradas
# - Valores ausentes em algumas colunas
# - Data de admissão como object em vez de datetime
# - Valores negativos em colunas que deveriam ser positivas

# Iniciando a limpeza dos dados:
# Identificando e removendo duplicatas
(df_dataset.duplicated(subset=['Name', 'Date of Admission', 'Test Results']).sum()) # Verificando as duplicatas pelo nome, data de admissão e resultados de testes
df_dataset = df_dataset.drop_duplicates(
    subset=['Name', 'Date of Admission', 'Test Results'],
    keep='first'
)

# Convertendo datas para o formato datetime
df_dataset['Date of Admission'] = pd.to_datetime(df_dataset['Date of Admission'], errors='coerce')
df_dataset['Discharge Date'] = pd.to_datetime(df_dataset['Discharge Date'], errors='coerce')

# Padronizando a coluna 'Name'
df_dataset['Name'] = df_dataset['Name'].str.title().str.strip()

# Identificando e removendo outliers via IQR em colunas numéricas
numeric_cols = ['Age', 'Billing Amount', 'Room Number']
for col in numeric_cols:
    Q1 = df_dataset[col].quantile(0.25)
    Q3 = df_dataset[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    df_dataset = df_dataset[(df_dataset[col] >= lower_bound) & (df_dataset[col] <= upper_bound)]

df_dataset.info()