Mini-Projeto: Análise de Indicadores de Saúde – Clamed Data Insights
Contextualização:
A empresa Clamed Data Insights, especializada em soluções de análise de dados voltadas para o setor de saúde, recebeu uma base de informações de um conjunto de clínicas e hospitais.
O objetivo é identificar padrões, anomalias e tendências que possam apoiar decisões estratégicas sobre qualidade de atendimento, custos e eficiência operacional.

Você foi contratado como Analista de Dados Júnior para explorar, tratar e visualizar os dados deste estudo.

A base de dados está disponível no arquivo healthcare_dataset.csv.

Desafio:
1 - Entendimento do Projeto e Importação dos Dados
Descrição:
Leia o enunciado do projeto e compreenda o contexto de negócio.
Carregue o arquivo healthcare_dataset.csv utilizando a biblioteca Pandas.
Realize uma exploração inicial (5 primeiras linhas, tipos de dados e dimensões).
Objetivo:
Compreender a estrutura do dataset e preparar o ambiente de trabalho.


Dicas Técnicas:
import pandas as pd
df = pd.read_csv('healthcare_dataset.csv')
df.head()
df.info()
df.describe()


In [17]:
#Importação biblioteca pandas
import pandas as pd

#Leitura do arquivo CSV
df = pd.read_csv('./Datasets/csv/healthcare_dataset.csv')
                 
#Exibição das primeiras linhas, informações e estatísticas descritivas do DataFrame
print(df.head())
print(df.info())
print(df.describe())

#Verifique e trate valores ausentes (NA, NaN).              

            Name  Age  Gender Blood Type Medical Condition Date of Admission  \
0  Bobby JacksOn   30    Male         B-            Cancer        2024-01-31   
1   LesLie TErRy   62    Male         A+           Obesity        2019-08-20   
2    DaNnY sMitH   76  Female         A-           Obesity        2022-09-22   
3   andrEw waTtS   28  Female         O+          Diabetes        2020-11-18   
4  adrIENNE bEll   43  Female        AB+            Cancer        2022-09-19   

             Doctor                    Hospital Insurance Provider  \
0     Matthew Smith             Sons and Miller         Blue Cross   
1   Samantha Davies                     Kim Inc           Medicare   
2  Tiffany Mitchell                    Cook PLC              Aetna   
3       Kevin Wells  Hernandez Rogers and Vang,           Medicare   
4    Kathleen Hanna                 White-White              Aetna   

   Billing Amount  Room Number Admission Type Discharge Date   Medication  \
0    18856.281306    

2 - Limpeza e Preparação dos Dados

Descrição:

Verifique e trate valores ausentes (NA, NaN).

Remova registros duplicados, se existirem.

Identifique outliers em colunas numéricas relevantes (ex: idade, custo, tempo de internação).

Caso existam colunas categóricas com inconsistências (ex: “Male”, “male”, “M”), padronize-as.

Objetivo:
Garantir que os dados estejam consistentes e prontos para análise.

Entregas Esperadas:
Um dataset limpo (df_clean).

Comentários no notebook explicando as decisões tomadas.


In [None]:
#Verifique e trate valores ausentes (NA, NaN).
print(df.isnull().sum())

#Remover registros duplicados, se houver.

'''
#Remoção de duplicatas:
df_duplicado = df.duplicated().sum()
print(' ')
print('Remoção de duplicatas')
print(df_duplicado)

#Análise e tratamento de dados duplicados.
#Buscar por nomes de colunas duplicadas
duplicated_columns = df.columns[df.columns.duplicated()]
print(' ')
print('Colunas duplicadas:')

'''

#Buscar por conteúdo de coluna específica duplicado:
df_duplicado = df.duplicated(subset=['Name'])
df_duplicado_count = df_duplicado.sum()
print(' ')
print('Conteúdo duplicado na coluna Name:')
#print(df_duplicado)
print(df_duplicado_count)

#Identifique outliers em colunas numéricas relevantes (ex: idade, custo, tempo de internação).

#Crie uma nova coluna "Tempo de Internação" calculando a diferença entre "Data de Alta" e "Data de Admissão".
df_com_tempo_intern = df.copy()
df_com_tempo_intern['Date of Admission'] = pd.to_datetime(df_com_tempo_intern['Date of Admission'])
df_com_tempo_intern['Discharge Date'] = pd.to_datetime(df_com_tempo_intern['Discharge Date'])
df_com_tempo_intern['Length of Stay'] = (df_com_tempo_intern['Discharge Date'] - df_com_tempo_intern['Date of Admission']).dt.days
print(' ')
print('Coluna Length of Stay adicionada:')
print(df_com_tempo_intern[['Date of Admission', 'Discharge Date', 'Length of Stay']].head())
    
#Escreva uma função que identique e filtre outliers em uma coluna numérica relevante (ex: Age, Billing Amount, Date of Admission, Discharge Date) usando o método do intervalo interquartil (IQR).
def outlier_iqr(dataframe, column):
    q1 = dataframe[column].quantile(0.25)
    q3 = dataframe[column].quantile(0.75)
    iqr = q3 - q1

    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr

    outliers = dataframe[
        (dataframe[column] < lower_bound) |
        (dataframe[column] > upper_bound)
    ]
    return outliers

#Chamar a função para identificar outliers na coluna 'Length of Stay'
outliers_age = outlier_iqr(df_com_tempo_intern, 'Length of Stay')
print(' ') 
print('Outliers na coluna Length of Stay:')
print(outliers_age)

#Chamar a função para identificar outliers na coluna 'Billing Amount'
outliers_billing = outlier_iqr(df_com_tempo_intern, 'Billing Amount')
print(' ')
print('Outliers na coluna Billing Amount:')
print(outliers_billing)

# Caso existam colunas categóricas com inconsistências (ex: “Male”, “male”, “M”), padronize-as.
# Visualize os valores únicos em uma coluna específica (ex: 'Genero')
print(df_com_tempo_intern['Gender'].unique())

# Conte a frequência de cada valor único para identificar problemas comuns
print(df['Gender'].value_counts())

Name                  0
Age                   0
Gender                0
Blood Type            0
Medical Condition     0
Date of Admission     0
Doctor                0
Hospital              0
Insurance Provider    0
Billing Amount        0
Room Number           0
Admission Type        0
Discharge Date        0
Medication            0
Test Results          0
Length of Stay        0
dtype: int64
 
Conteúdo duplicado na coluna Name:
5508
 
Coluna Length of Stay adicionada:
  Date of Admission Discharge Date  Length of Stay
0        2024-01-31     2024-02-02               2
1        2019-08-20     2019-08-26               6
2        2022-09-22     2022-10-07              15
3        2020-11-18     2020-12-18              30
4        2022-09-19     2022-10-09              20
 
Outliers na coluna Length of Stay:
Empty DataFrame
Columns: [Name, Age, Gender, Blood Type, Medical Condition, Date of Admission, Doctor, Hospital, Insurance Provider, Billing Amount, Room Number, Admission Type, Disc

- Identificado que não há valores ausentes (NA, NaN).
- Não há problemas de categorização para a coluna Gender devido existir apenas registros com 'Male' (27774) e 'Female' (27726) o que totaliza os 5.500 registros do DF.
