# Sobre o Conjunto de Dados
## Autor: Lucca de Sena Barbosa

## **Informações do Conjunto de Dados**

O conjunto de dados inclui várias colunas, cada uma fornecendo detalhes específicos sobre os pacientes, suas admissões e os serviços de saúde recebidos. Abaixo está uma breve descrição de cada coluna:

- **Nome**: Nome do paciente associado ao registro de saúde.
- **Idade**: Idade do paciente no momento da admissão, em anos.
- **Gênero**: Gênero do paciente, sendo "Masculino" ou "Feminino".
- **Tipo Sanguíneo**: Tipo sanguíneo do paciente (ex.: "A+", "O-").
- **Condição Médica**: Condição médica primária ou diagnóstico (ex.: "Diabetes," "Hipertensão").
- **Data de Admissão**: Data de admissão do paciente na unidade de saúde.
- **Médico**: Nome do médico responsável pelo cuidado do paciente durante a admissão.
- **Hospital**: Unidade de saúde ou hospital onde o paciente foi admitido.
- **Provedor de Seguro**: Provedor de seguro do paciente (ex.: "Aetna," "Blue Cross").
- **Valor da Cobrança**: Valor cobrado pelos serviços de saúde, expresso como um número de ponto flutuante.
- **Número do Quarto**: Número do quarto onde o paciente foi acomodado.
- **Tipo de Admissão**: Tipo de admissão ("Emergência," "Eletiva," ou "Urgente").
- **Data de Alta**: Data de alta da unidade de saúde, baseada na data de admissão e em um intervalo realista de dias.
- **Medicação**: Medicação prescrita ou administrada (ex.: "Aspirina," "Ibuprofeno").
- **Resultados dos Exames**: Resultados dos exames médicos durante a admissão ("Normal," "Anormal," "Inconclusivo").


## **Checklist**

**1- Importação de bibliotecas:**

**2- Importação da base de dados:**

**3- Análise de dados:**

- Conferir Dados Faltantes:
- Identificar Atributo Classe e Previsores:
- Identificar o melhor conjunto de parâmetros conforme sua variância.

**4- Divisão da Base de Dados entre Classes e Preditores:**

**5- Codificação dos Atributos:**

**6- Padronização dos Dados:**

**7- Divisão entre Treinamento e Teste:**

**8- Hiperparâmetros com GridSearch:**

**9- Treinamento dos Algoritmos:**

**10- Avaliação das Previsões:**



## 1- **Importação das Bibliotecas**

> Essas serão as bibliotecas principais que serão utilizadas para a manipulação dos dados com o intuito de fazer previsões rotuladas através dos algoritmos de machine learning

In [86]:
import pandas as pd
import numpy as np
import plotly.express as px

## **2- Importação da Base de Dados**

In [105]:
base_healthcare = pd.read_csv("healthcare_dataset.csv")
display(base_healthcare)

Unnamed: 0,Name,Age,Gender,Blood Type,Medical Condition,Date of Admission,Doctor,Hospital,Insurance Provider,Billing Amount,Room Number,Admission Type,Discharge Date,Medication,Test Results
0,Bobby JacksOn,30,Male,B-,Cancer,2024-01-31,Matthew Smith,Sons and Miller,Blue Cross,18856.281306,328,Urgent,2024-02-02,Paracetamol,Normal
1,LesLie TErRy,62,Male,A+,Obesity,2019-08-20,Samantha Davies,Kim Inc,Medicare,33643.327287,265,Emergency,2019-08-26,Ibuprofen,Inconclusive
2,DaNnY sMitH,76,Female,A-,Obesity,2022-09-22,Tiffany Mitchell,Cook PLC,Aetna,27955.096079,205,Emergency,2022-10-07,Aspirin,Normal
3,andrEw waTtS,28,Female,O+,Diabetes,2020-11-18,Kevin Wells,"Hernandez Rogers and Vang,",Medicare,37909.782410,450,Elective,2020-12-18,Ibuprofen,Abnormal
4,adrIENNE bEll,43,Female,AB+,Cancer,2022-09-19,Kathleen Hanna,White-White,Aetna,14238.317814,458,Urgent,2022-10-09,Penicillin,Abnormal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
55495,eLIZABeTH jaCkSOn,42,Female,O+,Asthma,2020-08-16,Joshua Jarvis,Jones-Thompson,Blue Cross,2650.714952,417,Elective,2020-09-15,Penicillin,Abnormal
55496,KYle pEREz,61,Female,AB-,Obesity,2020-01-23,Taylor Sullivan,Tucker-Moyer,Cigna,31457.797307,316,Elective,2020-02-01,Aspirin,Normal
55497,HEATher WaNG,38,Female,B+,Hypertension,2020-07-13,Joe Jacobs DVM,"and Mahoney Johnson Vasquez,",UnitedHealthcare,27620.764717,347,Urgent,2020-08-10,Ibuprofen,Abnormal
55498,JENniFER JOneS,43,Male,O-,Arthritis,2019-05-25,Kimberly Curry,"Jackson Todd and Castro,",Medicare,32451.092358,321,Elective,2019-05-31,Ibuprofen,Abnormal


## 3- **Análise dos Dados**

### 3.1- **Conferindo informações gerais da base de dados**

In [None]:
base_healthcare.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55500 entries, 0 to 55499
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Name                55500 non-null  object 
 1   Age                 55500 non-null  int64  
 2   Gender              55500 non-null  object 
 3   Blood Type          55500 non-null  object 
 4   Medical Condition   55500 non-null  object 
 5   Date of Admission   55500 non-null  object 
 6   Doctor              55500 non-null  object 
 7   Hospital            55500 non-null  object 
 8   Insurance Provider  55500 non-null  object 
 9   Billing Amount      55500 non-null  float64
 10  Room Number         55500 non-null  int64  
 11  Admission Type      55500 non-null  object 
 12  Discharge Date      55500 non-null  object 
 13  Medication          55500 non-null  object 
 14  Test Results        55500 non-null  object 
dtypes: float64(1), int64(2), object(12)
memory usage: 6.4

### 3.1 **Conferindo se há dados faltantes ou não**

In [None]:
base_healthcare.isnull().sum()

Name                  0
Age                   0
Gender                0
Blood Type            0
Medical Condition     0
Date of Admission     0
Doctor                0
Hospital              0
Insurance Provider    0
Billing Amount        0
Room Number           0
Admission Type        0
Discharge Date        0
Medication            0
Test Results          0
dtype: int64

### 3.2 **Identificando os atributos previsores e a classe:**

> Para esse treinamento, o "Medical Condition" (Condição médica) ser o atributo classe. Logo os demais serão os atributos previsores

> Em outras palavras, o objetivo desse treinamento é prever a condição médica do paciente com base em seus atributos na base de dados.

> Observação: Os dados foram criados de maneira sintética, ou seja, não são dados reais.

In [None]:
# Observando todas as features do atributo Medical Condition, o atributo classe do dataset

grafico = px.treemap(base_healthcare, path=["Medical Condition"])
grafico.show()

### 3.3 - **Separando uma base de dados para encontrar os atributos que possuem uma maior correlação**

- Copiando a base de dados para uma outra variável, para assim que assim a original não sofra alterações.

In [None]:
base_select_features = base_healthcare
base_select_features.columns

Index(['Name', 'Age', 'Gender', 'Blood Type', 'Medical Condition',
       'Date of Admission', 'Doctor', 'Hospital', 'Insurance Provider',
       'Billing Amount', 'Room Number', 'Admission Type', 'Discharge Date',
       'Medication', 'Test Results'],
      dtype='object')

- Retirando a classe da base de dados copiada.

In [None]:

base_select_features = base_select_features.drop(columns='Medical Condition')
base_select_features.columns, base_select_features.shape

(Index(['Name', 'Age', 'Gender', 'Blood Type', 'Date of Admission', 'Doctor',
        'Hospital', 'Insurance Provider', 'Billing Amount', 'Room Number',
        'Admission Type', 'Discharge Date', 'Medication', 'Test Results'],
       dtype='object'),
 (55500, 14))

- Identificando os atributos previsores e as classes em variáveis distintas.

In [None]:
x_health_features = base_select_features.iloc[:, 0:14].values
y_health_features = base_healthcare.iloc[:, 4].values

x_health_features, y_health_features

(array([['Bobby JacksOn', 30, 'Male', ..., '2024-02-02', 'Paracetamol',
         'Normal'],
        ['LesLie TErRy', 62, 'Male', ..., '2019-08-26', 'Ibuprofen',
         'Inconclusive'],
        ['DaNnY sMitH', 76, 'Female', ..., '2022-10-07', 'Aspirin',
         'Normal'],
        ...,
        ['HEATher WaNG', 38, 'Female', ..., '2020-08-10', 'Ibuprofen',
         'Abnormal'],
        ['JENniFER JOneS', 43, 'Male', ..., '2019-05-31', 'Ibuprofen',
         'Abnormal'],
        ['jAMES GARCiA', 53, 'Female', ..., '2024-04-29', 'Ibuprofen',
         'Abnormal']], dtype=object),
 array(['Cancer', 'Obesity', 'Obesity', ..., 'Hypertension', 'Arthritis',
        'Arthritis'], dtype=object))

- Codificando a base de dados, através do método LabelEncoder( )

In [None]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer

from sklearn.preprocessing import LabelEncoder

for i in range(x_health_features.shape[1]):
    codificador_label = LabelEncoder()
    x_health_features[:, i] = codificador_label.fit_transform(x_health_features[:, i])



- Padronizando a base de dados, através do método StandardScaler( )

In [None]:
padronizador = StandardScaler(with_mean=False)
x_health_features = padronizador.fit_transform(x_health_features)
x_health_features

array([[0.21261819, 0.86724618, 2.00000075, ..., 3.27216922, 2.12279544,
        2.44474421],
       [1.054151  , 2.49970957, 2.00000075, ..., 0.20616558, 0.70759848,
        1.22237211],
       [0.44879902, 3.21391231, 0.        , ..., 2.35860984, 0.        ,
        2.44474421],
       ...,
       [0.60583709, 1.27536203, 0.        , ..., 0.86816513, 0.70759848,
        0.        ],
       [0.67631711, 1.53043443, 2.00000075, ..., 0.0416114 , 0.70759848,
        0.        ],
       [2.37116406, 2.04057924, 0.        , ..., 3.4367234 , 0.70759848,
        0.        ]])

- Observando a variância de cada atributo na base de dados.

In [110]:
x_health_features = x_health_features

for i in range(x_health_features.shape[1]):
    print(x_health_features[:, i].var())

1.0
1.0
0.9999999999999998
0.9999999999999998
1.0
1.0
1.0
1.0000000000000002
0.9999999999999998
0.9999999999999999
1.0000000000000002
1.0
1.0000000000000002
1.0000000000000002


> Esse resultado é a variância de cada atributo em relação a base de dados. Para selecionar o melhores atributos, conforme o resultado acima, temos que escolher a maior variância entre eles

- Para selecionar as maiores variância, utilizaremos o VarianceThreshold( ): passando como parâmetro o threshold = 1

In [None]:
from sklearn.feature_selection import VarianceThreshold

selecao = VarianceThreshold(threshold=1)
x_health_variancia = selecao.fit_transform(x_health_features)
x_health_variancia.shape

(55500, 4)

> Foi determinado o valor 1 para o "threshold", pois ele vai selecionar as variâncias que possuem um valor maior que 1.  

- Armazenando os índices que possuem a maior variância em um array

In [None]:
import numpy as np

indices = np.where(selecao.variances_ > 1)
indices

(array([ 7, 10, 12, 13]),)

- Analisar quais os índices que foram identicados como aqueles de melhor capacidade de previsão, aqui estaremos extraindo o nome das colunas

In [None]:
base_select_features.columns[indices]

Index(['Insurance Provider', 'Admission Type', 'Medication', 'Test Results'], dtype='object')

## 4- **Divisão da Base de Dados entre Classes e Preditores:**

- Armazenar em uma lista. todas as colunas que não foram identificadas para facilitar no processo de divisão entre features e classes.

In [None]:


colunas = []
for i in range(len(base_healthcare.columns) - 1):
    coluna_atual = base_healthcare.columns[i]
    if coluna_atual not in base_select_features.columns[indices]:
        colunas.append(coluna_atual)

colunas


['Name',
 'Age',
 'Gender',
 'Blood Type',
 'Medical Condition',
 'Date of Admission',
 'Doctor',
 'Hospital',
 'Billing Amount',
 'Room Number',
 'Discharge Date']

- Separando os atributos e as classes da base de dados

In [137]:
x_features = base_healthcare.drop(columns=colunas).values
y_class = base_healthcare.iloc[:, 2].values

display(x_features,type(x_features))
display(y_class, type(y_class))

array([['Blue Cross', 'Urgent', 'Paracetamol', 'Normal'],
       ['Medicare', 'Emergency', 'Ibuprofen', 'Inconclusive'],
       ['Aetna', 'Emergency', 'Aspirin', 'Normal'],
       ...,
       ['UnitedHealthcare', 'Urgent', 'Ibuprofen', 'Abnormal'],
       ['Medicare', 'Elective', 'Ibuprofen', 'Abnormal'],
       ['Aetna', 'Urgent', 'Ibuprofen', 'Abnormal']], dtype=object)

numpy.ndarray

array(['Male', 'Male', 'Female', ..., 'Female', 'Male', 'Female'],
      dtype=object)

numpy.ndarray

## 5- **Codificação dos Atributos:**

- Codificando os atributos previsores com o OneHotEncoder( ) e as classes com o LabelEncoder( )

In [None]:
codificador_onehot = ColumnTransformer(transformers=[('OneHot', OneHotEncoder(), [0, 1, 2, 3])], remainder='passthrough')
x_features = codificador_onehot.fit_transform(x_features)
x_features

y_class = codificador_label.fit_transform(y_class)

display(x_features)
display(y_class)

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 222000 stored elements and shape (55500, 16)>

array([1, 1, 0, ..., 0, 1, 0])

## 6- **Padronização dos Dados:**

In [141]:
from sklearn.preprocessing import StandardScaler

padronizador = StandardScaler(with_mean=False)
x_features_padronizado = padronizador.fit_transform(x_features)

display(x_features_padronizado)
display(y_class)

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 222000 stored elements and shape (55500, 16)>

array([1, 1, 0, ..., 0, 1, 0])

## 7- **Divisão entre Treinamento e Teste:**

In [None]:
# Dividindo a base de dados entre teste e treinamento.

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x_features, y_class, test_size=0.3, random_state=0)

display(x_train.shape)
display(y_train.shape)
display(x_test.shape)
display(y_test.shape)

(38850, 16)

(38850,)

(16650, 16)

(16650,)

## 8- **Hiperparâmetros com GridSearch:**

- Estaremos aplicando um método que irá selecionar os melhores conjuntos de hiperparâmetros para o algoritmo de machine learning que iremos utilizar.

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

parametros = {'n_estimators': [2, 5, 10, 40, 60],
              'criterion': ['gini', 'entropy'],
              'min_samples_split': [2, 5, 10],
              'min_samples_leaf': [2, 5, 10]}

grid_search = GridSearchCV(RandomForestClassifier(bootstrap=True), param_grid=parametros)
grid_search.fit(x_features, y_class)

display(grid_search.best_params_)
display(grid_search.best_score_)

{'criterion': 'gini',
 'min_samples_leaf': 2,
 'min_samples_split': 10,
 'n_estimators': 40}

np.float64(0.5071171171171172)

## **9- Treinamento dos Algoritmos:**

In [None]:
from sklearn.ensemble import RandomForestClassifier

modelo_random = RandomForestClassifier(bootstrap=True, criterion='gini', min_samples_leaf=2, min_samples_split=10, n_estimators=40)
modelo_random.fit(x_train, y_train)
previsoes_random = modelo_random.predict(x_test)

## **10- Avaliação das previsões:**

In [None]:
from sklearn.metrics import accuracy_score, classification_report

display(f"Random Forest: {accuracy_score(previsoes_random, y_test)*100}")
print(f"Random Forest: {classification_report(previsoes_random, y_test)}")

'Random Forest: 50.5945945945946'

Random Forest:               precision    recall  f1-score   support

           0       0.46      0.51      0.49      7624
           1       0.55      0.50      0.53      9026

    accuracy                           0.51     16650
   macro avg       0.51      0.51      0.51     16650
weighted avg       0.51      0.51      0.51     16650



### Conclusão:
- Infelizmente, o resultado não foi conforme o desejado, pois 50% de acurácia seria o equivalente ao tentar determinar a condição médica de um paciente através do cara ou coroa. No entanto, ele ainda pode ser melhorado. Estou divulgando esse documento, pois em treinamentos anteriores o algoritmo atingiu uma acurácia de aproximadamente 28%, sendo muito inferior ao resultado atual. Após isso, em comparação ao valor do primeiro treinamento com o segundo (atual) treinamento a acurácia teve um aumento de 78,57%, sendo um grande avanço. Contudo, isso ocorreu após eu adotar o método de selecionar os melhores atributos conforme sua variância.