# Previsão de readmissão de pacientes diabéticos - Introdução

O objetivo desse projeto é criar um modelo que prêve se um paciente diabético terá uma readmissão hospitalar.

Usaremos a base de dados [Diabetic Patients' Re-admission Prediction](https://www.kaggle.com/saurabhtayal/diabetic-patients-readmission-prediction) presente na plataforma kaggle. 

A base de dados possui um total de 50 atributos/colunas. A variavel alvo possui 3 valores categoricos:

1. '<30': pacientes com readmissão com menos de 30 dias;
2. '>30': pacientes com readmissão com mais de 30 dias;
3. 'NO': pacientes sem readmissão.

Assim, o modelo que devemos criar para prever umas dessas 3 categorias será uma modelo de classificação multipla. Há diversas formas de lidar com classificação com três ou mais categorias. A primeira abordagem que fazeremos é a _one-vs-rest_, onde transformaremos as três categorias em apenas 2, ou seja, transformaremos o problema para uma classificação binária. 

Uniremos as categorias '<30' e '>30' em 'YES' ou 'Readmitted'.

## Importando dados e transformando em um problema binário de classificação

### Importando bibliotecas

In [1]:
# Importando principais bibliotecas

import pandas as pd

### Abrindo base de dados original

In [6]:
# Abrindo arquivo

df = pd.read_csv("data/diabetic_data_raw.csv")

In [7]:
# Observando primeiras amostras

df.head()

Unnamed: 0,encounter_id,patient_nbr,race,gender,age,weight,admission_type_id,discharge_disposition_id,admission_source_id,time_in_hospital,...,citoglipton,insulin,glyburide-metformin,glipizide-metformin,glimepiride-pioglitazone,metformin-rosiglitazone,metformin-pioglitazone,change,diabetesMed,readmitted
0,2278392,8222157,Caucasian,Female,[0-10),?,6,25,1,1,...,No,No,No,No,No,No,No,No,No,NO
1,149190,55629189,Caucasian,Female,[10-20),?,1,1,7,3,...,No,Up,No,No,No,No,No,Ch,Yes,>30
2,64410,86047875,AfricanAmerican,Female,[20-30),?,1,1,7,2,...,No,No,No,No,No,No,No,No,Yes,NO
3,500364,82442376,Caucasian,Male,[30-40),?,1,1,7,2,...,No,Up,No,No,No,No,No,Ch,Yes,NO
4,16680,42519267,Caucasian,Male,[40-50),?,1,1,7,1,...,No,Steady,No,No,No,No,No,Ch,Yes,NO


### Transformando variável alvo

Vamos transformar as duas categorias '<30' e '>30' em 'YES' de tal forma que a coluna <code>readmitted</code> possuirá apenas dois valores. 

In [8]:
# Substituindo '>30' e '<30' por 'YES'

df["readmitted"] = df["readmitted"].map({">30": "YES", "<30": "YES", "NO": "NO"})

Vamos salvar os dados com a variável alvo transformada para apenas duas categorias.

In [9]:
# Salvando dados transformados

df.to_csv("data/diabetic_data_binary.csv")