<a href="https://colab.research.google.com/github/marcelorandolfo/data-science/blob/master/processamento_dados_uci_heart_disease.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Processamento de dados - UCI: Heart disease

Esse *notebook* tem como objetivo demonstrar como processar os dados disponibilizados pela *University of California, Irvine* através do [Machine Learning Repository](https://archive.ics.uci.edu/ml/index.php). O *dataset* utilizado é sobre doenças cardiovasculares, e algumas informações sobre esse *dataset* podem ser obtidas neste [link](https://archive.ics.uci.edu/ml/datasets/heart+Disease).

Ao acessar o link acima, estaremos na página principal do *dataset* sobre doenças cardiovasculares. Para obter os dados e as informações sobre as variáveis, basta acessar a página [*Data Folder*](https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/). 

<center><img src='https://raw.githubusercontent.com/marcelorandolfo/data-science/master/images/uci_heart_disease_page.jpg'width='9500px' ></center>

Acessando o *Data Folder* temos todos os dados relacionados a doenças cardiovasculares disponibilizados pela iniciativa. Usaremos apenas dois arquivos:

* `heart-disease.names`: dicionário de variáveis.
* `processed.cleveland.data`: *dataset*.

<center><img src = 'https://raw.githubusercontent.com/marcelorandolfo/data-science/master/images/uci_heart_disease_datafolder.jpg' width = '9500px'></center>

O *dataset* principal do projeto possui 76 variáveis, mas o *dataset* de Cleveland que iremos utilizar só possui 14. A razão disso é que os principais experimentos publicados utilizam essa subamostra de 14 atributos. Além disso, o *dataset* de Cleveland é o único que tem sido usado até então em projetos de *Machine Learning*. Essas informações estão todas na página principal do projeto.

O *dataset* utilizado, bem como seu dicionário de variáveis, não estão disponíveis em formato `csv`, o *dataset* está em formato `.data` e o dicionário está em formato `.names`. Com formatos diferentes, é interessante conhecer como trabalhar com esses tipos de arquivos. 



## Dicionário de variáveis

Para lermos as informações dentro do dicionário de variáveis, iremos utilizar o pacote `requests` e a função `requests.get` para ler o arquivo que está no diretório do [Github](https://raw.githubusercontent.com/marcelorandolfo/data-science/master/data/heart-disease.names). Caso queira, é possível também ler o arquivo através da função `open`, mas o arquivo deve estar no mesmo diretório que está sendo usado. A função `open` não funciona com arquivos instanciados em diretórios virtuais. 

In [0]:
import requests

link = "https://raw.githubusercontent.com/marcelorandolfo/data-science/master/data/heart-disease.names"
f = requests.get(link)
print(f.text)


Publication Request: 
   >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
   This file describes the contents of the heart-disease directory.

   This directory contains 4 databases concerning heart disease diagnosis.
   All attributes are numeric-valued.  The data was collected from the
   four following locations:

     1. Cleveland Clinic Foundation (cleveland.data)
     2. Hungarian Institute of Cardiology, Budapest (hungarian.data)
     3. V.A. Medical Center, Long Beach, CA (long-beach-va.data)
     4. University Hospital, Zurich, Switzerland (switzerland.data)

   Each database has the same instance format.  While the databases have 76
   raw attributes, only 14 of them are actually used.  Thus I've taken the
   liberty of making 2 copies of each database: one with all the attributes
   and 1 with the 14 attributes actually used in past experiments.

   The authors of the databases have requested:

      ...that any publications resulting from the use of th

No dicionário de variáveis, estão também informações dos pesquisadores responsáveis pelo *dataset* e sobre pesquisas já feitas utilizando esses dados. Mas a informação mais importante é sobre as 14 variáveis presentes no *dataset* de Cleveland, que são: 

1. `age`
2. `sex`       
3. `cp`        
4. `trestbps`  
5. `chol`      
6. `fbs`       
7. `restecg`   
8. `thalach`   
9. `exang`     
10. `oldpeak`   
11. `slope`     
12. `ca`        
13. `thal`      
14. `num`  

O significado de cada uma não é importante agora, somente o nome e a ordem das variáveis.

## *Dataset*

É importante saber quais são os nomes das variáveis e a ordem delas, pois ao abrir o *dataset*, podemos perceber que não há nomes nas colunas. Tanto que ao utilizar a função `pd.read_csv()`, a primeira entrada das informações foi utilizada como se fosse o nome.

**Obs.:** A função `pd.read_csv()` foi utilizada para abrir o arquivo `.data`, pois o mesmo estava estruturado como um arquivo `csv`. Se não estivesse, teriamos que utilizar outro método para converter os dados em um `DataFrame`. 

In [0]:
import pandas as pd

data = 'https://raw.githubusercontent.com/marcelorandolfo/data-science/master/data/processed.cleveland.data'
df = pd.read_csv(data)
df


Unnamed: 0,63.0,1.0,1.0.1,145.0,233.0,1.0.2,2.0,150.0,0.0,2.3,3.0,0.0.1,6.0,0
0,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2
1,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
2,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
3,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0
4,56.0,1.0,2.0,120.0,236.0,0.0,0.0,178.0,0.0,0.8,1.0,0.0,3.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
297,45.0,1.0,1.0,110.0,264.0,0.0,0.0,132.0,0.0,1.2,2.0,0.0,7.0,1
298,68.0,1.0,4.0,144.0,193.0,1.0,0.0,141.0,0.0,3.4,2.0,2.0,7.0,2
299,57.0,1.0,4.0,130.0,131.0,0.0,0.0,115.0,1.0,1.2,2.0,1.0,7.0,3
300,57.0,0.0,2.0,130.0,236.0,0.0,2.0,174.0,0.0,0.0,2.0,1.0,3.0,1


Para corrigir esse erro, temos que importar o arquivo e indicar na função que nos dados não há cabeçalho (*header*). Além disso, se observarmos a última linha do `DataFrame`, é possível perceber um ponto de interrogação. Claramente essa informação é um dado ausente, `NaN` (*not a number*), logo, temos que indicar também na função que considere os pontos de interrogação como `NaN`.

In [0]:
df = pd.read_csv(data, header = None, na_values='?')
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,45.0,1.0,1.0,110.0,264.0,0.0,0.0,132.0,0.0,1.2,2.0,0.0,7.0,1
299,68.0,1.0,4.0,144.0,193.0,1.0,0.0,141.0,0.0,3.4,2.0,2.0,7.0,2
300,57.0,1.0,4.0,130.0,131.0,0.0,0.0,115.0,1.0,1.2,2.0,1.0,7.0,3
301,57.0,0.0,2.0,130.0,236.0,0.0,2.0,174.0,0.0,0.0,2.0,1.0,3.0,1


De acordo com o dicionário de variáveis, o *dataset* de Cleveland, possui 14 variáveis e 303 entradas, que é exatamente o tamanho do nosso `DataFrame`. 

Como dito anteriormente, é importante conhecer o nome e a ordem das variáveis, e a razão disso é para que possamos atribuir a cada coluna o atributo certo. Trocar a ordem ou algum nome traria problemas sérios na hora de analisar os dados.

In [0]:
df.columns = ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach',
       'exang', 'oldpeak', 'slope', 'ca', 'thal', 'num']
df

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,num
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,45.0,1.0,1.0,110.0,264.0,0.0,0.0,132.0,0.0,1.2,2.0,0.0,7.0,1
299,68.0,1.0,4.0,144.0,193.0,1.0,0.0,141.0,0.0,3.4,2.0,2.0,7.0,2
300,57.0,1.0,4.0,130.0,131.0,0.0,0.0,115.0,1.0,1.2,2.0,1.0,7.0,3
301,57.0,0.0,2.0,130.0,236.0,0.0,2.0,174.0,0.0,0.0,2.0,1.0,3.0,1


Agora o *dataset* está corretamente estruturado, outras correções necessárias deverão ser feitas conforme o objetivo ao utilizar esses dados. 

Por fim, o *dataset* será exportado em formato `csv`. 

In [0]:
df.to_csv("/content/heart_disease.csv", index = False)

Caso você replique o código anterior, será criado um arquivo `csv` no seu *localhost*. Você pode utilizá-lo ou baixar o arquivo diretamente do meu diretório no [Github](https://github.com/marcelorandolfo/data-science/blob/master/data/heart_disease.csv).