## Visão Geral
Esse conjunto de dados foi coletado do Hospital Universitário de Caracas em Caracas, Venezuela e inclui informações demográficas, hábitos e registros médicos históricos de 858 pacientes. Vários doentes decidiram não responder algumas das questões devido a problemas de privacidade (valores em falta).

## Objetivo
Este conjunto de dados tem como objetivo a previsão de indicadores / diagnóstico de câncer cervical. As características cobrem informações demográficas, hábitos e registros médicos históricos.

## UCI Machine Learning Repository
O UCI Machine Learning Repository é um projeto voltado para a comunidade de machine learning. Trata-se de uma coleção de bancos de dados, teorias de domínio e geradores de dados, usada por estudantes, professores e pesquisadores de todo o mundo para análises empíricas de machine learning. Todas as coleções estão disponíveis em: https://archive.ics.uci.edu.

## Base de Dados
A base de dados utilizada possui 36 atributos de 858 pacientes. Sendo as predições apontadas por quatro atributos boleanos, podendo um paciente possuir mais de um tipo de cancer.

Os atributos que definem o tipo de cancer (alvo) de cada paciente são:
- (bool) Hinselmann
- (bool) Schiller
- (bool) Cytology
- (bool) Biopsy

O código abaixo permite baixar os dados.

In [13]:
import os
import urllib

import pandas as pd


data_dir = 'data/cancer'
# cria a pasta acima se ela não existir
if not os.path.exists(data_dir):
    os.makedirs(data_dir)

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00383/risk_factors_cervical_cancer.csv"
cancer_dataset = "risk_factors_cervical_cancer.csv"

file_path = "%s/%s" % (data_dir, cancer_dataset)

# Baixa a base de dados caso é ainda não exista
if not os.path.isfile(file_path):
    print(url)
    urllib.request.urlretrieve (url, file_path)

## Dicas

** Os campos "vazios" na base de dados estão sinalizados pelo símbolo "?", substituílos pode faciliar. **

** Neste estudo você pode explorar diversas abordagens. **
- Classificação do tipo de cancer de cada paciente com base nos atributos.
 - http://scikit-learn.org/stable/modules/multiclass.html
- Redução de dimensionalidade a fim de selecionar características mais discriminativas para cada tipo de cancer.
 - http://scikit-learn.org/stable/modules/classes.html#module-sklearn.decomposition
 - http://scikit-learn.org/stable/modules/manifold.html
- Clustering dos pacientes, a fim de identificar os tipos de cancer e pacientes com sintomas mais similares.
 - http://scikit-learn.org/stable/modules/clustering.html

## Pandas
A biblioteca *pandas* pode facilitar o trabalho sobre a base de dados, sendo a utilização da mesma muito simples. Veja abaixo:

In [14]:
data = pd.read_csv(file_path)
data.head()

Unnamed: 0,Age,Number of sexual partners,First sexual intercourse,Num of pregnancies,Smokes,Smokes (years),Smokes (packs/year),Hormonal Contraceptives,Hormonal Contraceptives (years),IUD,...,STDs: Time since first diagnosis,STDs: Time since last diagnosis,Dx:Cancer,Dx:CIN,Dx:HPV,Dx,Hinselmann,Schiller,Citology,Biopsy
0,18,4.0,15.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,?,?,0,0,0,0,0,0,0,0
1,15,1.0,14.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,?,?,0,0,0,0,0,0,0,0
2,34,1.0,?,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,?,?,0,0,0,0,0,0,0,0
3,52,5.0,16.0,4.0,1.0,37.0,37.0,1.0,3.0,0.0,...,?,?,1,0,1,0,0,0,0,0
4,46,3.0,21.0,4.0,0.0,0.0,0.0,1.0,15.0,0.0,...,?,?,0,0,0,0,0,0,0,0


## Avaliação
A avaliação irá depender da tarefa que será realiza.
- Classificação (Métricas baseadas em multi-rótulos):
 - http://scikit-learn.org/stable/modules/model_evaluation.html#multilabel-ranking-metrics
- Clustering (Pode-se ignorar os pacientes que possuem mais de um tipo de cancer):
 - http://scikit-learn.org/stable/modules/model_evaluation.html#clustering-metrics
- Visualização de Dados (Lembre-se, nós seres humanos encontramos facilidade em análises visuais)
 - https://matplotlib.org/
 - https://seaborn.pydata.org/