# Otimização de Dados de Pacientes com Câncer de Mama.

### Bruno Faleiros - Estudante de Análise e Desenvolvimento de Sistemas 

##### Email - brunofaleiros97@gmail.com

##### Linkedin - https://www.linkedin.com/in/brunofaleiros/

## Objetivo

Ao longo dos meus estudos no universo dos dados, reconheci a importância de ser orientado por dados e desenvolver a **habilidade de manipular e extrair insights por meio das informações**. 

Neste notebook, procuro entender melhor os dados através da **bilbioteca Pandas**. As mudanças no conjunto de dados serão feitas posteriormente usando Linguagem SQL dentro do Jupyter Notebook. 

## Pacotes utilizados neste Notebook
1. **Pandas:** Biblioteca para manipulação de dados tabulares.
2. **SQLite:** Biblioteca para usar a linguagem SQL diretamente no Jupyter Notebook.

## Verificando a versão do Python

In [1]:
from platform import python_version
print(f"Versão da Linguagem Python: {python_version()}")

Versão da Linguagem Python: 3.11.5


## Sobre os Dados 

**Dataset:** https://archive.ics.uci.edu/dataset/14/breast+cancer

Para este projeto, utilizarei um conjunto de dados sobre câncer de mama, disponível gratuitamente no **UCI Machine Learning Repository.**

Este é um dos três domínios fornecidos pelo Instituto de Oncologia que tem sido frequentemente abordado na literatura de aprendizado de máquina.

### Carregamento dos dados para dataframe

In [2]:
# Imports
import pandas as pd

In [3]:
tb_dados = pd.read_csv("dados/breast-cancer.csv")
tb_dados

Unnamed: 0,classe,idade,menopausa,tamanho_tumor,inv_nodes,node_caps,deg_malig,seio,quadrante,irradiando
0,no-recurrence-events,30-39,premeno,30-34,0-2,no,3,left,left_low,no
1,no-recurrence-events,40-49,premeno,20-24,0-2,no,2,right,right_up,no
2,no-recurrence-events,40-49,premeno,20-24,0-2,no,2,left,left_low,no
3,no-recurrence-events,60-69,ge40,15-19,0-2,no,2,right,left_up,no
4,no-recurrence-events,40-49,premeno,0-4,0-2,no,2,right,right_low,no
...,...,...,...,...,...,...,...,...,...,...
281,recurrence-events,30-39,premeno,30-34,0-2,no,2,left,left_up,no
282,recurrence-events,30-39,premeno,20-24,0-2,no,3,left,left_up,yes
283,recurrence-events,60-69,ge40,20-24,0-2,no,1,right,left_up,no
284,recurrence-events,40-49,ge40,30-34,3-5,no,3,left,left_low,no


### Dicionário dos dados 
- classe: Evento recorrente ou não recorrente.
- idade: Informações sobre a faixa etária.
- menopause: Informações sobre a menopausa.
- tamanho_tumor: Informações sobre o tamanho do tumor.
- inv_nodes: Informações sobre os nódulos relacionados ao câncer de mama.
- node_caps: Informações sobre os nódulos relacionados ao câncer de mama.
- deg_malig: Informações sobre o grau de malignidade do câncer de mama.
- seio: Informações sobre se foi o seio direito ou esquerdo.
- quadrante: Informações sobre a região do seio.
- irradiando: Informações sobre se já foi irradiado ou não.

### Exploração inicial do Dataset

A função .head() exibe as 5 primeiras linhas do conjunto de dados/tabela/Data Frame.

Isso auxilia no primeiro entendimento de como os dados estão no conjunto de dados.
- Para acessar as 5 últimas linhas, o comando **.tail()**
- Para acessar os 10 primeiros registros **.head(10)**

In [4]:
tb_dados.head()

Unnamed: 0,classe,idade,menopausa,tamanho_tumor,inv_nodes,node_caps,deg_malig,seio,quadrante,irradiando
0,no-recurrence-events,30-39,premeno,30-34,0-2,no,3,left,left_low,no
1,no-recurrence-events,40-49,premeno,20-24,0-2,no,2,right,right_up,no
2,no-recurrence-events,40-49,premeno,20-24,0-2,no,2,left,left_low,no
3,no-recurrence-events,60-69,ge40,15-19,0-2,no,2,right,left_up,no
4,no-recurrence-events,40-49,premeno,0-4,0-2,no,2,right,right_low,no


In [5]:
tb_dados.tail()

Unnamed: 0,classe,idade,menopausa,tamanho_tumor,inv_nodes,node_caps,deg_malig,seio,quadrante,irradiando
281,recurrence-events,30-39,premeno,30-34,0-2,no,2,left,left_up,no
282,recurrence-events,30-39,premeno,20-24,0-2,no,3,left,left_up,yes
283,recurrence-events,60-69,ge40,20-24,0-2,no,1,right,left_up,no
284,recurrence-events,40-49,ge40,30-34,3-5,no,3,left,left_low,no
285,recurrence-events,50-59,ge40,30-34,3-5,no,3,left,left_low,no


A função .info() fornece informações sobre o conjunto de dados, incluindo:

- Número total de registros.
- Contagem de valores não nulos por coluna.
- Tipo de dado em cada coluna.

In [6]:
tb_dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 286 entries, 0 to 285
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   classe         286 non-null    object
 1   idade          286 non-null    object
 2   menopausa      286 non-null    object
 3   tamanho_tumor  286 non-null    object
 4   inv_nodes      286 non-null    object
 5   node_caps      286 non-null    object
 6   deg_malig      286 non-null    int64 
 7   seio           286 non-null    object
 8   quadrante      286 non-null    object
 9   irradiando     286 non-null    object
dtypes: int64(1), object(9)
memory usage: 22.5+ KB


### Insights

O conjunto de dados contém: 

- 286 registros, com o index 285 registros
- 10 colunas
- Em primeiro momento, não há dados nulos nas colunas.

É um conjunto de dados pequeno; no entanto, é excelente para realizar modificações utilizando categorização, binarização e codificação por meio da linguagem SQL.

### Instalando o pacote para manipulação SQL

In [7]:
!pip install -q ipython-sql

In [8]:
# Importando o SQLite
import sqlite3

In [9]:
# Criando a conexão a um banco de dados SQLite
conex = sqlite3.connect('database/dbproejto1_cancer_de_mama.db')

In [10]:
# Copiando a conexão para dentro do banco de dados como uma tabela 
tb_dados.to_sql('dados1', conex)

286

In [11]:
# Carregando a extensão SQL
%load_ext sql

In [12]:
# Definindo o banco de dados que será usado 
%sql sqlite:///database/dbproejto1_cancer_de_mama.db

Como é um conjunto de dados pequeno, optei por usar a linguagem SQL no próprio Jupyter Notebook. 

In [13]:
%%sql

SELECT 
    COUNT(*) AS contagem_linhas 
FROM 
    dados1

 * sqlite:///database/dbproejto1_cancer_de_mama.db
Done.


contagem_linhas
286


In [14]:
%%sql

SELECT * FROM dados1
LIMIT 10

 * sqlite:///database/dbproejto1_cancer_de_mama.db
Done.


index,classe,idade,menopausa,tamanho_tumor,inv_nodes,node_caps,deg_malig,seio,quadrante,irradiando
0,no-recurrence-events,30-39,premeno,30-34,0-2,no,3,left,left_low,no
1,no-recurrence-events,40-49,premeno,20-24,0-2,no,2,right,right_up,no
2,no-recurrence-events,40-49,premeno,20-24,0-2,no,2,left,left_low,no
3,no-recurrence-events,60-69,ge40,15-19,0-2,no,2,right,left_up,no
4,no-recurrence-events,40-49,premeno,0-4,0-2,no,2,right,right_low,no
5,no-recurrence-events,60-69,ge40,15-19,0-2,no,2,left,left_low,no
6,no-recurrence-events,50-59,premeno,25-29,0-2,no,2,left,left_low,no
7,no-recurrence-events,60-69,ge40,20-24,0-2,no,1,left,left_low,no
8,no-recurrence-events,40-49,premeno,50-54,0-2,no,2,left,left_low,no
9,no-recurrence-events,40-49,premeno,20-24,0-2,no,2,right,left_up,no


Verifiquei que em algumas colunas podem ser feitas algumas modificações, tais como Categorização, Codificação e Binzarização.

1. Binarização da coluna **"classe"**
2. Categorização da coluna **"tamanho_tumor"**
3. Label Encoding da coluna **menopausa**
3. Categorização da coluna **"node_caps"**
4. Categorização da coluna **"seio"**
5. Label Encoding da coluna **"quadrante"**
6. Binarização da coluna **"Irradiando"**

Verificando cada coluna para garantir que não haja valores nulos usando o método **DISTINCT** 

In [15]:
%%sql
SELECT DISTINCT classe FROM dados1

 * sqlite:///database/dbproejto1_cancer_de_mama.db
Done.


classe
no-recurrence-events
recurrence-events


In [16]:
%%sql
SELECT DISTINCT tamanho_tumor FROM dados1

 * sqlite:///database/dbproejto1_cancer_de_mama.db
Done.


tamanho_tumor
30-34
20-24
15-19
0-4
25-29
50-54
10-14
40-44
35-39
5-9


In [17]:
%%sql
SELECT DISTINCT menopausa FROM dados1

 * sqlite:///database/dbproejto1_cancer_de_mama.db
Done.


menopausa
premeno
ge40
lt40


In [18]:
%%sql
SELECT DISTINCT node_caps FROM dados1

 * sqlite:///database/dbproejto1_cancer_de_mama.db
Done.


node_caps
no
yes
?


### Insight 
- Foi identificado um valor nulo na coluna node_caps. Tratarei essa situação posteriormente utilizando a função **CASE**.

In [19]:
%%sql
SELECT DISTINCT seio FROM dados1

 * sqlite:///database/dbproejto1_cancer_de_mama.db
Done.


seio
left
right


In [20]:
%%sql
SELECT DISTINCT quadrante FROM dados1

 * sqlite:///database/dbproejto1_cancer_de_mama.db
Done.


quadrante
left_low
right_up
left_up
right_low
central
?


### Insight 
- Foi identificado um valor nulo na coluna quadrante. Tratarei essa situação posteriormente utilizando a função **CASE**.

In [21]:
%%sql
SELECT DISTINCT irradiando FROM dados1

 * sqlite:///database/dbproejto1_cancer_de_mama.db
Done.


irradiando
no
yes


### Query com todas as transformações

In [22]:
%%sql
SELECT 
	CASE 
		WHEN classe = 'no-recurrence-events' THEN 0 
        WHEN classe = 'recurrence-events' THEN 1
	END as classe,
	idade,
	CASE
		WHEN menopausa = 'premeno' THEN 1
		WHEN menopausa = 'ge40' THEN 2
		WHEN menopausa = 'lt40' THEN 3
	END as menopausa,
	CASE 
		WHEN tamanho_tumor = '0-4' OR tamanho_tumor = '5-9' THEN 'Muito Pequeno'
        WHEN tamanho_tumor = '10-14' OR tamanho_tumor = '15-19' THEN 'Pequeno'
        WHEN tamanho_tumor = '20-24' OR tamanho_tumor = '25-29' THEN 'Medio'
        WHEN tamanho_tumor = '30-34' OR tamanho_tumor = '35-39' THEN 'Grande'
        WHEN tamanho_tumor = '40-44' OR tamanho_tumor = '45-49' THEN 'Muito Grande'
        WHEN tamanho_tumor = '50-54' OR tamanho_tumor = '55-59' THEN 'Tratamento Urgente'
	END as tamanho_tumor,
	inv_nodes,
	CASE 
		WHEN node_caps = 'no' THEN 0 
        WHEN node_caps = 'yes' THEN 1
        ELSE 2
	END as node_caps,
	deg_malig,
	CASE 
		WHEN seio = 'left' THEN 'E' 
        WHEN seio = 'right' THEN 'D'
	END as seio,
	CASE 
		WHEN quadrante = 'left_low' THEN 1 
        WHEN quadrante = 'right_up' THEN 2 
        WHEN quadrante = 'left_up' THEN 3
        WHEN quadrante = 'right_low' THEN 4
        WHEN quadrante = 'central' THEN 5
        ELSE 0
	END as quadrante,
	CASE 
		WHEN irradiando = 'no' THEN 0 
        WHEN irradiando = 'yes' THEN 1
	END as irradiando
FROM dados1
LIMIT 10

 * sqlite:///database/dbproejto1_cancer_de_mama.db
Done.


classe,idade,menopausa,tamanho_tumor,inv_nodes,node_caps,deg_malig,seio,quadrante,irradiando
0,30-39,1,Grande,0-2,0,3,E,1,0
0,40-49,1,Medio,0-2,0,2,D,2,0
0,40-49,1,Medio,0-2,0,2,E,1,0
0,60-69,2,Pequeno,0-2,0,2,D,3,0
0,40-49,1,Muito Pequeno,0-2,0,2,D,4,0
0,60-69,2,Pequeno,0-2,0,2,E,1,0
0,50-59,1,Medio,0-2,0,2,E,1,0
0,60-69,2,Medio,0-2,0,1,E,1,0
0,40-49,1,Tratamento Urgente,0-2,0,2,E,1,0
0,40-49,1,Medio,0-2,0,2,D,3,0


### Criando uma nova tabela 

In [23]:
%%sql
CREATE TABLE dados2
AS
SELECT 
	CASE 
		WHEN classe = 'no-recurrence-events' THEN 0 
        WHEN classe = 'recurrence-events' THEN 1
	END as classe,
	idade,
	CASE
		WHEN menopausa = 'premeno' THEN 1
		WHEN menopausa = 'ge40' THEN 2
		WHEN menopausa = 'lt40' THEN 3
	END as menopausa,
	CASE 
		WHEN tamanho_tumor = '0-4' OR tamanho_tumor = '5-9' THEN 'Muito Pequeno'
        WHEN tamanho_tumor = '10-14' OR tamanho_tumor = '15-19' THEN 'Pequeno'
        WHEN tamanho_tumor = '20-24' OR tamanho_tumor = '25-29' THEN 'Medio'
        WHEN tamanho_tumor = '30-34' OR tamanho_tumor = '35-39' THEN 'Grande'
        WHEN tamanho_tumor = '40-44' OR tamanho_tumor = '45-49' THEN 'Muito Grande'
        WHEN tamanho_tumor = '50-54' OR tamanho_tumor = '55-59' THEN 'Tratamento Urgente'
	END as tamanho_tumor,
	inv_nodes,
	CASE 
		WHEN node_caps = 'no' THEN 0 
        WHEN node_caps = 'yes' THEN 1
        ELSE 2
	END as node_caps,
	deg_malig,
	CASE 
		WHEN seio = 'left' THEN 'E' 
        WHEN seio = 'right' THEN 'D'
	END as seio,
	CASE 
		WHEN quadrante = 'left_low' THEN 1 
        WHEN quadrante = 'right_up' THEN 2 
        WHEN quadrante = 'left_up' THEN 3
        WHEN quadrante = 'right_low' THEN 4
        WHEN quadrante = 'central' THEN 5
        ELSE 0
	END as quadrante,
	CASE 
		WHEN irradiando = 'no' THEN 0 
        WHEN irradiando = 'yes' THEN 1
	END as irradiando
FROM dados1

 * sqlite:///database/dbproejto1_cancer_de_mama.db
Done.


[]

In [24]:
%%sql
SELECT * FROM dados2
LIMIT 5

 * sqlite:///database/dbproejto1_cancer_de_mama.db
Done.


classe,idade,menopausa,tamanho_tumor,inv_nodes,node_caps,deg_malig,seio,quadrante,irradiando
0,30-39,1,Grande,0-2,0,3,E,1,0
0,40-49,1,Medio,0-2,0,2,D,2,0
0,40-49,1,Medio,0-2,0,2,E,1,0
0,60-69,2,Pequeno,0-2,0,2,D,3,0
0,40-49,1,Muito Pequeno,0-2,0,2,D,4,0


## Exportando os dados para CSV

In [25]:
resultado = %sql SELECT * FROM dados2
resultado.DataFrame().to_csv('dados/dados_cancer_mama_tratados.csv', index=False)


 * sqlite:///database/dbproejto1_cancer_de_mama.db
Done.
