# Câncer de mama

O câncer de mama é o mais incidente em mulheres no mundo, com aproximadamente 2,3 milhões de mulheres diagnosticadas com câncer de mama e 685 mil mortes em todo o mundo. No final de 2020, teve 7,8 milhões de mulheres vivas diagnosticadas com câncer de mama nos últimos 5 anos, tornando-o o câncer mais prevalente do mundo.

No **Brasil**, o câncer de mama é também o tipo de câncer mais incidente em mulheres de todas as regiões, após o câncer de pele não melanoma. As taxas são mais elevadas nas regiões mais desenvolvidas (Sul e Sudeste) e a menor é observada na região Norte. Em 2022, estima-se que ocorrerão 66.280 casos novos da doença (INCA, 2020).

O câncer de mama é também a [primeira causa de morte por câncer em mulheres no Brasil](https://www.inca.gov.br/controle-do-cancer-de-mama/dados-e-numeros/mortalidade#:~:text=O%20c%C3%A2ncer%20de%20mama%20%C3%A9,do%20%C3%BAtero%20ocupa%20essa%20posi%C3%A7%C3%A3o.). A incidência e a mortalidade por câncer de mama tendem a crescer progressivamente a partir dos 40 anos (INCA, 2019).

<center><img src="outubro-rosa.jpg" height="100px" width="300px"></center>


**Outubro rosa** é um movimento que é celebrado anualmente desde os anos 90. O objetivo da campanha é compartilhar informações sobre o câncer de mama, promovendo a conscientização sobre a doença, proporcionando maior acesso aos serviços de diagnóstico e contribuindo para a redução da mortalidade.

O que eu trago neste artigo é que atráves dos preditores é possível de identificar a presença do cancêr de mama. É uma pequena contribuição que visa ajudar a entender a extensão desse problema no mundo, além de incentivar o Outubro Rosa dentro da comunidade Python e Data Science.

### Referências

INSTITUTO NACIONAL DE CÂNCER JOSÉ ALENCAR GOMES DA SILVA. **Atlas da mortalidade**. Rio de Janeiro: INCA, 2021. base de dados. Disponível em: https://www.inca.gov.br/app/mortalidade Acesso em: 12 jun 2022.

INTERNATIONAL AGENCY FOR RESEARCH ON CANCER. **Cancer today**. Lyon: WHO, 2020. Disponível em: https://gco.iarc.fr/today/home Acesso em: 12 jun 2022.

## Descrição dos dados sobre o câncer de mama

O conjunto de dados (dataset) do câncer de mama que eu escolhi está hospedado na [UCI](https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra), e traz informações sobre os preditores. Existem 10 preditores, todos quantitativos, e uma variável dependente binária, indicando a presença ou ausência de câncer de mama. Os **preditores** são dados e parâmetros antropométricos que podem ser coletados em análises rotineiras de sangue.

### Importações dos pacotes necessários

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

In [4]:
# importar os dados sobre câncer para um DataFrame
dados = pd.read_csv("dataR2.csv")

### Visualização

In [5]:
dados.head()

Unnamed: 0,Age,BMI,Glucose,Insulin,HOMA,Leptin,Adiponectin,Resistin,MCP.1,Classification
0,48,23.5,70,2.707,0.467409,8.8071,9.7024,7.99585,417.114,1
1,83,20.690495,92,3.115,0.706897,8.8438,5.429285,4.06405,468.786,1
2,82,23.12467,91,4.498,1.009651,17.9393,22.43204,9.27715,554.697,1
3,68,21.367521,77,3.226,0.612725,9.8827,7.16956,12.766,928.22,1
4,86,21.111111,92,3.549,0.805386,6.6994,4.81924,10.57635,773.92,1


### Traduzindo as colunas

In [7]:
dados.rename(columns={
    'Age': 'idade',
    'BMI': 'imc',
    'Glucose': 'glicose',
    'Insulin': 'insulina',
    'HOMA': 'homa',
    'Leptin': 'leptina',
    'Adiponectin': 'adiponectina',
    'Resistin': 'resistina',
    'MCP.1': 'mcp1',
    'Classification': 'classificacao'
}, inplace=True)

## Dicionário de Variáveis
Esse arquivo *csv* possui 10 colunas. Sendo elas:
* **Idade**: faixa etária de 20 a 89 anos;
* **IMC**: é um parâmetro utilizado para avaliar se o peso está dentro do valor ideal para a altura. (kg/m2);
* **Glicose**: é um carboidrato considerado uma das principais fontes de energia. (mg/dL);
* **Insulina**: é um hormônio produzido pelo pâncreas, e tem como função metabolizar a glicose (açúcar no sangue) para produção de energia. (µU/mL);
* **HOMA**: é um método utilizado para quantificar a resistência à insulina e a função das células beta do pâncreas;
* **Leptina**: é um petídeo que desempenha importante papel na regulação da ingestão alimentar e no gasto energético. (ng/mL);
* **Adiponectina**: é uma proteína gene ADIPO. (µg/mL);
* **Resistina**: hormônio produzido pelo tecido adiposo. (ng/mL);
* **MCP-1**: é uma citocina quimiotática de baixo peso molecular. (pg/ dL).
* **Classificação**:
  * 1 = Controles saudáveis
  * 2 = Paciente

### Simbolos
* **kg**: quilograma;
* **m2**: metro ao quadrado;
* **mg**: miligrama;
* **dL**: decilitro;
* **µU**: unidade Internacional;
* **ml**: mililitro;
* **ng**: nanograma;
* **pg**: picograma.