In [None]:
import pandas as pd
import numpy as np

## Leitura do arquivo

In [None]:
data = pd.read_csv('breast_cancer_data.csv',sep=',')
data.head()

In [None]:
# para visualizar o formato do dataframe: linhas x colunas
print('formato: ', data.shape, '\n')

### não temos nome de coluna, então precisamos fornecer esses nomes e passar como parâmetro na função read_csv

In [None]:
colunas = ['id','clump_thickness','cell_size_uniformity','cell_shape_uniformity','marginal_adhesion','single_ep_cell_size',
          'bare_nuclei','bland_chromatin','normal_nucleoli','mitoses','class','doctor_name']

data = pd.read_csv('breast_cancer_data.csv',names=colunas)
data.head()

In [None]:
print("Quantidade de colunas: ",len(colunas),'\n')

# imprime o nome das colunas
data.columns

### vamos entender nossos dados

In [None]:
data.dtypes

In [None]:
list(set(data.dtypes.tolist()))

In [None]:
data_num = data.select_dtypes(include = ['float64', 'int64'])
data_num = data_num.corr()['clump_thickness'][2:] # para tirar a variável clump_thickness
data_num = data_num[abs(data_num) > 0.5].sort_values(ascending=False) #filra valores de correlaçao < 0.5 e ordena os valores
print("Existem {} variáveis correlacionadas com clump_thickness:\n{}".format(len(data_num), data_num))

In [None]:
data.describe()

In [None]:
data.info()

In [None]:
data.groupby(by =['class','doctor_name']).size()

In [None]:
print(data['class'].value_counts(),'\n')
# data['doctor_name'].value_counts() para médicos

# se quisermos os valores normalizados, precisamos adicionar um parâmetro
print('Dados normalizados: \n',data['class'].value_counts(normalize=True))

In [None]:
# ordenando apenas por uma coluna
data.sort_values(by='cell_size_uniformity',ascending=False).tail()

In [None]:
# ordenando por múltiplas colunas
data.sort_values(by=['cell_size_uniformity','bare_nuclei'],ascending=[False,True]).head()

In [None]:
# média
data.clump_thickness.mean()

In [None]:
# benigno
print('Tamanho - benigno: ',data[data['class']=='benign']['cell_size_uniformity'].mean(),'\n')
print('Tamanho - maligno: ',data[data['class']=='malignant']['cell_size_uniformity'].mean(),'\n')

In [None]:
data[(data['class']=='malignant') & (data['doctor_name']=='Dr. Wong')]['mitoses'].max()

In [None]:
# Analisando as 10 primeiras linhas das colunas 2 a 5
data.loc[0:9,'cell_size_uniformity':'single_ep_cell_size']
#data.iloc[0:9,2:6] # usando iloc, podemos passar apenas os índices

In [None]:
# acessando a última linha do dataframe
data[-1:]

### Lidando com valores faltantes

In [None]:
data.isna().sum()

In [None]:
data = data.dropna(axis = 0, how = 'any')
len(data)

### Lidando com valores duplicados

In [None]:
data[data.duplicated()]

In [None]:
data = data.drop_duplicates()

In [None]:
data[data.duplicated()]

## Aplicando funções 

In [None]:
# encontrando o valor máximo em cada coluna
data.apply(np.max)

In [None]:
data['bare_nuclei'].unique()

In [None]:
data['bare_nuclei'] = data['bare_nuclei'].replace('?','6').astype('int64')

In [None]:
#executando de novo para testar
data.apply(np.max)

### Funções de agregação

In [None]:
colunas = ['cell_size_uniformity','cell_shape_uniformity','mitoses']
data.groupby(['class'])[colunas].agg([np.mean, np.min, np.max])

### Filtrando dados

In [None]:
repeat_patients = data.groupby(by = 'id').size().sort_values(ascending =False)
repeat_patients

In [None]:
filtered_patients = repeat_patients[repeat_patients > 2].to_frame().reset_index()
filtered_data = data[~data.id.isin(filtered_patients.id)]

In [None]:
filtered_data