## Formatando os dados de Câncer de mama

Nesta aula obtivemos uma noção de como programar em Python e realizamos um exercício para calcular a média e o desvio padrão de uma lista de números. Neste notebook, apresento como vocês poderiam extrair os dados de um arquivo e realizar estes cálculos em larga escala.

Os dados do câncer de mama estão disponíveis neste [link](https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data).

A descrição de cada coluna destes dados está disponível neste [link](https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.names)

## O código
Definindo as funções de média e de desvio padrão:

In [None]:
# função da média
def mean(list):
    sum = 0
    for val in list:
        sum += val
    return (sum/(len(list)))

# função do desvio padrão
def sd(list):
    sum = 0
    for val in list:
        sum += val
    mean = sum/(len(list))
    sumSqrDiff = 0
    for val in list:
        sumSqrDiff += (val - mean)**2
    return((sumSqrDiff/(len(list) - 1))**0.5)

Lendo e organizando os dados do arquivo:

In [None]:
# leitura do arquivo
f = open("wdbc.data", "r")
data = f.read()
rows = data.split("\n")

table = {}       # Dicionário que armazenará os dados
                 # table = { <M> : 
                 #              { <col1> : [valores],
                 #                <col2> : [valores],
                 #                ...
                 #              },
                 #           <B> :
                 #              { <col1> : [valores],
                 #                <col2> : [valores],
                 #         }
cancerList = []  # Lista com os tipos de câncer
columnList = []  # Lista com as colunas

# organizando os dados
for row in rows:
    cells = row.split(",") # separa cada valor por ","
    
    # pule se a linha estiver vazia
    if not row:
        continue
    
    cancer = cells[1] # pega o tipo de câncer (M ou B)
    
    # Cria uma chave com o tipo de câncer se não existir
    if cancer not in table:
        table[cancer] = {}
        cancerList.append(cancer)
        
    # armazena os valores em "table"
    for y in range(2,len(cells)):
        column = "col" + str(y - 1)
        
        # cria a chave com a coluna se não existir
        if column not in table[cancer]:
            table[cancer][column] = []
            
            # armazena o nome da coluna em "columnList" se não existir
            if column not in columnList:
                columnList.append(column)
        
        # adiciona o valor em seu respectivo local em "table"
        table[cancer][column].append(float(cells[y]))

Calculando a média e o desvio padrão para cada coluna e categoria

In [None]:
result = {} # Dicionário que armazena os dados de média e desvio padrão
            # result = { <col1> : {
            #                       "M" : {
            #                               "mean": mean,
            #                               "sd" : sd
            #                              },
            #                       "B" : {
            #                               "mean": mean,
            #                               "sd" : sd
            #                              }
            #                     },
            #            <col2> : ...
            #          }
            
for cancer in cancerList:
    for column in columnList:
        list = []
        
        # cria uma chave correspondene a coluna em "result"
        if column not in result:
            result[column] = {}
        if cancer not in result[column]:
            result[column][cancer] = { "mean": 0, "sd": 0}
        result[column][cancer]["mean"] = mean(table[cancer][column])
        result[column][cancer]["sd"] = sd(table[cancer][column])

Imprimindo os resultados

In [None]:
for column in columnList:
    print(column, end="")
    for cancer in cancerList:
        print( "\t%.2f\t%.2f" % (result[column][cancer]["mean"],result[column][cancer]["sd"]), end="")
    print()