# Importando e processando os dados

In [1]:
import os
import pandas as pd
import numpy as np

In [3]:
train = pd.read_csv("dataset_digits/train.csv", sep=";")
test = pd.read_csv("dataset_digits/test.csv", sep=";")

print("Formato do train.csv:", train.shape)
print("Formato do test.csv:", test.shape)

train.head()

Formato do train.csv: (2186, 785)
Formato do test.csv: (1115, 785)


Unnamed: 0,label,pixel0,pixel1,pixel2,pixel3,pixel4,pixel5,pixel6,pixel7,pixel8,...,pixel774,pixel775,pixel776,pixel777,pixel778,pixel779,pixel780,pixel781,pixel782,pixel783
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [4]:
def calcular_intensidade(imagem):
    soma = 0.0
    for i in range(len(imagem)):
        soma += imagem[i]
    intensidade = soma / 255.0
    return intensidade

def calcular_simetria(imagem):
    # Reconstruir a matriz 28x28 a partir do vetor
    matriz = []
    k = 0
    for i in range(28):
        linha = []
        for j in range(28):
            linha.append(imagem[k])
            k += 1
        matriz.append(linha)

    # Simetria vertical (comparando colunas espelhadas)
    sim_v = 0.0
    for i in range(28):
        for j in range(14):
            # pixel da esquerda vs pixel espelhado da direita
            valor_esq = matriz[i][j]
            valor_dir = matriz[i][27 - j]
            sim_v += abs(valor_esq - valor_dir)

    # Simetria horizontal (comparando linhas espelhadas)
    sim_h = 0.0
    for i in range(14):
        for j in range(28):
            valor_cima = matriz[i][j]
            valor_baixo = matriz[27 - i][j]
            sim_h += abs(valor_cima - valor_baixo)

    # Normaliza o total (como no original)
    sim_total = (sim_v + sim_h) / 255.0
    return sim_total

In [8]:
dados_train = []

# Loop manual com contador simples
for idx, (_, linha) in enumerate(train.iterrows()):
    label = linha["label"]
    imagem = linha.drop("label").values.astype(np.float32)

    intensidade = calcular_intensidade(imagem)
    simetria = calcular_simetria(imagem)

    dados_train.append([label, intensidade, simetria])

# Cria o DataFrame final
train_redu = pd.DataFrame(dados_train, columns=["label", "intensidade", "simetria"])

# Salvamento na pasta 'dataset_digits'
output_dir = "dataset_digits"
os.makedirs(output_dir, exist_ok=True)  # cria se não existir
output_path = os.path.join(output_dir, "train_redu.csv")

train_redu.to_csv(output_path, index=False)
print(f"\nNovo arquivo salvo em: {output_path}")
print("Formato do dataset reduzido:", train_redu.shape)

# Mostra as 5 primeiras linhas para conferência
display(train_redu.head())


Novo arquivo salvo em: dataset_digits\train_redu.csv
Formato do dataset reduzido: (2186, 3)


Unnamed: 0,label,intensidade,simetria
0,0,145.435287,148.572556
1,0,118.576469,137.113724
2,0,127.599998,134.047058
3,0,138.047058,151.003922
4,0,146.215683,122.501961


In [9]:
dados_test = []

for idx, (_, linha) in enumerate(test.iterrows()):
    label = linha["label"]
    imagem = linha.drop("label").values.astype(np.float32)

    intensidade = calcular_intensidade(imagem)
    simetria = calcular_simetria(imagem)

    dados_test.append([label, intensidade, simetria])

# Cria o DataFrame final
test_redu = pd.DataFrame(dados_test, columns=["label", "intensidade", "simetria"])

# Salvamento na pasta 'dataset_digits'
output_dir = "dataset_digits"
os.makedirs(output_dir, exist_ok=True)  # cria se não existir
output_path = os.path.join(output_dir, "test_redu.csv")

test_redu.to_csv(output_path, index=False)
print(f"\nNovo arquivo salvo em: {output_path}")
print("Formato do dataset reduzido:", test_redu.shape)

# Mostra as 5 primeiras linhas para conferência
display(test_redu.head())


Novo arquivo salvo em: dataset_digits\test_redu.csv
Formato do dataset reduzido: (1115, 3)


Unnamed: 0,label,intensidade,simetria
0,0,147.933334,130.470581
1,0,131.054901,122.721565
2,0,134.890198,151.725494
3,0,139.976471,133.92157
4,0,129.580399,130.274506
