In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
def add_gaussian_noise(data, mean=0.1, std=0.1):
    """
    Adiciona ruído gaussiano aos dados espectrais, tratando NaNs. / Adds Gaussian noise to spectral data, treating NaNs.
    """
    noise = np.random.normal(mean, std, data.shape)
    noisy_data = data + noise
    return noisy_data

# === Configurações ===
arquivo_entrada = 'dataset_augmented.csv'     # Substitua com o nome do seu arquivo / Replace with your file name
arquivo_saida = 'dados_ftir_com_ruido.csv'  # Arquivo de saída / Output file
adicionar_copias = 1                        # Quantas cópias com ruído gerar / How many noisy copies to generate
std_ruido = 0.05                           # Desvio padrão do ruído / Noise standard deviation

In [None]:
# === Ler os dados / Read the data .CSV ===
df = pd.read_csv(arquivo_entrada)

In [None]:
# === Ler os dados / Read the data .XLSX ===
df = pd.read_excel(arquivo_entrada)

In [None]:
# Primeira coluna = classe / First column = class
y = df.iloc[:, 0].values
X = df.iloc[:, 1:].values

# === Gerar dados aumentados /  Generate augmented data ===
X_aug = [X]                                 # original
y_aug = [y]                                 # original

for _ in range(adicionar_copias):
    X_noisy = add_gaussian_noise(X, std=std_ruido)
    X_aug.append(X_noisy)
    y_aug.append(y)

In [None]:
# === Concatenar tudo / Concatenate everything ===
X_total = np.vstack(X_aug)
y_total = np.concatenate(y_aug)

# === Salvar em novo DataFrame / Save to new DataFrame ===
df_total = pd.DataFrame(X_total)
df_total.insert(0, 'classe', y_total)  # insere a coluna de classe na frente / inserts the class column in front

# Fill NaN values with the mean of the numeric columns
numeric_cols = df_total.select_dtypes(include=np.number).columns
df_total[numeric_cols] = df_total[numeric_cols].fillna(df_total[numeric_cols].mean())

In [None]:
# === Visualizar um exemplo / View an example ===
plt.figure(figsize=(10, 4))
plt.plot(X[0], label='Original')
plt.plot(X_noisy[0], label='With noise', alpha=0.7)
plt.title('FTIR spectrum with Gaussian noise')
plt.xlabel('Wave number (index)')
plt.ylabel('Intensity')
plt.legend()
plt.tight_layout()
plt.show()


In [None]:
# === Salvar para CSV / Save to CSV ===
df_total.to_csv(arquivo_saida, index=False)
print(f'Noisy data saved in:: {arquivo_saida}')