# Relatório do projeto - Mineração de Dados

##  Autores

## 1. Introdução

Este trabalho estuda técnicas de mineração de dados para classificar áudio. Em específico, o universo a ser classificado consiste em dez caracteres: 6, 7, a, b, c, d, h, m, n, x. Cada arquivo de áudio, chamado de _captcha_, contém 4 caracteres, podendo haver caracteres repetidos ou não. O objetivo é identificar quais caracteres estão presentes nos _captchas_. A classificação de um _captcha_ é considerada sucesso quando **todos** os seus quatro caracteres são corretamente identificados. Caso haja uma ou mais caracteres erroneamente classificados em um _captcha_, a classificação é considerada errada para aquele _captcha_.

### Ferramentas necessárias para a reprodução:

Para este trabalho foram utilizadas as ferramentas mencionadas abaixo. É importante prestar atenção nas versões das mesmas, quando indicadas.

#### Programas e ambientes
- FFMPEG
- Anaconda (Python>=3.5) 
- Linux

#### Bibliotecas python
-  numpy>=1.13.3
-  pandas>=0.20.3
-  scikit-learn>=0.19.1
-  scipy==1.1.0 
-  librosa>=0.6.1
-  matplotlib>=1.5.3
-  Sox (conda install -c conda-forge sox)


Numpy e Pandas são bibliotecas criadas para manipular vetores de uma forma mais otimizada e rica em informação em relação à classe _list_ da biblioteca padrão do Python. Scikit-learn é uma biblioteca que implementa diversos algoritmos de mineração de dados, bem como técnicas de transformação e pré-processamento. Scipy é uma biblioteca usada para computação científica. Matplotlib fornece funções para plotar imagens e gráficos. Por fim, librosa é uma biblioteca para manipulação de áudio. 

## 2. Análise exploratória

A primeira tarefa é segmentar os _captchas_. Como cada _captcha_ contém quatro caracteres, a ideia é gerar quatro arquivos .wav, um para cada caractere.

In [None]:
import librosa
import matplotlib.pyplot as plt
import librosa.display
import numpy as np
import os
from pysndfx import AudioEffectsChain
from scipy.signal import find_peaks

fx = (
    AudioEffectsChain()
    .limiter(20.0)
    .lowpass(2500, 2)
    .highpass(100)
    .equalizer(300, db=15.0)
)

SHOW_PLOTS = False

def remove_until(l, until):
    t = list(l)
    n = len(t)
    while n > until:
        m = np.full((n, n), np.inf)

        for i in range(n):
            for j in range(i+1, n):
                m[i,j] = t[j] - t[i]

        to_adapt, to_remove = np.unravel_index(m.argmin(), m.shape)
        t[to_adapt] = (t[to_adapt]+t[to_remove])/2
        del t[to_remove]
        n = len(t)
    return t

def extract_labels(filename):
    return os.path.splitext(os.path.basename(filename))[0]

def trim(filename, output):
    y, sr = librosa.load(filename)

    FOLGA = int(sr)
    N_SLICES = 4

    y = librosa.to_mono(y)
    y = librosa.util.normalize(y)
    y, indexes = librosa.effects.trim(y, top_db=24, frame_length=2)
    fxy = fx(y)
    fxy[np.abs(fxy) < 0.5] = 0

    peaks, _ = find_peaks(fxy, height=0.5, distance=sr)
    peaks = remove_until(peaks, N_SLICES)

    if SHOW_PLOTS:
        peak_times = librosa.samples_to_time(peaks)
        plt.title(filename)
        librosa.display.waveplot(fxy)
        librosa.display.waveplot(y)
        plt.vlines(peak_times, -1, 1, color='red', linestyle='--',linewidth=8, alpha=0.9, label='Segment boundaries')
        plt.show()

    labels = extract_labels(filename)

    if not os.path.exists('%s/%s' % (output, labels)):
        os.mkdir('%s/%s' % (output, labels))

    for i in range(N_SLICES):
        if(i >= len(peaks)):
            continue
        p = peaks[i]
        left = int(round(max(0, p - FOLGA)))
        right = int(round(min(p + FOLGA, len(y)-1)))
        audio = y[left:right]
        if(np.any(audio)):
            _, [l,r] = librosa.effects.trim(audio, top_db=12, frame_length=2)
            l = int(round(max(0, l - FOLGA//4)))
            r = int(round(min(r + FOLGA//4, len(y)-1)))
            audio_trim = audio[l:r]
            audio_trim = librosa.util.normalize(audio_trim)
            librosa.output.write_wav('%s/%s/%d-%s.wav' % (output, labels, i, labels[i]), audio_trim, sr=sr)


Em um primeiro momento, é necessário criar a estrutura de pastas para que os algoritmos de mineração de dados atuem. É **assumido** que haja, no atual diretório, uma pasta chamada *fase\_1/base\_treinamento\_I* e uma pasta chamada *fase\_1\_base_validacao\_I*. Dentro dessas pastas, há uma pasta para cada _captcha_ contendo um arquivo .wav, cujo nome são os quatro caracteres que compõem o _captcha_ na ordem em que aparecem.

In [None]:
TRAINING_FOLDER = './fase_1/base_treinamento_I/'
TEST_FOLDER = './fase_1/base_validacao_I/'
TRAINING_OUTPUT = './output_training/'
TEST_OUTPUT = './output_test/'

In [None]:
def create_folder_structure():
    """Cria a estrutura de pastas
    necessaria, caso ela nao exista.
    Em seguida, faz a segmentacao.

    As pastas TEST_OUTPUT e TRAINING_OUTPUT
    contem os captchas segmentados.
    """
    if not os.path.exists(TRAINING_OUTPUT):
        os.mkdir(TRAINING_OUTPUT)
    if not os.path.exists(TEST_OUTPUT):
        os.mkdir(TEST_OUTPUT)

    for f in os.listdir(TRAINING_FOLDER):
        filename = os.path.join(TRAINING_FOLDER, f)
        audios = trim(filename, TRAINING_OUTPUT)
    for f in os.listdir(TEST_FOLDER):
        filename = os.path.join(TEST_FOLDER, f)
        audios = trim(filename, TEST_OUTPUT)

In [None]:
create_folder_structure()

Desta forma, a estrutura de pastas necessária para a classificação é montada. Os arquivos segmentados ficam nas pastas *output\_training* e *output\_test*. Dentro de cada pasta há um arquivo .wav para cada caractere identificado na segmentação. O nome de cada arquivo é *ordem\-caractere.wav*. Por exemplo, se o terceiro caractere de um dado _captcha_ for a letra "d", o nome do arquivo correspondente a ele será *3-d.wav*.

In [None]:
import pandas as pd
from math import fabs
from sklearn import preprocessing
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC

In [None]:
SAMPLE_RATE = 44100
TRAINING_OUTPUT = 'output_training/'
TRAINING_AUDIO_CAPTCHA_FOLDERS = [TRAINING_OUTPUT+i for i in os.listdir(TRAINING_OUTPUT)]
TRAINING_AUDIO_FILENAMES = [] # -> <number>_<digit>.wav
for folder in TRAINING_AUDIO_CAPTCHA_FOLDERS:
    for f in os.listdir(folder):
        TRAINING_AUDIO_FILENAMES.append(folder+'/'+f)

TEST_OUTPUT = 'output_test/'
TEST_AUDIO_CAPTCHA_FOLDERS = [TEST_OUTPUT+i for i in os.listdir(TEST_OUTPUT)]

TEST_AUDIO_FILENAMES = [] # -> <number>_<digit>.wav
for folder in TEST_AUDIO_CAPTCHA_FOLDERS:
    for f in os.listdir(folder):
        TEST_AUDIO_FILENAMES.append(folder+'/'+f)

A seguir é necessário extrair atributos da base de dados.

In [None]:
from pysndfx import AudioEffectsChain
import numpy as np

def make_chain(low, high):
    return (AudioEffectsChain()
        .lowpass(high, 3.0)
        .highpass(low, 3.0))

sb = make_chain(20, 60)
b = make_chain(60, 250)
lm = make_chain(250, 500)
m = make_chain(500, 2000)
um = make_chain(2000, 4000)
p = make_chain(4000, 6000)
br = make_chain(6000, 20000)

specs = [sb,b,lm,m,um,p,br]


def get_spectrum(audio):
    return [np.mean(np.abs(spectrum(audio))) for spectrum in specs]

In [None]:
def extract_features(audio_filename: str, path: str) -> pd.core.series.Series:
    data, _ = librosa.core.load(path +'/'+ audio_filename, sr=SAMPLE_RATE)

    label = audio_filename.split('.')[0].split('-')[-1]

    feature1_raw = librosa.feature.mfcc(data, sr=SAMPLE_RATE, n_mfcc=40)
    
    feature1 = np.array([list(map(fabs, sublist)) for sublist in feature1_raw]) # Tudo positivo

    npstd = np.std(feature1, axis=1)
    npmedian = np.median(feature1, axis=1)
    feature1_flat = np.hstack((npmedian, npstd))

    feature2 = librosa.feature.zero_crossing_rate(y=data)
    feature2_flat = feature2.size

    feature3 = librosa.feature.spectral_rolloff(data)
    feature3_flat = np.hstack((np.median(feature3), np.std(feature3)))

    feature4 = librosa.feature.spectral_centroid(data)
    feature4_flat = np.hstack((np.median(feature4), np.std(feature4)))
    
    feature5 = librosa.feature.spectral_contrast(data)
    feature5_flat = np.hstack((np.median(feature5), np.std(feature5)))

    feature6 = librosa.feature.spectral_bandwidth(data)
    feature6_flat = np.hstack((np.median(feature6), np.std(feature6)))

    feature7 = librosa.feature.tonnetz(data)
    feature7_flat = np.hstack((np.median(feature7), np.std(feature7)))


    feature8_flat = get_spectrum(data)

    #plt.figure(figsize=(10, 4))
    #librosa.display.specshow(feature1, x_axis='time')
    #plt.colorbar()
    #plt.title(label)
    #plt.tight_layout()
    #plt.show()
    
    features = pd.Series(np.hstack((feature1_flat, feature2_flat, feature3_flat, 
                                    feature4_flat, feature5_flat, feature6_flat, 
                                    feature7_flat, feature8_flat, label)))
    return features
 

## 3. Metodologia

In [None]:
def train() -> tuple:
    X_train_raw = []
    y_train = []
    for sample in TRAINING_AUDIO_FILENAMES:
        folder = '/'.join(sample.split('/')[0:2])
        filename = sample.split('/')[-1]
        obj = extract_features(filename, folder)
        d = obj[0:obj.size - 1]
        l = obj[obj.size - 1]
        X_train_raw.append(d)
        y_train.append(l)

    # Normalisar
    std_scale = preprocessing.StandardScaler().fit(X_train_raw) 
    X_train = std_scale.transform(X_train_raw)
    return X_train, np.array(y_train), std_scale

In [None]:
def test(X_train: np.ndarray, y_train: np.ndarray, std_scale: preprocessing.data.StandardScaler):
    accuracy1NN = 0
    accuracySVM = 0
    accuracyTotal = 0
    total1NN = 0
    totalSVM = 0
    total = 0
    for folder in TEST_AUDIO_CAPTCHA_FOLDERS:
        correct1NN = 0
        correctSVM = 0
        correct = 0
        for filename in os.listdir(folder):
            obj = extract_features(filename, folder)
            y_test = obj[obj.size - 1]
            X_test_raw = [obj[0:obj.size - 1]]
            X_test = std_scale.transform(X_test_raw) # Normalisar
            
            neigh1 = KNeighborsClassifier(n_neighbors=1)    #D, N
            y_pred_1nn = neigh1.fit(X_train, y_train).predict(X_test)

            clf = SVC()
            y_pred_svm = clf.fit(X_train, y_train).predict(X_test)

            y_pred = y_pred_svm[0]
            if y_pred_svm[0] == 'd' or y_pred_svm[0] == 'm': # SVM erra muito essas
                y_pred = y_pred_1nn[0]
            if y_pred_1nn[0] == 'd' or y_pred_1nn[0] == 'm':
                y_pred = y_pred_1nn[0]

            if y_pred == y_test:
                correct+=1
                total+=1
                print('V '+y_test+" "+y_pred[0])
            else:
                print('E '+y_test+" "+y_pred[0])        
            
        if correct == 4:
            accuracyTotal+=1

    number_of_folders = len(TEST_AUDIO_CAPTCHA_FOLDERS)
    number_of_characters = len(TEST_AUDIO_FILENAMES)
    print("Acuracia (captcha) = {0:.2f}%".format((accuracyTotal / number_of_folders)*100))
    print("Acuracia (caracteres) = {0:.2f}%".format((total / number_of_characters)*100))

## 4. Resultados

In [None]:
def break_captcha():
    X_train, y_train, std_scale = train()
    test(X_train, y_train, std_scale)

In [None]:
break_captcha()

## 5. Comentários finais

- Dificuldades encontradas

- Ideias que não foram exploradas e a razão