# Notebook Base para Proyecto Final Inteligencia Artificial

In [1]:
import numpy as np
import pandas as pd
import pickle

from sklearn.model_selection import train_test_split


## Índices Acústicos

Generados con scikit-maad, basado en https://scikit-maad.github.io/_auto_examples/2_advanced/plot_extract_alpha_indices.html#sphx-glr-auto-examples-2-advanced-plot-extract-alpha-indices-py 

In [2]:
with open('./ais_perRow.pickle', 'rb') as handle:
    unserialized_data = pickle.load(handle)
    X_ai = unserialized_data['X']
    y_ai = unserialized_data['y']
    print('Datos Cargados!')

Datos Cargados!


In [3]:
print(f'Tamaño matriz de características: {X_ai.shape}')
print(f'Tamaño vector de etiquetas: {y_ai.shape}')

Tamaño matriz de características: (71497, 60)
Tamaño vector de etiquetas: (71497, 1)


## VGGish

S. Hershey et al., ‘CNN Architectures for Large-Scale Audio Classification’,\ in International Conference on Acoustics, Speech and Signal Processing (ICASSP),2017\ Available: https://arxiv.org/abs/1609.09430, https://ai.google/research/pubs/pub45611

Modelo preentrenado usado: https://github.com/harritaylor/torchvggish

In [4]:
with open('./vgg_perRow.pickle', 'rb') as handle:
    unserialized_data = pickle.load(handle)
    X_vgg = unserialized_data['X']
    y_vgg = unserialized_data['y']
    print('Datos Cargados!')

Datos Cargados!


In [5]:
print(f'Tamaño matriz de características: {X_vgg.shape}')
print(f'Tamaño vector de etiquetas: {y_vgg.shape}')

Tamaño matriz de características: (71497, 128)
Tamaño vector de etiquetas: (71497, 1)


## YAMNet

https://www.diva-portal.org/smash/get/diva2:1605037/FULLTEXT01.pdf

Modelo preentrenado usado: https://tfhub.dev/google/yamnet/1

In [6]:
with open('./yamn_perRow.pickle', 'rb') as handle:
    unserialized_data = pickle.load(handle)
    X_yamn = unserialized_data['X']
    y_yamn = unserialized_data['y']
    print('Datos Cargados!')

Datos Cargados!


In [7]:
print(f'Tamaño matriz de características: {X_yamn.shape}')
print(f'Tamaño vector de etiquetas: {y_yamn.shape}')

Tamaño matriz de características: (71497, 1024)
Tamaño vector de etiquetas: (71497, 1)


## PANNs

Kong, Qiuqiang, Yin Cao, Turab Iqbal, Yuxuan Wang, Wenwu Wang, and Mark D. Plumbley. "PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition." arXiv preprint arXiv:1912.10211 (2019).

Modelo preentrenado usado https://github.com/qiuqiangkong/panns_inference

In [8]:
with open('./panns_perRow.pickle', 'rb') as handle:
    unserialized_data = pickle.load(handle)
    X_panns = unserialized_data['X']
    y_panns = unserialized_data['y']
    print('Datos Cargados!')

Datos Cargados!


In [9]:
print(f'Tamaño matriz de características: {X_panns.shape}')
print(f'Tamaño vector de etiquetas: {y_panns.shape}')

Tamaño matriz de características: (71497, 2048)
Tamaño vector de etiquetas: (71497, 1)


In [10]:
print(np.unique(y_vgg, return_counts=True)) # Las etiquetas son 0, 1 y 2. Hacen referencia a lo siguiente:
NumtoCover = {0: 'Pastizal', 1:'Sabana', 2:'Bosque'}


(array([0., 1., 2.]), array([41957, 14994, 14546], dtype=int64))


## Celda para división de datos en Entrenamiento/Validación/Prueba (Train/val/test)

La siguiente celda se hace con la intención de dividir el conjunto de índices acústicos (_ai) en conjuntos de entrenamiento, validación y prueba con una proporción 80%/10%/10%. 

Adicionalmente se almacenan los índices con los que se realizó la división, esto con el fin de realizar exactamente la misma separación con las características VGGish, PANNs y YAMNet. Lo anterior para garantizar que se están trabajando con las mismas grabaciones sin importar la caracterización.

Las etiquetas son las mismas para todos los conjuntos de datos.

In [11]:
n_samples = X_ai.shape[0]
indices = np.arange(n_samples)

X_ai_train, X_ai_test, y_train, y_test, idx_train, idx_test = train_test_split(X_ai, y_ai, indices, test_size=0.2)
X_ai_val, X_ai_test, y_val, y_test, idx_val, idx_test = train_test_split(X_ai_test, y_test, idx_test, test_size=0.5)

In [12]:
print(X_ai_train.shape)
print(X_ai_val.shape)
print(X_ai_test.shape)

(57197, 60)
(7150, 60)
(7150, 60)


In [13]:
print(y_train.shape)
print(y_val.shape)
print(y_test.shape)
print(y_ai.shape)

(57197, 1)
(7150, 1)
(7150, 1)
(71497, 1)


### VGGish

In [14]:
X_vgg_train = X_vgg[idx_train]
X_vgg_val = X_vgg[idx_val]
X_vgg_test = X_vgg[idx_test]

In [15]:
print(X_vgg_train.shape)
print(X_vgg_val.shape)
print(X_vgg_test.shape)

(57197, 128)
(7150, 128)
(7150, 128)


### YAMNet

In [16]:
X_yamn_train = X_yamn[idx_train]
X_yamn_val = X_yamn[idx_val]
X_yamn_test = X_yamn[idx_test]

In [17]:
print(X_yamn_train.shape)
print(X_yamn_val.shape)
print(X_yamn_test.shape)

(57197, 1024)
(7150, 1024)
(7150, 1024)


### PANNs

In [18]:
X_panns_train = X_panns[idx_train]
X_panns_val = X_panns[idx_val]
X_panns_test = X_panns[idx_test]

In [19]:
print(X_panns_train.shape)
print(X_panns_val.shape)
print(X_panns_test.shape)

(57197, 2048)
(7150, 2048)
(7150, 2048)


In [21]:
np.array_equal(y_ai, y_yamn)

True