# Proyecto PixelSounds

## 1. Objetivo
La misión de este proyecto es crear un algoritmo capaz de crear, a partir de una imagen dada, un archivo de audio generado a través de cierto análisis a esta.

Existen muchos parametros y operaciones con las que podemos extraer información que defina a una imagen; la solución más inmediata al problema es entonces usar estas como generadoras de las características de un posible sonido como resultado.

In [1]:
import cv2
import os
import numpy as np
import warnings
import scipy.fftpack as fft
import matplotlib.pyplot as plt
from scipy.ndimage import gaussian_filter1d, median_filter
from scipy import signal
with warnings.catch_warnings():
    warnings.simplefilter('ignore')
    import vozyaudio as vz

### De momento, ¿qué extraer de las entradas?
- Las distintas representaciones de la imagen (RGB, YcBcR) y canales de estas
- Componentes frecuenciale (DFT), aunque sería interesante otros tipos de transformada (DCT por ejemplo) con las que extraer otras componentes
- Gradiente (derivada o diferencias entre los valores de los píxeles) tanto vertical como horizontal
- Selección de valores concretos de los píxeles (colores o valores de brillo específicos)
- Operaciones geométricas a la imagen
- Histograma

## Extracción de canales

In [None]:
def extract_rgb(input_img):
    """
    Esta función debe recibir una imagen y separarla en sus 3 canales RGB.
    Devolverá 3 matrices de mismo ancho y alto que la de entrada.
    """
    img = cv2.imread(input_img,cv2.IMREAD_COLOR)
    b,g,r = cv2.split(img)
    return r, g, b

def extract_y(input_img):
    """
    Extrae la matriz de brillo de la imagen entrante.
    Devolverá 1 MATRIZ de mismo ancho y alto que la de entrada.
    """
    y = cv2.imread(input_img, cv2.IMREAD_GRAYSCALE)
    return y

def extract_ycbcr(input_img):
    """
    Esta función debe recibir una imagen y separarla en sus 3 canales YcBcR.
    Devolverá 3 matrices de mismo ancho y alto que la de entrada.
    """
    BGRImage = cv2.imread(imageName)
    YCrCbImage = cv2.cvtColor(BGRImage, cv2.COLOR_BGR2YCR_CB)
    y, cb, cr = cv2.split(YCrCbImage)
    return y, cb, cr

## Sobre el histograma de una imagen

El histograma es un gráfico que nos ayuda a ver cómo están repartidos los niveles de brillo en los canales de una imagen. De normal puede ser útil para ver el nivel de contraste o si está sub- o sobre- expuesta. Sin embargo, ¿cómo podríamos aprovecharlo para nuestro objetivo? 

Una idea podía ser crear señales de audio a partir de este, ya que algunos histogramas de imágenes tienen parecido con algunos de audio, aunque salvando ciertas diferencias. Se pueden ver picos máximos parecidos a los que aparecen sobre el nivel 0 en audio y algunas distribuciones podrían parecerse a la geométrica, sin embargo esta es una operación no invertible, y aunque nos pueda dar información sobre los niveles que podría tener el sonido, no sabemos cómo distribuir estos.

No habría que abandonar al 100% este camino, pero habría que darle una vuelta para poder aprovecharlo.

Otra posibilidad es, y a esta le veo más futuro, poder asociar el uso de efectos a ciertas partes o toda la señal sonora en base al histograma de alguno o todos sus canales de color. Por ejemplo, si se dividiera el histograma del brillo de la imagen en ciertos rangos y donde cayera cierto porcentaje de píxeles en este aplicar de una forma u otra ciertos efectos.

Ejemplo: analizando el histograma de brillo de un bloque de una imagen dada se ha visto que el 60% de todos los píxeles tienen un valor entre 0 y 50 de brillo. Esto provocará que a ese bloque de la imagen se le aplique un efecto de eco múltiple con 3 repeticiones, retardadas 0.3, 0.5 y 0.7 segundos y amplitudes indirectas 0.5, 0.3, y 0.22

In [None]:
def histograma(input_img):
    """
    Recibe una imagen con 1 o más canales y devuelve el histograma de esta
    Por hacer
    """
    
    return None

## Transformada de Fourier en una imagen

In [2]:
def procesar_imagen_fft(ruta_imagen, fs, N=50,duracion=5):
    
    # Se lee y se aplana la imagen se pasa a gris para q los valores sean de 0 a 255
    imagen = cv2.imread(ruta_imagen, cv2.IMREAD_GRAYSCALE)
    imagen = cv2.resize(imagen, (256, 256))
    valores_pixeles = imagen.flatten()
    
    # Se aplica la transformada de fourier para obtener las frecuencias (gracias Victor)
    espectro = np.abs(fft.fft(valores_pixeles))
    freqs = fft.fftfreq(len(valores_pixeles), d=1/fs)
    
    # se eliminan las frecuencias negativas
    freqs = freqs[freqs > 0]
    espectro = espectro[:len(freqs)]
    
    # se sacan las frecuencias principales
    indices_principales = np.argsort(espectro)[-N:]
    freqs_principales = freqs[indices_principales]
    
    # Se genera la señal de audio, se hace asi por la funcion de voz 
    t = np.linspace(0, duracion, int(fs * duracion), endpoint=False)
    audio = np.zeros_like(t)
    
    for f in freqs_principales:
        audio += np.sin(2 * np.pi * f * t)
    
    # se normaliza la señal
    audio = audio / np.max(np.abs(audio))
    
    vz.sonido(audio, fs)
    
    plt.plot(t[:1000], audio[:1000],label=nombre_archivo)
    plt.title("Forma de onda generada")
    plt.xlabel("Tiempo")
    plt.ylabel("Amplitud")
    plt.legend()  

In [None]:
# Creación de señales a partir de las componentes frecuenciales de la imagen

fs = 44100
for nombre_archivo in os.listdir("images"):
    if nombre_archivo.endswith(('.png', '.jpg', '.JPG')):
        ruta_imagen = os.path.join("images", nombre_archivo)
        procesar_imagen_fft(ruta_imagen, fs)

plt.show()