<a href="https://colab.research.google.com/github/rsmarinho/pdscodes/blob/master/TP02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# here goes your include modules...
import numpy as np
import matplotlib.pyplot as plt

# bibliotecas utilizadas para I/O e visualização dos sinais de audio
import librosa
from IPython.display import Audio

**TP02 - Efeitos de operações lineares em sinais de audio.**

---

Nesse trabalho prático vamos estudar os efeitos de algumas operações lineares em sinais de audio criados artificialmente e com exemplos de sinais gravados de voz.


Fonte:
- spoltech : https://catalog.ldc.upenn.edu/LDC2006S16
- UFPA Fala Brasil : https://ufpafalabrasil.gitlab.io/
- https://medium.com/brasil-ai/reconhecimento-voz-python-35a5023767ca
- https://medium.com/ensina-ai/identificando-pessoas-atrav%C3%A9s-da-voz-d900a0812fe1

O [arquivo de exemplo](https://github.com/rsmarinho/pdscodes/blob/master/LDC2006S16.wav) é encontrado na [página](https://catalog.ldc.upenn.edu/LDC2006S16) oficial da base de dados Spoltech para reconhecimento de voz, e é gravado em português brasileiro.

Devemos primeiramente aprender a manipular os dados com que vamos trabalhar. Abaixo um exemplo de como carregar um arquivo de audio no notebok de trabalho, e o comando que podemos usar para *tocar* a sequência de dados de forma que podemos *escutar* seu conteúdo. Note que o comando **load()** retorna também a taxa de amostragem do sinal lido.

In [None]:
# le o arquivo de audio (não esqueça de carregar o arquivo para o colab)
x, sr = librosa.load('/content/LDC2006S16.wav')

# gera um player para leitura do arquivo de audio
# utiliza o modulo IPython.display
Audio(x, rate=sr)

In [None]:
print(sr)

Caso seja preciso criar um conteúdo (sequência de audio), podemos executar da mesma forma que a criação de uma sequência de sinais senoidais. Criamos o sinal à partir de uma variável independente (nesse caso **t**). Não podemos equecer da taxa de amostragem do sinal.

In [None]:
# usamos o mesmo sample-rate e escala temporal para os nossos exemplos.
sr = 44100 # samplerate
t = np.linspace(0, 10, sr*10) # tempo amostrado

In [None]:
# cria um sinal artificial de audio
data = np.sin(2*np.pi*220*t) + 4*np.sin(2*np.pi*224*t) # sinal gerado

Audio(data, rate=sr)

Caso seja necessário, também é possível criar um sinal de audio com mais de um canal...

In [None]:
# criamos o som de base 
def base(t):
    return np.sin(2*np.pi*220*t)*np.exp(-t)

# definimos o canal da esquerda à partir do som de base
t_left  = 4*(t/4 - np.fix(t/4))
left   = base(t_left)

# e depois o canal da direita
t_right = 4*((t+2)/4 - np.fix((t+2)/4))
right  = base(t_right)

# e visualizamos o som criado
plt.plot(t, left)
plt.plot(t, right)

# Nesse caso o sinal é a concatenação dos dois vetores
# o do canal direito e o do canal esquerdo
Audio([left, right], rate=sr)

E se for preciso gravar o sinal de audio, então podemos fazer asim...

In [None]:
# é preciso primeiro passar o formato ndarray, pois
# é o tipo de dado que o módulo librosa compreende...
sig = np.array([left, right])

# para salvar precisamos do nome e caminho do novo arquivo
# do sinal e de sua amostragem...
librosa.output.write_wav('/content/two_channel.wav', sig, sr)

Com essas informações, responda às seguintes questões:

**1.** Suponha uma frequência de amostragem de $44100\,Hz$, crie uma escala de dó (do, re, mi, fa, sol, la, si, dó) com sinais senoidais variando a frequência de acordo com [essa imagem](https://github.com/rsmarinho/pdscodes/blob/master/notas_musicais.jpg), abtida [aqui](https://www.researchgate.net/figure/Notas-e-frequencias-no-teclado-do-piano-MASLINKIEWICZ-COELHO-2012-p-91_fig1_275250294). Cada nota deve ter a duração de um segundo, o que totalizará um sinal de audio de oito segundos de duração. Utilize como base o dó central.

In [None]:
sr = 
t = np.linspace(0, 8, sr)

def escala(t):
  # a criação da escala vai aqui
  data = 
  return data

sig = escala(t)

Audio(sig, rate=sr)

**2.** O que deve acontecer se mudarmos a taxa de amostragem para a metade da taxa de amostragem do sinal original? Nesse caso, quais serão as frequências de cada nota? Qual a duração de cada nota? Com base em seus conhecimentos da teoria de sinais e sistemas, tente explicar o que acontece quando modificamos a taxa de amostragem.

**3.** Um acorde é a junção de várias notas tocadas ao mesmo tempo. Em processamento digital de audio, podemos compreender um acorde como uma soma de vários sinais. O acorde de dó maior é formado pelas notas \<dó, mi, sol\>. Novamente, com a ajuda do [mapa de frequências](https://github.com/rsmarinho/pdscodes/blob/master/notas_musicais.jpg) tente criar o acorde de dó com uma duração de três segundos.

In [None]:
sr = 
t = np.linspace(0, 3, sr)

def acorde(t):
  # a criação da escala vai aqui
  data = 
  return data

sig = acorde(t)

Audio(sig, rate=sr)

**4.** O sinal gerado na questão anterior é a combinação linear de três sinais diferentes. Aumente a amplitude de um dos três sinais e tente descrever como essa diferença pode ser percebida no som que escutamos?

**5.** Coloque a escala de dó (gerada na questão **1**) e o acorde de dó (gerado na questão **3**), um em cada canal e salve o resultado em um arquivo. Lembrem-se de que o tempo total tem que ser o mesmo para que a soma dê certo.