## Introdução
***

Dentro das atividades de baixo nível estudaremos o tratamento e descritores de imagens, ou seja, como quantificar e representar uma imagem de forma abstrata usando apenas uma lista de números.

O processo de quantificação de uma imagem é chamada de extração de recursos. Ele governa as regras, algoritmos e métodos para transformar uma imagem em uma lista de números chamada vetor de recursos.

Os descritores de imagem e os descritores de recursos regem como uma imagem é abstraída e quantificada, enquanto os vetores de recursos são a saída dos descritores e utilizados para quantificar a imagem. Tomando como um todo isso é chamado de extração de recursos. O processo de extração de recurso é uma das bases da visão computacional.

O processo geral de obter uma imagem, executar um algoritmo de extração de recursos da imagem e exibir uma lista de números que representa a imagem com os recursos extraidos, mesmo com o avanço permance o mesmo.
 
Quase todo o algoritmo que tenta entender ou interpretar o conteúdo de uma imagem utiliza extração de recurso em algum estágio. Os vetores de recurso são utilizados para representar uma variedade de propriedades de uma imagem, como forma, cor ou textura de um objeto em uma imagem. Ele tb pode combinar várias propriedades.

Na figura abaixo extraimos as cores como um vetor de recurso e a textura como outro vetor de recurso.

![img](https://user-images.githubusercontent.com/14116020/64661901-e0f77f80-d41c-11e9-9db3-6386a195511b.png)

***
### Vetor de Recurso
***

O processo geral de extração de um vetor de recursos (ou vetor de características)de uma imagem é descrito abaixo:

![img](https://user-images.githubusercontent.com/14116020/64662352-7ba48e00-d41e-11e9-8a02-24b711e35176.png)

À  esquerda,  temos  a  nossa  imagem  que  é  alimentada  no  descritor  de  imagem.  Em seguida, aplicamos nosso algoritmo de descritor de imagem na imagem de entrada (centro). À direita, ficamos com um vetor de características como a saída do descritor de imagem. Isso nos leva a duas perguntas:

* Se o vetor de recurso é o último passo no processo, por que estamos discutindo isso primeiro?


* O que exatamente é um vetor de características?

Para  responder  a  sua  primeira  pergunta: estamos  discutindo  os  vetores  de características ou vetor de recursos  no  início  deste  capítulo  porque  eles  tendem  a  ser  o  termo  mais  fácil  de entender.  Além  disso,  tanto  os  descritores  de  imagem  quanto  os  descritores  de  recursos apresentam  vetores  de  recursos como  saída,  então  é  importante  entender  o  termo  agora. Quanto à sua segunda pergunta, vejamos se esta definição de um vetor de recursos:

> É uma abstração de uma imagem usada para  caracterizar  e  quantificar  numericamente  o  conteúdo  de  uma  imagem.  Normalmente um  valor real,  inteiro  ou  binário.  Simplificando,  um  vetor  de  características  é  uma  lista  de números usados para representar uma imagem.

Um vetor de características é apenas uma lista de números. Dada uma imagem de NxM pixels,  nós  a  inserimos  em  nosso  descritor  de  imagem  e,  em  seguida,  ele  exibe  uma característica d-dimensional no final do descritor de imagem. O valor d é o comprimento, ou o número de entradas dentro da lista.

Por exemplo, um vetor de recursos com 128 entradas é chamado de 128-dimensional, ou simplesmente 128-d. Um vetor de características com 1.024 entradas na lista é de 1.024 dimensionalidades ou simplesmente 1.024-d. Será muito comum ver vetores de características expressos e anotados dessa maneira ao ler a literatura acadêmica sobre visão computacional e extração de recursos.

É comum ouvir o termo “descrever” quando derivamos um vetor de recurso de uma imagem. Por exemplo, dê uma olhada na foto abaixo - como você pode usar palavras para descrevê-la?

![img](https://user-images.githubusercontent.com/14116020/64662490-09807900-d41f-11e9-8522-ddd926190209.png)

Bem, podemos ver claramente uma pessoa em primeiro plano. Podemos ver um rosto. Nós também podemos ver que há água no fundo junto com um barco. Há também o céu na parte superior da imagem.

Tirando as palavras-chave da nossa descrição acima, nosso "vetor de características" de palavras seria algo assim:

```
Vetor de características = [pessoa, rosto, água, barco, céu]
```

Mas sem aplicar algum aprendizado de máquina, os computadores não podem derivar essa  descrição  de  alto  nível  da  imagem.  Em  vez  disso,  nossos  sistemas  devem  contar  com vetores de recursos.

Então, em vez de nosso vetor de características ser uma lista de palavras, será uma lista de números:

```
Vetor de características= [0, 32, 0, 21, 0, 56, 0, 39, 0, 19]

```

**Simplificando**: um vetor de recursos não é mais do que uma lista de números usados para representar e quantificar uma imagem.

Claro,  esses vetores  de  características  não  podem  ser  arbitrários  e  preenchidos  com valores  aleatórios  e  sem  sentido!  Precisamos  definir  metodologias  para  examinar  nossas imagens e extrair vetores de características significativos deles.

Esses algoritmos e metodologias usados para extrair vetores de recursos são chamados **descritores de imagem** e **descritores de recursos**.

***
### Descritor de Imagens
***

Agora que entendemos o que são os vetores de características, vamos compreender os descritores de imagem:

> Um  descritor  de  imagem  é  um  algoritmo  ou metodologia  que  governa  como  uma  imagem  de  entrada  é  quantificada  globalmente  e retorna um vetor de características representando de forma abstrata o conteúdo da imagem.

O termo-chave para entender aqui é global - isso implica que estamos examinando toda a imagem e usando toda a imagem na computação de nosso vetor de características. Ou seja, estamos analisando toda a imagem e extraindo um descritor de imagem para representar seus conteúdos:

![img](https://user-images.githubusercontent.com/14116020/64662352-7ba48e00-d41e-11e9-8a02-24b711e35176.png)

Em seguida, recebemos essa imagem de entrada e aplicamos nosso descritor de imagem a ela. Este descritor de imagem pode estar quantificando a forma, cor, textura ou qualquer combinação dos três. Finalmente, a saída do nosso descritor de imagem é uma lista de números - nosso vetor de características ou simplesmente recursos. Quando apresentado com 1 imagem de entrada, nosso descritor de imagem retornará 1 vetor de recursos.

Exemplos de descritores de imagem incluem estatísticas de canais de cores, histogramas de cores e padrões binários locais, para citar alguns.

Um dos principais benefícios dos descritores de imagem é que eles tendem a ser muito mais simples do que os descritores de recursos. Além disso, uma vez extraído, os vetores de características derivados de descritores de imagem podem ser passados imediatamente para outros  métodos  de  visão  computacional,  como  criar  um  classificador  para  reconhecer  o conteúdo de uma imagem ou criar um mecanismo de busca de imagens.

No entanto,  esta  simplicidade  muitas  vezes  vem  a  um  preço.  Muitas  vezes,  embora simples e fácilde usar, nossos descritores de imagem não são robustos nas mudanças na forma como a imagem é girada, traduzida ou como os pontos de vista de uma imagem mudam. Se for esse o caso, muitas vezes precisamos usar os descritores de recursos mais poderosos.

Mas  o  que  acontece  se  quisermos  descrever  várias  regiões  de  uma  imagem?  E  se quisermos extrair recursos da região do rosto em uma imagem? E a região da água? E a região do  céu?  Como  podemos  fazer  isso?  Existem  métodos  para  detectar  automaticamente  as regiões de uma imagem sobre a qual devemos focar, descrever e extrair recursos?

Sim. E a resposta a todas estas questões é o descritor de recursos.

***
### Descritor de Recursos
***

Comecemos com uma definição:

> Um  descritor de  recurso  é  um  algoritmo  ou metodologia  que  rege  como  uma  região  de  entrada  de  uma  imagem  é  quantificada localmente.  Um  descritor  de  recurso  aceita  uma  única  imagem  de  entrada  e  retorna  vários vetores de recursos.

Ao contrário de um descritor de imagem onde, para cada imagem de entrada, havia apenas um vetor de recursos de saída, um descritor de recurso pode retornar vários vetores de recursos por imagem:

* **Descritor de imagem**: 1 imagem - 1 vetor de recursos
* **Descritor de recursos**: 1 imagem - muitos vetores de recursos.

Para tornar este ponto claro, aqui está uma representação visual de um descritor de recurso em ação:

![img](https://user-images.githubusercontent.com/14116020/64663141-3d5c9e00-d421-11e9-9568-128e24543458.png)

À esquerda,  temos  nossa  imagem  de  entrada  original.  Cada  uma  dessas  regiões  de imagem é alimentada em nosso descritor de recursos. O descritor de recursos, em seguida, extrai vários vetores de recursos - um para cada região - e, portanto, quantificando as regiões da imagem.

Na prática, queremos apenas descrever (ou seja, extrair recursos) de regiões salientes ou  "interessantes"  de  uma  imagem.  É  comum  que  possamos  aplicar  detectores  de  pontos-chave para encontrar regiões "interessantes" de uma imagem. Essas regiões são então usadas como  entrada  para  nossos  descritores  de  recursos - dado  N  regiões  interessantes  de  uma imagem para descrever, vamos receber N vetores de recursos de volta do descritor de recurso.

Exemplos  de  descritores  de  recursos incluem  SIFT,  SURF,  ORB,  BRISK  e FAST – e estaremos cobrindo todos esses descritores neste capítulo.

Os  descritores  de  recursos  tendem  a  ser  muito  mais  poderosos  do  que  os  nossos descritores  básicos  de  imagem,  uma  vez  que  eles  levam  em  consideração  a  localidade  das regiões em uma imagem e as descrevem separadamente. Os descritores de recursos também tendem a ser muito mais robustos para as mudanças na imagem de entrada, como rotação, tradução, orientação e mudanças no ponto de vista.

No entanto, essa robustez e habilidade para descrever várias regiões de uma imagem vem a um preço - na maioria dos casos, os vetores de recursos extraídos usando descritores de recursos não são diretamente aplicáveis à construção de um mecanismo de busca de imagens ou à construção de um classificador de imagem em seu estado atual. Isso ocorre porque cada imagem agora é representada por vários vetores de recursos em vez de apenas um.

Para  remediar  este  problema,  nós  construímos  um  saco  de  palavras  visuais  (bag-of-visual-words), que recebe todos os vetores de características de uma imagem e constrói um histograma, contando o número de vezes que vetores de características semelhantes ocorrem em uma imagem.