![picture](https://drive.google.com/uc?id=12FMecoQs234_ky9l0ONFAkVDFHImD9Ce)

Hoje veremos:

1. <a href='#section1'> Inteligência Artificial </a>
    * <a href='#section1.1'> O que é inteligência artificial? </a>
    * <a href='#section1.2'> Redes Neurais </a>
    * <a href='#section1.3'> Machine Learning </a>
2. <a href='#section2'> Aprendendo na Prática </a>
    * <a href='#section2.1'> Preparando os dados </a>
    * <a href='#section2.2'> Treinando a rede </a>
    * <a href='#section2.3'> Melhorando nosso modelo </a>
    * <a href='#section2.4'> Colocando à prova </a>
3.  <a href="#section3"> Referências e mais conteúdo </a>

# 1. Inteligência Artificial <a id='section1'> </a>

![picture](https://miro.medium.com/max/4052/1*cpe4z05DgTJvm0SG0MsrjA.png)

Um tema que surgiu antes dos computadores pessoais, como em obras de ficção científica do Isaac Asimov, é a discussão sobre a capacidade de se projetar um computador que consiga desenvolver uma forma de raciocínio próprio. Nós estamos constantemente lidando com sistemas que realizam milhares de operações e parecem ser inteligentes, mas como podemos definir "inteligência artificial"?

## 1.1 O que é inteligência artificial? <a id='section1.1'></a>

O conceito "inteligência artificial" pode ser definido como o processo que máquinas executam na tentativa de simular a inteligência humana, incluindo atividades como aprender, raciocinar e se corrigir.
Essa definição é muito branda e permite encaixar milhares de aplicações como, por exemplo: 

Programas que dão diagnósticos médicos, fazem compra e vendas de ações na bolsa, controlam robôs, dão suporte ao consumidor via chats virtuais e que controlam carros são alguns exemplos de inteligência artificial que temos hoje. Notem que é algo bem próximo de nós e que convive conosco diariamente. Mas o que torna um script em Python comum em uma inteligência artificial? 

## 1.2 Redes Neurais <a id='section1.2'> </a>

Uma rede neural é uma estrutura de dados que pode ser explicada como uma matriz, na qual cada coordenada dessa matriz contém o que são chamados de "nós". A rede permite a passagem de dados de nó em nó, onde cada nó pode alterar esse valor e o passa para outro nó.
O nome "neural" é derivado de "neurônios", por ser uma modelagem matemática que se assemelha às células no nosso cérebro.

Sendo essa estrutura algo relativamente simples e descoberta há mais de 20 anos, porquê não foi utilizada desde então e está chamando toda essa atenção recentemente?
A resposta é direta: hoje em dia temos uma capacidade de armazenamento e processamento de dados imensamente maior do que 20 anos atrás, e apesar de cada nó em si de uma rede ser simples, a complexidade de toda a rede e suas interações cresce exponencialmente. 

A google desenvolveu um site para fins demonstrativos e vamos dar um pulo lá para visualizar melhor: https://playground.tensorflow.org/



## 1.3 Machine Learning  <a id='section1.3'> </a>


As variações de implementações das redes neurais começaram a ser agrupadas e chamadas de "machine learning", que se traduz como aprendizado de máquina. É uma área da inteligência artificial que estuda algoritmos e modelos estatísticos que podem ser usados por computadores para que executem tarefas de forma "inteligente", ou seja, sem instruções específicas para isso.
Os algoritmos são baseados em "dados para treinamento" para que o computador possa inferir conhecimento e tomar decisões sem ter recebido as intruções específico e explícitas para isso.

Hoje em dia temos dezenas de formas de se fazer uma rede neural e treiná-la. Isso mesmo, treinar uma rede. Mas como funciona esse processo?

Até agora nós aprendemos a programar da seguinte forma: temos dados de entrada e um problema para resolver. Devemos escrever um programa que pega os dados de entrada, faz alterações e contas com esses dados e produz a  saída que resolve o meu problema.

O machine learning muda essa nossa lógica. Damos uma grande quantidade de dados de entrada e os dados de saída correspondentes. O computador então trabalha com esses dados e produz um programa que resolve o problema, então ele apenas observa e "aprende" a resolver o problema. 


# 2. Aprendendo na Prática <a id='section2'></a>

Vamos explicar os conceitos de machine learning desenvolvendo uma aplicação que tem como objetivo treinar uma rede que diferencia fotos de cachorrinhos e gatinhos.

Os códigos e dados utilizados neste cenário foram extraídos de repositórios abertos disponíveis na internet. Recomendamos dar uma olhada na fonte original: https://github.com/fastai/course-v3/tree/master/nbs/dl1

Existem também centenas de outros cursos, plataformas e material sobre este conteúdo! É uma area de estudo muito promissora e esta aula é apenas o começo! :) 

## 2.1 Preparando os dados <a id='section2.1'></a>


Como dito previamente, precisamos alimentar o computador com um montande de dados para que ele possa treinar e aprender a solucionar o problema sozinho. 

Quanto maior a quantidade de fotos de cães e gatos classificados conseguirmos fornecer para treinar a nossa rede, melhor tende a ser o nosso programa. Na nossa situação atual a classificação é relativamente simples, separamos as fotos de gatos em uma pasta e as fotos de cães em outra.

Porém, problemas de classificações podem ser muito mais complexos: podemos ter dezenas ou centenas de classes diferentes e até fotos que se encaixam em mais de uma classe, como um carro inteligente andando na rua e detectando várias placas ao mesmo tempo. Nesses casos uma rota comum para tratar os dados é utilizar uma forma de "anotação" na imagem que aponta o que são os os objetos que estão aparecendo, o que é um processo manual e muito trabalhoso.

A tendência de quanto maior a quantidade de dados melhor o desempenho da rede se extende para outros domínios também.

Então temos 2 conjuntos de dados:
* Os dados de treino
* Os dados de uso real

Os dados de treino normalmente são fornecidos e criados por quem está desenvolvendo a solução, podem ser obtidos de cenários do problema que se deseja resolver ou até vir de simulações. Eles são controlados e tratados, ou seja, nós temos que saber qual é sua classificação/anotação correta. Eles são utilizados, como o nome diz, para treinar a rede. Algumas redes não precisam de dados de treino e podem ser executadas no que é chamado de "treino não supervisionado".

Já os dados de uso real são aqueles que iremos testar a nossa rede e que nunca foram executados antes na rede. O resultado dele depende da qualidade e quantidade de dados de treino. Se a rede estiver bem treinada, os resultados dos dados de uso real estarão corretos. 

In [None]:
# Importando as bibliotecas
from fastai.vision import *    # Módulos da rede neural

In [None]:
# Apenas rode caso você esteja no Google Colab!!!

from google.colab import drive # Módulo para manipulação dos arquivos e pastas (Não é necessário para executar localmente)
drive.mount('/content/drive') # Montando o Google Drive
# Definindo a localização dos dados:
data_folder = "/content/drive/My Drive/Introcomp/2019/Aulas/AulasPython/Aula 2.2/Data/train"
# Pasta de imagens de gatos:
cat_folder = 'kittens/'

# Pasta de imagens de cachorros:
dog_folder = 'puppies/'

# Arquivo contendo as anotações:
annotations = 'annotations.csv'


Vamos informar para o nosso programa onde que os nossos dados estão:

In [None]:
# Rode caso você esteja no Jupyter 


data_folder = "Data/train"
# Pasta de imagens de gatos:
cat_folder = 'kittens/'

# Pasta de imagens de cachorros:
dog_folder = 'puppies/'

# Arquivo contendo as anotações:
annotations = 'annotations.csv'


In [None]:
# Definindo um caminho para os arquivos
path = Path(data_folder)
path.ls()

---

Para esse cenário, iremos utilizar uma rede chamada Convolutional Neural Network (CNN). Ela é muito utilizada em domínios que envolvem imagem e reconhecimento de objetos.
O problema que estamos lidando é uma forma de classificação, onde cada dado (neste caso, imagem) tem uma "label" que define um tipo de classe (no caso, se é um cachorro ou gato).

---

In [None]:
# Carregando uma rede pré-definida sem treino, será uma Simple CNN
model = simple_cnn((3, 16, 16, 2))
# O parâmetro é uma tupla contendo os tamanhos das camadas da rede.
# A camada da entrada terá 3 nós
# Terão duas camadas ocultas com 16 nós cada
# A camada da saída tem 2 nós

In [None]:
# Definindo as classes: no nosso caso é uma classe para gatos e outra para cães
classes = ['kittens', 'puppies']

In [None]:
# Verificando imagens:
for c in classes:
  print(c)
  verify_images(path/c, delete=True, max_size=500)

In [None]:
# Carregando os dados
np.random.seed(42)  # O "np" indica uma biblioteca chamada NumPy, muito utilizada, voltada para computação numérica em Python. O random é para utilizar um número aleatório como inicializador dos dados
data = ImageDataBunch.from_folder(path, train=".", valid_pct=0.2,
                      ds_tfms=get_transforms(), size=224, num_workers=4).normalize(imagenet_stats)  # Comando do fast.ai para carregar os dados

In [None]:
# Verificando as classes
data.classes

In [None]:
# Exibindo as nossas classes nomeadas, para verificarmos se está como o esperado
data.show_batch(rows=3, figsize=(7,8))

## 2.2 Treinando a rede <a id='section2.2'></a>

Agora que preparamos os dados, também conhecido como *dataset*, vamos para o treinamento da rede.

Treinar a rede costuma utilizar muitos recursos computacionais, pois é necessário fazer uma quantidade grande de operações matemáticas.

De forma geral o treinamento de uma rede é como colocar o computador para fazer uma prova e ver qual nota ele tira, repetindo este processo milhares de vezes. Cada vez que ele faz a prova ele muda a resposta de uma questão e observa se a nota dele aumentou ou diminuiu. Depois de fazer muito essa prova, ele "aprendeu" a matéria e pode fazer uma prova parecida tentando acertar tudo e tirar um 10.

Assim como uma pessoa, a nota final dele em uma prova desconhecida vai depender da quantidades de provas feitas previamente.

Então a nossa analogia de fazer uma prova se traduz assim para o machine learning:


|Prova |Rede neural|
|--------|---------|
|Questões| Dados|
|Qtd de questões que mudam| Taxa de aprendizado|
|Nota| Métrica |
|Quantidade de provas feitas | Tempo de treinamento|
|Provas que não foram treinadas | Dados de uso real|

---

Muito do treinamento e as operações em baixo nível são abstraídos na biblioteca que estamos utilizando, visando ter um desenvolvimento mais rápido e simples, porém, outras bibliotecas dão maior acesso ao funcionamento interno e parâmetros avançados para usos específicos. Para usar tais bibliotecas, como Keras e PyTorch é recomendado ter um conhecimento mais profundo de estatística e Cálculo.

---

In [None]:
# Definindo nosso modo de aprendizado
learn = cnn_learner(data, models.resnet34, metrics=error_rate)

In [None]:
# Treinando a rede...
learn.fit_one_cycle(4)

In [None]:
learn.save('stage-1') # Salvando o estado atual da rede

In [None]:
# Gerando "estatísticas" sobre o treinamento
learn.unfreeze()
learn.lr_find()

---

Agora vamos ver como que a rede foi aprendendo com o tempo.

A taxa de aprendizado é um parâmetro da rede responsável por regular como que os nós da rede mudam a cada iteração. Uma alta taxa de aprendizado é uma grande mudança a cada iteração e uma baixa taxa é uma pequena mudança a cada iteração. Pode ser representado como quão disposta a rede está de esquecer algo antigo e aprender algo novo.


**Então porquê não colocamos a maior taxa de aprendizado possível?**

Em várias situações o ponto de melhor desempenho da rede não é simples de ser alcançado e seu caminho requer passos bem pequenos. Ter uma taxa alta pode introduzir muito erro no sistema e tornar a rede ineficiente.

---

In [None]:
# Plotando a taxa de aprendizado 
learn.recorder.plot()

---

Pelo gráfico podemos observar que passamos por um estado onde a nossa taxa de erro era menor do que a taxa de erro final, então podemos executar mais algumas etapas de treino para melhorar nossos resultados

---

In [None]:
# Retreinando a rede a fim de obter melhores resultados:
learn.fit_one_cycle(2, max_lr=slice(1e-4, 1e-3))

## 2.3 Melhorando nosso modelo <a id='section2.3'></a>

Foi possível observar que pequenas alterações na quantidade de treino podem resultar em desempenhos bem diferentes. Também notamos que o nosso desempenho pode diminuir com mais testes (procure por *overfitting* na internet) e que treinar duas redes, com os mesmos dados, pelo mesmo tempo pode resultar em 2 algoritmos diferentes pois os pesos dos nós podem ter sido inicializados de forma aleatória e são bem sensíveis às condições iniciais.

Além disso, os parâmetros da rede (tipo de rede, quantidade de camadas, taxa de aprendizado) são outras variáveis que nem chegamos a mexer e alteram ainda mais o nosso resultado, tempo médio de treino, quantidade e qualidade de dados necessários.

Já existem estudos mais avançados na área onde outras redes neurais são utilizadas para otimizar os parâmetros de uma rede neural.

Vamos prosseguir ao exemplo:


In [None]:

# Conseguimos uma taxa de erro bem menor dessa vez
# Salvando o estágio atual
learn.save('stage-2')

In [None]:
# Carregando o estágio atual
learn.load('stage-2')

In [None]:
# Carregando as estatíscas do treino
interp = ClassificationInterpretation.from_learner(learn)

---

Uma outra forma de observar o desempenho de nossa rede é utilizando uma Matriz de confusão

**E como ela funciona?**

Simples: temos uma matriz quadrada, mesma quantidade de linhas e colunas, onde cada linha e coluna representam uma classe. Um dos eixos dessa matriz contém as classes que a nossa rede previu e o outro eixo qual que era a classe correta. 

Então as células que têm o mesmo nome no eixo X e no eixo Y indicam as previsões corretas de nossa rede, e as outras células são as *confusões* que ela teve e classificou errado.

Ou seja: queremos uma diagonal da matriz com o maior valor possível e bem distribuído.


**Como ficaria a matriz caso tivéssemos mais classes?**

Como a matriz tem uma linha e uma coluna para cada classe, a dimensão da matriz é sempre de NxN, onde N é a quantidade de classes.

---

In [None]:
# Plotando uma matriz de confusão
interp.plot_confusion_matrix()

In [None]:
# Poucos erros, estamos bem!

# Exportando a rede
learn.export()

## 2.4 Colocando à prova <a id='section2.4'></a>

Então agora iremos expor o nosso programa à dados que ele nunca viu antes e vamos ver se ele está de acordo com nossas expectativas e consegue cumprir a missão:

In [None]:
# Carregando a imagem
img = open_image(path/'..'/'test'/'puggo.jpg')

In [None]:
# Exibindo a imagem carregada
img

In [None]:
# Carregando a rede que treinamos:
learn = load_learner(path)

In [None]:
# Predizendo "que bicho é esse?" com a rede treinada:
pred_class,pred_idx,outputs = learn.predict(img)
pred_class

## Exercício
Agora é sua vez de verificar o funcionamento da rede. Pegue QUALQUER imagem que ache interessante e verifique sua categoria.

In [None]:
# Verifique aqui

# 3. Referências e mais conteúdo  <a id='section3'> </a>

* <a href="https://github.com/fastai/course-v3"> Curso completo sobre Machine Learning em formato de notebooks (fast.aiV3) </a>
* <a href="https://playground.tensorflow.org"> Google TensorFlow Playground </a>
* <a href="https://www.youtube.com/watch?v=Ucp0TTmvqOE"> Tesla Autonomy Day (Tesla)</a>
* <a href="UC0e3QhIYukixgh5VVpKHH9Q">Canal no YouTube de entretenimento educativo (Code Bullet) </a>
* <a href="https://www.youtube.com/user/carykh">Canal no YouTube com animações e apresentações sobre redes neurais (carykh) </a>
* <a href="https://www.3blue1brown.com/neural-networks">Playlist explicando sobre a teoria das redes neurais de forma mais aprofundada (3Blue1Brown) </a>
* <a href="https://www.youtube.com/watch?v=R9OHn5ZF4Uo"> How Machines Learn (CGP Grey) </a>
* <a href="https://cs.stanford.edu/people/karpathy/convnetjs/index.html"> Deep Learning in your browser (ConvNetJS) </a>
* <a href="https://www.youtube.com/watch?v=6g4O5UOH304"> TensorFlow 2.0 Full Tutorial - Python Neural Networks for Beginners (FreeCodeCamp.org) </a>

