In [1]:
%matplotlib inline

# Introdução

Uma _linguagem de programação_ representa o meio de comunicação entre um indivíduo e um computador. Uma das grandes complexidades desse contexto é a diferença entre o formato do pensamento humano e o processamento computacional: o primeiro é, geralmente, não estruturado, enquanto o segundo requer precisão.

Outra complexidade, em um sentido mais prático, é que computadores digitais entendem apenas a chamada _linguagem de máquina_, que é considerada como de baixo nível. Por outro lado, quanto mais de alto nível é uma linguagem de programação, mais ela se encontra próxima do formato de expressão humano e do contexto do problema a ser resolvido.

Para resolver a incompatibilidade de idioma, são utilizados os _compiladores_ ou _interpretadores_, que aceitam como entrada um programa (chamado _programa-fonte_) e produzem uma representação do mesmo na _linguagem objeto_.

## Evolução das linguagens de programação

Didaticamente, as linguagens são categorizadas em gerações:

* **1a. geração - linguagem de máquina**: código binário
* **2a. geração**: linguagens simbólicas ou de montagem (_Assembly_)
* **3a. geração - alto-nível**: linguagens procedurais e declarativas, voltadas para aplicações científicas ou comerciais (FORTRAN, PASCAL, ALGOL, COBOL, PL/I, ADA)
* **4a. geração**: linguagens voltadas a contextos específicos (Matlab, Mathematica)
* **5a. geração**: linguagens lógicas (PROLOG)

A figura a seguir apresenta uma relação mais extensa de linguagens e gerações.

![](https://www.cs.ubc.ca/wccce/Program03/papers/TongXu/TongXu_files/image002.gif)
Fonte: Online: https://www.cs.ubc.ca/wccce/Program03/papers/TongXu/TongXu.htm

Além disso, estes links também fornecem bastante conteúdo interessante:
* [Wikipedia - Timeline of programming languages](https://en.wikipedia.org/wiki/Timeline_of_programming_languages)
* [Wikipedia - History of programming languages](https://en.wikipedia.org/wiki/History_of_programming_languages)
* [Computer languages history](https://www.levenez.com/lang/)

## Tradutores de linguagens de programação

Um _tradutor_ aceita como entrada um programa escrito em _linguagem fonte_ e produz como resultado um programa em _linguagem objeto_.

Classificação dos tradutores:
* **Montadores (assemblers)**: mapeiam instruções em linguagem simbólica para linguagem de máquina numa relação uma-para-uma
* **Macro-assemblers**: mapeiam instruções em linguagem simbólica para linguagem de máquina numa relação uma-para-várias
* **Compiladores**: mapeiam programas escritos em linguagem de alto nível para programas equivalentes em linguagem simbólica ou linguagem de máquina
* **Pré-compiladores, Pré-processadores ou Filtros**: efetuam traduções (conversões) entre duas linguagens de programação de alto nível
* **Interpretadores**: aceitam como entrada o código intermediário de um programa anteriormente traduzido e produzem um _efeito de execução_, sem mapeá-lo para linguagem de máquina.

Chama-se _tempo de compilação_ o intervalo de tempo no qual ocorre a tradução e _tempo de execução_, quando o programa objeto é executado. No caso de interpretadores, a principal desvantagem é o tempo de execução, que é maior do que o tempo necessário para executar um programa objeto (ou compilado) equivalente. Em contrapartida, a maior vantagem é que estão geralmente mais próximos do código-fonte, podendo fornecer recursos de verificação de erros e depuração de forma mais amigável.

## Estrutura de um tradutor

O processo de tradução é estruturado em fases, como mostra a figura a seguir.

![](estrutura-compilador.jpg)

Cada fase do processo de tradução se comunica com a seguinte através de uma linguagem intermediária adequada. 

### Análise léxica

O objetivo desta fase, a primeira do processo de tradução, é identificar sequências de caracteres que constituem _unidades léxicas_ (_tokens_), o que é feito a partir da entrada: o _programa fonte_. Os _tokens_ são classes de símbolos como: palavras reservadas, delimitadores, identificadores etc. É esta fase que inicia a construção da Tabela de Símbolos e envia mensagens de erro, se identificar _tokens_ não aceitos pela linguagem em questão.

A saída desta fase é uma cadeia de _tokens_, que é passada para a fase seguinte, a  Análise sintática.

**Exemplo 1.1:**

```
while i < 100 do i = i + j;
```

A saída da análise léxica é a cadeia de tokens. No caso de identificadores de variáveis e constantes, há o par [classe do símbolo, índice de tabela].

|token  |identificação     |
|-------|------------------|
|`while`|palavra reservada |
|`i`    |[identificador, 1]|
|`<`    |operador          |
|`100`  |[constante, 2]    |
|`do`   |palavra reservada |
|`i`    |[identificador, 1]|
|`=`    |operador          |
|`i`    |[identificador, 1]|
|`+`    |operador          |
|`j`    |[identificador, 3]|
|`;`    |terminador        |

### Análises Sintática e Semântica

A fase de Análise sintática tem o objetivo de verificar se a estrutura gramatical do programa está correta (se foi formada usando as regras gramaticais da linguagem).

O Analisador sintático identifica sequências de símbolos que constituem estruturas sintáticas (ex.: expressões, instruções ou comandos) através do processo de _parsing_ da cadeia de tokens do programa fonte (saída da fase de Análise léxica). A saída deste processo é uma estrutura em árvore, chamada _árvore de derivação_, que exibe a _estrutura sintática do programa fonte_, que resulta da aplicação das regras gramaticais da linguagem.

Esta fase também trata erros de sintaxe, identificando a posição e o tipo do erro ocorrido e faz isso mesmo com a ocorrência de vários erros.

A fase de Análise semântica tem o objetivo de verificar se as estruturas sintáticas analisadas fazem sentido (ex.: se um identificador declarado como variável é usado como tal).

Considere a sintaxe de uma instrução `while` em uma linguagem de programação:

```
while <expressão> do <comando>;
```

A análise semântica identifica se `<expressão>` é avaliada resultando em um valor booleano (verdadeiro/falso). 

Outra parte importante desse processo são as _regras gramaticais_. Elas podem ser descritas através de _regras de produção_ (ou _regras geradoras_) compostas por símbolos terminais (que fazem parte do código-fonte) e símbolos não-terminais (que geram outras regras). O exemplo a seguir usa a _Forma Normal de Backus_ (BNF).

**Exemplo 1.2: Produções BNF**

```
<comando>              ::= <while>
<while>                ::= while <expressão-booleana> do <comando>
<atribuição>           ::= <variável> = <expressão>
<expressão>            ::= <expressão-booleana> | <expressão-aritmética>
<expressão-booleana>   ::= <expressão-aritmética> < <expressão-aritmética>
<expressão-aritmética> ::= <expressão-aritmética> + <termo> | <termo>
<termo>                ::= <número> | <variável>
<variável>             ::= i | j
<número>               ::= 100
```

As regras de produção seguem uma sintaxe:
* símbolos não-terminais aparecem entre `<>`
* o sinal `|` é usado para representar opções (ou)

Em extensões da BNF podem ser usadas representações baseadas em _expressões regulares_ (como é o caso da regra que determina o símbolo não-terminal `número`).

**Exemplo 1.3: Árvore de derivação**

Considerando o **Exemplo 1.1**, o Analisador sintático produziria a árvore de derivação ilustrada pela figura a seguir.

![](syntax_tree-exemplo-1-3.png)

Essa árvore de derivação foi gerada por meio da ferramenta on-line **phpSyntaxTree** (disponível em: http://ironcreek.net/phpsyntaxtree/). O código utilizado para gerá-la está descrito a seguir.

**Código para gerar a árvore de derivação do Exemplo 1.3**

```
[comando 
    [while 
        [while]
        [expressão-booleana    
            [expressão-aritmética 
                [termo 
                    [variável i]
                ]
            ]
            [<]
            [expressão-aritmética
                [termo
                    [número 100]
                ]
            ]
        ]
        [do]
        [comando
            [atribuição
                [variável i]
                [=]
                [expressão-aritmética
                    [expressão-aritmética
                        [termo
                            [variável i]
                        ]
                    ]
                    [+]
                    [expressão-aritmética
                        [termo
                            [variável j]
                        ]
                    ]
                ]
            ]
        ]
    ]
]
```

**Obs.:** O código foi formatado para facilitar a leitura (adicionando espaços e quebras de linha).

### Geração de código intermediário

A fase de Geração de código intermediário usa a árvore de derivação e gera como saída uma sequência de código, que pode ser o código intermediário ou código objeto (final). No caso de tradutores simples, esta fase é opcional, pois ocorre tradução direta para código objeto. 

**Exemplo 1.4: Código intermediário**.

A árvore de decisão do **Exemplo 1.3** poderia gerar o código intermediário a seguir.

```
L0: if i < 100 goto L1
    goto L2
L1: temp = j + i
    i = temp
    goto L0
L2: ...
```

Neste código intermediário, foi eliminada a palavra-chave `while` e foram introduzidos os `labels` (como o `L0`).

A tradução pode executar a fase de Geração de código intermediário em vários passos, o que traz vantagens:
* possibilita a otimização do código intermediário
* resolve dificuldades da passagem de código fonte para código objeto (alto nível para baixo nível)

### Otimização de código

A fase de Otimização de código tem o objetivo de otimizar o código intermediário em termos de velocidade e uso de memória. Conforme o projeto do tradutor (seus objetivos e as restrições).

**Exemplo 1.5: Código otimizado**

```
L0: if i >= 100 goto L2
    i = j + i
    goto L0
L2: ...
```

### Geração de código objeto

A fase geração de código objeto tem como objetivos:
* produção de código objeto (eficiente e/ou otimizado)
* reserva de memória para constantes e variáveis
* seleção de registradores

**Exemplo 1.6: Código objeto: código em linguagem simbólica - Assembly para o microcomputador PC8086:**

```
L0: MOV AX, I
    CMP AX, 100
    JGE L2
    MOV AX, J
    MOV BX, I
    ADD BX
    MOV I, AX
    JMP L0
L2: ...
```

É importante observar que este código ainda não é, essencialmente, o _código de máquina_ (binário). 

### Gerência de tabelas

A Gerência de tabelas não é essencialmente uma fase, como as anteriores, mas compreende um conjunto de tabelas que são usadas por quase todas as fases do processo de tradução. Há tabelas fixas para cada linguagem, como a _tabela de palavras reservadas_ e _tabela de delimitadores_. Entretanto, é importante reunir informações do código fonte como:
* declarações de variáveis
* declarações de procedimentos ou subrotinas (funções)
* parâmetros de funções

Essas informações geram a _tabela de símbolos_ (ou _tabela de identificadores_). Os atributos mais comumente registrados são:
* para variáveis: classe (variável), tipo, endereço no texto, posição, tamanho
* funções: classe (função), número de parâmetros
* parâmetros de funções: classe (parâmetro), tipo, mecanismo de passagem

**Exemplo 1.7: Tabela de símbolos**

|Índice|Categoria (classe)|Nome|Tipo   |Endereço no texto|Posição|Tamanho|
|------|------------------|----|-------|-----------------|-------|-------|
|1     |variável          |i   |inteiro|...              |...    |...    |
|2     |constante         |    |inteiro|...              |...    |...    |
|3     |variável          |j   |inteiro|...              |...    |...    |



### Atendimento a erros

Da mesma forma que a Gerência de tabelas, o Atendimento a erros não é uma fase, mas é usada por algumas fases. O objetivo é tratar erros que são detectados nas fases de análise do programa fonte. A tradução prossegue mesmo com a detecção de erros, de modo que todo o texto seja analisado.

### Exemplo prático do processo de tradução

Este exemplo é feito utilizando o compilador **gcc**, em ambiente Linux (Ubuntu).

**Arquivo hello.c**

```
#include<stdio.h>

main()
{
    printf("Hello World");
}
```

Processo de tradução usando **gcc**:

```
gcc -E hello.c > hello-pre.c  # pré-processamento
gcc -c hello-pre.c -o hello.o # compilação, geração do programa objeto
nm hello.o                    # tabela de símbolos do programa objeto
gcc hello.o -o hello          # montagem, geração do código de máquina
nm hello                      # tabela de símbolos do código de máquina
ldd hello                     # dependências entre objetos (ex: bibliotecas)
gcc -S -c hello.c             # código assembly gerado a partir do hello.c
gcc -S -c hello-pre.c         
hexdump hello.o | wc          # contagem de símbolos (estatística)
hexdump hello | wc
```

## Geradores de compiladores

A implementação de linguagens de programação é apoiada por _geradores de compiladores_, que são classificados em três grupos:
1. **Geradores de analisadores léxicos**: geram reconhecedores de símbolos léxicos a partir de especificações de gramáticas ou expressões regulares
2. **Geradores de analisadores sintáticos**: geram reconhecedores sintáticos a partir de _gramáticas livres do contexto_ (GLC, como a BNF). É considerada a fase mais fácil de implementar
3. **Geradores de código**: recebem como entrada regras que definem a tradução de cada operação da linguagem intermediária para a linguagem de máquina.

## Exercícios

1. No contexto de implementação de linguagens de programação, conceitue: compilador, interpretador, montador, pré-compilador.

2. Aponte as vantagens e desvantagens dos interpretadores em relação aos compiladores.

3. Explique o processo de compilação: fases e seus inter-relacionamentos

4. Utilize uma GLC (como a BNF) para representar um subconjunto de regras gramaticais da língua portuguesa (quanto mais regras de produção você utilizar, melhor). Crie instâncias de texto que atendam a essas regras (pelo menos três frases).

**Leitura recomendada**

WOLFRAM, Stephen. Programming with Natural Language is actually going to Work. Online: <http://blog.wolfram.com/2010/11/16/programming-with-natural-language-is-actually-going-to-work/>

HERKEWITZ, William. Why Watson and Siri Are Not Real AI. Entrevista com Douglas Hofstadter. Online: <http://www.popularmechanics.com/science/a3278/why-watson-and-siri-are-not-real-ai-16477207/>.