<a href="https://colab.research.google.com/github/lucianoayres/deep-learning-challenge-01-data-representation/blob/main/Deep_Learning_Problema_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Deep Learning: Desafio 01
##Representação de Dados

Gerar uma matriz, a partir de um ou de ambos os textos anexo.

Temos que ser capazes de voltar ao texto a partir da matriz. Podemos abrir mão de caracteres especiais e pontuação.

Deve ser entregue a matriz, um texto explicando a estratégia e o código fonte utilizado para gerar a matriz (quando houver).


In [113]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [114]:
# ler arquivos
base_text_1 = "/content/drive/MyDrive/PosGrad/Base Text - Matrix Representation I.txt"
base_text_2 = "/content/drive/MyDrive/PosGrad/Base Text - Matrix Representation II.txt"

# Solução

# Convertendo Texto em Matriz: Método e Estratégia

A representação de dados é crucial nas áreas de Deep Learning e Inteligência Artificial para alimentar os modelos e extrair informações significativas. Um aspecto fundamental é converter texto em uma forma que os algoritmos possam entender e processar eficientemente. Esse processo é essencial em muitas aplicações de processamento de linguagem natural (PLN) e aprendizado de máquina.

## O Desafio da Representação de Texto

O texto é uma forma de dados fundamental em muitas tarefas de inteligência artificial, como classificação de documentos, tradução automática e geração de conteúdo. No entanto, as redes neurais e outros modelos de aprendizado profundo operam com tensores, ou seja, matrizes multidimensionais. Portanto, é necessário converter o texto em uma representação tensorial para utilizá-lo em tais modelos.

## Método de Conversão

O método utilizado neste código-fonte para converter texto em matriz é composto pelas seguintes etapas:

### 1. Extração e Limpeza de Texto

O texto é extraído de um arquivo e, opcionalmente, passa por um processo de remoção de caracteres especiais e pontuações. Isso garante que apenas os caracteres relevantes sejam considerados no processo subsequente.

### 2. Criação de Mapeamentos

Um dicionário de mapeamento é criado, associando cada caractere único a um índice e vice-versa. Essa etapa é crucial para traduzir entre o texto e sua representação numérica.

### 3. Conversão para Sequência de Números

O texto é convertido em uma sequência de números, utilizando o dicionário de mapeamento gerado na etapa anterior. Cada caractere é substituído pelo seu índice correspondente.

### 4. Padding e Criação da Matriz

A sequência numérica resultante é então transformada em uma matriz, com um comprimento máximo predefinido. O preenchimento (padding) é aplicado para garantir que todas as sequências tenham o mesmo comprimento, facilitando o processamento em lote (batch processing).

### 5. Decodificação

Para verificar a integridade do processo, a matriz resultante é decodificada de volta para o texto original, utilizando o mapeamento inverso. Isso permite comparar o texto reconstruído com o texto original, verificando se a conversão foi realizada com sucesso.

## Estratégia de Implementação

A estratégia adotada neste método prioriza a eficiência e a generalidade. Ao utilizar estruturas de dados como dicionários para mapear entre caracteres e índices, o processo de conversão se torna rápido e escalável para diferentes conjuntos de dados. Além disso, a inclusão de etapas opcionais, como a remoção de caracteres especiais, aumenta a flexibilidade do método, permitindo que ele seja adaptado para diferentes requisitos de aplicação.

## Conclusão

A conversão de texto em matriz é um passo essencial em muitas tarefas de processamento de linguagem natural e aprendizado de máquina. O método descrito aqui oferece uma abordagem eficaz e flexível para realizar essa conversão, empregando técnicas de limpeza de dados, mapeamento de caracteres e padding para criar representações tensoriais adequadas para alimentar modelos de inteligência artificial.

In [115]:
import numpy as np

# Extrai o conteúdo de texto do arquivo
def extract_file_content(file_path):
  try:
    with open(file_path, "r") as file:
     file_content = file.read()
     return file_content
  except FileNotFoundError:
      print(f"Error: File '{file_path}' not found.")
  except Exception as e:
      print(f"An error occurred: {e}")

# Remove caracteres especiais e pontuações
def remove_special_chars(text):
    special_chars = '''!()-[]{};:'"\,<>./?@#$%^&*_~'''
    clean_text = ""
    for char in text:
        if char.isalnum() or char.isspace():
            clean_text += char
    return clean_text

# Cria um dicionário de mapeamento de caracteres para índices e vice-versa
def create_mapping(text):
    chars = sorted(list(set(text)))
    char_to_idx = {char: idx for idx, char in enumerate(chars)}
    idx_to_char = {idx: char for char, idx in char_to_idx.items()}
    return char_to_idx, idx_to_char

# Converte o texto em uma sequência de números usando o dicionário de mapeamento
def text_to_sequence(text, char_to_idx):
    return [char_to_idx[char] for char in text]

# Converte uma sequência de números de volta ao texto usando o dicionário de mapeamento
def sequence_to_text(sequence, idx_to_char):
    return ''.join([idx_to_char[idx] for idx in sequence])

# Converte o texto em uma matriz com números
def text_to_matrix(text, char_to_idx, max_length):
    sequence = text_to_sequence(text, char_to_idx)
    padded_sequence = sequence + [0] * (max_length - len(sequence))
    return np.array(padded_sequence).reshape(1, -1)

# Converte uma matriz de números de volta ao texto usando o dicionário de mapeamento
def matrix_to_text(matrix, idx_to_char):
    sequence = matrix.squeeze().tolist()
    return sequence_to_text(sequence, idx_to_char)

# Exibe a matriz na tela
def print_matrix(matrix):
    for row in matrix:
        print(' '.join(str(cell) for cell in row))

# Faz a conversão para matriz e decodifica o texto
def get_matrix_and_decoded_text(text, special_chars=True):
    # Remover caracteres especiais e pontuação do texto, se especificado
    if not special_chars:
        text = remove_special_chars(text)

    # Criar mapeamentos de caractere para índice e índice para caractere
    char_to_idx, idx_to_char = create_mapping(text)

    # Converter o texto para uma matriz
    max_length = len(text)
    matrix = text_to_matrix(text, char_to_idx, max_length)

    # Converter a matriz de volta para texto
    decoded_text = matrix_to_text(matrix, idx_to_char)

    # Verificar se a conversão foi bem-sucedida
    result = decoded_text == text

    return {
        "result": result,
        "matrix": matrix,
        "decoded_text": decoded_text
    }

## Converte o Texto 1

In [116]:
# Exatrai o texto do arquivo 1
text_1 = extract_file_content(base_text_1)

# Exibe o conteúdo do arquivo na tela
print(text_1)

De motu Circulari Fluidorum.

Hypothesis.
Resistentiam, quæ oritur ex defectu lubricitatis partium Fluidi, cæteris paribus, proportionalem esse velocitati, qua partes Fluidi separantur ab invicem.

Prop. LI. Theor. XXXVIII.
Si Cylindrus solidus infinitè longus in fluido uniformi & infinito circa axem positione datum uniformi cum motu revolvatur, & ab hujus impulsu solo agatur Fluidum in Orbem, perseveret autem fluidi pars unaquæque uniformiter in motu suo; dico quod tempora periodica partium fluidi sunt ut ipsarum distantiæ ab axe cylindri.

Sit AFL cylindrus uniformiter circa axem S in orbem actus, & circulis concentricis BGM, CHN, DIO, EKP, &c. distinguatur fluidum in orbes cylindricos innumeros concentricos solidos ejusdem crassitudinis. Et quoniam homogeneum est Fluidum, impressiones contiguorum orbium in se mutuò factæ, erunt (per Hypothesin) ut eorum translationes ab invicem & superficies contiguæ in quibus impressiones fiunt. Si impressio in Orbem aliquem major est vel minor, ex

In [117]:
# Converte o texto para a matrix e decodificado com a flag de remoção de caracteres especiais e pontuação ativada
converted_text_1 = get_matrix_and_decoded_text(text_1)

In [118]:
# Verifica se a conversão foi realizada com sucesso
print(converted_text_1["result"])

True


In [119]:
# Exibe a matriz na tela
print_matrix(converted_text_1["matrix"])

22 46 1 53 55 60 61 1 21 50 58 44 61 52 42 58 50 1 24 52 61 50 45 55 58 61 53 6 0 0 26 64 56 55 60 49 46 59 50 59 6 0 36 46 59 50 59 60 46 54 60 50 42 53 5 1 57 61 66 1 55 58 50 60 61 58 1 46 63 1 45 46 47 46 44 60 61 1 52 61 43 58 50 44 50 60 42 60 50 59 1 56 42 58 60 50 61 53 1 24 52 61 50 45 50 5 1 44 66 60 46 58 50 59 1 56 42 58 50 43 61 59 5 1 56 58 55 56 55 58 60 50 55 54 42 52 46 53 1 46 59 59 46 1 62 46 52 55 44 50 60 42 60 50 5 1 57 61 42 1 56 42 58 60 46 59 1 24 52 61 50 45 50 1 59 46 56 42 58 42 54 60 61 58 1 42 43 1 50 54 62 50 44 46 53 6 0 0 34 58 55 56 6 1 30 27 6 1 38 49 46 55 58 6 1 41 41 41 40 27 27 27 6 0 37 50 1 21 64 52 50 54 45 58 61 59 1 59 55 52 50 45 61 59 1 50 54 47 50 54 50 60 67 1 52 55 54 48 61 59 1 50 54 1 47 52 61 50 45 55 1 61 54 50 47 55 58 53 50 1 2 1 50 54 47 50 54 50 60 55 1 44 50 58 44 42 1 42 63 46 53 1 56 55 59 50 60 50 55 54 46 1 45 42 60 61 53 1 61 54 50 47 55 58 53 50 1 44 61 53 1 53 55 60 61 1 58 46 62 55 52 62 42 60 61 58 5 1 2 1 42 43 1 49 61

In [120]:
# Exibe o texto sem caracteres especiais e sem pontuação decodificado à partir da matriz
print(converted_text_1["decoded_text"])

De motu Circulari Fluidorum.

Hypothesis.
Resistentiam, quæ oritur ex defectu lubricitatis partium Fluidi, cæteris paribus, proportionalem esse velocitati, qua partes Fluidi separantur ab invicem.

Prop. LI. Theor. XXXVIII.
Si Cylindrus solidus infinitè longus in fluido uniformi & infinito circa axem positione datum uniformi cum motu revolvatur, & ab hujus impulsu solo agatur Fluidum in Orbem, perseveret autem fluidi pars unaquæque uniformiter in motu suo; dico quod tempora periodica partium fluidi sunt ut ipsarum distantiæ ab axe cylindri.

Sit AFL cylindrus uniformiter circa axem S in orbem actus, & circulis concentricis BGM, CHN, DIO, EKP, &c. distinguatur fluidum in orbes cylindricos innumeros concentricos solidos ejusdem crassitudinis. Et quoniam homogeneum est Fluidum, impressiones contiguorum orbium in se mutuò factæ, erunt (per Hypothesin) ut eorum translationes ab invicem & superficies contiguæ in quibus impressiones fiunt. Si impressio in Orbem aliquem major est vel minor, ex

## Converte o Texto 2

In [121]:
# Exatrai o texto do arquivo 2
text_2 = extract_file_content(base_text_2)

# Exibe o conteúdo do arquivo na tela
print(text_2)

Videns autem turbas, ascendit in montem; et cum sedisset, ac cesserunt ad eum discipuli eius; et aperiens os suum docebat eos dicens:
Beati pauperes spiritu, quoniam ipsorum est regnum caelorum.
Beati, qui lugent, quoniam ipsi consolabuntur.
Beati mites, quoniam ipsi possidebunt terram.
Beati, qui esuriunt et sitiunt iustitiam, quoniam ipsi saturabuntur.
Beati misericordes, quia ipsi misericordiam consequentur.
Beati mundo corde, quoniam ipsi Deum videbunt.
Beati pacifici, quoniam filii Dei vocabuntur.
Beati, qui persecutionem patiuntur propter iustitiam, quoniam ipsorum est regnum caelorum.
Beati estis cum maledixerint vobis et persecuti vos fuerint et dixerint omne malum adversum vos, mentientes, propter me.
Gaudete et exsultate, quoniam merces vestra copiosa est in caelis; sic enim persecuti sunt prophetas, qui fuerunt ante vos.
Vos estis sal terrae; quod si sal evanuerit, in quo salietur? Ad nihilum valet ultra, nisi ut mittatur foras et conculcetur ab hominibus.
Vos estis lux mund

In [122]:
# Converte o texto para a matrix e decodificado com a flag de remoção de caracteres especiais e pontuação ativada
converted_text_2 = get_matrix_and_decoded_text(text_2)

In [123]:
# Verifica se a conversão foi realizada com sucesso
print(converted_text_2["result"])

True


In [124]:
# Exibe a matriz na tela
print_matrix(converted_text_2["matrix"])

27 36 31 32 39 44 1 28 46 45 32 38 1 45 46 43 29 28 44 4 1 28 44 30 32 39 31 36 45 1 36 39 1 38 40 39 45 32 38 7 1 32 45 1 30 46 38 1 44 32 31 36 44 44 32 45 4 1 28 30 1 30 32 44 44 32 43 46 39 45 1 28 31 1 32 46 38 1 31 36 44 30 36 41 46 37 36 1 32 36 46 44 7 1 32 45 1 28 41 32 43 36 32 39 44 1 40 44 1 44 46 46 38 1 31 40 30 32 29 28 45 1 32 40 44 1 31 36 30 32 39 44 6 0 10 32 28 45 36 1 41 28 46 41 32 43 32 44 1 44 41 36 43 36 45 46 4 1 42 46 40 39 36 28 38 1 36 41 44 40 43 46 38 1 32 44 45 1 43 32 34 39 46 38 1 30 28 32 37 40 43 46 38 5 0 10 32 28 45 36 4 1 42 46 36 1 37 46 34 32 39 45 4 1 42 46 40 39 36 28 38 1 36 41 44 36 1 30 40 39 44 40 37 28 29 46 39 45 46 43 5 0 10 32 28 45 36 1 38 36 45 32 44 4 1 42 46 40 39 36 28 38 1 36 41 44 36 1 41 40 44 44 36 31 32 29 46 39 45 1 45 32 43 43 28 38 5 0 10 32 28 45 36 4 1 42 46 36 1 32 44 46 43 36 46 39 45 1 32 45 1 44 36 45 36 46 39 45 1 36 46 44 45 36 45 36 28 38 4 1 42 46 40 39 36 28 38 1 36 41 44 36 1 44 28 45 46 43 28 29 46 39 45 46 43

In [125]:
# Exibe o texto sem caracteres especiais e sem pontuação decodificado à partir da matriz
print(converted_text_2["decoded_text"])

Videns autem turbas, ascendit in montem; et cum sedisset, ac cesserunt ad eum discipuli eius; et aperiens os suum docebat eos dicens:
Beati pauperes spiritu, quoniam ipsorum est regnum caelorum.
Beati, qui lugent, quoniam ipsi consolabuntur.
Beati mites, quoniam ipsi possidebunt terram.
Beati, qui esuriunt et sitiunt iustitiam, quoniam ipsi saturabuntur.
Beati misericordes, quia ipsi misericordiam consequentur.
Beati mundo corde, quoniam ipsi Deum videbunt.
Beati pacifici, quoniam filii Dei vocabuntur.
Beati, qui persecutionem patiuntur propter iustitiam, quoniam ipsorum est regnum caelorum.
Beati estis cum maledixerint vobis et persecuti vos fuerint et dixerint omne malum adversum vos, mentientes, propter me.
Gaudete et exsultate, quoniam merces vestra copiosa est in caelis; sic enim persecuti sunt prophetas, qui fuerunt ante vos.
Vos estis sal terrae; quod si sal evanuerit, in quo salietur? Ad nihilum valet ultra, nisi ut mittatur foras et conculcetur ab hominibus.
Vos estis lux mund

## Solução Alternativa: Removendo Caracteres Especiais e Pontuação

In [126]:
# Converte o texto para a matrix e decodificado com a flag de remoção de caracteres especiais e pontuação ativada
converted_text_1 = get_matrix_and_decoded_text(text=text_1, special_chars=False)

In [127]:
# Verifica se a conversão foi realizada com sucesso
print(converted_text_1["result"])

True


In [128]:
# Exibe a matriz na tela
print_matrix(converted_text_1["matrix"])

15 39 1 46 48 53 54 1 14 43 51 37 54 45 35 51 43 1 17 45 54 43 38 48 51 54 46 0 0 19 57 49 48 53 42 39 52 43 52 0 29 39 52 43 52 53 39 47 53 43 35 46 1 50 54 59 1 48 51 43 53 54 51 1 39 56 1 38 39 40 39 37 53 54 1 45 54 36 51 43 37 43 53 35 53 43 52 1 49 35 51 53 43 54 46 1 17 45 54 43 38 43 1 37 59 53 39 51 43 52 1 49 35 51 43 36 54 52 1 49 51 48 49 48 51 53 43 48 47 35 45 39 46 1 39 52 52 39 1 55 39 45 48 37 43 53 35 53 43 1 50 54 35 1 49 35 51 53 39 52 1 17 45 54 43 38 43 1 52 39 49 35 51 35 47 53 54 51 1 35 36 1 43 47 55 43 37 39 46 0 0 27 51 48 49 1 23 20 1 31 42 39 48 51 1 34 34 34 33 20 20 20 0 30 43 1 14 57 45 43 47 38 51 54 52 1 52 48 45 43 38 54 52 1 43 47 40 43 47 43 53 60 1 45 48 47 41 54 52 1 43 47 1 40 45 54 43 38 48 1 54 47 43 40 48 51 46 43 1 1 43 47 40 43 47 43 53 48 1 37 43 51 37 35 1 35 56 39 46 1 49 48 52 43 53 43 48 47 39 1 38 35 53 54 46 1 54 47 43 40 48 51 46 43 1 37 54 46 1 46 48 53 54 1 51 39 55 48 45 55 35 53 54 51 1 1 35 36 1 42 54 44 54 52 1 43 46 49 54 45 5

In [129]:
# Exibe o texto sem caracteres especiais e sem pontuação decodificado à partir da matriz
print(converted_text_1["decoded_text"])

De motu Circulari Fluidorum

Hypothesis
Resistentiam quæ oritur ex defectu lubricitatis partium Fluidi cæteris paribus proportionalem esse velocitati qua partes Fluidi separantur ab invicem

Prop LI Theor XXXVIII
Si Cylindrus solidus infinitè longus in fluido uniformi  infinito circa axem positione datum uniformi cum motu revolvatur  ab hujus impulsu solo agatur Fluidum in Orbem perseveret autem fluidi pars unaquæque uniformiter in motu suo dico quod tempora periodica partium fluidi sunt ut ipsarum distantiæ ab axe cylindri

Sit AFL cylindrus uniformiter circa axem S in orbem actus  circulis concentricis BGM CHN DIO EKP c distinguatur fluidum in orbes cylindricos innumeros concentricos solidos ejusdem crassitudinis Et quoniam homogeneum est Fluidum impressiones contiguorum orbium in se mutuò factæ erunt per Hypothesin ut eorum translationes ab invicem  superficies contiguæ in quibus impressiones fiunt Si impressio in Orbem aliquem major est vel minor ex parte concava quàm ex parte conv