# Processamento de Textos com Métodos Nativos (*Built-in*)

Este notebook é dedicado à manipulação de dados textuais com métodos e funções built-in de Python.

Os dados textuais podem estar presentes em diversas situações. Por exemplo, ao lidar com dados categóricos, é possível encontrar palavras e expressões que possuam caracteres especiais ou mesmo erros de digitação. Eles podem prejudicar operações com dataframes e arrays. Logo, mesmo quando os dados tabulares não tiverem como finalidade principal a manipulação de textos, saber realizar o pré-processamento desses dados é imprescindível para arrays e dataframes.

Além disso, algumas funções ou métodos de manipulação de strings podem solicitar qual tipo de codificação de caracteres é desejável. A UTF-8 é atualmente uma das codificações de caracteres mais utilizadas, sendo frequentemente a mais recomendável. Ao final deste notebook foi incluída uma breve história sobre a codificação dos caracteres.

Em linguagens como C/C++ existem variáveis do tipo char (que representam um caractere único). Contudo, em Python, o tipo de dado para textos (a partir de um caractere) é somente string. Em situações excepcionais, textos podem ser representados como tipo object. Porém, para que seja viável a modificação deles, o tipo de dado deve ser alterado para string (str).

In [None]:
# Verificando que string de um caractere é do tipo str

one_char = 'A'
print(type(one_char))
string = 'O Brasil possui 26 estados e o Distrito Federal, sendo São Paulo o estado mais populoso.'
print(type(string))

<class 'str'>
<class 'str'>


In [None]:
# As strings não podem ser modificadas diretamente

string[0]='a'

TypeError: ignored

In [None]:
# Modificando uma string transformada para lista

list_string = list(string)
list_string[0] = '0'
print(list_string)
print(string)

['0', ' ', 'B', 'r', 'a', 's', 'i', 'l', ' ', 'p', 'o', 's', 's', 'u', 'i', ' ', '2', '6', ' ', 'e', 's', 't', 'a', 'd', 'o', 's', ' ', 'e', ' ', 'o', ' ', 'D', 'i', 's', 't', 'r', 'i', 't', 'o', ' ', 'F', 'e', 'd', 'e', 'r', 'a', 'l', ',', ' ', 's', 'e', 'n', 'd', 'o', ' ', 'S', 'ã', 'o', ' ', 'P', 'a', 'u', 'l', 'o', ' ', 'o', ' ', 'e', 's', 't', 'a', 'd', 'o', ' ', 'm', 'a', 'i', 's', ' ', 'p', 'o', 'p', 'u', 'l', 'o', 's', 'o', '.']
O Brasil possui 26 estados e o Distrito Federal, sendo São Paulo o estado mais populoso.


Uma string pode ser modificada diretamente por list(), que faz com que cada caractere (incluindo espaços e pontuações) se torne um elemento da lista. Além disso, a passagem da string ocorre por cópia, uma vez que a string original não é modificada. Na célula a seguir serão exploradas operações entre strings.

In [None]:
a = '12'
b = '2.00'
c = a+b
print('soma de strings: {}'.format(c))
d = a-b
print('subtração de strings: {}'.format(d))

soma de strings: 122.00


TypeError: ignored

É possível também obter algumas informações sobre as strings, como, por exemplo, o tamanho. A seguir, estão exemplificadas algumas informações que podem ser extraídas por funções nativas do python.

In [None]:
string_01 = 'O Brasil possui 26 estados e o Distrito Federal, sendo São Paulo o estado mais populoso.'
string_02 = 'Rio de Janeiro'
print('tamanho da string 01: {} e tamanho da string 02: {}'.format(len(string_01),len(string_02)))

# comparando o tamanho de strings
if len(string_01) == len(string_02):
  print('True')
else:
  print('False')

# comparando o conteúdo de strings
string_03 = 'Rio de Janeiro'
if string_02 == string_03:
  print('True')
else:
  print('False')

tamanho da string 01: 88 e tamanho da string 02: 14
False
True


A soma de strings é possível e gera como resultado as strings concatenadas sem o uso de espaços ou tabulações. No entanto, operações como subtração (caso fosse desejável remover caracteres de sobreposição entre strings) são inviáveis para executar entre strings.

As strings podem representar também números. No entanto, quando os números estão definidos como strings, não é possível realizar operações algébricas (como somas, subtrações, entre outras). Logo, caso seja desejável realizar operações com esses números (cujo tipo de dado seja str), é necessário convertê-los para o tipo int ou float antes.

É recomendável utilizar sempre o tipo de dado mais leve e que seja adequado às operações de interesse. Por exemplo, caso a parte decimal não seja relevante, deve-se optar pelo tipo int. A seguir é possível verificar que ao fazer uma operação entre float e int, o resultado será float.

In [None]:
a = int(a)
b = float(b)
c = a + b
d = a-b
print('tipos de dados a: {}, b: {}, c(a+b): {}, d(a-b): {}'.format(type(a),type(b),type(c),type(d)))
print('soma: {} e subtração: {}'.format(c,d))

tipos de dados a: <class 'int'>, b: <class 'float'>, c(a+b): <class 'float'>, d(a-b): <class 'float'>
soma: 14.0 e subtração: 10.0


A string, ao ser transformada diretamente em lista, acabou sendo separada por caracteres. Porém, pode ser desejável separá-las com base em pontuações ou espaços. Na célula a seguir será exemplicifado o uso do [método .split](https://docs.python.org/3/library/stdtypes.html#str.split).

In [None]:
split_str_space = string.split(' ')
print(split_str_space)
split_str_comma = string.split(',')
print(split_str_comma)

['O', 'Brasil', 'possui', '26', 'estados', 'e', 'o', 'Distrito', 'Federal,', 'sendo', 'São', 'Paulo', 'o', 'estado', 'mais', 'populoso.']
['O Brasil possui 26 estados e o Distrito Federal', ' sendo São Paulo o estado mais populoso.']


Ao utilizar o método split, ele somente fará a separação com base na regra a ser aplicada. No caso, a primeira é que a quebra seja feita com base nos espaços e a segunda com base em vírgulas. Conforme a primeira lista, a pontuação é mantida, uma vez que o ponto final e a vírgula ficam juntos com os elementos "Federal," e "populoso.". O uso de split é bastante útil quando existem strings que possuam um número de espaços irregular entre palavras, por exemplo, dois ou mais. O método [strip()](https://docs.python.org/3/library/stdtypes.html#str.split) também pode remover espaçamentos extras, conforme mostrado a seguir. 

In [None]:
str_test = '    Rio de    Janeiro '
print('string com espaços extras: {}'.format(str_test))
str_test = str_test.strip(' ')
print('string sem espaços extras: {}'.format(str_test))

string com espaços extras:     Rio de    Janeiro 
string sem espaços extras: Rio de    Janeiro


O método strip falhou ao remover todos os espaços extras. Como lidar com tal limitação?

O método [join()](https://docs.python.org/3/library/stdtypes.html#str.join) possibilita reconstruir a string sem os espaços excedentes, tendo o .split() aninhado. Uma aplicação do método join() é exibida a seguir.

In [None]:
str_test = '    Rio de    Janeiro '
test_split = ' '.join(str_test.split())
test_strip = ' '.join(str_test.strip())
print('test_split: {}, test_strip: {}'.format(test_split,test_strip))

test_split: Rio de Janeiro, test_strip: R i o   d e         J a n e i r o


O método join() pode unir também as instâncias com base em outros caracteres, podendo ser mais de um.

In [None]:
str_test = '    Rio de    Janeiro '
test_split_ = '---'.join(str_test.split())
print('test_split: {}'.format(test_split_))

test_split: Rio---de---Janeiro


***Case-folding***

Utilizando métodos [.lower()](https://docs.python.org/3/library/stdtypes.html?highlight=lower#str.lower) e [.upper()](https://docs.python.org/3/library/stdtypes.html?highlight=lower#str.upper).

Para facilitar a utilização de funções como merge e groupby no cenário de utilização da biblioteca pandas, ou em casos mais específicos de Processamento de Linguagem Natural (assunto que será tratado em um próximo notebook), pode ser necessário fazer com que todos os caracteres sejam maiúsculos ou minúsculos (em que a escolha mais comum é minísculo). A seguir, será apresentado um exemplo envolvendo a modificação para maiúsculas e minúsculas de uma string. 

In [None]:
string = 'O Brasil possui 26 estados e o Distrito Federal, sendo São Paulo o estado mais populoso.'
string_list = string.split()
length = len(string_list)

# utilizando list comprehension para letras minúsculas (lower-case)
lower_cased = [string_list[item].lower() for item in range(length)]
lower_cased = ' '.join(lower_cased)
print('lower-case: {}'.format(lower_cased))

# utilizando list comprehension para letras maiúsculas (upper-case)
upper_cased = [string_list[item].upper() for item in range(length)]
upper_cased = ' '.join(upper_cased)
print('upper-case: {}'.format(upper_cased))

lower-case: o brasil possui 26 estados e o distrito federal, sendo são paulo o estado mais populoso.
upper-case: O BRASIL POSSUI 26 ESTADOS E O DISTRITO FEDERAL, SENDO SÃO PAULO O ESTADO MAIS POPULOSO.


In [None]:
# para encontrar a primeira posição de uma palavra que corresponda

index = string.find('Distrito')
print('A posição correspondente à primeira ocorrência é a {} e o caractere que corresponde a essa posição é {}'.format(index,string[index]))

A posição correspondente à primeira ocorrência é a 31 e o caractere que corresponde a essa posição é D


Existem mais métodos nativos (built-in) em Python para manipular strings, [conforme pode ser verificado aqui](https://docs.python.org/3/library/stdtypes.html#string-methods). No entanto, dependendo do gênero textual e da forma como o texto foi extraído, são necessários funções e métodos mais customizáveis. Por isso, em outros notebooks serão apresentadas expressões regulares e bibliotecas de processamento de linguagem natural.

# A História da Codificação de Caracteres

Os caracteres podem ser codificados (representação em bits) de mais de uma forma. A representação mais antiga é a [*American Standard Code for Information Interchange* (ASCII)](https://www.ime.usp.br/~pf/algoritmos/apend/ascii.html). No entanto, é possível verificar algumas limitações, como a falta de caracteres que representem letras com acentos, além da presença de um número limitado de caracteres especiais. Em decorrência da limitação para representar caracteres, houve a criação de um consórcio ([Unicode](https://home.unicode.org/)) que unificou a representação de caracteres, de forma que pudessem ser incluídos mais alfabetos (como o árabe e mandarim). [Até mesmo formas de escritas antigas como os hieroglifos possuem representação Unicode](https://home.unicode.org/basic-info/overview/). Além de alfabetos, o Unicode (através de codificações como a  *Universal Coded Character Set Transformation Format – 8-bit* (UTF-8)) também representa emojis e uma diversidade maior de caracteres especiais. O UTF-8 trata-se de uma representação *multibyte*, em que [nem todo caractere é representado pelo mesmo número de bytes](https://en.wikipedia.org/wiki/UTF-8).

Mais informações sobre caracteres podem ser encontradas [aqui](https://www.ime.usp.br/~pf/algoritmos/apend/unicode.html).