# Strings em Python

+ Uma String é uma lista de caracteres
+ Cada caractere é um elemento independente da lista e pode ser acessado por meio de um índice
+ Sempre que o interpretador encontra qualquer coisa entre aspas sim ples ou duplas ele reconhece que se trata de uma string

+ As strings possuem diversos métodos que podem ser usados para manipulá-las.
+ Vamos ver diversos exemplos de métodos para manipular strings.
+ Referência: https://wiki.python.org.br/ManipulandoStringsComPython

In [None]:
test = 'This is just a simple string.'

O tamanho da string é dado pelo método *len*

In [None]:
print(len(test))

O método *replace* substitui na string a primeira substring passada como parâmetro pela segunda

In [None]:
test = test.replace('simple', 'short')
print(test)

O método *count* retorna o número de vezes que uma substring aparece na string.

In [None]:
print(test.count('i'))
print(test.count('is'))

O método *find* retorna a posição na qual uma substring aparece pela primeira vez

In [None]:
print(test.find('j'))
print(test.find('is'))

O método *split* divide uma string em uma lista de strings.

In [None]:
print(test.split())
print(test.split('a'))

O método *join* forma uma string intercalando a string com as que estão na lista passada como parâmetro.

In [None]:
print(' some '.join(test.split('a')))
print(' some '.join(test.split()))

O método *upper* transforma todos os caracteres da string em maiúsculos.

In [None]:
print(test.upper())

O método *lower* transforma todos os caracteres da string em minúsculos.

In [None]:
print(test.lower())

O método *capitalize* deixa apenas a primeira letra maiúscula para uma string toda minúscula.

In [None]:
print(test.lower().capitalize())

O método *title* deixa as letras de cada palavra da string maiúscula.

In [None]:
print(test.title())

O método *swapcase* troca os caracteres maiúsculos para minúsculos e vice-versa.

In [None]:
print(test.swapcase())

Você pode testar se uma string é toda maiúscula ou toda minúscula com os métodos *isupper* e *islower*

In [None]:
print('UPPER'.isupper())
print('UppER'.isupper())
print('lower'.islower())
print('Lower'.islower())

Você pode ainda testar se o primeiro caractere de cada palavra na string é maiúscula com o método *istitle*.

In [None]:
print('This Is A Title'.istitle())
print('This is A title'.istitle())

O método *isalnum* testa  se a string é alfa-numérica, ou seja, contém apenas letras e números, sem caracteres especiais

In [None]:
print('aa44'.isalnum())
print('aa$4'.isalnum())

O método *isalpha* testa se uma string contém apenas letras.

In [None]:
print('letters'.isalpha())
print('letters8'.isalpha())

O método *isdigit* testa se uma string contém apenas números.

In [None]:
print('306090'.isdigit())
print('30-60-90 Triangle'.isdigit())

O método *isspace* testa se uma string contém apenas espacos.

In [None]:
print('   '.isspace())
print(' ab  '.isspace())
print(''.isspace())

Podemos adicionar espacos em ambos os lados de uma string com os métodos *ljust* e *rjust*. 

In [None]:
print('A string.'.ljust(15))
print('A string.'.rjust(15))

O método *center* é usado para centralizar uma string dentro de espacos. 

In [None]:
print('A string.'.center(15))

Os métodos *rstrip*, *lstrip* e *strip* eliminam espaços à esquerda, à direita e de ambos os lados, respectivamente.

In [None]:
print('        A string.'.lstrip())
print('A string.       '.rstrip())
print('        A string.        '.strip())

O método *endswith* testa se uma string termina com a string passada como parâmetro para o método.

In [None]:
print(test)
print(test.endswith("ing."))
print(test.endswith("This"))

O método *startswith* testa se uma string começa com a string passada como parâmetro para o método.

In [None]:
print(test)
print(test.startswith("ing."))
print(test.startswith("This"))

Como uma string em Python é uma lista, para testar se uma substring aparece em uma string basta usar o operador in.

In [None]:
print(test)
print("just" in test)
print("test" in test)

O exemplo a seguir mostra uma função que monta um arquivo de entrada para o programa de estrutura eletrônica gaussian.

In [None]:
import os
def monta_input(file_to_read,directory,extension,charge,multiplicity):
    with open(file_to_read, 'r') as f:
        linesToAdd = f.readlines()
    l = [f for f in os.listdir(directory) if f.endswith(extension)]
    for file_to_write in l:
        with open(directory+'/'+file_to_write, 'r') as f:
            lines = f.readlines()
        with open(directory+'/'+file_to_write, 'w') as f:
            for line in linesToAdd:
                if line.startswith("%chk"):
                    line = line.replace("file",file_to_write[:-4])
                f.write(line)
            f.write("\n")
            f.write(file_to_write[:-4]+"\n\n")
            f.write("{}  {}\n".format(charge,multiplicity))
            for line in lines[5:]:
                f.write(line)

monta_input("input.txt",'.','gjf',1,1)


# Expressões regulares
+ Expressões regulares descrevem conjuntos de *palavras*
+ Uma palavra é uma sequência de símbolos retirados de um dado *alfabeto*
+ Aos conjuntos de palavras dá-se o nome de *linguagem*
+ As expressões regulares que nos interessam descrevem padrões de procura, sendo frequentemente utilizadas em operações de procura e substituição
+ Expressões regulares descrevem conjuntos de palavras
+ Em python o módulo que manipula expressões regulares é o módulo *re*

+ O método *search* retorna um objeto caso o padrão expresso por uma expressão regular seja encontrado em uma string
+ Por exemplo, o conjunto de dígitos de 0 a 9 pode ser descrito como [0-9]

In [None]:
import re
print(re.search('[0-9]','85'))
print(re.search('[0-9]','casa'))

O * em uma expressão regular significa que aquele padrão deve ocorrer 0 ou mais vezes

In [None]:
print(re.search('[02468]*','646632848'))

O \^ em uma expressão regular serve para testar se o padrão ocorre no início da string enquanto que o \$ serve para testar se o padrão ocorre no final da string

In [None]:
print(re.search('^[02468]*','646632848'))
print(re.search('[02468]*$','646632848'))

+ Por exemplo, podemos verificar se uma string obedece ao padrão de placas de automóveis utilizado no Brasil. As placas apresentam uma sequência de 3 letras, um hífen e 4 dígitos (OZZ-8026, por exemplo).
+ Assim uma expressão regular para testar se uma string é uma placa válida seria:

In [None]:
re.search('[A-Z][A-Z][A-Z]-[0-9][0-9][0-9][0-9]','Minha placa é OZZ-8026')

Ou ainda

In [None]:
re.search('[A-Z]{3}-[0-9]{4}','Minha placa é OZZ-8026')

+ Podemos testar se um número é inteiro usando expressões regulares. Um número pode começar com um sinal (+ ou -) e tem uma sequência de 1 ou mais dígitos.
+ O \+ testa se um padrão ocorre uma ou mais vezes
+ A interrogação testa se um caractere ocorre zero ou uma vez

In [None]:
print(re.search('^[+-]?[0-9]+','-526'))
print(re.search('^[+-]?[0-9]+','8527'))
print(re.search('^[+-]?[0-9]+','+320'))
print(re.search('^[+-]?[0-9]+','95j8'))

Se você quiser testar se o padrão "casa" exatamente com a string você deve usar \^ no início e $ no fim

In [None]:
print(re.search('^[+-]?[0-9]+$','95j8'))

Exemplo para testar se um CPF é válido:

In [None]:
print(re.search('[0-9]{3}.[0-9]{3}.[0-9]{3}-[0-9]{2}','123.456.789-12'))

O exemplo a seguir testa se o arquivo de saída de uma tentativa de otimização de geometria com o programa GAMESS foi bem sucedida

In [None]:
import os
import re
def verifica_otimizacao(directory,extension):
    l = [f for f in os.listdir(directory) if f.endswith(extension)]
    for arq in l:
        with open (arq) as f:
            if (re.search('EQUILIBRIUM GEOMETRY LOCATED',f.read())):
                print("{}: Geometria otimizada com sucesso".format(arq))
            else:
                print("{}: Falha na otimização da geometria".format(arq))
verifica_otimizacao('.','gamout')                

+ Para além de reconhecer padrões, a operação *search* também pode classificar os vários grupos existentes numa expressão regular.
+ Para isso basta separar os grupos desejados usando parênteses

In [None]:
placa = re.search('^([A-Z]{3})-(\d{4})$','OZZ-8026')
print(placa.group(1),',',placa.group(2))

+ Outra tarefa comum é procurar e alterar parte de uma string utilizando expressões regulares
+ O método sub recebe três parâmetros obrigatórios:o padrão, o padrão de substituição e a string e Devolve uma nova string com a alteração efetuada.

In [None]:
data = '15/04/2019'
print(re.sub('/','-',data))
print(re.sub(r'(\d{2})/(\d{2})/(\d{4})',r'\3-\2-\1',data))

O exemplo a seguir renomeia arquivos com caracteres especiais substituindo-os pelo caractere "_"

In [None]:
%ls

In [None]:
import os
import re
import shutil
def renomeia_arquivos(extensao):
    l = os.listdir(os.getcwd())
    for filename in l:
        if filename.endswith('.'+extensao):
            shutil.move(filename, re.sub('[^a-zA-Z0-9\-\.]', '_', filename))
renomeia_arquivos("txt")

In [None]:
%ls