# Strings

Um dos tipos clássicos presente em quase todas as linguagens de programação! Normalmente strings "simplesmente funcionam" e não prestamos muita atenção nos detalhes de suas implementações. Nesse caso, Python 2 e Python 3 tem diferenças importantes e caso você precise trabalhar com Python 2, é importante considerá-las!

A definição usual de "string" é bem simples — uma string é um conjunto de caracteres. No entanto, a definição e os detalhes de implementação do conceito de _caractere_  varia. Se formos pensar do ponto de vista de nós, humanos, um caractere representa um símbolo. Esse símbolo pode ser uma letra, um número, um emoji, etc. Por outro lado, para os computadores, um caractere — assim como absolutamente tudo — é apenas uma sequência de bits.

Python 3 trabalha com uma definição de caractere mais pensada para os seres humanos lidando com o código. Porém, nem Python e nem ninguém consegue fazer um computador entender algo além de uma sequência de bits! Portanto, é necessária a existência de entidades que consigam fazer humanos e máquinas se entenderem. É aí que vamos entrar em assuntos como o padrão Unicode e suas diversas codificações.

Esse assunto é bastante amplo e você pode apronfundar-se nele o quanto quiser. Nesse texto vou me limitar a apresentar os aspectos gerais de strings em Python e alguns detalhes da forma como as codificações funcionam. Caso você tenha interesse, uma ótima referência para o assunto é o capítulo 4 do livro [Python Fluente](https://www.amazon.com.br/gp/product/857522462X/ref=as_li_tl?ie=UTF8&camp=1789&creative=9325&creativeASIN=857522462X&linkCode=as2&tag=novatec03-20) — um dos melhores livros que já li sobre Python, escrito pelo genial [Luciano Ramalho](https://twitter.com/ramalhoorg), membro antigo da comunidade Python no Brasil. Recomendo esse livro para programadores Python de nível intermediário ou avançado. Ele vale cada centavo e cada minuto de leitura das suas quase 800 páginas.

A atribuição de uma string ocorre do modo usual `nome_da_variável = valor` e strings podem ser delimitadas por aspas simples ou duplas:

In [37]:
nome = "são paulo"
sigla = 'sp'

O valor de uma string pode ser impresso usualmente com `print`:

In [27]:
print(sigla)

sp


A concatenação de strings ocorre com o operador `+`

In [9]:
print(nome + ' ' + sigla)

são paulo sp


O exemplo acima poderia ser feito sem a adição explícita do espaço, graças ao fato de que `print` aceita diversas strings como argumento e coloca um espaço entre elas:

In [10]:
print(nome, sigla)

são paulo sp


Também é possível customizar o separador:

In [11]:
print(nome, sigla, sep="-")

são paulo-sp


Você pode encontrar mais detalhes da função print na [documentação](https://docs.python.org/3/library/functions.html#print)

Python também permite que você repita uma string facilmente, usando multiplicação:

In [12]:
print(nome * 10)

são paulosão paulosão paulosão paulosão paulosão paulosão paulosão paulosão paulosão paulo


**Exercício**: O que acontece se você mudar o parâmetro `sep` nesse caso? Pense no que você acha que vai acontecer e teste em seguida!

**Exercício**: Use concatenação de strings para que o código acima coloque um ponto e vírgula e um espaço entre cada palavra. Exemplo de saída: `são paulo; são paulo; são paulo;`

## Métodos Nativos

Strings em Python vem com [diversos métodos embutidos](https://docs.python.org/3.7/library/stdtypes.html#string-methods),  vamos explorar alguns deles agora

In [14]:
print(nome.capitalize())   Capitalize retorna a string com inicial maiúscula

São paulo


In [17]:
print(nome)  # Observe que a string não foi alterada! Apenas uma *representação* diferente dela foi apresentada

são paulo


In [18]:
print(nome.title())  # Title coloca maiúsculas depois de espaços

São Paulo


In [19]:
print(nome.center(20))  # Coloca o texto no 'centro' de uma string do tamanho especificado

     são paulo      


In [22]:
print(nome.endswith('paulo'))  # Determina se uma string termina com outra

True


In [23]:
print(nome.startswith('são'))  # Determina se uma string começa com outra

True


In [26]:
print(nome.upper())  # Coloca a string em maiúsculas

SÃO PAULO


**Exercício** Guarde seu nome completo, apenas com letras minúsculas na variável nome

In [34]:
meu_nome = 'seu nome'

**Exercicio**: Altere a variável nome pra que ela guarde seu nome com maiúsculas

In [35]:
meu_nome = ''

## Índices

Todos os caracteres de uma string são contados a partir do 0. Você pode acessar caracteres individuais usando colchetes:

In [38]:
print(nome[0])
print(nome[1])
print(nome[2])

s
ã
o


É possível também selecionar fatias de caracteres. Um processo conhecido como _slicing_:

In [40]:
print(nome[0:3])

são


O _slicing_ de `nome[i:j]` é executado imprimindo desde o i-ésimo caracter até o imediatamente interior de j. Existe um argumento opcional que determina o 'passo', quantos caracteres serão pulados em cada interação:

In [46]:
print(nome[0:5])
print(nome[0:5:2])

são p
sop


Podemos usá-lo para inverter uma string também:

In [48]:
nome[::-1]

'oluap oãs'

Observe que eu deixei os dois primeiros parâmetros em branco. Os três parâmetros são opcionais!:

In [50]:
nome[::]

'são paulo'

In [51]:
nome[:5]

'são p'

In [53]:
nome[::2]

'sopuo'

Como veremos mais adiante, Python também permite _slicing_ de listas e de outras sequências.

## Codificação de Caracteres

> Resumo: Antigamente, todo mundo queria ter o seu padrão de codificação até que surgiu o Unicode e o UTF-8. Python3 usa UTF-8 como padrão. Use UTF-8 você também. UTF-8 é legal e todos deveríamos usar UTF-8 a não ser que a gente tenha bons motivos para não usar! Vou repetir UTF-8 mais uma vez só pra deixar bem claro que UTF-8 é 10/10

### Introdução

Usualmente nós dividimos os arquivos em duas categorias — os arquivos de texto e os binários. Arquivos de texto são mais "simples", só contém caracteres textuais, podem ser visualizados diretamente de terminais sem ser necessário usar programas especializados. Códigos-fonte, por exemplo, são arquivos de texto.

Arquivos binários, por outro lado, são mais complexos. Neles, informações mais complexas como imagens, vídeos, sons, executáveis, etc são codificados em bits que depois serão lidos por programas específicos. Arquivos JPG, PDF, MP3, EXE e ZIP são exemplos de arquivos binários.

Essa distinção, embora bastante útil, pode causar a impressão errada de que arquivos de texto não são compostos por bits. Como se de alguma forma mágica, nossos sistemas computacionais pudessem armazenar de forma direta os caracteres contidos no texto. Isso não é verdade.

### Codificações como dicionários

Uma forma de vermos as codificações é como se elas fossem dicionários — elas mapeiam os caracteres conforme nós, humanos, conhecemos para uma representação binária que pode ser compreendida por máquinas.

Historicamente, diversas codificações foram criadas com propósitos diversos. O [código morse](https://en.wikipedia.org/wiki/Morse_code) é um exemplo disso. Na computação, um dos primeiros exemplos de codificação de caracteres — na época dos cartões perfurados! — foi o [EBCDIC](https://en.wikipedia.org/wiki/EBCDIC).

Na computação moderna, um dos primeiros padrões de codificação foi o [ASCII](http://www.asciitable.com/) (pronuncia-se ÉS-qui). Conforme o tempo passou, o número de codificações e extensões de codificações explodiu. Diversas empresas e países criaram padrões diferentes que nem sempre eram compatíveis entre si. No Brasil, por exemplo, dois padrões diferentes foram usados na década de 80, o [BrasCII](https://pt.wikipedia.org/wiki/BRASCII) e o [ABICOMP](https://pt.wikipedia.org/wiki/Tabela_de_caracteres_da_Associa%C3%A7%C3%A3o_Brasileira_de_Ind%C3%BAstria_de_Computadores). Ambos os padrões definiam a codificação de caracteres acentuados do português, algo que não existe no ASCII padrão.


### Unicode
O problema das diversas codificações é que cada uma delas lida com um conjunto de caracteres que faz sentido para um contexto específico. Caracteres japoneses, por exemplo, não pertenciam aos conjuntos definidos pelos padrões ocidentais. Com o tempo, a ideia de desenvolver um conjunto de caracteres universal foi criando corpo e culminou no consórcio [Unicode](https://en.wikipedia.org/wiki/Unicode).

O Unicode define [tabelas](http://unicode.org/charts) de caracteres extremamente extensas. Você pode encontrar desde o [alfabeto latino básico](http://unicode.org/charts/PDF/U0000.pdf) até os [hieróglifos egípcios](https://unicode.org/charts/PDF/U13000.pdf) passando pelos [emojis!](http://www.unicode.org/emoji/). O mesmo consórcio também define diversas codificações que podem ser usadas para mapear os caracteres unicode para bits. Dentre esses, o padrão UTF-8 é um dos mais utilizados no mundo. Segundo dados do Google, mais de 60% da internet em 2012 utilizava UTF-8.

### Python e Codificação

Python 3 assume que tudo é UTF-8. O seu arquivo de código-fonte, as suas strings, tudo. Ele inclui ferramentas prontas para codificar e decodificar caracteres mas, por padrão, ele assume que tudo é UTF-8 e inclusive permite que você insira nativamente caracteres Unicode:

In [56]:
coração = '\u2764'
print(coração)

❤


Como vocềs podem ver [aqui](http://graphemica.com/%E2%9D%A4), em UTF-8 o coração é representado pelos bits `11100010:10011101:10100100` ou `e29da4` em hexadecimal. Vamos verificar isso codificando a variável com UTF-8:

In [59]:
bits = coração.encode('utf-8')
bits.hex()

'e29da4'

E se nós tentássemos codificar um coração em ASCII? Bem, ASCII não possui o caractere de coração na sua definição, portanto vamos ter problemas:

In [60]:
coração.encode('ascii')

UnicodeEncodeError: 'ascii' codec can't encode character '\u2764' in position 0: ordinal not in range(128)

Quando codificações erradas são usadas, as coisas ficam complicadas e ilegíveis. Vou codificar uma mensagem usando UTF-8 e, em seguida, vou decodificá-la usando CP1252, uma codificação bastante utilizada no Windows:

In [64]:
mensagem = "Olá, João José! Bem vindo à São Paulo!"
mensagem.encode('utf-8').decode('cp1252')

'OlÃ¡, JoÃ£o JosÃ©! Bem vindo Ã\xa0 SÃ£o Paulo!'

Esses problemas acontecem porque, para o UTF-8, o caracter '[ã](http://graphemica.com/%C3%A3)' são os bytes c3a3. Já para o cp1252, esses bytes repersentam dois caracteres, c3 é `Ã` e a3 é `£`, como pode ser visto na [tabela do ISO 8859-1](https://pt.wikipedia.org/wiki/ISO/IEC_8859-1). O padrão cp1252 é um padrão de 'extensão' do ISO 8859-1, o que significa que ele implementa todos os caracteres desse padrão e [adiciona mais alguns](https://marketing.adobe.com/resources/help/en_US/whitepapers/multibyte/multibyte_windows1252.html)

### Nomes de variáveis em Python3

Python 3 permite que caracteres não-ASCII sejam utilizados. Você pode, por exemplo, ter acentos em variáveis. Mas, você _deveria_ utilizar dessa característica?

Em muitas situações, não. Usar apenas caracteres ASCII e programar em inglês é o padrão usado por muitos programadores ao redor do mundo. Isso garante que seu código será mais facilmente compreendido e portado entre máquinas. No entanto, no contexto de ensino, eu particularmente prefiro utilizar códigos em português, com a grafia correta e acentuada.

No fim das contas, é uma questão estilística que pode muito bem ser concordada entre você e os colegas que irão trabalhar com você. A comunidade Python define um guia de estilo, o [PEP 8](https://wiki.python.org.br/GuiaDeEstilo) que é uma boa base para essas discussões. Em geral, seguir o PEP 8 é uma boa ideia e mais pra frente veremos seu conteúdo.