# Strings

Um dos tipos clássicos presente em quase todas as linguagens de programação! Normalmente strings "simplesmente funcionam" e não prestamos muita atenção nos detalhes de suas implementações. Nesse caso, Python 2 e Python 3 tem diferenças importantes e caso você precise trabalhar com Python 2, é importante considerá-las!

A definição usual de "string" é bem simples — uma string é um conjunto de caracteres. No entanto, a definição e os detalhes de implementação do conceito de _caractere_  varia. Se formos pensar do ponto de vista de nós, humanos, um caractere representa um símbolo. Esse símbolo pode ser uma letra, um número, um emoji, etc. Por outro lado, para os computadores, um caractere — assim como absolutamente tudo — é apenas uma sequência de bits.

Python 3 trabalha com uma definição de caractere mais pensada para os seres humanos lidando com o código. Porém, nem Python e nem ninguém consegue fazer um computador entender algo além de uma sequência de bits! Portanto, é necessária a existência de entidades que consigam fazer humanos e máquinas se entenderem. É aí que vamos entrar em assuntos como o padrão Unicode e suas diversas codificações.

Esse assunto é bastante amplo e você pode apronfundar-se nele o quanto quiser. Nesse texto vou me limitar a apresentar os aspectos gerais de strings em Python e alguns detalhes da forma como as codificações funcionam. Caso você tenha interesse, uma ótima referência para o assunto é o capítulo 4 do livro [Python Fluente](https://www.amazon.com.br/gp/product/857522462X/ref=as_li_tl?ie=UTF8&camp=1789&creative=9325&creativeASIN=857522462X&linkCode=as2&tag=novatec03-20) — um dos melhores livros que já li sobre Python, escrito pelo genial [Luciano Ramalho](https://twitter.com/ramalhoorg), membro antigo da comunidade Python no Brasil. Recomendo esse livro para programadores Python de nível intermediário ou avançado. Ele vale cada centavo e cada minuto de leitura das suas quase 800 páginas.

A atribuição de uma string ocorre do modo usual `nome_da_variável = valor` e strings podem ser delimitadas por aspas simples ou duplas:

In [6]:
nome = "são paulo"
sigla = 'sp'

O valor de uma string pode ser impresso usualmente com `print`:

In [5]:
print(sigla)

SP


A concatenação de strings ocorre com o operador `+`

In [9]:
print(nome + ' ' + sigla)

são paulo sp


O exemplo acima poderia ser feito sem a adição explícita do espaço, graças ao fato de que `print` aceita diversas strings como argumento e coloca um espaço entre elas:

In [10]:
print(nome, sigla)

são paulo sp


Também é possível customizar o separador:

In [11]:
print(nome, sigla, sep="-")

são paulo-sp


Você pode encontrar mais detalhes da função print na [documentação](https://docs.python.org/3/library/functions.html#print)

Python também permite que você repita uma string facilmente, usando multiplicação:

In [12]:
print(nome * 10)

são paulosão paulosão paulosão paulosão paulosão paulosão paulosão paulosão paulosão paulo


**Exercício**: O que acontece se você mudar o parâmetro `sep` nesse caso? Pense no que você acha que vai acontecer e teste em seguida!

**Exercício**: Use concatenação de strings para que o código acima coloque um ponto e vírgula e um espaço entre cada palavra. Exemplo de saída: `são paulo; são paulo; são paulo;`

## Métodos Nativos

Strings em Python vem com [diversos métodos embutidos](https://docs.python.org/3.7/library/stdtypes.html#string-methods),  vamos explorar alguns deles agora

In [14]:
print(nome.capitalize())   Capitalize retorna a string com inicial maiúscula

São paulo


In [17]:
print(nome)  # Observe que a string não foi alterada! Apenas uma *representação* diferente dela foi apresentada

são paulo


In [18]:
print(nome.title())  # Title coloca maiúsculas depois de espaços

São Paulo


## Codificação de Caracteres

> Resumo: Antigamente, todo mundo queria ter o seu padrão de codificação até que surgiu o Unicode e o UTF-8. Python3 usa UTF-8 como padrão. Use UTF-8 você também. UTF-8 é legal e todos deveríamos usar UTF-8 a não ser que a gente tenha bons motivos para não usar! Vou repetir UTF-8 mais uma vez só pra deixar bem claro que UTF-8 é 10/10

### Introdução

Usualmente nós dividimos os arquivos em duas categorias — os arquivos de texto e os binários. Arquivos de texto são mais "simples", só contém caracteres textuais, podem ser visualizados diretamente de terminais sem ser necessário usar programas especializados. Códigos-fonte, por exemplo, são arquivos de texto.

Arquivos binários, por outro lado, são mais complexo. Neles, informações mais complexas como imagens, vídeos, sons, executáveis, etc são codificados em bits que depois serão lidos por programas específicos. Arquivos JPG, PDF, MP3, EXE e ZIP são exemplos de arquivos binários.

Essa distinção, embora bastante útil, pode causar a impressão errada de que arquivos de texto não são compostos por bits. Como se de alguma forma mágica, nossos sistemas computacionais pudessem armazenar de forma direta os caracteres contidos no texto. Isso não é verdade.

### Codificações como dicionários

Uma forma de vermos as codificações é como se elas fossem dicionários — elas mapeiam os caractere conforme nós, humanos, conhecemos para uma representação binária que pode ser compreendida por máquinas.

Historicamente, diversas codificações foram criadas com propósitos diversos. O [código morse](https://en.wikipedia.org/wiki/Morse_code) é um exemplo disso. Na computação, um dos primeiros exemplos de codificação de caracteres — na época dos cartões perfurados! — foi o [EBCDIC](https://en.wikipedia.org/wiki/EBCDIC).

Na computação moderna, um dos primeiros padrões de codificação foi o [ASCII](http://www.asciitable.com/) (pronuncia-se ÉS-qui). Conforme o tempo passou, o número de codificações e extensões de codificações explodiu. Diversas empresas e países criaram padrões diferentes que nem sempre eram compatíveis entre si. No Brasil, por exemplo, dois padrões diferentes foram usados na década de 80, o [BrasCII](https://pt.wikipedia.org/wiki/BRASCII) e o [ABICOMP](https://pt.wikipedia.org/wiki/Tabela_de_caracteres_da_Associa%C3%A7%C3%A3o_Brasileira_de_Ind%C3%BAstria_de_Computadores). Ambos os padrões definiam a codificação de caracteres acentuados do português, algo que não existe no ASCII padrão.

O problema que essas diversas codificações tentam resolver é que cada uma delas lida com um conjunto de caracteres que faz sentido para um contexto específico. Caracteres japoneses, por exemplo, não pertenciam aos conjuntos definidos pelos padrões ocidentais. Com o tempo, a ideia de desenvolver um conjunto de caracteres universal foi criando corpo e culminou no consórcio [Unicode](https://en.wikipedia.org/wiki/Unicode).

O Unicode define [tabelas](http://unicode.org/charts) de caracteres extremamente extensas. Você pode encontrar desde o [alfabeto latino básico](http://unicode.org/charts/PDF/U0000.pdf) até os [hieróglifos egípcios](https://unicode.org/charts/PDF/U13000.pdf) passando pelos [emojis!](http://www.unicode.org/emoji/). O mesmo consórcio também define diversas codificações que podem ser usadas para mapear os caracteres unicode para bits. Dentre esses, o padrão UTF-8 é um dos mais utilizados no mundo. Segundo dados do Google, mais de 60% da internet em 2012 utilizava UTF-8.