# Strings

Nesta aula conheceremos as *strings*, que são uma sequência de caracteres como números, letras e símbolos.

## Strings

Strings são caracteres declarados entre aspas (simples ou duplas), sendo que esses caracteres podem ser símbolos, números ou letras.

Operações ou manipulações de *strings* são muito comuns, e com frequência você irá precisar trabalhá-las em seus projetos de *Data Science*. Vale ressaltar que o Python mostra o tipo *string* como sendo `str`:

In [2]:
type('Fernando Galvão')

str

Para imprimir *strings*, eu informo as mesmas dentro da função `print()`.

In [8]:
nome = 'Fernando'
nome_do_meio = 'Cesar'
sobrenome = 'Galvão'
profissao = "'Treinando para ser um futuro data scientist'"

# imprimir nome completo
print("Nome completo:", nome, nome_do_meio, sobrenome)
# print(nome, nome_do_meio, sobrenome)

# imprimir profissão
print("Sua profissão é:", profissao + ".")

Nome completo: Fernando Cesar Galvão
Sua profissão é: 'Treinando para ser um futuro data scientist'.


É possível acessar os caracteres individuais dentro de uma *string*. Para isso, basta informar a posição desejada entre colchetes.

**Lembre-se sempre que a linguagem Python (assim como a maioria) começa com uma indexação em 0.** Veja como as posições da *string* `Fernando` estão distribuidas:

| **0** | **1** | **2** | **3** | **4** | **5** | **6** | **7** |
|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|
| F     | e     | r     | n     | a     | n     | d     | o     |

Uma dica, para acessar a última letra de uma *string* é só colocar `[-1]` ao final da mesma.


In [10]:
nome = 'Fernando'

# ver qual é a primeira letra da variável `nome`
nome[0]

'F'

In [11]:
# ver qual a última letra da variável `nome`
nome[-1]

'o'

In [17]:
# podemos também acessar o conjunto de caracteres da variável 'nome'
# essa técnica é conhecida como slicing e veremos com mais detalhes a frente

print(nome[0:3]) # Fer 
# aqui queremos do primeiro caracter, que está na posição 0, até da segunda posição - [0:3]
# é bom deixar claro que, o último argumento é exclusivo

# porém não precisamos passar o número inicial, simplesmente podemos ocultar
print(nome[:3]) # perceba que o resultado é o mesmo


Fer
Fer


In [21]:
# outros exemplos

print(nome[1:5]) # erna
# aqui partimos da posição 1 até o da posição 4

print(nome[3:]) # nando
# da posição 3 até o da última posição

erna
nando


In [33]:
# usando índice negativo
nome[:-5] # Fer

'Fer'

### Função  `len()`


Para saber o tamanho de uma *string*, existe no Python uma função chamada `len()`, que irá sempre retornar um valor do tipo inteiro (`int`). Usá-la é muito simples e direto:

In [34]:
# verificar o tamanho da sequência de um DNA
dna = 'ATGCGGACCTAT'

len(dna)

12

In [35]:
# verificando o tamanho da variável 'nome'
len(nome)

8

### Função `split()`

A função `split()` serve para você separar *strings* baseando-se em um delimitador. Por exemplo, a variável nome da célula abaixo contém 3 nomes separados por vírgulas.

Para eu extrair esses nomes, basta eu executar `nomes.split(',')`, e o Python vai me retornar uma lista com 4 itens.

Não se preocupe. O conceito de listas será abordado mais para frente!

In [39]:
nomes = 'Kátia, Fernando, Sara, Eloah'

nomes.split(',')

['Kátia', ' Fernando', ' Sara', ' Eloah']

In [40]:
# outro exemplo, separado por ';'
idades = '40; 44; 20; 13'

idades.split(';')

['40', ' 44', ' 20', ' 13']

In [41]:
# outro exemplo- separado por '-'
ano_nascimento = '1977-1980-2000-2008'

ano_nascimento.split('-')

['1977', '1980', '2000', '2008']

### Função `replace()`

Como o nome já diz, ela serve para substituir caracteres dentro de uma string.

Imagine a situação que você importa uma tabela sua do Excel, e os valores monetários estão no sistema brasileiro,ou seja, as casas decimais estão separadas por vírgulas.

Se eu quiser converter uma string do tipo `9,50` em um valor numérico, eu tenho que substituir a vírgula pelo ponto:

In [43]:
valor = "9,50"

In [44]:
float(valor.replace(",", "."))

9.5

In [46]:
nome_completo = 'Fernando-Galvão'
nome_completo = str(nome_completo.replace('-', ' '))
nome_completo

'Fernando Galvão'

### Função `strip()`

Remove ou espaços em branco ou caracteres indesejados. Pode ser usada tanto para remover espaços em branco no começo e final de uma *string*, quanto para remover caracteres indesejados.

In [55]:
nome = "     Fernando Galvão     "
nome.strip()

'Fernando Galvão'

Voltando ao exemplo que usei na função `replace()`, imagine que quando você importou seus dados eles virem da seguinte forma: `R$ 9,00`.

Se você quiser converter para um número, precisa antes eliminar os caracteres `R$ `

In [56]:
"R$ 9,50".strip('R$ ')

'9,50'

In [57]:
"R$ 9,50".strip('R$ ').replace(',', '.')

'9.50'

In [58]:
float("R$ 9,50".strip('R$ ').replace(',', '.'))

9.5

In [77]:
'Nome: Fernando Galvão.'.strip('Nome: ').replace('.','')

'Fernando Galvão'

### Slicing
O Python nos permite "cortar" as nossas strings, técnica chamada de `slicing`.

Como exemplo, vamos usar a variável abaixo

In [78]:
nome = 'Carlos'

Para fazer o slicing, nós chamamos a variável a ser "fatiada", e colocamos entre colchetes o index de início e fim, separados por `:`.

Lembre-se que a indexação em Python começa no zero, portanto:
* [0] - C
* [1] - a
* [2] - r
* [3] - l
* [4] - o
* [5] - s

Também é importante saber que a posição final não é incluída. Ou seja, se chamarmos o slicing da seguinte forma:

nome[2:4]

teríamos como retorno as letras
* [2] - r
* [3] - l

pois a letra `o` na posição quatro, não é incluída no slicing.

In [79]:
# slicing da variável `nome`
nome[2:4]

'rl'

Também podemos omitir uma das variáveis, e isso fará que o slicing comece desde o primeiro index, e termine no último.

In [80]:
# slicing do começo ao 4
nome[:3]

'Car'

In [81]:
# slicing do 2 ao fim
nome[2:]

'rlos'

Lembre-se que podemos adicionar as strings. Podemos fazer isso também usando slicing.

In [82]:
print('Nome Completo: ', nome)
print('Primeira parte: ', nome[:3])
print('Segunda parte: ', nome[3:])
print('Nome feito adicionando Slices: ', nome[:3] + nome[3:])

Nome Completo:  Carlos
Primeira parte:  Car
Segunda parte:  los
Nome feito adicionando Slices:  Carlos


Ainda falando de slices, nós também podemos definir um *step*, ou um passo de intervalo, para que os caracteres sejam pulados.

Vamos ver como isso funciona na prática.

In [83]:
# criando a variável
num = '123456789'


Como temos 27 caracteres, isso significa que nossos índices vão do 0 ao 26, totalizando 27.

Podemos usar o slicing para mostrar apenas os números ímpares, por exemplo, basta acrescentar um dígito extra, que é o step.

A sintaxe fica da seguinte forma:

> variável[index_início, index_final, step]

In [84]:
# slicing da variável num, começando do primeiro caractere, indo até o último, em step 2, ou seja
# mostra um, pula um
num[::2]

'13579'

In [85]:
# para visualizarmos os pares, basta começar da posição 2
# aqui temos dois `:`, pois indicamos o início, até (:) o final (:) e step 2.
num[1::2]

'2468'

### Convertendo Strings

Por padrão, podemos usar o Python para converter as strings em maíusculas, minúsculas, etc.

Esses processos são bastante úteis ao tratarmos dados em formato string.

In [86]:
# criando a variável a ser manipulada
nome = "josé Santos da Silva"

#### capitalize()

Essa função transforma o primeiro caractere em maiúsculo.

In [87]:
nome.capitalize()

'José santos da silva'

#### lower()
Essa função transforma todos os caracteres em minúsculo.

In [88]:
nome.lower()

'josé santos da silva'

#### upper()
Para tornar todas maiúsculas, basta usar essa função.

In [89]:
nome.upper()

'JOSÉ SANTOS DA SILVA'

#### title()
Essa função transforma a primeira letra de cada palavra em maiúscula.

In [90]:
nome.title()

'José Santos Da Silva'

#### swapcase()
Aqui iremos inverter as coisas, transformando maiúsculas em minúsculas, e vice-versa.

In [91]:
nome.swapcase()

'JOSÉ sANTOS DA sILVA'

## Exercícios

### Exercício 1

Escreva seu nome e sobrenome, como nos exemplos acima, e imprima ele na tela usando a função `print()`:

In [94]:
# resposta
nome = 'Fernando'
sobrenome = 'Galvão'

print(nome + ' ' + sobrenome)

Fernando Galvão


In [95]:
#@title Solução
print("Carlos Melo")

Carlos Melo


### Exercícios 3
Verifique o tamanho da *string* da variável sha1_hash abaixo:

In [96]:
sha1_hash = "b91552e0b2b2183e85a4371020ab6b9f4ef83ed0"

In [98]:
# resposta
len(sha1_hash)

40

In [99]:
#@title Solução
len(sha1_hash)

40

### Exercício 3

Converta a string `85,00 Kg` em uma variável do tipo float.

In [102]:
# resposta
float('85,00 Kg'.strip(' Kg').replace(',', '.'))

85.0

In [101]:
#@title Solução
float('85,00 Kg'.strip(' Kg').replace(',', '.'))


85.0

#### Exercício 4

Faça o que se pede com a variável em cada uma das células abaixo


In [112]:
# criando a variável
x = 'Data, Science, é, demais!'

print(x)

Data, Science, é, demais!


In [113]:
# a) imprima a quantidade de caracteres na variável x
len(x)

25

In [114]:
# b) retire as vírgulas da variável
x = x.strip().replace(',','')
x

'Data Science é demais!'

In [115]:
# c) imprima apenas os 6 primeiros caracteres da variável
x[:6]

'Data S'

In [116]:
# d) imprima todos os caracteres, mostrando um e pulando um
x[::2]

'Dt cec  eas'

In [117]:
# e) transforme todas as letras em maiúsculas
x.upper()

'DATA SCIENCE É DEMAIS!'

In [118]:
# f) transforme todas as letras em minúsculas
x.lower()

'data science é demais!'

In [105]:
#@title Solução
print(x)
# a)
print(len(x))

# b)
x = x.strip().replace(',', '')
print(x)

# c)
print(x[:6])

# d)
print(x[::2])

# e)
print(x.upper())

# f)
print(x.lower())

Data, Science, é, demais!
25
Data Science é demais!
Data S
Dt cec  eas
DATA SCIENCE É DEMAIS!
data science é demais!
