# Curso de Introdução à Ciência de Dados
##### Programa de Pós-Graduação em Economia - PPGE

## Python - Operações com  objetos de texto (*Strings*)

###### Prof. Hilton Ramalho
###### Prof. Aléssio Almeida

## Objetivo
Apresentar operações com objetos de texto (*strings*) no `Pyhton`.


## Conteúdo
1. [Variável string](#variavel)
2. [Operações com Strings](#operacoes)
3. [Verificação parcial de strings](#verificacao)
4. [Contagem, pesquisa e posicionamento](#contagem)
5. [Quebra de string e substituição de letras e palavras](#replace)
6. [Validação por tipo de conteúdo](#validacao)
7. [Formatação de string](#formatacao)
8. [Exercícios](#exercicios)

<a name="variavel"></a>
# Objeto *string*

- Um objeto *string* tem classe *str* no Python.
- Uma *string* é um objeto imutável.
- Armazena cadeia de caracteres como uma sequência de blocos
- Cada caracter ocupa uma posição: vejam o exemplo abaixo

|Texto |P|A|R|A|Í|B|A| |8|3|
|-|-|-|-|-|-|-|-|-|-|-|
|Índice|0|1|2|3|4|5|6|7|8|9|

- Podemos acessar strings como listas, informando o índice entre `[ ]`.
- Para criar um criar uma string podemos usar `'texto'` ou `"texto"`.
- Ajuda para a classe *str*
- A função `str()` converte números para texto.
- `help(str)`

## Métodos aplicáveis a objetos strings

|Método|Descrição|
|:---:|:---:|
|capitalize()|	Converts the first character to upper case|
|casefold()|	Converts string into lower case|
|center()|	Returns a centered string|
|count()|	Returns the number of times a specified value occurs in a string|
|encode()|	Returns an encoded version of the string|
|endswith()|	Returns true if the string ends with the specified value|
|expandtabs()|	Sets the tab size of the string|
|find()|	Searches the string for a specified value and returns the position of where it was found|
|format()|	Formats specified values in a string|
|format_map()|	Formats specified values in a string|
|index()|	Searches the string for a specified value and returns the position of where it was found|
|isalnum()|	Returns True if all characters in the string are alphanumeric|
|isalpha()|	Returns True if all characters in the string are in the alphabet|
|isdecimal()|	Returns True if all characters in the string are decimals|
|isdigit()|	Returns True if all characters in the string are digits|
|isidentifier()|	Returns True if the string is an identifier|
|islower()|	Returns True if all characters in the string are lower case|
|isnumeric()|	Returns True if all characters in the string are numeric|
|isprintable()|	Returns True if all characters in the string are printable|
|isspace()|	Returns True if all characters in the string are whitespaces|
|istitle()|	Returns True if the string follows the rules of a title|
|isupper()|	Returns True if all characters in the string are upper case|
|join()|	Joins the elements of an iterable to the end of the string|
|ljust()|	Returns a left justified version of the string|
|lower()|	Converts a string into lower case|
|lstrip()|	Returns a left trim version of the string|
|maketrans()|	Returns a translation table to be used in translations|
|partition()|	Returns a tuple where the string is parted into three parts|
|replace()|	Returns a string where a specified value is replaced with a specified value|
|rfind()|	Searches the string for a specified value and returns the last position of where it was found|
|rindex()|	Searches the string for a specified value and returns the last position of where it was found|
|rjust()|	Returns a right justified version of the string|
|rpartition()|	Returns a tuple where the string is parted into three parts|
|rsplit()|	Splits the string at the specified separator, and returns a list|
|rstrip()|	Returns a right trim version of the string|
|split()|	Splits the string at the specified separator, and returns a list|
|splitlines()|	Splits the string at line breaks and returns a list|
|startswith()|	Returns true if the string starts with the specified value|
|strip()|	Returns a trimmed version of the string|
|swapcase()|	Swaps cases, lower case becomes upper case and vice versa|
|title()|	Converts the first character of each word to upper case|
|translate()|	Returns a translated string|
|upper()|	Converts a string into upper case|
|zfill()|	Fills the string with a specified number of 0 values at the beginning|

In [103]:
x = "PARAÍBA 83"
x[0]

'P'

In [104]:
x[-1]

'3'

## Concatenação de *strings*

In [105]:
x = 'texto 1'
x + ' texto 2'

'texto 1 texto 2'

In [106]:
print(f"O objeto {x} tem classe {type(x)}")

O objeto texto 1 tem classe <class 'str'>


### Exemplo:

- Faça um programa que peça o primeiro e o último nome do usuário. Depois o programa deve imprimir o nome completo.

In [107]:
primeiro_nome = input("Informe seu primeiro nome: ")
ultimo_nome = input("Informe seu último nome: ")
completo = primeiro_nome + " " + ultimo_nome
print(f"Obrigado por responder: {completo}")

Informe seu primeiro nome: Fernando
Informe seu último nome: Silva
Obrigado por responder: Fernando Silva


## Concatenação de *strings* com repetição de objetos

In [108]:
# Concatenação com repetição de objetos
p = "Paraíba"
repeticoes = 3
letras = "a" * repeticoes
print(f"A palavra {p} tem {repeticoes} vogais a: {letras}")


A palavra Paraíba tem 3 vogais a: aaa


In [109]:
# Concatenando com repetição (10 repetição da letra a)
print("Bom dia"+"a"*10+"!")

Bom diaaaaaaaaaaa!


### Concatenar textos e números ?

In [110]:
# Forma incorreta
x = "Fernando tem " + 10 + " anos de idade."

TypeError: ignored

In [111]:
# Formas corretas - usando a função str() para converter número em texto
x = "Fernando tem " + str(10) + " anos de idade."
print(x)

Fernando tem 10 anos de idade.


In [112]:
# Formas corretas - usando o wildcard %s para converter número em texto
x = "Fernando tem %s anos de idade." % (10)
print(x)

Fernando tem 10 anos de idade.


## Fatiamento

In [None]:
x = 'ABCDEFG'
x[0:3]

In [None]:
x = 'ABCDEFG'
x[0:3]

In [None]:
x = 'ABCDEFG'
x[-1]

<a name='operacoes'> </a>
# Operações com Strings

- Strings são imutáveis.
- Alterações podem ser feitas por transformação em lista ou usando o método `replace`.


In [None]:
x = "LEMA UFPB"
print(x[0])

In [None]:
# Observe que não podemos alterar os elementos do objeto original
x[0] = 'l'

## Para alterar uma string precisamos transformá-la em uma lista

- Modo 1 - Lista
- Modo 2 - `replace` (será mostrado mais a frente!)


In [31]:
x = list('Lema Ufpb')
print(x, '\n')

['L', 'e', 'm', 'a', ' ', 'U', 'f', 'p', 'b'] 



In [32]:
x[0] = 'l'
print(x)

['l', 'e', 'm', 'a', ' ', 'U', 'f', 'p', 'b']


<a name="verificacao"></a>
# Verificação parcial de strings

- Para verificar o conteúdo de uma string de forma parcial podemos usar **os métodos**: `.startswith` ou `.endswith`
- De forma mais simples podemos fazer a comparação usando os **operadores lógicos** `in` ou `not in`



### O método `.startswith`

- Este método testa se determino texto inicia com determinada palavra.
- O método é *case sensitive*.

In [113]:
x = "LEMA UFPB"
x.startswith('LEMA')

True

In [114]:
x = "LEMA UFPB"
x.startswith('UFPB')

False

In [115]:
x = "LEMA UFPB"
x.startswith('L')

True

### Observe o *case sensitive*

In [39]:
x = "Lema UFPB"
x.startswith("LEMA")

False

In [41]:
x = "UFPB - Universidade Federal da Paraíba"
x.startswith("ufpb")

False

## Testando a presença de termos com os operadores lógicos `in` ou `not in`

In [42]:
# outra forma de verificar
x = "LEma"
'lema' in x

False

In [45]:
y = 'A ufpb é localizada no estado da Paraíba'
'ufpb' in y

True

In [44]:
y = 'Universidade Estadual da Paraíba'
'Federal' not in y

True

### Exemplo:
 - Faça um programa para classificar dois tipos de entidades (municipal e estadual) a partir da presença de palavras na descrição. No final crie uma lista de tuplas com resultados, onde cada tupla agrupa o tipo e a descrição da entidade.

 Considere os seguintes dados:

|Órgão|
|:---:|
|PREFEITURA MUNICIPAL DE PATOS|
|SECRETARIA DE SAÚDE DO MUNICÍPIO DE SANTA RITA|
|SECRETARIA DE EDUCAÇÃO ESTADUAL DA PARAÍBA|
|SECRETARIA DE EDUCAÇÃO DO MUNICÍPIO DE JOÃO PESSOA|
|SECRETARIA DE CULTURA DO MUNICÍPIO DE CAMPINA GRANDE|
|SECRETARIA DE CULTURA DO ESTADO DA PARAÍBA|



In [116]:
# Criamos uma lista com as descrições
orgaos = ['PREFEITURA MUNICIPAL DE PATOS', 
          'SECRETARIA DE SAÚDE DO MUNICÍPIO DE SANTA RITA',
          'SECRETARIA DE EDUCAÇÃO ESTADUAL DA PARAÍBA', 
          'SECRETARIA DE EDUCAÇÃO DO MUNICÍPIO DE JOÃO PESSOA',
          'SECRETARIA DE CULTURA DO MUNICÍPIO DE CAMPINA GRANDE',
          'SECRETARIA DE CULTURA DO ESTADO DA PARAÍBA'
          ]

# Vamos criar uma nova lista de tuplas
v = []
# Ela será preenchida a partir de um looping com regras de decisão no seu escopo
for x in orgaos:
  if 'MUNICIPAL' in x or 'MUNICÍPIO' in x:
    v.append(('ESFERA MUNICIPAL', x))
  if 'ESTADO' in x or 'ESTADUAL' in x:
    v.append(('ESFERA ESTADUAL', x))

# Imprimir o resultado da classificação
for i in v:
  print(f"A entidade {i[1]} foi classificada como {i[0]}. \n")  

A entidade PREFEITURA MUNICIPAL DE PATOS foi classificada como ESFERA MUNICIPAL. 

A entidade SECRETARIA DE SAÚDE DO MUNICÍPIO DE SANTA RITA foi classificada como ESFERA MUNICIPAL. 

A entidade SECRETARIA DE EDUCAÇÃO ESTADUAL DA PARAÍBA foi classificada como ESFERA ESTADUAL. 

A entidade SECRETARIA DE EDUCAÇÃO DO MUNICÍPIO DE JOÃO PESSOA foi classificada como ESFERA MUNICIPAL. 

A entidade SECRETARIA DE CULTURA DO MUNICÍPIO DE CAMPINA GRANDE foi classificada como ESFERA MUNICIPAL. 

A entidade SECRETARIA DE CULTURA DO ESTADO DA PARAÍBA foi classificada como ESFERA ESTADUAL. 



<a name='formatacao'></a>
# Formatação de string

## Usando os métodos `.upper()`, `.lower()` e `.capitalize()`

### Exemplos

In [59]:
# Considere a variável
x = 'paraíba, brasil-PB. a paraíba tem 223 municípios.'
# Criamos outra variável com todas as palavras maiúsculas
y = x.upper()
print(y)

PARAÍBA, BRASIL-PB. A PARAÍBA TEM 223 MUNICÍPIOS.


In [60]:
# Criamos outra variável com todas as palavras minúsculas
y = x.lower()
print(y)

paraíba, brasil-pb. a paraíba tem 223 municípios.


In [61]:
# Criamos outra variável com todas a primeira letra da string sendo maiúscula
y = x.capitalize()
print(y)

Paraíba, brasil-pb. a paraíba tem 223 municípios.


### Convertendo uma *string* para uma lista de termos - método `.split()`

- O método `.split()` intera para elemento de uma *string* e passa para uma lista a partir do argumento de quebra de texto informado.

In [65]:
# Considere a string
x = 'paraíba, brasil-PB. a paraíba tem 223 municípios.'
# Convertemos para uma lista onde cada elemento é um objeto da string
v = list(x)
print(v)

['p', 'a', 'r', 'a', 'í', 'b', 'a', ',', ' ', 'b', 'r', 'a', 's', 'i', 'l', '-', 'P', 'B', '.', ' ', 'a', ' ', 'p', 'a', 'r', 'a', 'í', 'b', 'a', ' ', 't', 'e', 'm', ' ', '2', '2', '3', ' ', 'm', 'u', 'n', 'i', 'c', 'í', 'p', 'i', 'o', 's', '.']


In [66]:
# Considere a string
x = 'paraíba, brasil-PB. a paraíba tem 223 municípios.'
# Convertemos para uma lista onde cada elemento é um objeto da string separado por espaço
v = x.split()
print(v)

['paraíba,', 'brasil-PB.', 'a', 'paraíba', 'tem', '223', 'municípios.']


In [67]:
# Considere a string
x = 'paraíba, brasil-PB. a paraíba tem 223 municípios.'
# Convertemos para uma lista onde cada elemento é um objeto da string separado por ponto
v = x.split(".")
print(v)

['paraíba, brasil-PB', ' a paraíba tem 223 municípios', '']


In [68]:
# Considere a string
x = 'paraíba, brasil-PB. a paraíba tem 223 municípios.'
# Convertemos para uma lista onde cada elemento é um objeto da string separado por vírgula
v = x.split(",")
print(v)

['paraíba', ' brasil-PB. a paraíba tem 223 municípios.']


### Convertendo lista de *strings* para uma *string* concatenada - método `.join()`

- O método `.join()` intera para elemento de uma *string* e concatena com o argumento informado.

In [76]:
# Considere a string
x = 'A paraíba tem 223 municípios.'
# Convertemos para uma lista de palavras a partir dos espaços
v = x.split()
print(v)

['A', 'paraíba', 'tem', '223', 'municípios.']


In [78]:
# Vamos converter em um texto - concatenamos cada elemento de v com um espaço 
z = ' '.join(v)
print(v)
print(z)

['A', 'paraíba', 'tem', '223', 'municípios.']
A paraíba tem 223 municípios.


In [79]:
# Vamos converter em um texto - concatenamos cada elemento de v com uma vírgula 
z = ','.join(v)
print(v)
print(z)

['A', 'paraíba', 'tem', '223', 'municípios.']
A,paraíba,tem,223,municípios.


In [80]:
# Vamos converter em um texto - concatenamos cada elemento de v com uma hífen 
z = ' - '.join(v)
print(v)
print(z)

['A', 'paraíba', 'tem', '223', 'municípios.']
A - paraíba - tem - 223 - municípios.


### Exemplo:
 - Converta cada palavra do texto abaixo de modo que a primeira letra fique maiúscula, com exceção da preposição 'da'
 - "universidade federal da paraíba"

In [118]:
# Criamos a variável texto
texto = "universidade federal da paraíba"
# Convertemos em uma lista de termos
v = texto.split()
print(v)

['universidade', 'federal', 'da', 'paraíba']


In [119]:
# Vamos fazer um looping por dentro da lista com regra de decisão
# para a aplicação do método .capitalize() em cada objeto
z = [ x.capitalize() if x != 'da' else x for x in v]
print(z)

['Universidade', 'Federal', 'da', 'Paraíba']


In [121]:
# Finalmente convertemos a lista de termos para uma string 
# concatenando cada elemento por espaço - método .join()
resultado = " ".join(z)
print(texto)
print(resultado)

universidade federal da paraíba
Universidade Federal da Paraíba


<a name="contagem"></a>
# Contagem, pesquisa e posicionamento

## Contagem - o método `.count()`

- Pode ser do interesse fazer a contagem de letras ou palavras em uma string

In [92]:
x = 'Paraíba, Brasil-PB. A Paraíba tem 223 municípios.'
#contagem de letras 'P" aparencem na string - convertemos tudo em palavras minúsculas
x.lower().count('P'.lower())

4

In [93]:
# Contamos quantas palavras "paraíba" aparecem na string
x.lower().count('paraíba')

2

## Pesquisa em Strings

- Para isso, podemos usar o **método** `.find()` e seus derivados, como `.rfind()`


In [94]:
x = 'Paraíba, Brasil-PB. A Paraíba tem 223 municípios.'
x.find('Paraíba') # obtém a primeira posição da ocorrência à esquerda

0

In [95]:
x.find('tem') # obtém a primeira posição da ocorrência

30

In [96]:
x.find('PE') # Item não encontrado = -1

-1

In [97]:
x.rfind('Paraíba') # obtém a primeira posição da ocorrência à direita

22

##  Exemplo

Pesquisar todas as ocorrências da palavra Paraíba, na seguinte string

- **Paraíba, Brasil-PB. A Paraíba tem 223 municípios.**

Dica: `find` aceita START e STOP como opção.


In [99]:
x = 'Paraíba, Brasil-PB. A Paraíba tem 223 municípios.'
p=0
while (p > -1):
    p = x.find('Paraíba', p)
    if p >= 0:
        print(f'Posição: {p+1}/{len(x)}')
        p += 1

Posição: 1/49
Posição: 23/49




##  Posicionamento de uma string

- Os métodos `.center()`, `.ljust()` e `.rjust()` podem ser utilizadas para uma melhor definição de posição de um texto.


In [122]:
# posicionamento
x = 'lema'
'<' + x.center(10) + '>'

'<   lema   >'

In [None]:
'<' + x.upper().center(10, "-") + '>'

In [None]:
# posicionar string a esquerda com adição de espaços ou caracteres
x.ljust(20, ".")

In [None]:
# posicionar string a direita com adição de espaços ou caracteres
x.rjust(20, '.')

<a name="replace"></a>
# Quebra de string e substituição de letras e palavras

## Quebra/separação de uma string

- A função `split` pode ser muito útil para quebrar uma string para compor uma lista

In [None]:
x = 'Arroz, Batata, Pão'
x.split(' ')

In [None]:
x = 'Arroz, Batata, Pão'
x.split(', ')

## Quebra de uma string por linhas \n

- Em alguns casos, podemos querer quebrar strings que estão separadas por linha (\n)

In [None]:
x = 'Arroz\nBatata\nPão'
print(x)

In [None]:
x.splitlines()

## Substituição de texto em uma string

- O método `replace` pode ser usado para tal finalidade.
- Ele ainda possui a opção para definirmos a quantidade de substituições

In [100]:
x = 'Um tigre, dois tigres, três tigres...'
x.replace('tigre', 'pato')

'Um pato, dois patos, três patos...'

In [101]:
# substituir apenas uma vez
x.replace('tigre', 'pato', 1)

'Um pato, dois tigres, três tigres...'

In [None]:
# substituir duas vezes
x.replace('tigre', 'pato', 2)

## Remoção de espaço em branco

- O método `strip` e seus derivados `lstrip` e `rstrip` permitem excluir espações em branco de um texto.

In [None]:
x = '   Lema   '
x

In [None]:
x.strip()

In [None]:
x.lstrip()

In [None]:
x.rstrip()

<a name='validacao'></a>
# Validação por tipo de conteúdo

## Testar tipos dos objetos
| isdecimal() | isdigit() | isnumeric() |          Example                 |
|:----:|:----:|:----:|:----:|
|    True     |    True   |    True     | "038", "੦੩੮", "０３８"           |
|  False      |    True   |    True     | "⁰³⁸", "⒊⒏", "⓪③⑧"          |
|  False      |  False    |    True     | "↉⅛⅘", "ⅠⅢⅧ", "⑩⑬㊿", "壹貳參"  |
|  False      |  False    |  False      | "abc", "38.0", "-38"             |


In [None]:
n1 = "Ciência"
print(n1.isnumeric())

In [None]:
help(str.isdigit)

In [123]:
teste1 = '1234'.isdigit()  # numérico?
teste2 = '1234 '.isdigit()  # espaço no fim afeta o tipo?
teste3 = '12.34'.isnumeric()  # ponto decimal?
teste4 = '-10'.isnumeric()
teste5 = 'ABC'.isalpha()  # Alfabético
teste6 = '123a'.isalnum()
print(f" {teste1} \t {teste2} \t {teste3} \t {teste4} \n {teste5} \t {teste6}")

 True 	 False 	 False 	 False 
 True 	 True


In [None]:
# Outra alternativa para testar o tipo do objeto
help(isinstance)

In [None]:
isinstance("Teste123", str)

In [None]:
# Outros testes: maicusculo x minusculo
a = 'ABC'
c = 'abc'

In [None]:
a.isupper()

In [None]:
a.islower()

In [None]:
c.islower()

## Formatação de números em uma *string*

In [None]:
"{} {}".format("Hello", "World")

In [None]:
"{}: {} x {} = R$ {}".format("Receita", 1.50, 10, 15.0)

In [None]:
"{0} {1} {0}".format("--", "Ufpb")

## Largura da string e posição/alinhamento

In [None]:
# Especificar largura
"{0} {1:10} {0}".format("--", "Ufpb")

'-- Ufpb       --'

In [None]:
# Especificar largura e posição: centralizado
"{0} {1:^10} {0}".format("--", "Ufpb")

In [None]:
# Especificar largura e posição: esq.
"{0} {1:<10} {0}".format("--", "Ufpb")

In [None]:
# Especificar largura e posição: dir.
"{0} {1:>10} {0}".format("--", "Ufpb")

## Parâmetros como listas ou dicionários

- E se o parâmetro a ser formatado for uma lista?


In [102]:
# lista
"{0[0]} --- {0[1]}".format(['123', '456'])

'123 --- 456'

## Parâmetros como listas ou dicionários

- E se o parâmetro a ser formatado for um dicionário?


In [None]:
# dicionário
"{0[nome]} --- {0[telefone]}".format({'telefone': 32167453, 'nome': 'Decon'})

## Formatação de números

### Zero à esquerda

In [None]:
# zeros à esquerda
"{0:06}".format(1001)

### Outros caracteres por diferentes posicionamentos

In [124]:
# inserir outros caracteres à esquerda
"{0:*=15}".format(879833301)

'******879833301'

In [None]:
# inserir outros caracteres distribuídos
"{0:*^15}".format(879833301)

In [None]:
# inserir outros caracteres distribuídos
"{0:*<15}".format(879833301)

## Formatação de números

### Formatação com milhar

In [None]:
"{:,.2f}".format(2550)

### Forçar a impressão do sinal +

In [None]:
"{:+} {:+}".format(10, -2)

### Formatação com percentual

In [None]:
"{:.2%}".format(0.64509)

## Definição do locale (Brasil)

In [None]:
# Testar no seu computador - onde o SO tem instalado locales para PT-BR
import locale
locale.setlocale(locale.LC_ALL, "pt_BR.utf-8")

In [None]:
# Formatação com milhar
"{:n}".format(2550)

In [None]:
# Formatação com milhar e decimal
"{:n}".format(2550.23)

'2550.23'

<a name='exercicios'> </a>

# Exercício

1- Fazer um programa referente ao **Jogo da Forca**. Contendo os seguintes elementos:
- Palavra secreta (protegida)
- Dica de quantos caracteres tem a palavra digitada
- Máximo de três erros
- Não permitir repetição de letras

## Referências

- Chen (2018). *Pandas for everyone: python data analysis* Addison-Wesley Professional.
- Marcondes (2018). *Matemática com Python*. São Paulo: Novatec.
- Menezes (2019). *Introdução à programação com Python*. 3 ed. São Paulo: Novatec.

