<a href="https://colab.research.google.com/github/py242016019/CEE2/blob/main/9_strings.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Strings**

Strings são um dos tipos de dados mais fundamentais, representando sequências de caracteres que permitem manipulações textuais variadas, como concatenação, fatiamento, busca e substituição de trechos.

Para operações mais avançadas de processamento de texto, como a extração de padrões complexos ou a validação de formatos específicos (e-mails, números de telefone, etc.), Python oferece suporte a expressões regulares por meio do módulo `re`.

Expressões regulares são ferramentas para definir padrões de busca que capturam, substituem ou transformam partes específicas de uma string, tornando-as essenciais para o processamento de grandes volumes de dados textuais e para a automação de tarefas que dependem de correspondências de padrões.


## Funções básicas

Funções úteis para manipulação de strings:

* `split()`: Divide uma string em uma lista de substrings com base em um delimitador (por padrão, divide por espaços). É útil para separar palavras ou partes de uma string.
* `join()`: Concatena uma lista de strings usando um delimitador especificado. Útil para unir elementos em uma única string.
* `replace()`: Substitui todas as ocorrências de uma substring por outra dentro de uma string. É usada para modificações localizadas de texto.
* `upper()`, `lower()`: Convertem a string para letras maiúsculas ou minúsculas, respectivamente.
* `title()`: Converte a primeira letra de cada palavra para maiúscula.
* `strip()`: Remove espaços em branco (ou outros caracteres especificados) do início e do fim da string. Útil para limpar dados de entrada.
* `count()`: Conta o número de ocorrências de uma substring na string.
* `find()`: Retorna o índice da primeira ocorrência de uma substring dentro da string. Se a substring não for encontrada, retorna -1.

In [None]:
##Exemplo: Operações Básicas com Strings

# Declaração de uma string
texto = "Olá, Mundo!"

# Acessando caracteres
print(texto[0])   # Saída:  O
print(texto[-1])  # Saída:  !

# Fatiamento
print(texto[0:5])  # Saída:  Olá,

# Exemplo de lower()
print(texto.lower())  # Saída:  olá, mundo!

# Exemplo de upper()
print(texto.upper())  # Saída:  OLÁ, MUNDO!

# Exemplo de title()
frase = "python é incrível"
print(frase.title())  # Saída: "Python É Incrível"

O
!
Olá, 
olá, mundo!
OLÁ, MUNDO!
Python É Incrível


In [None]:
# Exemplo de replace()
texto = "Olá, Mundo!"
print(texto.replace("Mundo", "Python"))  # Saída: Olá, Python!

# Exemplo de strip()
texto_com_espacos = "   Olá, mundo!   "
print(texto_com_espacos.strip(" "))      # Saída: "Olá, mundo!"

email = " maria@unb.br "
print(email.strip(" "))                  # saida: "maria@unb.br"

# Exemplo de find()
frase = "Python é incrível"
print(frase.find("é"))                   # Saída: 7
print(frase.find("Java"))                # Saída: -1

Olá, Python!
Olá, mundo!
maria@unb.br
7
-1


In [None]:
# Exemplos de split() e joing()
mensagem = "Python é uma linguagem poderosa"

exemplo_split = mensagem.split(" ")
print(exemplo_split)  # Saída: ['Python', 'é', 'uma', 'linguagem', 'poderosa']

exemplo_join = " ".join( exemplo_split)
print(exemplo_join)  # Saída: Python é uma linguagem poderosa

exemplo_join2 = '_'.join( exemplo_split)
print(exemplo_join2)  # Saída: Python_é_uma_linguagem_poderosa

['Python', 'é', 'uma', 'linguagem', 'poderosa']
Python é uma linguagem poderosa
Python_é_uma_linguagem_poderosa


**Formatando Strings:**

In [None]:
nome = "João"
idade = 25
# Usando f-strings (Python 3.6+)
ex_f = f"Meu nome é {nome} e eu tenho {idade} anos."
print(ex_f)  # Meu nome é João e eu tenho 25 anos.

# Usando o método format
ex_format = "Meu nome é {} e eu tenho {} anos.".format(nome, idade)
print(ex_format)  # Mesma saída.

# Usando "+"
ex_mais = "Meu nome é " + nome + " e eu tenho " + str(idade) + " anos."
print(ex_mais)

Meu nome é João e eu tenho 25 anos.
Meu nome é João e eu tenho 25 anos.
Meu nome é João e eu tenho 25 anos.


### Exercício 1:

Crie uma função chamada `extrair_dominio` que recebe um endereço de email como parâmetro e retorna apenas o domínio (parte após o @). Use `split()` para dividir o email e extrair o domínio.

Exemplo:
```python
extrair_dominio("usuario@dominio.com")  # Saída: "dominio.com"
```


In [None]:
def extrair_dominio(email):
  separadas= email.split("@")
  return separadas[1]

extrair_dominio("usuario@dominio.com")


'dominio.com'

### Exercício 2:

Construa um código que altera um número de telefone no formato "61997351520" para o formato "(61) 99735-1520".

Exemplo:
```python
altera_telefone(61997351520)  # Saída: "(61) 99735-1520"
```

In [None]:
def altera_telefone (numero):
  vet1= numero[0:2]
  vet2= numero[2:7]
  vet3= numero[7:11]
  print(f"({vet1}) {vet2}-{vet3}")

altera_telefone("61992629904")

(61) 99262-9904


## Expressões Regulares

Trabalhar com dados textuais é uma tarefa comum em várias áreas de programação, como processamento de linguagem natural, análise de logs, extração de dados e muito mais.

Para lidar eficientemente com textos e padrões em strings, Python oferece suporte a expressões regulares (Regex) por meio da biblioteca `re`.

### Sintaxe de Expressões Regulares

Os padrões são formados utilizando operadores, veja os mais comuns abaixo:

| Símbolo | Significado                                    |
|---------|------------------------------------------------|
| `.`     | Qualquer caractere (exceto nova linha)         |
| `\d`    | Qualquer dígito (0-9)                          |
| `\D`    | Qualquer caractere que **não** é um dígito     |
| `\w`    | Qualquer caractere alfanumérico (qualquer letra ou dígito) ou (`_`)                                                      |
| `\W`    | Qualquer caractere que **não** pertence a classe `\w`.|
| `\s`    | Qualquer espaço em branco (espaços, tabulações, quebras de linha)                                                     |
| `\S`    | Qualquer caractere que **não** pertence a classe `\s`. |
| `[]`    | Define um conjunto de caracteres, exemplo: [a-z] para letras minúsculas                                                 |
| `{n}`   | Corresponde exatamente a `n` ocorrências do caractere ou padrão anterior.                                                  |
| `{n,}`  | Corresponde a `n` ou mais ocorrências do caractere ou padrão anterior.                                                  |
| `{n,m}` | Corresponde de `n` a `m` ocorrências do caractere ou padrão anterior.                                                  |
| `+`     | Uma ou mais ocorrências                        |
| `*`     | Zero ou mais ocorrências                       |
| `?`     | Zero ou uma ocorrência                         |
| `^`     | Início da string                               |
| `$`     | Final da string                                |



### Principais Funções de `re`:

* `re.search(padrão, string)`: Procura por um padrão em uma string. Retorna a primeira ocorrência encontrada.
* `re.findall(padrão, string)`: Retorna todas as correspondências de um padrão em uma string.
* `re.sub(padrão, substituição, string)`: Substitui as correspondências do padrão em uma string por outro valor. Retorna a string atualizada.
* `re.split(pattern, string)`: Divide a string com base em um padrão e retorna uma lista. Útil para dividir a string usando delimitadores mais complexos que simples espaços ou vírgulas.


Existem outras funções e símbolos implementados na biblioteca `re`. Para mais detalhes acesse o manual da biblioteca: [https://docs.python.org/3/library/re.html](https://docs.python.org/3/library/re.html).

Para entender como esses padrões podem ser utilizados, veja os exemplos abaixo.

### Exemplo:  Encontrar todos os números em um texto

**Explicação:**

O termo `padrao = r"\d+"` define o padrão da expressão regular, em que:
* `\d` representa qualquer dígito numérico (0-9).
* `+` indica que deve haver uma ou mais ocorrências de dígitos consecutivos.

Assim, `\d+` corresponde a qualquer sequência contínua de um ou mais dígitos, como 50 e 250.

In [None]:
import re

texto = "O preço é 50 dólares ou 250 reais."

padrao = r"\d+"

print(re.findall(padrao, texto))  # ['50', '250']

['50', '250']


In [None]:
## no caso de querer tudo que não seja digitos:
import re

texto = "O preço é 50 dólares ou 250 reais."

padrao2 = r"\D+"

print(re.findall(padrao2, texto))  # ['O preço é ', ' dólares ou ', ' reais.']

['O preço é ', ' dólares ou ', ' reais.']



Também podemos identificar quantas ocorrências devem ser buscadas com `{ }`, por exemplo, `"\d{5}"` indica uma sequência de 5 digitos. Veja como isso pode ser útil nos exemplos abaixo.

### Exemplo: buscando telefones

In [None]:
## Exemplo: buscando telefones

from re import search, findall

texto = "o meu número é (61) 99800-8584 e (11) 99785-2020"

# Regex para encontrar telefones
padrao = r"\(\d{2}\) \d{5}-\d{4}"

## re.search localiza apenas a primeira ocorrência
out_search = search( padrao, texto )

print( out_search  )         # saida: <re.Match object; span=(15, 30), match='(61) 99800-8584'>
print( out_search.group()  ) # saida: (61) 99800-8584

## re.findall localiza todas as ocorrências
out_findall = findall( padrao, texto )

print( out_findall )         # saida: ['(61) 99800-8584', '(11) 99785-2020']

<re.Match object; span=(15, 30), match='(61) 99800-8584'>
(61) 99800-8584
['(61) 99800-8584', '(11) 99785-2020']


### Exemplo: buscandos datas

In [None]:
## Exemplo: buscandos datas

from re import findall

texto = "Hoje é dia 02/10/2024 e o próximo evento será em 15/11/2024."

# Regex para encontrar datas no formato DD/MM/AAAA
padrao_data = r"\d{2}/\d{2}/\d{4}"

# re.findall localiza todas as ocorrências
datas = findall(padrao_data, texto)

print(datas)  # ['02/10/2024', '15/11/2024']

['15/11/2024']


### Exemplo: buscando emails

**Explicação:**

Padrão `r"\S+@\S+"`:

* `\S+`: Corresponde a uma sequência de caracteres não-espaços (letras, números ou símbolos) uma ou mais vezes.
* `@`: Corresponde exatamente ao símbolo @, que é característico dos endereços de e-mail.
* `\S+` (após o @): Corresponde a mais uma sequência de caracteres não-espaços para identificar o domínio do e-mail.

In [None]:
## Exemplo: buscando emails

from re import findall

texto = "Se tiver problemas de conexão então envie um email para administrador@exemplo.com, mas se o problema persistir então entre em contato com o sac pelo email sac@exemplo.com."

padrao = r"\S+@\S+"  # Padrão para e-mails

emails = findall(padrao, texto)

print(emails) # ['administrador@exemplo.com,', 'sac@exemplo.com']


['administrador@exemplo.com,', 'sac@exemplo.com.']


### Grupos e capturas

As expressões regulares podem agrupar partes de um padrão usando parênteses, o que permite capturar subpartes específicas.

In [None]:
## Exemplo: grupos e capturas

# Explicação:
# O padrão (\w+) captura uma palavra (como o nome de um produto).
# O padrão (\d+) captura um ou mais dígitos (como o preço).

import re

texto = "Produto: Camiseta, Preço: R$50.75"
padrao = r"Produto: (\w+), Preço: R\$(\d+\.\d+)"
resultado = re.search(padrao, texto)

if resultado:
    produto = resultado.group(1)  # 'Camiseta'
    preco = resultado.group(2)    # '50.75'
    print(f"Produto: {produto}, Preço: R${preco}")


Produto: Camiseta, Preço: R$50.75


In [None]:
# Explicação:
# O padrão (\w+) captura o nome.
# O padrão (\d+) captura a idade.

import re

texto = "Nome: Ana, Idade: 25; Nome: João, Idade: 30; Nome: Maria, Idade: 22"
padrao = r"Nome: (\w+), Idade: (\d+)"
pessoas = re.findall(padrao, texto) # retorno uma lista de tuplas

print(pessoas)

for nome, idade in pessoas:
    print(f"Nome: {nome}, Idade: {idade}")


[('Ana', '25'), ('João', '30'), ('Maria', '22')]
Nome: Ana, Idade: 25
Nome: João, Idade: 30
Nome: Maria, Idade: 22


### **Exemplo:** separando dia, mês e ano

Considere o texto `Hoje é 15/10/2024.` e então extraia o dia, mês e ano. Utilize a função `re.search(padrao, texto)`.

In [None]:
# Solução
import re

texto = "Hoje é 15/10/2024."

padrao = r"(\d+)/(\d+)/(\d+)"
resultado = re.search(padrao, texto)

if resultado:
    dia, mes, ano = resultado.groups()
    print(f"Dia: {dia}, Mês: {mes}, Ano: {ano}")

Dia: 15, Mês: 10, Ano: 2024


### **Exemplo:** formatando datas

Dado o texto `"Reunião em 12/09/2024 e evento em 10/12/2024"`, substitua todas as datas pelo formato AAAA-MM-DD.

In [None]:
# Solução
import re

texto = "Reunião em 12/09/2024 e evento em 10/12/2024."
padrao = r"(\d{2})/(\d{2})/(\d{4})"

novo_texto = re.sub(padrao, r"\3-\2-\1", texto)

print(novo_texto)  # 'Reunião em 2024-09-12 e evento em 2024-12-10.'

Reunião em 2024-09-12 e evento em 2024-12-10.


*Explicação:*

`re.sub(padrao, r"\3-\2-\1", texto)`
   - A função `re.sub()` substitui todas as ocorrências que correspondem ao padrão `(\d{2})/(\d{2})/(\d{4})` no `texto` pela nova formatação especificada.
   - **`r"\3-\2-\1"`**: Reorganiza os grupos capturados para exibir a data no formato `AAAA-MM-DD`.
     - `\3` refere-se ao terceiro grupo (o ano).
     - `\2` refere-se ao segundo grupo (o mês).
     - `\1` refere-se ao primeiro grupo (o dia).
   - Portanto, `12/09/2024` se torna `2024-09-12`, e `10/12/2024` se torna `2024-12-10`.


### **Exemplo**: verificando CPF

Crie uma expressão regular que valide se um CPF está no formato correto: xxx.xxx.xxx-xx, onde x é um dígito.

In [None]:
# Solução
import re

cpf = "123.456.789-09"
padrao = r"\d{3}\.\d{3}\.\d{3}-\d{2}"

if re.fullmatch(padrao, cpf): ## retorna True se a equivalência é perfeita.
    print("CPF válido!")
else:
    print("CPF inválido.")


CPF válido!


### **Exemplo**: Extração de URLs

Dada uma string contendo várias URLs, extraia todas elas usando uma expressão regular.

Neste caso, o padrão a ser buscado deve ser:

`padrao = r"https?://[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"`

o qual é usado para capturar URLs que começam com `http` ou `https`, seguidos por um domínio e uma extensão de domínio de pelo menos dois caracteres.

*Explicação do Padrão:*

- `https?`:
  - `http` é seguido por `s?`, onde `?` indica que o `s` é opcional.
  - Isso permite capturar tanto `http` quanto `https`.

- `://`:
  - Representa exatamente os caracteres `://`, que aparecem logo após `http` ou `https` em URLs.

- `[a-zA-Z0-9.-]+`:
  - `[a-zA-Z0-9.-]` define um conjunto de caracteres permitidos:
    - `a-z`: letras minúsculas.
    - `A-Z`: letras maiúsculas.
    - `0-9`: dígitos numéricos.
    - `.` e `-`: pontos e hífens, comuns em domínios.
  - `+` indica que deve haver **um ou mais desses caracteres**. Esse conjunto captura o domínio principal e subdomínios (por exemplo, `www`, `sub.exemplo`, `exemplo-com`).

- `\.[a-zA-Z]{2,}`:
  - `\.` corresponde exatamente a um ponto `.` (o caractere especial `.` é escapado com `\`).
  - `[a-zA-Z]{2,}` corresponde a uma sequência de letras (maiúsculas ou minúsculas) de **pelo menos dois caracteres**.
  - Esse trecho captura a extensão do domínio, como `.com`, `.org`, `.net`, `.br`, etc.


In [None]:
# Solução
import re

texto = "Visite nossos sites: https://example.com e http://test.com.br para mais informações."

padrao = r"https?://[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"

urls = re.findall(padrao, texto)
print(urls)  # ['https://example.com', 'http://test.com.br']


['https://example.com', 'http://test.com.br']


### Exercício 3:

Crie uma expressão regular que valide CEPs no formato XXXXX-XXX, onde X é um dígito. Escreva uma função validar_cep que recebe uma string e retorna True se o CEP for válido, caso contrário, False.

```python
validar_cep("12345-678")  # True
validar_cep("1234-678")   # False
```

In [None]:
import re
def validar_cep (cep):
  padrao_certo= r"\d{5}-\d{3}"
  if re.fullmatch(padrao_certo, cep):
    print(True)
  else:
    print(False)

validar_cep("1234-678")
validar_cep("12345-678")

False
True


### Exercício 4:

Crie uma função que verifica se placas de carro estão no formato antigo brasileiro (AAA-1234), onde A é uma letra maiúscula e 1-4 são números.

Exemplo:

```python
verifica_placa("PHL-2526") # True
verifica_placa("AAB9E81")  # False
```

In [None]:
import re
def verificar_placa(placa):
  padrao= r"\w{3}-\d{4}"
  if re.fullmatch(padrao, placa):
    print(True)
  else:
    print(False)

verificar_placa("PHL-2526")
verificar_placa("AAB9E81")

True
False
