# 💻 Semana 06 - Processamento da Informação
## 📜 Cadeias de Caracteres (Strings) & Codificação

---

> **Docente:** João Paulo Gois  
> **Instituição:** Universidade Federal do ABC (UFABC)  
> **Contexto:** Tipos de Dados - Texto, ASCII/Unicode e Manipulação de Strings


<div align="center">
<img src="https://drive.google.com/uc?export=view&id=1gVwHH3aepkl85O7A2iBUCpjFjNSX_MFY" width="480">
</div>

---

### 🎯 Objetivos da Aula:
* Compreender o que são **Strings** e como o computador armazena texto (ASCII vs Unicode).
* Dominar a indexação e o fatiamento (*slicing*): acessar pedaços específicos do texto.
* Entender a **Imutabilidade**: Por que não podemos mudar uma letra de uma string?
* Utilizar métodos de manipulação: `upper()`, `strip()`, `replace()`, `format()`.
* Iterar sobre textos: Usar o laço `for` para percorrer letras.

## Tipo String

- Até agora, trabalhamos muito com números (`int`, `float`).
- Mas o mundo real é feito também de nomes, endereços, e-mails e mensagens de texto.

- Em Python, chamamos qualquer texto de **String** (Cadeia de Caracteres).


- Para criar uma string, usamos aspas simples `' '` ou duplas `" "`.

```python
nome = "João Paulo"
email = 'joao@ufabc.edu.br'
senha = "123_Mudar!"  

# 🧵 Tipo de dado String

* Como em toda linguagem de programação, Python tem diferentes tipos de dados para a construção de programas mais sofisticados.
* O tipo que representa uma sequência de caracteres é  **string**.

### 🌳 A Árvore de Tipos do Python  

```text
Python Data Types
├── Numeric
│   ├── Integer
│   ├── Float
│   └── Complex Number
├── Dictionary
├── Boolean
├── Set
└── Sequence Type
    ├── 🟡 STRINGS (Foco de hoje!)
    ├── List
    └── Tuple

### 🗺️ Mapa dos Tipos de Dados


| Nome | Tipo (`type`) | Descrição | Exemplos |
| :--- | :---: | :--- | :--- |
| **Inteiros** | `int` | Números inteiros (sem vírgula) | `3`, `300`, `-200` |
| **Ponto Flutuante** | `float` | Números decimais | `2.3`, `4.6`, `100.0` |
| 👉 **STRINGS** | **`str`** | **Sequência de caracteres (Texto)** | **`"Olá"`, `'Sammy'`, `"2025"`, `'🐍'`** |
| **Listas** | `list` | Coleção ordenada e mutável | `[10, "oi", 20.5]` |
| **Dicionários** | `dict` | Pares Chave : Valor | `{"nome": "Ana", "idade": 25}` |
| **Tuplas** | `tuple` | Coleção ordenada e **imutável** | `(10, "oi", 20.5)` |
| **Conjuntos** | `set` | Coleção não ordenada de itens únicos | `{"a", "b"}` |
| **Booleanos** | `bool` | Valor Lógico (Verdadeiro/Falso) | `True`, `False` |

In [None]:
# ESCREVA SEU CÓDIGO AQUI
raise NotImplementedError

## 2. Por baixo do capô: ASCII e Unicode

- O computador não sabe o que é a letra "A".
- Ele só entende números (0 e 1).
- Ele usa uma **Tabela de Conversão** numérica para guardar textos

* Antigamente, usávamos a tabela **ASCII** (limitada, sem acentos).
* Hoje, o Python usa o **Unicode (UTF-8)**, que suporta acentos, emojis e caracteres de qualquer língua do mundo (japonês, coreano, árabe).

### 🔍 As Ferramentas de Tradução
O Python possui  duas funções para consultar essa tabela:
1.  **`ord(letra)`**: Recebe a letra e devolve o código numérico (ID).
2.  **`chr(codigo)`**: Recebe o número e devolve a letra correspondente.

> **Curiosidade:**
> * 'a' (minúsculo) tem código **97**.
> * 'A' (maiúsculo) tem código **65**.
> * Por isso o Python diz que `'a' > 'A'`! Ele compara os números.

In [None]:
# ESCREVA SEU CÓDIGO AQUI
raise NotImplementedError

## Acessando Caracteres (Indexação)

- Como as strings são sequências ordenadas, cada letra tem um "endereço" (índice), começando sempre do **Zero**.

Se `fruta = "banana"`:

| b | a | n | a | n | a |
|:---:|:---:|:---:|:---:|:---:|:---:|
| 0 | 1 | 2 | 3 | 4 | 5 |

* `len(texto)`: Devolve o tamanho total da string.
* `texto[0]`: Pega a primeira letra.
* `texto[-1]`: Pega a **última** letra (índice negativo conta de trás pra frente).

> **⚠️ Cuidado:** Se tentar acessar um índice que não existe (ex: `fruta[100]`), o Python vai dar erro (`IndexError`).

In [None]:
# ESCREVA SEU CÓDIGO AQUI
raise NotImplementedError

## Imutabilidade 🔒

- Em Python: **Strings são Imutáveis.**
- Isso significa que, depois de criada, você **NÃO** pode alterar uma letra individualmente.

```python
texto = "Casa"
texto[0] = "L"  # ❌ ERRO! O Python não deixa trocar o 'C' pelo 'L'.

##  Matemática com Texto

- Podemos usar operadores matemáticos em strings, mas eles funcionam de jeito diferente:

1.  **Soma (`+`) = Concatenação (Juntar):**
    * `"Ola" + "Mundo"` $\to$ `"OlaMundo"` (não adiciona espaço sozinho!)
2.  **Multiplicação (`*`) = Repetição:**
    * `"Oi" * 3` $\to$ `"OiOiOi"`
3.  **Comparação (`==`, `>`, `<`):**
    * Testa se os textos são iguais ou verifica a ordem alfabética (baseada no código ASCII).

In [None]:
# ESCREVA SEU CÓDIGO AQUI
raise NotImplementedError

## Fatiamento (Slicing) 🔪

- Quando queremos apenas um pedaço do texto, usamos o operador de fatia `:`.
- Regra é igual ao `range()` : **`[início : fim]`**.

* O **início** é incluído.
* O **fim** é excluído (para um antes).

Exemplo: `s[1:4]` pega os índices 1, 2 e 3.

In [None]:
# ESCREVA SEU CÓDIGO AQUI
raise NotImplementedError

## Métodos de String 🧰

- O Python já vem com funções prontas para tratar texto.
- Lembre-se: como strings são imutáveis, essas funções **devolvem uma nova string** modificada, não alteram a original.

* `s.upper()`: TUDO MAIÚSCULO.
* `s.lower()`: tudo minúsculo.
* `s.title()`: Primeira Letra De Cada Palavra Maiúscula.
* `s.strip()`: Remove espaços inúteis no começo e no fim (a "sujeira" da digitação).
* `s.replace("velho", "novo")`: Substitui trechos do texto.
* `s.isdigit()`: Verifica se o texto só tem números (útil para validar input).

In [None]:
# ESCREVA SEU CÓDIGO AQUI
raise NotImplementedError

## Mais métodos (funções) para Strings 🏔️

- A classe **String** do Python possui dezenas de outros métodos úteis  (como `count`, `find`, `split`, `join`...).

- **Não tente decorar!** O bom programador sabe **onde procurar**.

### 🔗 Referências Recomendadas:
1.  **[W3Schools - Python String Methods](https://www.w3schools.com/python/python_ref_string.asp)** (Recomendado ): Lista visual, simples e com exemplos práticos.
2.  **[Documentação Oficial do Python](https://docs.python.org/pt-br/3/library/stdtypes.html#string-methods)**: Mais técnica e detalhada.

### 🕵️‍♀️ Hackeando o Python (Descobrindo funções no código)
Você pode pedir para o próprio Python listar todas as ferramentas disponíveis dentro de uma string usando o comando `dir()`.
Veja abaixo! 👇

In [None]:
# ESCREVA SEU CÓDIGO AQUI
raise NotImplementedError

## Percorrendo Strings

- Podemos usar laços para analisar letra por letra.
- O laço `for` é perfeito para isso, pois a string é uma sequência!

```python
for letra in texto:
    print(letra)

Vamos criar uma função que recebe um nome completo e retorna as iniciais.
* Exemplo: "João Paulo Gois" $\to$ "J.P.G."

**Lógica:**
1.  A primeira letra do nome inteiro (`nome[0]`) sempre entra.
2.  Depois, percorremos o nome procurando espaços (`" "`).
3.  Sempre que acharmos um espaço, a **próxima letra** (`i+1`) é uma inicial!

In [None]:
# ESCREVA SEU CÓDIGO AQUI
raise NotImplementedError

## 🎮 A Evolução dos Emojis (ASCII vs Unicode)

Vamos ver na prática a diferença entre o passado e o presente.

### 📼 1. Geração X / Millennials (A Era ASCII)
- Nos anos 90 e 2000 (época do mIRC, ICQ e SMS), não existiam desenhos no teclado.
- A criatividade era usar símbolos do teclado para formar rostos.
- Isso é processamento de String puro: **Concatenação**!

### 📱 2. Geração Z / Alfa (A Era Unicode)
- Hoje, o Python suporta **Unicode**.
- Isso significa que podemos imprimir emojis reais, hieróglifos egípcios ou caracteres élficos usando a função `chr()` com códigos números gigantes (acima de 100.000!).

In [None]:
# ESCREVA SEU CÓDIGO AQUI
raise NotImplementedError

## 🧹  Faxina nos Dados (Data Cleaning)

- Uma das tarefas mais comuns de um cientista de dados é limpar textos bagunçados.
- Mas cuidado: **Limpar demais pode estragar o dado!**

Vamos criar duas ferramentas diferentes:
1.  **Gerador de Login (Rigoroso):** Remove símbolos, espaços e **ACENTOS**.
    * *Problema:* O `.isalnum()` acha que `ã` é letra. Para login, isso é ruim.
    * *Solução:* Vamos usar a biblioteca `unicodedata` para "desmontar" os acentos e deixar só as letras puras.
2.  **Limpador de Frases (Moderado):** Remove símbolos, mas **preserva os espaços** e acentos para o texto continuar legível.

In [None]:
import unicodedata

def remover_acentos(texto: str) -> str:
    # 1. Normaliza: Separa a letra do acento (Ex: 'ã' vira 'a' + '~')
    nfkd = unicodedata.normalize('NFKD', texto)

    # 2. Filtra: Pega apenas os caracteres que NÃO são marcas de acento
    texto_sem_acento = ""
    for c in nfkd:
        if not unicodedata.combining(c):
            texto_sem_acento += c

    return texto_sem_acento

def gerar_login(texto_sujo: str) -> str:
    # Passo 1: Remove os acentos (João -> Joao)
    texto_sem_acento = remover_acentos(texto_sujo)

    # Passo 2: Remove símbolos e espaços
    login = ""
    for c in texto_sem_acento:
        if c.isalnum():
            login += c

    return login.lower()

def limpar_frase(texto_sujo: str) -> str:
    # Para leitura, mantemos os acentos e espaços!
    frase_limpa = ""
    for c in texto_sujo:
        if c.isalnum() or c == " ":
            frase_limpa += c
    return frase_limpa.strip() # strip() remove espaços sobrando nas pontas

entrada = "Olá! Eu sou o João @UFABC #20XX."

print(f"Original: {entrada}\n")
print(f"1. Login Seguro:   {gerar_login(entrada)}")
print(f"2. Frase Legível:  {limpar_frase(entrada)}")

Original: Olá! Eu sou o João @UFABC #20XX.

1. Login Seguro:   olaeusouojoaoufabc20xx
2. Frase Legível:  Olá Eu sou o João UFABC 20XX
