# Manipulação de Strings em Python para Ciência de Dados

Strings são amplamente usadas em ciência de dados para limpar e processar dados textuais. Neste notebook, você aprenderá a manipular strings com métodos comuns e expressões regulares.

## Objetivos
- Aprender métodos de strings como `.strip()`, `.replace()`, `.split()`.
- Usar expressões regulares básicas com o módulo `re`.
- Aplicar manipulação de strings em um dataset real.


## 1. Métodos Básicos de Strings
Vamos explorar métodos comuns para manipular strings.

In [None]:
# Exemplo: Limpando e formatando strings
nome = "  Sr. João Silva  "
print("Original:", nome)

# Remover espaços extras
nome_limpo = nome.strip()
print("Sem espaços:", nome_limpo)

# Substituir 'Sr.' por 'Senhor'
nome_formatado = nome_limpo.replace("Sr.", "Senhor")
print("Formatado:", nome_formatado)

# Dividir em palavras
palavras = nome_formatado.split()
print("Palavras:", palavras)

## 2. Expressões Regulares
O módulo `re` permite encontrar padrões em strings, como extrair títulos ou números.

In [None]:
import re

# Exemplo: Extraindo títulos de nomes
nome = "Mrs. Ana Maria Silva"
titulo = re.search(r'(Mr\.|Mrs\.|Miss\.|Master\.)', nome)
if titulo:
    print("Título encontrado:", titulo.group())

# Substituindo números por 'X'
texto = "Passageiro 123, cabine A456"
texto_mascarado = re.sub(r'\d+', 'X', texto)
print("Texto mascarado:", texto_mascarado)

## 3. Exemplo com Dataset Titanic
Vamos limpar e processar a coluna 'Name' do dataset Titanic.

In [None]:
import pandas as pd
import re

# Carregar dataset
df = pd.read_csv('data/titanic.csv')

# Função para extrair títulos
def extrair_titulo(nome):
    match = re.search(r'(Mr\.|Mrs\.|Miss\.|Master\.)', nome)
    return match.group() if match else 'Outro'

# Aplicar a função à coluna 'Name'
df['Titulo'] = df['Name'].apply(extrair_titulo)
print("Contagem de títulos:")
print(df['Titulo'].value_counts())

# Limpar nomes (remover espaços extras)
df['Name_Limpo'] = df['Name'].str.strip()
print("\nPrimeiros 5 nomes limpos:")
print(df['Name_Limpo'].head())