# split(), re.split(), endswith(), startswith()

## Nível fácil

### 1. Dividindo nomes completos

Dada uma lista de nomes completos, use split() para separar o primeiro nome e o sobrenome de cada pessoa:

In [2]:
import pandas as pd

In [3]:
nomes = ["Ana Souza", "Carlos Pereira", "João Mendes"]

In [4]:
lista_nomes = pd.DataFrame([nome.split() for nome in nomes], columns=['Nome', 'Sobrenome'])
lista_nomes.head()

Unnamed: 0,Nome,Sobrenome
0,Ana,Souza
1,Carlos,Pereira
2,João,Mendes


→ Crie uma nova lista apenas com os primeiros nomes.

In [5]:
primeiros_nomes = lista_nomes['Nome'].to_list()
primeiros_nomes

['Ana', 'Carlos', 'João']

### 2. Checando arquivos de texto

Você tem uma lista de nomes de arquivos. Use endswith() para filtrar os que são arquivos .txt:

In [6]:
arquivos = ["relatorio.txt", "dados.csv", "apresentacao.pptx", "notas.txt"]

In [7]:
[arquivo.endswith('.txt') for arquivo in arquivos]

[True, False, False, True]

In [8]:
[arquivo for arquivo in arquivos if arquivo.endswith('.txt')]

['relatorio.txt', 'notas.txt']

### 3. Detectando prefixo em palavras

Dada uma lista de palavras, filtre as que começam com "auto":

In [9]:
palavras = ["automóvel", "autêntico", "manual", "Automação", "bicicleta"]

In [10]:
[palavra for palavra in palavras if palavra.startswith('auto'.lower())]

['automóvel']

## Nível Médio

### 4. Separando campos com múltiplos delimitadores

Use re.split() para separar dados com diferentes delimitadores:

In [11]:
import re

In [12]:
dados = "nome:Ana;idade=28|cidade=São Paulo"

→ Separe os campos usando :, ;, = ou | como delimitadores.

In [13]:
re.split(pattern=r':|;|=|[|]', string=dados)

['nome', 'Ana', 'idade', '28', 'cidade', 'São Paulo']

### 5. Analisando URLs

Dada uma lista de URLs, use startswith() para encontrar as que são HTTPS:

In [14]:
urls = ["http://exemplo.com", "https://seguro.com", "ftp://arquivos.net", "https://gov.br"]

In [15]:
[url for url in urls if url.startswith('https')]

['https://seguro.com', 'https://gov.br']

## 6. Dividindo frases longas

Escreva uma função que recebe um parágrafo e retorna uma lista com todas as frases, considerando que elas podem terminar com ., ! ou ?. Use re.split()

In [16]:
paragrafo = 'Hoje foi um dia especial para mim, pois consegui uma bolsa de 100% em Ciência de Dados na Uninter. Espero que seja mesmo uma oportunidade que me abra muitas portas! Feliz por essa conquista.'

In [17]:
def separa_frases(paragrafo):
    return re.split(pattern=r'[.]|[,]|!|[?]', string=paragrafo)

In [18]:
separa_frases(paragrafo=paragrafo)

['Hoje foi um dia especial para mim',
 ' pois consegui uma bolsa de 100% em Ciência de Dados na Uninter',
 ' Espero que seja mesmo uma oportunidade que me abra muitas portas',
 ' Feliz por essa conquista',
 '']

## Nível Difícil

### 7. Classificando comandos de terminal

Um sistema de monitoramento recebe comandos em formato de string. Classifique os comandos que começam com get, set ou reset. Crie três listas separadas: uma para cada tipo de comando

In [19]:
comandos = ["get_data", "reset_all", "set_config", "get_user", "shutdown"]

In [20]:
[comando for comando in comandos if comando.startswith('get')]

['get_data', 'get_user']

In [21]:
[comando for comando in comandos if comando.startswith('reset')]

['reset_all']

In [22]:
[comando for comando in comandos if comando.startswith('set')]

['set_config']

## 8. Analisando logs de acesso

Um log tem várias linhas com este formato:

In [23]:
logs = ['2025-04-05 12:15:21 | IP:192.168.0.1 | Status: OK', '2025-04-05 12:15:22 | IP:192.168.0.2 | Status: FAIL']

Use split() e startswith() para extrair os IPs que geraram falha

In [24]:
msg_erro = [log for log in logs if log.split()[-1].startswith('FAIL')]
msg_erro

['2025-04-05 12:15:22 | IP:192.168.0.2 | Status: FAIL']

In [25]:
[msg.split(' | ') for msg in msg_erro]

[['2025-04-05 12:15:22', 'IP:192.168.0.2', 'Status: FAIL']]

In [26]:
[ip.split(':')[1] for msg in msg_erro for ip in [msg.split(' | ')[1]]]

['192.168.0.2']

## 9. Validação de e-mails com re.split()

Dada uma lista de e-mails, use re.split() para separá-los em nome de usuário e domínio

In [27]:
emails = ["ana.souza@gmail.com", "carlos@empresa.com.br", "joao123@yahoo.com"]

In [42]:
emails_split = [re.split(pattern=r'@', string=email) for email in emails]
emails_split

[['ana.souza', 'gmail.com'],
 ['carlos', 'empresa.com.br'],
 ['joao123', 'yahoo.com']]

In [70]:
nome_usuario = [emails_split[i][0] for i in range(len(emails))]
dominio = [emails_split[i][1] for i in range(len(emails))]

print(nome_usuario)
print(dominio)

['ana.souza', 'carlos', 'joao123']
['gmail.com', 'empresa.com.br', 'yahoo.com']
