# Trabalhando com texto em Python

#### 1 - Comprimento de uma string

In [None]:
text1 = "Ethics are built right into the ideals and objectives of the United Nations"

len(text1)

#### 2 - Comprimento de uma lista (tokens)

In [None]:
text2 = text1.split(' ')
text2

In [None]:
len(text2)

#### 3 - Encontrado palavras com Lista de Compreensão

In [None]:
[w for w in text2 if len(w) > 3]

#### 4 - Encontrando palavras que iniciam com letra maiúscula

In [None]:
[w for w in text2 if w.istitle()]

#### 5 - Encontrando palavras no plural

In [None]:
[w for w in text2 if w.endswith('s')]

#### 6 - Palavras em conjuntos

In [None]:
text3 = 'To be or not to be'

text4 = text3.split(' ')

len(text4)

In [None]:
len(set(text4))

In [None]:
set(text4)

#### 7 - Convertendo para caixa baixa

In [None]:
[w.lower() for w in text4]

In [None]:
set([w.lower() for w in text4])

#### 8 - Encontrando substrings

In [None]:
text3.find('not')

In [None]:
text3.rfind('be')

#### 9 - Troca de substrings

In [None]:
text3.replace('not', 'NOT')

#### 10 - Unir (join) strings

In [None]:
text5 = 'ouagadougou'

text6 = text5.split('ou')

text6

In [None]:
'ou'.join(text6)

In [None]:
text5.split(' ')

#### 11 - Lista de todos os caracteres

In [None]:
[c for c in text5] #list(text5)

#### 12 - Lendo arquivos e linhas

In [None]:
f = open('UNDHR.txt', 'r')

f

In [None]:
f.readline()

In [None]:
f.readline().rstrip() # funciona para \n, \r\n ou \r

In [None]:
f.seek(0)
f.readline()

#### 13 - Lendo o arquivo inteiro

In [None]:
f.seek(0)
text7 = f.read()

In [None]:
len(text7)

#### 14 - Quebrando o arquivo em linhas

In [None]:
text8 = text7.splitlines() # limpa para \n, \r\n ou \r
len(text8)

In [None]:
text8[0]

#### 15 - Hashtags e chamadas (callouts)

In [None]:
text9 = '@UN @UN_Women "Ethics are built right into the ideals and objectives of the United Nations" \
#UNSG @ NY Society for Ethical Culture bit.ly/2guVelr'

text10 = text9.split(' ')

text10

In [None]:
[w for w in text10 if w.startswith('#')]

In [None]:
[w for w in text10 if w.startswith('@')]

#### 16 - Biblioteca re (regular expressions)

In [None]:
import re 

[w for w in text10 if re.search('@[A-Za-z0-9_]+', w)]

In [None]:
[w for w in text10 if re.search('@\w+', w)]

#### 17 - Corresponde a qualquer caractere único, exceto o caractere de nova linha

A função group() retorna a string encontrada pelo biblioteca re.

In [None]:
re.search(r'Co.k.e', 'Cookie').group()

In [None]:
print('\w')

#### 18 - Verifica um ou mais caracteres à esquerda (repetição)

In [None]:
re.search(r'Co+kie', 'Cooookie').group()

#### 19 - Verifica qualquer ocorrência de a ou o ou ambos na sequência especificada (repetição)

In [None]:
re.search(r'Ca*o*kie', 'Ckie').group()

#### 20 - Encontrar todas as vogais

In [None]:
text5
re.findall(r'[aeiou]', text5)

#### 21 - Encontrar a negação das vogais

In [None]:
re.findall(r'[^aeiou]', text5)

## Texto no Pandas

#### 22 - Importando texto

In [None]:
import pandas as pd

time_sentences = ["Monday: The doctor's appointment is at 2:45pm.", 
                  "Tuesday: The dentist's appointment is at 11:30 am.",
                  "Wednesday: At 7:00pm, there is a basketball game!",
                  "Thursday: Be back home by 11:15 pm at the latest.",
                  "Friday: Take the train at 08:10 am, arrive at 09:00am."]

df = pd.DataFrame(time_sentences, columns=['text'])
df

#### 23 - Número de caracteres para cada string em df ['text']

In [None]:
df['text'].str.len()

#### 24 - Número de tokens para cada string em df ['text']

In [None]:
df['text'].str.split().str.len()

#### 25 - Encontre quais entradas contêm a palavra 'appointment'

In [None]:
df['text'].str.contains('appointment')

#### 26 - Encontre quantas vezes um numero ocorre

In [None]:
df['text'].str.count(r'\d')

#### 27 - Encontre todas as ocorrências dos dígitos

In [None]:
df['text'].str.findall(r'\d')

#### 28 - Agrupe e encontre as horas e os minutos

In [None]:
df['text'].str.findall(r'(\d?\d):(\d\d)')

#### 29 - Substitua os dias da semana por 'DIA'

In [None]:
df['text'].str.replace(r'\w+day\b', 'DIA')

#### 30 - Substitua os dias da semana por três abreviações de letras

In [None]:
df['text'].str.replace(r'(\w+day\b)', lambda x: x.groups()[0][:3])

#### 31 - Criar novas colunas a partir da primeira correspondência dos grupos extraídos

In [None]:
df['text'].str.extract(r'(\d?\d):(\d\d)')

#### 32 - Extrair informação de tempo completa

In [None]:
df['text'].str.extractall(r'((\d?\d):(\d\d) ?([ap]m))')

#### 33 - Extrair informação de tempo completa e configurar o nome da coluna do dataframe

In [None]:
df['text'].str.extractall(r'(?P<time>(?P<hour>\d?\d):(?P<minute>\d\d) ?(?P<period>[ap]m))')