In [31]:
import pandas as pd

# Lista de frases contendo informações de tempo
frases_tempo = ["Segunda-feira: A consulta com o médico é às 14:45.",
                "Terça-feira: A consulta com o dentista é às 11:30.",
                "Quarta-feira: Às 19:00, tem um jogo de basquete!",
                "Quinta-feira: Esteja em casa até às 23:15 no máximo.",
                "Sexta-feira: Pegue o trem às 08:10, chegue às 09:00."]

# Criando um DataFrame a partir das frases
df = pd.DataFrame(frases_tempo, columns=['texto'])

# Visualizando o DataFrame
display(df)




Unnamed: 0,texto
0,Segunda-feira: A consulta com o médico é às 14...
1,Terça-feira: A consulta com o dentista é às 11...
2,"Quarta-feira: Às 19:00, tem um jogo de basquete!"
3,Quinta-feira: Esteja em casa até às 23:15 no m...
4,"Sexta-feira: Pegue o trem às 08:10, chegue às ..."


In [32]:
# Encontrando o número de tokens (palavras) em cada string na coluna 'texto'
df['num_tokens'] = df['texto'].str.split().str.len()
df


Unnamed: 0,texto,num_tokens
0,Segunda-feira: A consulta com o médico é às 14...,9
1,Terça-feira: A consulta com o dentista é às 11...,9
2,"Quarta-feira: Às 19:00, tem um jogo de basquete!",8
3,Quinta-feira: Esteja em casa até às 23:15 no m...,9
4,"Sexta-feira: Pegue o trem às 08:10, chegue às ...",9


In [33]:
# Verificando quais entradas contêm a palavra 'consulta'
df['contem_consulta'] = df['texto'].str.contains('consulta')
df

Unnamed: 0,texto,num_tokens,contem_consulta
0,Segunda-feira: A consulta com o médico é às 14...,9,True
1,Terça-feira: A consulta com o dentista é às 11...,9,True
2,"Quarta-feira: Às 19:00, tem um jogo de basquete!",8,False
3,Quinta-feira: Esteja em casa até às 23:15 no m...,9,False
4,"Sexta-feira: Pegue o trem às 08:10, chegue às ...",9,False


In [34]:
# Contando quantas vezes um dígito ocorre em cada string na coluna 'texto'
df['num_digitos'] = df['texto'].str.count(r'\d')

df

Unnamed: 0,texto,num_tokens,contem_consulta,num_digitos
0,Segunda-feira: A consulta com o médico é às 14...,9,True,4
1,Terça-feira: A consulta com o dentista é às 11...,9,True,4
2,"Quarta-feira: Às 19:00, tem um jogo de basquete!",8,False,4
3,Quinta-feira: Esteja em casa até às 23:15 no m...,9,False,4
4,"Sexta-feira: Pegue o trem às 08:10, chegue às ...",9,False,8


In [35]:
# Encontrando todas as ocorrências de dígitos em cada string na coluna 'texto'
df['ocorrencias_digitos'] = df['texto'].str.findall(r'\d')

df

Unnamed: 0,texto,num_tokens,contem_consulta,num_digitos,ocorrencias_digitos
0,Segunda-feira: A consulta com o médico é às 14...,9,True,4,"[1, 4, 4, 5]"
1,Terça-feira: A consulta com o dentista é às 11...,9,True,4,"[1, 1, 3, 0]"
2,"Quarta-feira: Às 19:00, tem um jogo de basquete!",8,False,4,"[1, 9, 0, 0]"
3,Quinta-feira: Esteja em casa até às 23:15 no m...,9,False,4,"[2, 3, 1, 5]"
4,"Sexta-feira: Pegue o trem às 08:10, chegue às ...",9,False,8,"[0, 8, 1, 0, 0, 9, 0, 0]"


In [36]:
# Agrupando e encontrando as horas e minutos em cada string na coluna 'texto'
df['horas_minutos'] = df['texto'].str.findall(r'(\d?\d):(\d\d)')

df

Unnamed: 0,texto,num_tokens,contem_consulta,num_digitos,ocorrencias_digitos,horas_minutos
0,Segunda-feira: A consulta com o médico é às 14...,9,True,4,"[1, 4, 4, 5]","[(14, 45)]"
1,Terça-feira: A consulta com o dentista é às 11...,9,True,4,"[1, 1, 3, 0]","[(11, 30)]"
2,"Quarta-feira: Às 19:00, tem um jogo de basquete!",8,False,4,"[1, 9, 0, 0]","[(19, 00)]"
3,Quinta-feira: Esteja em casa até às 23:15 no m...,9,False,4,"[2, 3, 1, 5]","[(23, 15)]"
4,"Sexta-feira: Pegue o trem às 08:10, chegue às ...",9,False,8,"[0, 8, 1, 0, 0, 9, 0, 0]","[(08, 10), (09, 00)]"


In [37]:
# Substituindo os dias da semana por '???'
df['substituir_dias'] = df['texto'].str.replace(r'(Segunda|Terça|Quarta|Quinta|Sexta)-feira', '???')

df

  df['substituir_dias'] = df['texto'].str.replace(r'(Segunda|Terça|Quarta|Quinta|Sexta)-feira', '???')


Unnamed: 0,texto,num_tokens,contem_consulta,num_digitos,ocorrencias_digitos,horas_minutos,substituir_dias
0,Segunda-feira: A consulta com o médico é às 14...,9,True,4,"[1, 4, 4, 5]","[(14, 45)]",???: A consulta com o médico é às 14:45.
1,Terça-feira: A consulta com o dentista é às 11...,9,True,4,"[1, 1, 3, 0]","[(11, 30)]",???: A consulta com o dentista é às 11:30.
2,"Quarta-feira: Às 19:00, tem um jogo de basquete!",8,False,4,"[1, 9, 0, 0]","[(19, 00)]","???: Às 19:00, tem um jogo de basquete!"
3,Quinta-feira: Esteja em casa até às 23:15 no m...,9,False,4,"[2, 3, 1, 5]","[(23, 15)]",???: Esteja em casa até às 23:15 no máximo.
4,"Sexta-feira: Pegue o trem às 08:10, chegue às ...",9,False,8,"[0, 8, 1, 0, 0, 9, 0, 0]","[(08, 10), (09, 00)]","???: Pegue o trem às 08:10, chegue às 09:00."


In [38]:
# Substituindo os dias da semana por suas abreviações de 3 letras
df['abreviar_dias'] = df['texto'].str.replace(r'(Segunda|Terça|Quarta|Quinta|Sexta)-feira', lambda x: x.groups()[0][:3])

df

  df['abreviar_dias'] = df['texto'].str.replace(r'(Segunda|Terça|Quarta|Quinta|Sexta)-feira', lambda x: x.groups()[0][:3])


Unnamed: 0,texto,num_tokens,contem_consulta,num_digitos,ocorrencias_digitos,horas_minutos,substituir_dias,abreviar_dias
0,Segunda-feira: A consulta com o médico é às 14...,9,True,4,"[1, 4, 4, 5]","[(14, 45)]",???: A consulta com o médico é às 14:45.,Seg: A consulta com o médico é às 14:45.
1,Terça-feira: A consulta com o dentista é às 11...,9,True,4,"[1, 1, 3, 0]","[(11, 30)]",???: A consulta com o dentista é às 11:30.,Ter: A consulta com o dentista é às 11:30.
2,"Quarta-feira: Às 19:00, tem um jogo de basquete!",8,False,4,"[1, 9, 0, 0]","[(19, 00)]","???: Às 19:00, tem um jogo de basquete!","Qua: Às 19:00, tem um jogo de basquete!"
3,Quinta-feira: Esteja em casa até às 23:15 no m...,9,False,4,"[2, 3, 1, 5]","[(23, 15)]",???: Esteja em casa até às 23:15 no máximo.,Qui: Esteja em casa até às 23:15 no máximo.
4,"Sexta-feira: Pegue o trem às 08:10, chegue às ...",9,False,8,"[0, 8, 1, 0, 0, 9, 0, 0]","[(08, 10), (09, 00)]","???: Pegue o trem às 08:10, chegue às 09:00.","Sex: Pegue o trem às 08:10, chegue às 09:00."


In [39]:
# Criando novas colunas com o primeiro par de horas e minutos encontrados em cada string
df[['hora_encontrada', 'minuto_encontrado']] = df['texto'].str.extract(r'(\d?\d):(\d\d)')

df

Unnamed: 0,texto,num_tokens,contem_consulta,num_digitos,ocorrencias_digitos,horas_minutos,substituir_dias,abreviar_dias,hora_encontrada,minuto_encontrado
0,Segunda-feira: A consulta com o médico é às 14...,9,True,4,"[1, 4, 4, 5]","[(14, 45)]",???: A consulta com o médico é às 14:45.,Seg: A consulta com o médico é às 14:45.,14,45
1,Terça-feira: A consulta com o dentista é às 11...,9,True,4,"[1, 1, 3, 0]","[(11, 30)]",???: A consulta com o dentista é às 11:30.,Ter: A consulta com o dentista é às 11:30.,11,30
2,"Quarta-feira: Às 19:00, tem um jogo de basquete!",8,False,4,"[1, 9, 0, 0]","[(19, 00)]","???: Às 19:00, tem um jogo de basquete!","Qua: Às 19:00, tem um jogo de basquete!",19,0
3,Quinta-feira: Esteja em casa até às 23:15 no m...,9,False,4,"[2, 3, 1, 5]","[(23, 15)]",???: Esteja em casa até às 23:15 no máximo.,Qui: Esteja em casa até às 23:15 no máximo.,23,15
4,"Sexta-feira: Pegue o trem às 08:10, chegue às ...",9,False,8,"[0, 8, 1, 0, 0, 9, 0, 0]","[(08, 10), (09, 00)]","???: Pegue o trem às 08:10, chegue às 09:00.","Sex: Pegue o trem às 08:10, chegue às 09:00.",8,10
