# Pr√© processamento da coluna SUMMARY

In [1]:
import pandas as pd
import string

In [2]:
try:
    df = pd.read_csv(
        '../data/new_tasks.csv',
        encoding='utf-8',
        sep=",",
    )
    print(f"CSV carregado com engine C! {len(df)} linhas encontradas.")

except Exception as e:
    print(f"Erro ao ler CSV: {e}")

CSV carregado com engine C! 4463 linhas encontradas.


In [3]:
# Verificar informa√ß√µes b√°sicas do dataset
print("=== INFORMA√á√ïES B√ÅSICAS DO DATASET ===")
print(f"Shape: {df.shape}")
print(f"Colunas: {df.columns.tolist()}")
print(f"Tipos de dados:\n{df.dtypes}")

# Informa√ß√µes apenas da coluna SUMMARY
print(f"\nResumo da coluna SUMMARY:")
print(f"  - Tipo de dado: {df['SUMMARY'].dtype}")
print(f"  - Valores √∫nicos: {df['SUMMARY'].nunique()}")
print(f"  - Valores nulos: {df['SUMMARY'].isnull().sum()}")
print(f"  - Primeiros 5 valores:\n{df['SUMMARY'].head()}")

=== INFORMA√á√ïES B√ÅSICAS DO DATASET ===
Shape: (4463, 6)
Colunas: ['SUMMARY', 'DTSTART', 'DTEND', 'CALENDAR', 'DURATION', 'CREATED']
Tipos de dados:
SUMMARY      object
DTSTART      object
DTEND        object
CALENDAR     object
DURATION    float64
CREATED      object
dtype: object

Resumo da coluna SUMMARY:
  - Tipo de dado: object
  - Valores √∫nicos: 372
  - Valores nulos: 0
  - Primeiros 5 valores:
0     üç≥
1     üßã
2    üçΩÔ∏è
3     ü•™
4     üçå
Name: SUMMARY, dtype: object


### An√°lise

In [4]:
print("=== AN√ÅlISE DA COLUNA SUMMARY ===")

print(f"Quantidade de valores √∫nicos: {df['SUMMARY'].nunique()}")
# print(f"Valores √∫nicos: {df['SUMMARY'].unique()}")

# Exportar valores √∫nicos da coluna SUMMARY para uma tabela CSV e usar uma LLM para clusterizar informacoes parecidas
unique_summary = df[['SUMMARY', 'CALENDAR']].drop_duplicates().rename(columns={'SUMMARY': 'TITLE'})
unique_summary = unique_summary.sort_values(by='TITLE').reset_index(drop=True)
unique_summary.to_csv('../data/title_calendar_unique.csv', index=False, encoding='utf-8')
print("Valores √∫nicos exportados para ../data/title_unique.csv")


=== AN√ÅlISE DA COLUNA SUMMARY ===
Quantidade de valores √∫nicos: 372
Valores √∫nicos exportados para ../data/title_unique.csv


### Corrigindo os valores que est√£o com EMOJI

In [5]:
print(df['SUMMARY'].head(8))

# üßã: lanche da manha
# üçΩÔ∏è e antes das 18:00: almoco
# ü•™: lanche da tarde
# üçå: pre-treino
# üçΩÔ∏è e exatamente ou depois das 18:00: jantar

df.loc[df['SUMMARY'] == 'üç≥', 'SUMMARY'] = 'cafe da manha'
df.loc[df['SUMMARY'] == 'üßã', 'SUMMARY'] = 'lanche da manha'
# Almo√ßo: emoji üçΩÔ∏è e come√ßa antes das 18h
df.loc[(df['SUMMARY'] == 'üçΩÔ∏è') & (pd.to_datetime(df['DTSTART']).dt.hour < 18), 'SUMMARY'] = 'almoco'
df.loc[df['SUMMARY'] == 'ü•™', 'SUMMARY'] = 'lanche da tarde'
df.loc[df['SUMMARY'] == 'üçå', 'SUMMARY'] = 'pre-treino'
df.loc[(df['SUMMARY'] == 'üçΩÔ∏è') & (pd.to_datetime(df['DTSTART']).dt.hour >= 18), 'SUMMARY'] = 'jantar'

print(df['SUMMARY'].head(8))


0     üç≥
1     üßã
2    üçΩÔ∏è
3     ü•™
4     üçå
5    üçΩÔ∏è
6     üç≥
7     üßã
Name: SUMMARY, dtype: object
0      cafe da manha
1    lanche da manha
2             almoco
3    lanche da tarde
4         pre-treino
5             jantar
6      cafe da manha
7    lanche da manha
Name: SUMMARY, dtype: object


## Limpando

In [6]:
def normalize_text(text):
    if pd.isnull(text):
        return ""
    # Lowercase
    text = text.lower()
    # Remove accents
    # text = unicodedata.normalize('NFKD', text).encode('ASCII', 'ignore').decode('utf-8')
    # Remove punctuation
    text = text.translate(str.maketrans('', '', string.punctuation))
    # Remove extra spaces
    text = ' '.join(text.split())
    return text

# Avalia√ß√£o antes da normaliza√ß√£o
print("=== Avalia√ß√£o da coluna SUMMARY antes da normaliza√ß√£o ===")
print(f"Valores √∫nicos: {df['SUMMARY'].nunique()}")
print(f"Exemplos aleat√≥rios: {df['SUMMARY'].drop_duplicates().sample(5, random_state=42).tolist()}")

df['SUMMARY_NORM'] = df['SUMMARY'].apply(normalize_text)

# Avalia√ß√£o depois da normaliza√ß√£o
print("\n=== Avalia√ß√£o da coluna SUMMARY_NORM depois da normaliza√ß√£o ===")
print(f"Valores √∫nicos: {df['SUMMARY_NORM'].nunique()}")
print(f"Exemplos aleat√≥rios: {df['SUMMARY'].drop_duplicates().sample(5, random_state=42).tolist()}")


=== Avalia√ß√£o da coluna SUMMARY antes da normaliza√ß√£o ===
Valores √∫nicos: 373
Exemplos aleat√≥rios: ['Pulo Big Jump', 'INF1301 - Relat√≥rio Plano de A√ß√£o', 'Zion', 'Niver Giovanna Lopes', 'Avalia√ß√£o 4 √Ålgebra']

=== Avalia√ß√£o da coluna SUMMARY_NORM depois da normaliza√ß√£o ===
Valores √∫nicos: 369
Exemplos aleat√≥rios: ['Pulo Big Jump', 'INF1301 - Relat√≥rio Plano de A√ß√£o', 'Zion', 'Niver Giovanna Lopes', 'Avalia√ß√£o 4 √Ålgebra']


### Dropando valores que n√£o s√£o necess√°rios

In [7]:
print('Numero de linhas antes de retirar RescueTime:', len(df))
df = df[df['CALENDAR'] != 'RescueTime']
print('Numero de linhas depois de retirar RescueTime:', len(df))

Numero de linhas antes de retirar RescueTime: 4463
Numero de linhas depois de retirar RescueTime: 4418


In [8]:
print('N√∫mero de linhas antes de retirar o Rotina: ', len(df))
df = df[df['CALENDAR'] != 'Rotina']
print('N√∫mero de linhas depois de retirar o Rotina: ', len(df))

N√∫mero de linhas antes de retirar o Rotina:  4418
N√∫mero de linhas depois de retirar o Rotina:  4372


In [9]:
print('N√∫mero de linhas antes de retirar Parab√©ns!: ', len(df))
df = df[df['SUMMARY'] != 'Parab√©ns!']
print('N√∫mero de linhas depois de retirar Parab√©ns!: ', len(df))

N√∫mero de linhas antes de retirar Parab√©ns!:  4372
N√∫mero de linhas depois de retirar Parab√©ns!:  4348


### Tratando valores da coluna SUMMARY que possuem dois valores na coluna CALENDAR

In [10]:
# Coluna SUMMARY possui 30 valores que tem duas varia√ß√µes em 'CALENDAR'
print("=== TRATANDO Duplicatas da coluna SUMMARY ===")
df['CALENDAR'] = df['CALENDAR'].replace('PUC üëª', 'PUC')

# Corrigindo os valores duplicados de 'Academia'
df.loc[(df['SUMMARY'] == 'Academia') & (df['CALENDAR'] == 'Pessoal'), 'CALENDAR'] = 'Exerc√≠cios' # 2
print(f'Valores de CALENDAR para "Academia": {df.loc[df['SUMMARY'] == 'Academia', 'CALENDAR'].unique()}')

# Corrigindo os valores duplicados de 'Aldeia'
df.loc[(df['SUMMARY'] == 'Aldeia') & (df['CALENDAR'] == 'Pessoal'), 'CALENDAR'] = 'Social' # 2
print(f'Valores de CALENDAR para "Aldeia": {df.loc[df['SUMMARY'] == 'Aldeia', 'CALENDAR'].unique()}')

# Corrigindo os valores duplicados de 'Alessandra'
df.loc[(df['SUMMARY'] == 'Alessandra') & (df['CALENDAR'] == 'Compromisso'), 'CALENDAR'] = 'Sa√∫de' # 2
print(f'Valores de CALENDAR para "Alessandra": {df.loc[df["SUMMARY"] == "Alessandra", "CALENDAR"].unique()}')

# Corrigindo os valores duplicados de 'Aula'
df.loc[(df['SUMMARY'] == 'Aula') & (df['CALENDAR'] == 'Pessoal'), 'CALENDAR'] = 'PUC' # 2
print(f'Valores de CALENDAR para "Aula": {df.loc[df['SUMMARY'] == 'Aula', 'CALENDAR'].unique()}')

# Corrigindo os valores duplicados de 'BD: T2 G2'
df.loc[(df['SUMMARY'] == 'BD: T2 G2') & (df['CALENDAR'] == 'PUC'), 'CALENDAR'] = 'Exames' # 2
print(f'Valores de CALENDAR para "BD: T2 G2": {df.loc[df['SUMMARY'] == 'BD: T2 G2', 'CALENDAR'].unique()}')

# Corrigindo os valores duplicados de 'BIRUSAMBA DE VER√ÉO'
df.loc[(df['SUMMARY'] == 'BIRUSAMBA DE VER√ÉO'), 'CALENDAR'] = 'Social' # 2
print(f'Valores de CALENDAR para "BIRUSAMBA DE VER√ÉO": {df.loc[df['SUMMARY'] == 'BIRUSAMBA DE VER√ÉO', 'CALENDAR'].unique()}')

# Corrigindo os valores duplicados de De-Para
df.loc[(df['SUMMARY'] == 'De-Para') & (df['CALENDAR'] == 'Exames'), 'CALENDAR'] = 'PUC' # 2
print(f'Valores de CALENDAR para "De-Para": {df.loc[df["SUMMARY"] == "De-Para", "CALENDAR"].unique()}')

# Corrigindo os valores duplicados de 'Muay Thai'
df.loc[(df['SUMMARY'] == 'Muay Thai') & (df['CALENDAR'] == 'Pessoal'), 'CALENDAR'] = 'Exerc√≠cios' # 2
print(f'Valores de CALENDAR para "Muay Thai": {df.loc[df["SUMMARY"] == "Muay Thai", "CALENDAR"].unique()}')

# Corrigindo valores duplicados de 'Psic√≥loga'
df.loc[(df['SUMMARY'] == 'Psic√≥loga') & (df['CALENDAR'] == 'Compromisso'), 'CALENDAR'] = 'Sa√∫de' # 2
print(f'Valores de CALENDAR para "Psic√≥loga": {df.loc[df["SUMMARY"] == "Psic√≥loga", "CALENDAR"].unique()}')

# Corrigindo valores duplicados de 'SO: P1' # 2
df.loc[(df['SUMMARY'] == 'SO: P1') & (df['CALENDAR'] == 'PUC'), 'CALENDAR'] = 'Exames' # 2
print(f'Valores de CALENDAR para "SO: P1": {df.loc[df["SUMMARY"] == "SO: P1", "CALENDAR"].unique()}')

# Corrigindo valores duplicados de 'Itaipava'
df.loc[(df['SUMMARY'] == 'Itaipava') & (df['CALENDAR'] == 'Pessoal'), 'CALENDAR'] = 'Social' # 2
print(f'Valores de CALENDAR para "Itaipava": {df.loc[df["SUMMARY"] == "Itaipava", "CALENDAR"].unique()}')

=== TRATANDO Duplicatas da coluna SUMMARY ===
Valores de CALENDAR para "Academia": ['Exerc√≠cios']
Valores de CALENDAR para "Aldeia": ['Social']
Valores de CALENDAR para "Alessandra": ['Sa√∫de']
Valores de CALENDAR para "Aula": ['PUC']
Valores de CALENDAR para "BD: T2 G2": ['Exames']
Valores de CALENDAR para "BIRUSAMBA DE VER√ÉO": ['Social']
Valores de CALENDAR para "De-Para": ['PUC']
Valores de CALENDAR para "Muay Thai": ['Exerc√≠cios']
Valores de CALENDAR para "Psic√≥loga": ['Sa√∫de']
Valores de CALENDAR para "SO: P1": ['Exames']
Valores de CALENDAR para "Itaipava": ['Social']


In [11]:
print("=== ENCONTRO DE DUPLICATAS DA COLUNA SUMMARY ===")
duplicates = df[df.duplicated(subset='SUMMARY', keep=False)]
# Seleciona duplicatas de SUMMARY que aparecem em mais de um CALENDAR
duplicates_sum_cal = (
    duplicates[['SUMMARY', 'CALENDAR']]
    .drop_duplicates()
    .groupby('SUMMARY')
    .filter(lambda x: x['CALENDAR'].nunique() > 1)
    .sort_values(by=['SUMMARY', 'CALENDAR'], ascending=[True, True])
)
print(f"Quantidade de duplicatas encontradas: {duplicates_sum_cal.shape[0]}")
print(f"Duplicatas encontradas:\n{duplicates_sum_cal}")

=== ENCONTRO DE DUPLICATAS DA COLUNA SUMMARY ===
Quantidade de duplicatas encontradas: 0
Duplicatas encontradas:
Empty DataFrame
Columns: [SUMMARY, CALENDAR]
Index: []


## Verificando valores parecidos

### Passando o valor 'Alessandra' da coluna SUMMARY para 'Psic√≥loga'

In [12]:
print(f"Quantidade de valores √∫nicos antes da unifica√ß√£o: {df['SUMMARY'].nunique()}")

print('=== TROCANDO DE "Alessandra" para "Psiquiatra" ===')
df.loc[df['SUMMARY'] == 'Alessandra', 'SUMMARY'] = 'Psiquiatra'

print(f"Quantidade de valores √∫nicos depois da unifica√ß√£o: {df['SUMMARY'].nunique()}")


psi_values = df[df['SUMMARY'].str.lower().str.startswith('psi', na=False)]['SUMMARY'].unique()
print(f"\nValores que come√ßam com 'psi' antes da unifica√ß√£o: {psi_values}")

print('=== TROCANDO DE "Psic√≥loga" para "Psic√≥logo" ===')
df.loc[df['SUMMARY'] == 'Psic√≥loga', 'SUMMARY'] = 'Psic√≥logo'

psi_values = df[df['SUMMARY'].str.lower().str.startswith('psi', na=False)]['SUMMARY'].unique()
print(f"Valores que come√ßam com 'psi' depois da unifica√ß√£o: {psi_values}")


Quantidade de valores √∫nicos antes da unifica√ß√£o: 327
=== TROCANDO DE "Alessandra" para "Psiquiatra" ===
Quantidade de valores √∫nicos depois da unifica√ß√£o: 326

Valores que come√ßam com 'psi' antes da unifica√ß√£o: ['Psiquiatra' 'Psic√≥loga' 'Psic√≥logo']
=== TROCANDO DE "Psic√≥loga" para "Psic√≥logo" ===
Valores que come√ßam com 'psi' depois da unifica√ß√£o: ['Psiquiatra' 'Psic√≥logo']


## Melhorando valores com INF, MAT ou ADM no inicio

### Verificando todos os valores que possuem inf, mat ou adm no inicio

In [13]:
print('=== Avaliando valores que come√ßam com "inf", "mat" ou "adm"')

inf_mat_values = df.loc[
    df['SUMMARY'].str.lower().str.startswith('adm', na=False) |
    df['SUMMARY'].str.lower().str.startswith('inf', na=False) |
    df['SUMMARY'].str.lower().str.startswith('mat', na=False),
    'SUMMARY'
]
print(f'Quantidade de valores √∫nicos: {inf_mat_values.nunique()}')

print(f'Valores:\n{inf_mat_values.value_counts()}')

=== Avaliando valores que come√ßam com "inf", "mat" ou "adm"
Quantidade de valores √∫nicos: 33
Valores:
SUMMARY
INF1410 - Gerenc Proj Inf                     39
INF1608 - An√°lise Num√©rica                    38
ADM1019 - Intr. Finan√ßas                      38
INF1629 - P. Eng. de Software                 38
MAT4162 - C√°lculo II                          38
INF1771 - IA                                  36
INF1307 - Games                               36
INF1316 - SO                                  36
INF1403 - IHC                                 35
INF1022 - ALS                                 35
INF1350 - Prog Sis Reat                       34
INF1027 - Teste e Medi√ß√£o de Software         33
INF1036 - Prob Comp                           32
INF1640 - Redes de Computadores               31
INF1631 - Estruturas Discretas                31
INF1636 - Programa√ß√£o Orientada √† Objetos     31
INF1028 - Projeto e Constru√ß√£o de Sistemas    30
INF1721 - AA                                

### Retirando INF2471 - Prob Comp

In [14]:
print('N√∫mero de linhas antes de retirar INF2471 - Prob Comp: ', len(df))
df = df[df['SUMMARY'] != 'INF2471 - Prob Comp']
print('N√∫mero de linhas depois de retirar INF2471 - Prob Comp: ', len(df))


N√∫mero de linhas antes de retirar INF2471 - Prob Comp:  4348
N√∫mero de linhas depois de retirar INF2471 - Prob Comp:  4346


### Retirando MAT1162 - CALCULO A VARIAS VARIAVEIS I

In [15]:
print('N√∫mero de linhas antes de retirar MAT1162 - C√ÅLCULO A V√ÅRIAS VARI√ÅVEIS I: ', len(df))
df = df[df['SUMMARY'] != 'MAT1162 - C√ÅLCULO A V√ÅRIAS VARI√ÅVEIS I']
print('N√∫mero de linhas depois de retirar MAT1162 - C√ÅLCULO A V√ÅRIAS VARI√ÅVEIS I: ', len(df))

N√∫mero de linhas antes de retirar MAT1162 - C√ÅLCULO A V√ÅRIAS VARI√ÅVEIS I:  4346
N√∫mero de linhas depois de retirar MAT1162 - C√ÅLCULO A V√ÅRIAS VARI√ÅVEIS I:  4343


In [16]:
# Corrigir primeiro c√≥digo que j√° estava sendo tratado
df.loc[df['SUMMARY'] == 'INF1410 - Gerenc Proj Inf', 'SUMMARY'] = 'inf1410 - gerencia de projetos de informatica'

# INF1629 - P. Eng. de Software
df.loc[df['SUMMARY'] == 'INF1629 - P. Eng. de Software', 'SUMMARY'] = 'inf1629 - principios de engenharia de software'

# INF1314 - Startup IA
df.loc[df['SUMMARY'] == 'INF1314 - Startup IA', 'SUMMARY'] = 'inf1314 - gerando startup com inteligencia artificial'

# INF1771 - IA
df.loc[df['SUMMARY'] == 'INF1771 - IA', 'SUMMARY'] = 'inf1771 - inteligencia artificial'

# INF1307 - Games
df.loc[df['SUMMARY'] == 'INF1307 - Games', 'SUMMARY'] = 'inf1307 - desenvolvimento de jogos'

# INF1316 - SO
df.loc[df['SUMMARY'] == 'INF1316 - SO', 'SUMMARY'] = 'inf1316 - sistemas operacionais'

# INF1403 - IHC
df.loc[df['SUMMARY'] == 'INF1403 - IHC', 'SUMMARY'] = 'inf1403 - interacao humano computador'

# INF1022 - ALS
df.loc[df['SUMMARY'] == 'INF1022 - ALS', 'SUMMARY'] = 'inf1022 - algebra linear e sistemas'

# INF1350 - Prog Sis Reat
df.loc[df['SUMMARY'] == 'INF1350 - Prog Sis Reat', 'SUMMARY'] = 'inf1350 - programacao de sistemas reativos'

# INF1036 - Prob Comp
df.loc[df['SUMMARY'] == 'INF1036 - Prob Comp', 'SUMMARY'] = 'inf1036 - probabilidade computacional'

# INF1721 - AA
df.loc[df['SUMMARY'] == 'INF1721 - AA', 'SUMMARY'] = 'inf1721 - analise de algoritmos'

# INF1010 - EDA
df.loc[df['SUMMARY'] == 'INF1010 - EDA', 'SUMMARY'] = 'inf1010 - estruturas de dados avan√ßadas'

# INF1338 - LLM
df.loc[df['SUMMARY'] == 'INF1338 - LLM', 'SUMMARY'] = 'inf1338 - large language models'

# INF1022 - Analisadores L√©x. e Sint.
df.loc[df['SUMMARY'] == 'INF1022 - Analisadores L√©x. e Sint.', 'SUMMARY'] = 'inf1022 - analisadores lexicos e sintaticos'

# INF2471 - Prob Comp
df.loc[df['SUMMARY'] == 'INF2471 - Prob Comp', 'SUMMARY'] = 'inf2471 - probabilidade computacional'

print('‚úÖ Expans√£o de abrevia√ß√µes conclu√≠da - tudo em min√∫sculo!')

‚úÖ Expans√£o de abrevia√ß√µes conclu√≠da - tudo em min√∫sculo!


### Verificando novamente os valores com INF, MAT ou ADM no inicio

In [17]:
print('=== Avaliando valores que come√ßam com "inf", "mat" ou "adm"')

inf_mat_values = df.loc[
    df['SUMMARY'].str.lower().str.startswith('adm', na=False) |
    df['SUMMARY'].str.lower().str.startswith('inf', na=False) |
    df['SUMMARY'].str.lower().str.startswith('mat', na=False),
    'SUMMARY'
]
print(f'Quantidade de valores √∫nicos: {inf_mat_values.nunique()}')

print(f'Valores:\n{inf_mat_values.value_counts()}')

=== Avaliando valores que come√ßam com "inf", "mat" ou "adm"
Quantidade de valores √∫nicos: 31
Valores:
SUMMARY
inf1410 - gerencia de projetos de informatica            39
INF1608 - An√°lise Num√©rica                               38
ADM1019 - Intr. Finan√ßas                                 38
inf1629 - principios de engenharia de software           38
MAT4162 - C√°lculo II                                     38
inf1771 - inteligencia artificial                        36
inf1316 - sistemas operacionais                          36
inf1307 - desenvolvimento de jogos                       36
inf1022 - algebra linear e sistemas                      35
inf1403 - interacao humano computador                    35
inf1350 - programacao de sistemas reativos               34
INF1027 - Teste e Medi√ß√£o de Software                    33
inf1036 - probabilidade computacional                    32
INF1636 - Programa√ß√£o Orientada √† Objetos                31
INF1640 - Redes de Computadores        

# Exportar DataFrame completo para CSV

In [18]:
# # Salvar dataset processado
print("=== SALVANDO DATASET PROCESSADO ===")

# Salvar como CSV processado
output_path = '../data/tasks_summary.csv'
df.to_csv(output_path, index=False, encoding='utf-8')
print(f"‚úÖ Dataset processado salvo em: {output_path}")

# Estat√≠sticas finais
print(f"\n=== ESTAT√çSTICAS FINAIS ===")
print(f"Total de registros: {len(df)}")
print(f"Categorias √∫nicas: {df['CALENDAR'].nunique()}")


=== SALVANDO DATASET PROCESSADO ===
‚úÖ Dataset processado salvo em: ../data/tasks_summary.csv

=== ESTAT√çSTICAS FINAIS ===
Total de registros: 4343
Categorias √∫nicas: 11
