# Pr√© processamento da coluna SUMMARY

In [118]:
import pandas as pd
import unicodedata
import string

In [119]:
try:
    df = pd.read_csv(
        '../data/tasks.csv',
        encoding='utf-8',
        sep=",",
        quotechar='"',
        on_bad_lines='skip',      # ignora linhas corrompidas
        dtype=str,               # carrega tudo como string, depois ajusta
        engine='c'          # usa engine python que √© mais tolerante
    )
    print(f"CSV carregado com engine C! {len(df)} linhas encontradas.")

except Exception as e:
    print(f"Erro ao ler CSV: {e}")

CSV carregado com engine C! 7232 linhas encontradas.


In [120]:
# Verificar informa√ß√µes b√°sicas do dataset
print("=== INFORMA√á√ïES B√ÅSICAS DO DATASET ===")
print(f"Shape: {df.shape}")
# Informa√ß√µes apenas da coluna SUMMARY
print(f"\nResumo da coluna SUMMARY:")
print(f"  - Tipo de dado: {df['SUMMARY'].dtype}")
print(f"  - Valores √∫nicos: {df['SUMMARY'].nunique()}")
print(f"  - Valores nulos: {df['SUMMARY'].isnull().sum()}")
print(f"  - Primeiros 5 valores:\n{df['SUMMARY'].head()}")

=== INFORMA√á√ïES B√ÅSICAS DO DATASET ===
Shape: (7232, 17)

Resumo da coluna SUMMARY:
  - Tipo de dado: object
  - Valores √∫nicos: 376
  - Valores nulos: 0
  - Primeiros 5 valores:
0     üç≥
1     üßã
2    üçΩÔ∏è
3     ü•™
4     üçå
Name: SUMMARY, dtype: object


### An√°lise

In [121]:
print("=== AN√ÅlISE DA COLUNA SUMMARY ===")

print(f"Quantidade de valores √∫nicos: {df['SUMMARY'].nunique()}")
# print(f"Valores √∫nicos: {df['SUMMARY'].unique()}")

# Exportar valores √∫nicos da coluna SUMMARY para uma tabela CSV e usar uma LLM para clusterizar informacoes parecidas
unique_summary = df[['SUMMARY', 'CALENDAR']].drop_duplicates().rename(columns={'SUMMARY': 'TITLE'})
unique_summary = unique_summary.sort_values(by='TITLE').reset_index(drop=True)
unique_summary.to_csv('../data/title_calendar_unique.csv', index=False, encoding='utf-8')
print("Valores √∫nicos exportados para ../data/title_unique.csv")


=== AN√ÅlISE DA COLUNA SUMMARY ===
Quantidade de valores √∫nicos: 376
Valores √∫nicos exportados para ../data/title_unique.csv


## Limpando

In [122]:
# Avalia√ß√£o antes da normaliza√ß√£o
print("=== Avalia√ß√£o da coluna SUMMARY antes da normaliza√ß√£o ===")
print(f"Valores √∫nicos: {df['SUMMARY'].nunique()}")
print(f"Exemplos: {df['SUMMARY'].drop_duplicates().head(10).tolist()}")

def normalize_text(text):
    if pd.isnull(text):
        return ""
    # Lowercase
    text = text.lower()
    # Remove accents
    # text = unicodedata.normalize('NFKD', text).encode('ASCII', 'ignore').decode('utf-8')
    # Remove punctuation
    text = text.translate(str.maketrans('', '', string.punctuation))
    # Remove extra spaces
    text = ' '.join(text.split())
    return text

df['SUMMARY_NORM'] = df['SUMMARY'].apply(normalize_text)

# Avalia√ß√£o depois da normaliza√ß√£o
print("\n=== Avalia√ß√£o da coluna SUMMARY_NORM depois da normaliza√ß√£o ===")
print(f"Valores √∫nicos: {df['SUMMARY_NORM'].nunique()}")
print(f"Exemplos: {df['SUMMARY_NORM'].drop_duplicates().head(10).tolist()}")

=== Avalia√ß√£o da coluna SUMMARY antes da normaliza√ß√£o ===
Valores √∫nicos: 376
Exemplos: ['üç≥', 'üßã', 'üçΩÔ∏è', 'ü•™', 'üçå', 'INF1410 - Gerenc Proj Inf', 'INF1608 - An√°lise Num√©rica', 'ADM1019 - Intr. Finan√ßas', 'INF1629 - P. Eng. de Software', 'Parab√©ns!']

=== Avalia√ß√£o da coluna SUMMARY_NORM depois da normaliza√ß√£o ===
Valores √∫nicos: 372
Exemplos: ['üç≥', 'üßã', 'üçΩÔ∏è', 'ü•™', 'üçå', 'inf1410 gerenc proj inf', 'inf1608 an√°lise num√©rica', 'adm1019 intr finan√ßas', 'inf1629 p eng de software', 'parab√©ns']


### Tratando valores da coluna SUMMARY que possuem dois valores na coluna CALENDAR

In [123]:
# Coluna SUMMARY possui 30 valores que tem duas varia√ß√µes em 'CALENDAR'
print("=== TRATANDO Duplicatas da coluna SUMMARY ===")
df['CALENDAR'] = df['CALENDAR'].replace('PUC üëª', 'PUC')

# Corrigindo os valores duplicados de 'Academia'
df.loc[(df['SUMMARY'] == 'Academia') & (df['CALENDAR'] == 'Pessoal'), 'CALENDAR'] = 'Exerc√≠cios' # 2
print(f'Valores de CALENDAR para "Academia": {df.loc[df['SUMMARY'] == 'Academia', 'CALENDAR'].unique()}')

# Corrigindo os valores duplicados de 'Aldeia'
df.loc[(df['SUMMARY'] == 'Aldeia') & (df['CALENDAR'] == 'Pessoal'), 'CALENDAR'] = 'Social' # 2
print(f'Valores de CALENDAR para "Aldeia": {df.loc[df['SUMMARY'] == 'Aldeia', 'CALENDAR'].unique()}')

# Corrigindo os valores duplicados de 'Alessandra'
df.loc[(df['SUMMARY'] == 'Alessandra') & (df['CALENDAR'] == 'Compromisso'), 'CALENDAR'] = 'Sa√∫de' # 2
print(f'Valores de CALENDAR para "Alessandra": {df.loc[df["SUMMARY"] == "Alessandra", "CALENDAR"].unique()}')

# Corrigindo os valores duplicados de 'Aula'
df.loc[(df['SUMMARY'] == 'Aula') & (df['CALENDAR'] == 'Pessoal'), 'CALENDAR'] = 'PUC' # 2
print(f'Valores de CALENDAR para "Aula": {df.loc[df['SUMMARY'] == 'Aula', 'CALENDAR'].unique()}')

# Corrigindo os valores duplicados de 'BD: T2 G2'
df.loc[(df['SUMMARY'] == 'BD: T2 G2') & (df['CALENDAR'] == 'PUC'), 'CALENDAR'] = 'Exames' # 2
print(f'Valores de CALENDAR para "BD: T2 G2": {df.loc[df['SUMMARY'] == 'BD: T2 G2', 'CALENDAR'].unique()}')

# Corrigindo os valores duplicados de 'BIRUSAMBA DE VER√ÉO'
df.loc[(df['SUMMARY'] == 'BIRUSAMBA DE VER√ÉO'), 'CALENDAR'] = 'Social' # 2
print(f'Valores de CALENDAR para "BIRUSAMBA DE VER√ÉO": {df.loc[df['SUMMARY'] == 'BIRUSAMBA DE VER√ÉO', 'CALENDAR'].unique()}')

# Corrigindo os valores duplicados de De-Para
df.loc[(df['SUMMARY'] == 'De-Para') & (df['CALENDAR'] == 'Exames'), 'CALENDAR'] = 'PUC' # 2
print(f'Valores de CALENDAR para "De-Para": {df.loc[df["SUMMARY"] == "De-Para", "CALENDAR"].unique()}')

# Corrigindo os valores duplicados de 'Muay Thai'
df.loc[(df['SUMMARY'] == 'Muay Thai') & (df['CALENDAR'] == 'Pessoal'), 'CALENDAR'] = 'Exerc√≠cios' # 2
print(f'Valores de CALENDAR para "Muay Thai": {df.loc[df["SUMMARY"] == "Muay Thai", "CALENDAR"].unique()}')

# Corrigindo valores duplicados de 'Psic√≥loga'
df.loc[(df['SUMMARY'] == 'Psic√≥loga') & (df['CALENDAR'] == 'Compromisso'), 'CALENDAR'] = 'Sa√∫de' # 2
print(f'Valores de CALENDAR para "Psic√≥loga": {df.loc[df["SUMMARY"] == "Psic√≥loga", "CALENDAR"].unique()}')

# Corrigindo valores duplicados de 'SO: P1' # 2
df.loc[(df['SUMMARY'] == 'SO: P1') & (df['CALENDAR'] == 'PUC'), 'CALENDAR'] = 'Exames' # 2
print(f'Valores de CALENDAR para "SO: P1": {df.loc[df["SUMMARY"] == "SO: P1", "CALENDAR"].unique()}')

=== TRATANDO Duplicatas da coluna SUMMARY ===
Valores de CALENDAR para "Academia": ['Exerc√≠cios']
Valores de CALENDAR para "Aldeia": ['Social']
Valores de CALENDAR para "Alessandra": ['Sa√∫de']
Valores de CALENDAR para "Aula": ['PUC']
Valores de CALENDAR para "BD: T2 G2": ['Exames']
Valores de CALENDAR para "BIRUSAMBA DE VER√ÉO": ['Social']
Valores de CALENDAR para "De-Para": ['PUC']
Valores de CALENDAR para "Muay Thai": ['Exerc√≠cios']
Valores de CALENDAR para "Psic√≥loga": ['Sa√∫de']
Valores de CALENDAR para "SO: P1": ['Exames']


In [124]:
print("=== ENCONTRO DE DUPLICATAS DA COLUNA SUMMARY ===")
duplicates = df[df.duplicated(subset='SUMMARY', keep=False)]
# Seleciona duplicatas de SUMMARY que aparecem em mais de um CALENDAR
duplicates_sum_cal = (
    duplicates[['SUMMARY', 'CALENDAR']]
    .drop_duplicates()
    .groupby('SUMMARY')
    .filter(lambda x: x['CALENDAR'].nunique() > 1)
    .sort_values(by=['SUMMARY', 'CALENDAR'], ascending=[True, True])
)
print(f"Quantidade de duplicatas encontradas: {duplicates_sum_cal.shape[0]}")
print(f"Duplicatas encontradas:\n{duplicates_sum_cal}")

=== ENCONTRO DE DUPLICATAS DA COLUNA SUMMARY ===
Quantidade de duplicatas encontradas: 2
Duplicatas encontradas:
       SUMMARY CALENDAR
4566  Itaipava  Pessoal
5951  Itaipava   Social


## Verificando valores parecidos

### Passando o valor 'Alessandra' da coluna SUMMARY para 'Psic√≥loga'

In [125]:
print('Quantidade de valores √∫nicos antes da unifica√ß√£o:')
print(f"Valores √∫nicos antes da unifica√ß√£o: {df['SUMMARY'].nunique()}")

print('=== TROCANDO DE "Alessandra" para "Psiquiatra" ===')
df.loc[df['SUMMARY'] == 'Alessandra', 'SUMMARY'] = 'Psiquiatra'

print('Quantidade de valores √∫nicos antes da unifica√ß√£o:')
print(f"Valores √∫nicos antes da unifica√ß√£o: {df['SUMMARY'].nunique()}")


psi_values = df[df['SUMMARY'].str.lower().str.startswith('psi', na=False)]['SUMMARY'].unique()
print(f"Valores que come√ßam com 'psi' antes da unifica√ß√£o: {psi_values}")

print('=== TROCANDO DE "Psic√≥loga" para "Psic√≥logo" ===')
df.loc[df['SUMMARY'] == 'Psic√≥loga', 'SUMMARY'] = 'Psic√≥logo'

psi_values = df[df['SUMMARY'].str.lower().str.startswith('psi', na=False)]['SUMMARY'].unique()
print(f"Valores que come√ßam com 'psi' depois da unifica√ß√£o: {psi_values}")


Quantidade de valores √∫nicos antes da unifica√ß√£o:
Valores √∫nicos antes da unifica√ß√£o: 376
=== TROCANDO DE "Alessandra" para "Psiquiatra" ===
Quantidade de valores √∫nicos antes da unifica√ß√£o:
Valores √∫nicos antes da unifica√ß√£o: 375
Valores que come√ßam com 'psi' antes da unifica√ß√£o: ['Psiquiatra' 'Psic√≥loga' 'Psic√≥logo']
=== TROCANDO DE "Psic√≥loga" para "Psic√≥logo" ===
Valores que come√ßam com 'psi' depois da unifica√ß√£o: ['Psiquiatra' 'Psic√≥logo']


# Exportar DataFrame completo para CSV

In [126]:
# # Salvar dataset processado
print("=== SALVANDO DATASET PROCESSADO ===")

# Salvar como CSV processado
output_path = '../data/tasks_processed.csv'
df.to_csv(output_path, index=False, encoding='utf-8')
print(f"‚úÖ Dataset processado salvo em: {output_path}")

# Estat√≠sticas finais
print(f"\n=== ESTAT√çSTICAS FINAIS ===")
print(f"Total de registros: {len(df)}")
print(f"Categorias √∫nicas: {df['CALENDAR'].nunique()}")


=== SALVANDO DATASET PROCESSADO ===
‚úÖ Dataset processado salvo em: ../data/tasks_processed.csv

=== ESTAT√çSTICAS FINAIS ===
Total de registros: 7232
Categorias √∫nicas: 13
