# Dropar colunas que nao vou usar

In [8]:
import pandas as pd

In [9]:
try:
    df = pd.read_csv(
        '../data/tasks.csv',
        encoding='utf-8',
        sep=",",
        quotechar='"',
        on_bad_lines='skip',      # ignora linhas corrompidas
        dtype=str,               # carrega tudo como string, depois ajusta
        engine='c'          # usa engine python que √© mais tolerante
    )
    print(f"CSV carregado com engine C! {len(df)} linhas encontradas.")

except Exception as e:
    print(f"Erro ao ler CSV: {e}")

CSV carregado com engine C! 7232 linhas encontradas.


In [10]:
# An√°lise b√°sica de valores nulos por coluna
null_counts = df.isnull().sum()
print("Valores nulos por coluna:")
print(null_counts)

Valores nulos por coluna:
SUMMARY                             0
DTSTART                             0
DTEND                               2
DUE                              7232
NOTES                            6657
ATTENDEE                         7193
LOCATION                         5457
PRIORITY                         7232
URL                              7232
CALENDAR                            0
UID                              7232
ORGANIZER                        7204
CATEGORIES                       7232
DURATION                            2
REPLACES RECURRENT EVENT FROM    7145
CANCELLED                        7047
CREATED                             0
dtype: int64


In [11]:
cols_to_drop = [
    'DUE', 'NOTES', 'ATTENDEE', 'LOCATION', 'PRIORITY', 'URL', 'UID',
    'ORGANIZER', 'CATEGORIES', 'REPLACES RECURRENT EVENT FROM',
    'CANCELLED', 'CREATED'
]
df = df.drop(columns=cols_to_drop)
df.head()

Unnamed: 0,SUMMARY,DTSTART,DTEND,CALENDAR,DURATION
0,üç≥,07/01/2025 08:00,07/01/2025 08:20,Alimenta√ß√£o,0.33333333333333
1,üßã,07/01/2025 10:00,07/01/2025 10:05,Alimenta√ß√£o,0.083333333333333
2,üçΩÔ∏è,07/01/2025 12:30,07/01/2025 13:00,Alimenta√ß√£o,0.5
3,ü•™,07/01/2025 16:00,07/01/2025 16:15,Alimenta√ß√£o,0.25
4,üçå,07/01/2025 18:00,07/01/2025 18:05,Alimenta√ß√£o,0.083333333333333


In [12]:
# Converter as colunas DTSTART e DTEND para datetime
df['DTSTART'] = pd.to_datetime(df['DTSTART'], format='%d/%m/%Y %H:%M', errors='coerce')
df['DTEND'] = pd.to_datetime(df['DTEND'], format='%d/%m/%Y %H:%M', errors='coerce')

# Definir o limite m√°ximo como o √∫ltimo dia de julho de 2025
limite = pd.Timestamp('2025-07-18 23:59:59')

# Mostrar todos os SUMMARY que est√£o passando do limite antes de filtrar
summary_passando_limite = df[(pd.to_datetime(df['DTSTART'], errors='coerce') > limite) | (pd.to_datetime(df['DTEND'], errors='coerce') > limite)]
print("SUMMARY que est√£o passando do limite de data:")
print(summary_passando_limite['SUMMARY'].unique())

print(f"N√∫mero de linhas antes o filtro de datas: {len(df)}")

# Filtrar linhas onde ambas as datas s√£o menores ou iguais ao limite
df = df[(df['DTSTART'] <= limite) & (df['DTEND'] <= limite)]

print(f"N√∫mero de linhas ap√≥s o filtro de datas: {len(df)}")

SUMMARY que est√£o passando do limite de data:
['üç≥' 'üßã' 'üçΩÔ∏è' 'ü•™' 'üçå' 'INF1410 - Gerenc Proj Inf'
 'INF1608 - An√°lise Num√©rica' 'ADM1019 - Intr. Finan√ßas'
 'INF1629 - P. Eng. de Software' 'Parab√©ns!' 'Psic√≥logo' 'Dr Bruno'
 'Academia' 'Morgan Jay' 'Anivers√°rio da minha irm√£'
 'MAT4162 - C√°lculo II' 'INF1314 - Startup IA' 'Formatura Lu' 'M3']
N√∫mero de linhas antes o filtro de datas: 7232
N√∫mero de linhas ap√≥s o filtro de datas: 4464


In [13]:
df.to_csv('../data/new_tasks.csv', index=False, encoding='utf-8')