In [None]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")
pd.set_option('display.max_columns', 39)

url = r'../Black_Umbrella/dados/integracao_ocorr_diario.csv'
df = pd.read_csv(url)

# Converter 'data' para datetime
df['data'] = pd.to_datetime(df['data'])

# Verificar e ajustar tipos de colunas numéricas
numeric_cols = ['tavg', 'tmin', 'tmax', 'prcp', 'wdir', 'wspd', 'pres']
df[numeric_cols] = df[numeric_cols].astype(float)

# Preencher valores nulos em 'ocorrencia' com 'sem_ocorrencia' e padronizar os textos
df['ocorrencia'].fillna('sem_ocorrencia', inplace=True)
df['ocorrencia'] = df['ocorrencia'].str.lower().str.replace(' ', '_', regex=False)

# Imputar valores faltantes para latitude e longitude com a média
df['latitude_distrito'].fillna(df['latitude_distrito'].mean(), inplace=True)
df['longitude_distrito'].fillna(df['longitude_distrito'].mean(), inplace=True)
df['latitude_ocorrencia'].fillna(df['latitude_ocorrencia'].mean(), inplace=True)
df['longitude_ocorrencia'].fillna(df['longitude_ocorrencia'].mean(), inplace=True)

# Transformar 'ocorrencia' diretamente em uma variável categórica
df['ocorrencia'] = df['ocorrencia'].astype('category')

# Criar a coluna target binária 'ocorrencia_target' (1 se houve ocorrência, 0 caso contrário)
df['ocorrencia_target'] = df['ocorrencia'].apply(lambda x: 0 if x == 'sem_ocorrencia' else 1)

# Imputar valores nulos em 'distrito' com 'Unknown' e transformá-lo em variável categórica
df['distrito'].fillna('Unknown', inplace=True)
df['distrito'] = df['distrito'].astype('category')

# Exibir o dataframe final
df.head()