<div style="text-align: center;">
  
# üßÅ Limpeza e tratamento de dados de CGM (monitoramento cont√≠nuo de glicemia)

</div>

## 1. Carregando as bibliotecas

In [None]:
#%pip install missingno

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

## 2. Extraindo e visualizando o dataframe; padronizando os nomes das vari√°veis

In [None]:
# Dataset extra√≠do pelo RStudio atrav√©s do reposit√≥rio 
# https://rdrr.io/github/personalscience/psi-shiny-cgm/man/sample_libreview_df.html
df_a = pd.read_csv('./sample_libreview_df_raw.csv')
df_raw = df_a.copy()

In [None]:
'''
No atributo columns (do tipo √≠ndice) do objeto df_raw, nosso dataframe, iremos formatar
todos os seus elementos, isto √©, os nomes das colunas. Para isso, utilizamos o acessor .str, 
que nos permite aplicar m√©todos de strings para todos os elementos do √≠ndice/vetor.
Os m√©todos utilizados s√£o: 
- lower(): torna todos os caracteres min√∫sculos;
- strip(): remove espa√ßos em branco das extremidades da string;
- replace(,): substitu√≠mos o elemento da esquerda, sempre que ele aparecer, pelo da 
direita. No nosso caso, trocamos um espa√ßo em branco por nenhum espa√ßo, e ":" por nenhum espa√ßo.
'''

df_raw.columns = df_raw.columns.str.lower().str.strip().str.replace(' ', '').str.replace(':', '')
df_raw

## 3. Certificando os tipos de dados, removendo vari√°veis desnecess√°rias e as duplicatas restantes

In [None]:
# convertemoscoluna 'time' para o tipo datetime
df_raw['time'] = pd.to_datetime(df_raw['time'], errors = 'coerce') 
# a coluna 'value' se torna num√©rica
df_raw['value'] = pd.to_numeric(df_raw['value'], errors = 'coerce') 

# OBS: errors = 'coerce' faz com que elementos que n√£o estejam num formato v√°lido para
# serem convertidos para datetime retornem NaT, e os que n√£o possam ser convertidos para
# int ou float (num√©rico) retornem NaN.

df_raw


In [None]:
# Eliminando as colunas que n√£o ser√£o utilizadas
df_raw = df_raw.drop(columns=['unnamed0', 'strip', 'hist', 'scan', 'food', 'user_id'])

# Retirando as duplicatas
df_raw.drop_duplicates(inplace=True) # com inplace = True, o objeto df_raw j√° √© substitu√≠do
                                     # pelo novo dataframe sem as duplicatas, ao inv√©s de
                                     # ser feita uma c√≥pia com as altera√ß√µes (inplace = False)

# Importante observar que ao removermos colunas, algumas linhas que se diferenciavam por c√©lulas
# correspondentes √† estas colunas podem ter se tornado iguais. Por isso, aplicamos o duplicate depois
# da remo√ß√£o.

## 4. Eliminando os valores nulos e absurdos

In [None]:
# Contagem de quantos valores nulos (NaN ou NaT) temos em cada coluna de df_raw
# df_raw.isnull() retorna um dataframe com True e False em cada c√©lula. True, se a c√©lula tem
# valor NaN ou NaT, e False em caso contr√°rio. O m√©todo sum(axis = 0) soma a quantidade de cada coluna.
# Como True corresponde ao valor 1 e False a 0, teremos assim a soma dos valores nulos.

print('Valores nulos antes: \n')
print(df_raw.isnull().sum(axis = 0))

In [None]:
# Excluindo as linhas em que 'time' ou 'value' tem valor nulo
df_raw = df_raw.dropna(subset=['time','value'])

# Excluindo as linhas em que 'value' tem um poss√≠vel ru√≠do
df_raw = df_raw[(df_raw['value'] > 0) & (df_raw['value'] < 500)]

# Organizando o dataframe por 'time' crescente, e resetando os √≠ndices, j√° que
# ao excluirmos linhas, a linha com o √≠ndice √© exclu√≠da. Agora, temos √≠ndices ordenados e
# sequenciados novamente de 0 ao fim do dataframe.
df_raw = df_raw.sort_values(by='time').reset_index(drop=True) 
df_raw

## 5. Verificando se h√° grandes hiatos de tempo em 'time' e preenchendo-os

In [None]:
# criando uma coluna que mede a diferen√ßa em horas entre um elemento de 'time' e o elemento 'anterior'
df_raw['diff_horas'] = (df_raw['time'].diff().dt.total_seconds())/(60 * 60)

# preencheremos somente hiatos maiores ou iguais a 3 horas
hiato = 3

# √≠ndices dos elementos que est√£o imediatamente antes de cada hiato
inds_i = df_raw[df_raw['diff_horas'] >= hiato].index - 1
# √≠ndices dos elementos que est√£o ao fim de cada hiato
inds_f = df_raw[df_raw['diff_horas'] >= hiato].index

# N√∫mero de hiatos:
print(f'O total de hiatos de {hiato} horas encontrado foi:', len(inds_i), '\nIremos preench√™-los com mais marca√ß√µes.\n')

# Novas linhas, com respectivos datatimes, que iremos adicionar ao df_raw ap√≥s o processo.
# Come√ßamos com uma lista vazia.
linhas = []

# Pegaremos cada √≠ndice de in√≠cio e fim de hiato, acessaremos o elemento correspondente em 'time' e
# faremos o preenchimento desse hiato

for i in range(len(inds_i)):
    inicio = inds_i[i] # ind√≠ce in√≠cio hiato (rodaremos a lista de indices)
    fim = inds_f[i] # ind√≠ce fim hiato

    start_time = df_raw.loc[inicio, 'time'] # acessando df_raw na coluna 'time' na posi√ß√£o in√≠cio
    end_time = df_raw.loc[fim, 'time'] # na posi√ß√£o fim

    # Lista com os timestamps criados
    range_time = pd.date_range(start=start_time + pd.Timedelta(minutes=15), # come√ßaremos o preenchimento 15 minutos ap√≥s in√≠cio do hiato
                                        end=end_time - pd.Timedelta(minutes=15), # terminaremos no m√°ximo at√© 15 minutos antes do fim do hiato
                                        freq='15min') # preencheremos de 15 em 15 minutos esse hiato
    
    # Colocaremos cada um desses timestamps dentro do dicion√°rio com as chaves 'time'
    # e 'value', essas √∫ltimas recebendo NaN como valores. O objeto 'linhas' receber√° esse dicion√°rio.
    for timestamp in range_time:
        linhas.append({'time': timestamp, 'value': np.nan}) 


# O dicion√°rio 'linhas' se torna o dataframe 'df_linhas'
df_linhas = pd.DataFrame(linhas)

# Concatenamos o dataframe df_raw, mas sem a coluna diff_horas (agora desnecess√°ria), com
# o dataframe df_linhas, que tem as mesmas colunas (value e time).
# ignore_index = True evita ind√≠ces duplicados (exemplo: o ind√≠ce 2 em ambos os dataframes), 
# e reseta o ind√≠ce do dataframe concatenado, para que v√° de 0 at√© o √∫ltimo elemento da lista, de maneira sequencial
df_raw = pd.concat([df_raw.drop(columns=['diff_horas']), df_linhas], ignore_index=True)

# Ordenamos o dataframe por 'time' crescente e mais uma vez resetamos os ind√≠ces (a redund√¢ncia
# se deve apenas √† uma quest√£o de organiza√ß√£o)
df_raw = df_raw.sort_values(by='time').reset_index(drop=True)

df_raw



## 6. Atribuindo valores aos novos timestamps criados

Em constru√ß√£o!

In [None]:
# Consideramos as √∫ltimas 10 medidas anteriores e 10 posteriores registradas no conjunto de dados.
# Atribu√≠remos pesos diferentes a cada uma, de acordo com a dist√¢ncia para o nosso dado faltante.
def imputar_por_media_ponderada(df, col_time='time', col_val='value', alpha=2, k_vizinhos=20):
    """
    Preenche valores ausentes com m√©dia ponderada de vizinhos temporais.

    Par√¢metros:
        df: DataFrame com timestamps e valores
        col_time: nome da coluna de tempo
        col_val: nome da coluna com os valores a imputar
        alpha: grau de decaimento dos pesos (ex: 2)
        k_vizinhos: n√∫mero de vizinhos (anteriores + posteriores)

    Retorna:
        DataFrame com coluna imputada
    """
    df = df.copy()
    df = df.sort_values(col_time).reset_index(drop=True)
    df['is_imputed'] = False

    mask_nan = df[col_val].isna()
    idxs_nan = df[mask_nan].index

    for idx in idxs_nan:
        t_faltante = df.loc[idx, col_time]

        # Vizinhos com valor observado
        df_obs = df[~df[col_val].isna()].copy()
        df_obs['delta'] = (df_obs[col_time] - t_faltante).dt.total_seconds() / (60 * 60 * 24)
        df_obs['delta_abs'] = df_obs['delta'].abs()

        # Pega os k vizinhos mais pr√≥ximos no tempo
        df_vizinhos = df_obs.nsmallest(k_vizinhos, 'delta_abs')

        if df_vizinhos.empty:
            continue  # N√£o h√° vizinhos dispon√≠veis

        # C√°lculo dos pesos
        pesos = 1 / (1 + df_vizinhos['delta_abs'])**alpha
        valores = df_vizinhos[col_val].values

        numerador = np.sum(pesos * valores)
        denominador = np.sum(pesos)

        estimativa = numerador / denominador

        df.loc[idx, col_val] = estimativa
        df.loc[idx, 'is_imputed'] = True

    return df

## 7. Granula√ß√£o de 'time' em 'date', 'hour', 'hour_minute', 'weekday' e 'hour_cont'

In [None]:
df_raw['time'] = pd.to_datetime(df_raw['time'])
df_raw['date'] = df_raw['time'].dt.date 

# valor inteiro das horas, para representa√ß√µes diretas
df_raw['hour'] = df_raw['time'].dt.hour

df_raw['hour_minute'] = df_raw['time'].dt.strftime('%H:%M')
df_raw['weekday'] = df_raw['time'].dt.day_name()

# horas com fra√ß√£o decimal, para usar em modelos estat√≠sticos
df_raw['hour_cont'] = (df_raw['time'].dt.hour + df_raw['time'].dt.minute / 60).round(2)


## 6. Organiza√ß√£o final da tabela

In [None]:
df_raw = df_raw[['time', 'date', 'hour_minute', 'value', 'weekday', 'hour', 'hour_cont']]
df_raw

b = df_raw.copy()
b.to_csv('meu_dataframe_salvo2.csv', index=False, encoding='utf-8')

In [None]:
jan_amost = 3
ini_jan = 

In [None]:
# Primeiro, vamos identificar todos os NaNs e a hora correspondente
nan_mask = df_raw['value'].isna()
nan_rows = df_raw[nan_mask]

# Dicion√°rio para armazenar os valores v√°lidos por hora
hourly_valid_values = {}
for hour_val in df_raw['hour'].unique():
    # Coleta todos os valores N√ÉO-NaN para essa hora espec√≠fica
    valid_values_for_hour = df_raw[df_raw['hour'] == hour_val]['value'].dropna()
    if not valid_values_for_hour.empty:
        hourly_valid_values[hour_val] = valid_values_for_hour.tolist() # Converte para lista para np.random.choice

# Criar uma c√≥pia para trabalhar nela
df_raw_filled = df_raw.copy()

# Preencher os NaNs iterando apenas sobre as linhas com NaN
for idx, row in nan_rows.iterrows():
    current_hour = row['hour']
    
    # Verifica se existem valores v√°lidos para sortear para essa hora
    if current_hour in hourly_valid_values and hourly_valid_values[current_hour]:
        # Sorteia um valor da lista de valores v√°lidos para a hora atual
        sorted_value = np.random.choice(hourly_valid_values[current_hour])
        df_raw_filled.loc[idx, 'value'] = sorted_value
    else:
        # Se n√£o h√° valores v√°lidos para a hora, o NaN permanece (ou voc√™ pode preencher com outra estrat√©gia)
        pass # Deixa como NaN ou implementa outra l√≥gica de fillna

# 4. Verificar o resultado
print("\n--- DataFrame Ap√≥s Preenchimento por Sorteio (Solu√ß√£o Robustada) ---")
print(df_raw_filled)
print(f"\nNaNs em 'value' ap√≥s sorteio: {df_raw_filled['value'].isnull().sum()}")
print("-" * 70)

c = df_raw_filled.copy()
c.to_csv('meu_dataframe_salvo3.csv', index=False, encoding='utf-8')

<div style="text-align: center;">
  
# üîç An√°lise Explorat√≥ria de Dados

</div>

In [None]:
print('Quantidade de linhas e colunas:\n', df_raw.shape, '\n\n---\n')
print('Colunas presentes:\n', df_raw.columns, '\n---\n')
print('Tipo de dados:\n', df_raw.dtypes, '\n\n---\n')
print('Quantidade de dados √∫nicos:\n', df_raw.nunique())

In [None]:
df_raw['value'].describe().round(1)

In [None]:
print('Quantidade de apari√ß√µes dos valores medidos para glucose no fluido intersticial (mg/dL)')
sns.histplot(df_raw['value'], kde=True)
plt.ylabel('N√∫mero de apari√ß√µes')
plt.xlabel('Glicose (mg/dL)')

In [None]:
print('Quantidade de medi√ß√µes por dia da semana')
df_raw['weekday'].value_counts().plot.bar()
plt.ylabel('Quantidade de medi√ß√µes')
plt.xlabel('Dia da semana')

In [None]:
print('M√©dia das medi√ß√µes nos dias em que houve aferi√ß√£o')
df_raw_filled.groupby('time')['value'].mean().plot()
plt.ylabel('Glicose (mg/dL)')
plt.xlabel('Data')

In [None]:
print('N√∫mero de medi√ß√µes por data')
df_raw_filled.groupby('date').size().plot(kind='bar', figsize=(15, 4), title='Quantidade de medi√ß√µes por data')
plt.ylabel('Quantidade de aferi√ß√µes')
plt.xlabel('Data')
plt.show()

In [None]:
print('Quantidade de medi√ß√µes por hora')
df_raw['hour'].value_counts().plot.bar()
contagem_por_hora_ordenada = contagem_por_hora.sort_index()
plt.ylabel('Quantidade de medi√ß√µes')
plt.xlabel('Dia da semana')

## 1. H√° rela√ß√£o entre o valor da glicemia (value) e o hor√°rio do dia (time)? Em quais horas do dia h√° maiores picos de glicemia? Em quais horas do dia h√° menores valores de glicemia? 


In [None]:
# Valores de m√©dia, m√≠nimo e m√°ximo valores de glicemia (mg/dL) por hora do dia
df_raw.groupby('hour')['value'].agg(['mean', 'min', 'max']).round(1)

In [None]:
# Gr√°fico da m√©dia de glicemia por hora do dia 
media_por_hora = df_raw.groupby('hour')['value'].mean()
plt.figure(figsize=(10, 5))
sns.lineplot(x=media_por_hora.index, y=media_por_hora.values)
plt.title('M√©dia de glicemia por hora do dia')
plt.xlabel('Hora do dia')
plt.ylabel('Glicemia (mg/dL)')
plt.grid(True)
plt.xticks(range_time(0, 24))
plt.show()

# 2. Nos dados analisados, qual a porcentagem do tempo o paciente est√° dentro, acima ou abaixo dos valores de refer√™ncia ideais? 

##### Valores ideais:
##### TIR time in range: ‚â• 70% do tempo entre 70-180 mg/dL
##### TBR time below range: < 4% do tempo abaixo de 70 mg/dL
##### TBR time very below range: < 1% abaixo de 54 mg/dL
##### TAR time above range: < 25% acima de 180 mg/dL

In [None]:
total = len(df_raw)
tar = len(df_raw[df_raw['value'] > 180]) / total * 100
tir = len(df_raw[(df_raw['value'] >= 70) & (df_raw['value'] <= 180)]) / total * 100
tbr = len(df_raw[df_raw['value'] < 70]) / total * 100
tvbr = len(df_raw[df_raw['value'] < 54]) / total * 100

In [None]:
tar_check = '‚úîÔ∏è' if tar < 25 else '‚ùå'
tir_check = '‚úîÔ∏è' if tir >= 70 else '‚ùå'
tbr_check = '‚úîÔ∏è' if tbr < 4 else '‚ùå'
tvbr_check = '‚úîÔ∏è' if tvbr < 1 else '‚ùå'

In [None]:
print(f'| TAR time above range      | {tar:.1f}%  | < 25% acima de 180 mg/dL           | {tar_check} |')
print(f'| TIR time in range         | {tir:.1f}% |  ‚â• 70% do tempo entre 70-180 mg/dL | {tir_check} |')
print(f'| TBR time below range      | {tbr:.1f}% | < 4% do tempo abaixo de 70 mg/dL   | {tbr_check} |')
print(f'| TBR time very below range | {tvbr:.1f}%  | < 1% abaixo de 54 mg/dL            | {tvbr_check} |')

# 3. Dentro do per√≠odo de medi√ß√£o, houve algum dia em que a m√©dia de glicemia destoou muito do normal? Em quais momentos houve epis√≥dios de hiper (>180mg/dL) e hipoglicemia? (<70mg/dL)

In [None]:
from matplotlib.colors import ListedColormap, BoundaryNorm

mapa_medicoes = df_raw[['value']]
mapa_medicoes = mapa_medicoes.T

faixas = [0, 70, 180, df_raw['value'].max() + 1]

# Cores suaves e harm√¥nicas:
colors = ['#7DA6C1', '#A3C293', '#D46256']
cmap = ListedColormap(colors)
norm = BoundaryNorm(faixas, cmap.N)

# Plot
plt.figure(figsize=(20, 2))
sns.heatmap(mapa_medicoes, cmap=cmap, norm=norm, cbar_kws={'label': 'Glicose (mg/dL)'})
plt.yticks([], [])
plt.xlabel("Leituras")
plt.title("Mapa de calor com destaque para medi√ß√µes individuais acima de 180 e abaixo de 70")
plt.show()


# 4. Qu√£o r√°pido a curva de glicemia tende a voltar para os valores de refer√™ncia ideais? H√° alguma vari√°vel que influencia o tempo de retorno?

# 5. H√° diferen√ßa significativa da m√©dia de glicemia entre dias da semana? (dias √∫teis, fins de semana)

In [None]:
from matplotlib.colors import ListedColormap, BoundaryNorm

tabela = df_raw.pivot_table(index='hour', columns='weekday', values='value', aggfunc='mean')
max_val = df_raw['value'].max()

colors = ['#E99A8B', '#A3C293', '#D46256'] 
glucose_range = [0, 70, 140, max_val + 1]

cmap = ListedColormap(colors)
norm = BoundaryNorm(glucose_range, cmap.N)

plt.figure(figsize=(6, 6))
sns.heatmap(tabela, annot=True, fmt=".1f", cmap=cmap, norm=norm, cbar_kws={'label': 'Glicose (mg/dL)'})
plt.title("Glicose m√©dia por hora do dia e por dia da semana")
plt.ylabel("Hora do dia")
plt.xlabel("Dia da semana")
plt.show()

In [None]:
media_por_dia = df_raw.groupby('weekday')['value'].mean().reindex([
    'Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'
]).reset_index()

mapa_mediageral = pd.DataFrame([media_por_dia['value'].values], columns=media_por_dia['weekday'].values)

plt.figure(figsize=(8, 2))
sns.heatmap(mapa_mediageral, annot=True, fmt=".1f", cmap="crest", cbar_kws={'label': 'Glicose m√©dia (mg/dL)'})
plt.title("M√©dia de glicose no fluido intersticial por dia da semana")
plt.yticks([], []) 
plt.xlabel("Dia da semana")
plt.show()


# 6. H√° varia√ß√£o de glicemia significativa durante o per√≠odo noturno e durante a manh√£ (4h-8h)? (dawn phenomenon)

In [None]:
# Gr√°fico da m√©dia de glicemia por hora do dia 
media_por_hora = df_raw.groupby('hour')['value'].mean()
plt.figure(figsize=(10, 5))
sns.lineplot(x=media_por_hora.index, y=media_por_hora.values)
plt.title('M√©dia de glicemia por hora do dia')
plt.xlabel('Hora do dia')
plt.ylabel('Glicemia (mg/dL)')
plt.grid(True)
plt.xticks(range_time(0, 24))
plt.show()

# 7. Qual a glicemia m√©dia geral do per√≠odo analisado?

In [None]:
media_global = df_raw['value'].mean()
media_check = '‚úîÔ∏è' if media_global > 70 and media_global < 180 else '‚ùå'
print('M√©dia geral:', media_global, media_check)

# 8. Qual o desvio padr√£o ou coeficiente de varia√ß√£o (CV%) da glicemia?

# 9. Quais dias em que houve mais instabilidade (maior varia√ß√£o)?

# 10. H√° consist√™ncia nos dados? √â poss√≠vel prever quais horas do dia haver√° oscila√ß√µes significativas?

# 11. H√° alguma diferen√ßa entre a m√©dia da primeira e √∫ltima metade da amostra? Houve alguma diferen√ßa no controle ao longo do m√™s ou permaneceu constante?

In [None]:
# 12. N√∫mero e dura√ß√£o m√©dia dos epis√≥dios de hipoglicemia e hiperglicemia
# 13. Velocidade m√©dia de subida e queda da glicemia
# 14. Tempo em hipoglicemia noturna (00h‚Äì6h)
# 17. Predi√ß√£o simples com regress√£o ou modelo de baseline

# Predi√ß√£o com regress√£o linear

In [None]:
#%pip install scikit-learn

In [None]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt

In [None]:
x = df_raw[['hour']]
y = df_raw['value']

In [None]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.2, random_state=42)

In [None]:
modelo = LinearRegression()
modelo.fit(x_treino, y_treino)


In [None]:
y_pred = modelo.predict(x_teste)
rmse = np.sqrt(mean_squared_error(y_teste, y_pred))

print("Coeficiente angular (slope):", modelo.coef_[0])
print("Intercepto:", modelo.intercept_)
print("R¬≤:", r2_score(y_teste, y_pred))
print("RMSE:", rmse)

In [None]:
plt.scatter(x_teste, y_teste, color='gray', label='Real')
plt.plot(x_teste, y_pred, color='blue', linewidth=2, label='Previs√£o')
plt.title('Previs√£o da glicemia com base na hora do dia')
plt.xlabel('Hora do dia')
plt.ylabel('Glicemia (mg/dL)')
plt.legend()
plt.grid(True)
plt.show()