<div style="text-align: center;">
  
# üßÅ Limpeza e tratamento de dados de CGM (monitoramento cont√≠nuo de glicemia)

</div>

## 1. Carregando as bibliotecas

In [None]:
#%pip install missingno

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

## 2. Extraindo e visualizando o dataframe; padronizando os nomes das vari√°veis; certificando os tipos de dados

In [None]:
# Dataset extra√≠do pelo RStudio atrav√©s do reposit√≥rio 
# https://rdrr.io/github/personalscience/psi-shiny-cgm/man/sample_libreview_df.html
df_extract = pd.read_csv('./sample_libreview_df_raw.csv')
df_raw = df_extract.copy()

In [None]:
'''
No atributo columns (do tipo √≠ndice) do objeto df_raw, nosso dataframe, iremos formatar
todos os seus elementos, isto √©, os nomes das colunas. Para isso, utilizamos o acessor .str, 
que nos permite aplicar m√©todos de strings para todos os elementos do √≠ndice/vetor.
Os m√©todos utilizados s√£o: 
- lower(): torna todos os caracteres min√∫sculos;
- strip(): remove espa√ßos em branco das extremidades da string;
- replace(,): substitu√≠mos o elemento da esquerda, sempre que ele aparecer, pelo da 
direita. No nosso caso, trocamos um espa√ßo em branco por nenhum espa√ßo, e ":" por nenhum espa√ßo.
'''

df_raw.columns = df_raw.columns.str.lower().str.strip().str.replace(' ', '').str.replace(':', '')
df_raw

In [None]:
# convertemoscoluna 'time' para o tipo datetime
df_raw['time'] = pd.to_datetime(df_raw['time'], errors = 'coerce') 
# a coluna 'value' se torna num√©rica
df_raw['value'] = pd.to_numeric(df_raw['value'], errors = 'coerce') 

# OBS: errors = 'coerce' faz com que elementos que n√£o estejam num formato v√°lido para
# serem convertidos para datetime retornem NaT, e os que n√£o possam ser convertidos para
# int ou float (num√©rico) retornem NaN.

## 3. Atribuindo valores reais (esquecidos) a 'value', seguindo a hierarquia entre 'strip', 'scan' e 'hist'

In [None]:
def value_herda_exclui(df, col_time='time', col_alvo='value', col1='strip', col2='scan', col3='hist'):
    """
    Preenche os NaNs de `col_alvo` com prioridade:
    1. Usa `col1` se dispon√≠vel.
    2. Caso contr√°rio, usa `col2`.
    3. Caso contr√°rio, usa `col3`.
    """
    
    df = df.copy()
    
    # 0 = n√£o foi preenchido por outra coluna, 1 foi por col1, 2 por col2 e 3 por col3.
    df['preenchido_por'] = 0

    # vetores (Series), onde: o primeiro tem valores True nos √≠ndices em que col_alvo √© NaN; 
    # o segundo tem valores True onde col1 n√£o √© NaN
    cond1 = df[col_alvo].isna() & df[col1].notna() 
    # fa√ßo a substitui√ß√£o nessas posi√ß√µes
    df.loc[cond1, col_alvo] = df.loc[cond1, col1]
    df.loc[cond1, 'preenchido_por'] = 1

    # Fa√ßo o mesmo com as linhas restantes de col_alvo que continuam NaN, mas agora
    # comparando com os valores de col2 e col3
    cond2 = df[col_alvo].isna() & df[col2].notna()
    df.loc[cond2, col_alvo] = df.loc[cond2, col2]
    df.loc[cond2, 'preenchido_por'] = 2

    cond3 = df[col_alvo].isna() & df[col3].notna()
    df.loc[cond3, col_alvo] = df.loc[cond3, col3]
    df.loc[cond3, 'preenchido_por'] = 3

    # Agora, vamos ordenar por prioridade e eliminar duplicatas no tempo
    df[col_time] = pd.to_datetime(df[col_time], errors = 'coerce') 
    df = df.sort_values(by=[col_time, 'preenchido_por'])  # menor preenchido_por tem maior prioridade
    df = df.drop_duplicates(subset=col_time, keep='first').reset_index(drop=True)

    # Removo a coluna que indica de qual medi√ß√£o o value foi advindo
    df = df.drop(columns=['preenchido_por'])

    return df

df_raw = value_herda_exclui(df_raw)
df_raw

## 4. Removendo as vari√°veis restantes e, agora, desnecess√°rias

In [None]:
# Eliminando as colunas que n√£o ser√£o utilizadas
df_raw = df_raw.drop(columns=['unnamed0', 'strip', 'hist', 'scan', 'food', 'user_id'])

df_raw

## 5. Eliminando os valores nulos e absurdos

In [None]:
# Contagem de quantos valores nulos (NaN ou NaT) temos em cada coluna de df_raw
# df_raw.isnull() retorna um dataframe com True e False em cada c√©lula. True, se a c√©lula tem
# valor NaN ou NaT, e False em caso contr√°rio. O m√©todo sum(axis = 0) soma a quantidade de cada coluna.
# Como True corresponde ao valor 1 e False a 0, teremos assim a soma dos valores nulos.

print('Valores nulos antes: \n')
print(df_raw.isnull().sum(axis = 0))

In [None]:
def elimina_nulos_ruidos(df, col_time='time', col_value='value', lim_inf=0, lim_sup=500, minutes_rel1=15, minutes_rel2=15, ruido_rel=50):
    '''Documenta√ß√£o'''

    df = df.copy()

    # Garantir os tipos de dados
    df_raw['time'] = pd.to_datetime(df_raw['time'], errors = 'coerce') 
    df_raw['value'] = pd.to_numeric(df_raw['value'], errors = 'coerce') 

    # Excluindo as linhas em que 'time' ou 'value' tem valor nulo
    df = df.dropna(subset=[col_time,col_value])

    # Excluindo as linhas em que 'value' tem um poss√≠vel ru√≠do absoluto
    df = df[(df[col_value] > lim_inf) & (df[col_value] < lim_sup)]

    # Excluindo as linhas em que 'value' tem um poss√≠vel ru√≠do relativo
    df['diff_prev'] = df[col_value].diff().abs() # diferen√ßa de valor para a linha anterior
    df['diff_next'] = df[col_value].diff(-1).abs() # diferen√ßa de valor para a linha posterior

    df['delta_prev'] = df[col_time] - df[col_time].shift(1) # diferen√ßa de tempo para a linha anterior
    df['delta_next'] = df[col_time].shift(-1) - df[col_time] # diferen√ßa de tempo para a linha posterior

    mask_delta_prev = df['delta_prev'] <= pd.Timedelta(minutes=minutes_rel1)
    mask_delta_next = df['delta_next'] <= pd.Timedelta(minutes=minutes_rel2)

    mask_ruido_duplo = (df['diff_prev'] > ruido_rel) & mask_delta_prev & \
                    (df['diff_next'] > ruido_rel) & mask_delta_next

    df = df.loc[~mask_ruido_duplo]
    df.drop(columns=['diff_prev', 'diff_next', 'delta_prev', 'delta_next'], inplace=True)

    # Organizando o dataframe por 'time' crescente, e resetando os √≠ndices, j√° que
    # ao excluirmos linhas, a linha com o √≠ndice √© exclu√≠da. Agora, temos √≠ndices ordenados e
    # sequenciados novamente de 0 ao fim do dataframe.
    df = df.sort_values(by=col_time).reset_index(drop=True) 

    return df

# Esse √© o dataframe apenas com dados medidos
df_raw = elimina_nulos_ruidos(df_raw)
df_raw


## 6. Subdivis√£o de 'time' em 'date', 'hour', 'hour_minute', 'weekday' e 'hour_cont'

In [None]:
def dividir_time(df, col_time='time'):
    """
    Adiciona colunas derivadas de tempo para an√°lise estat√≠stica e manipula√ß√£o temporal.

    Par√¢metros:
    -----------
    df : pd.DataFrame
        DataFrame com uma coluna datetime.
    col_time : str, default 'time'
        Nome da coluna que cont√©m timestamps (deve ser do tipo datetime ou convers√≠vel).
    Retorna:
    --------
    pd.DataFrame
        DataFrame com as colunas adicionais:
            - 'date' : data (sem hor√°rio)
            - 'hour' : hora inteira
            - 'hour_minute' : string com hora e minuto no formato HH:MM
            - 'weekday' : nome do dia da semana
            - 'hour_cont' : hora com fra√ß√£o decimal (ex: 14.25 para 14:15)
    """
    df = df.copy()

    df[col_time] = pd.to_datetime(df[col_time])

    df['date'] = pd.to_datetime(df[col_time].dt.date)  # <- corrigido aqui
    primeiro_dia = df['date'].min()
    df['date_cont'] = (df['date'] - primeiro_dia).dt.days  # <- agora funciona

    df['hour'] = df[col_time].dt.hour
    df['hour_minute'] = df[col_time].dt.strftime('%H:%M')
    df['weekday'] = df[col_time].dt.day_name()
    df['hour_cont'] = (df[col_time].dt.hour + df[col_time].dt.minute / 60).round(2)

    return df

df_raw = dividir_time(df_raw)
df_raw

In [None]:
# Agora criamos a coluna 'faixa' diretamente, sem gerar warning
colunas_ordenadas = ['time', 'date', 'date_cont', 'hour_minute', 'value', 'weekday', 'hour', 'hour_cont']
df_raw = df_raw[colunas_ordenadas]


## 9. Organiza√ß√£o final da tabela

In [None]:
# Organiza√ß√£o final da tabela de valores reais
def faixa_horaria(hora):
    if 0 <= hora <= 6:
        return 'Madrugada'
    elif 7 <= hora <= 12:
        return 'Manh√£'
    elif 13 <= hora <= 17:
        return 'Tarde'
    elif 18 <= hora <= 21:
        return 'Jantar'
    else:
        return 'Fim da noite'

df_raw.loc[:, 'faixa'] = df_raw['hour'].apply(faixa_horaria)
df_raw

<div style="text-align: center;">
  
# üîç An√°lise Explorat√≥ria de Dados

</div>

## 1. Informa√ß√µes da tabela df_raw

In [None]:
print('Quantidade de linhas e colunas:\n', df_raw.shape, '\n\n---\n')
print('Colunas presentes:\n', df_raw.columns, '\n---\n')
print('Tipo de dados:\n', df_raw.dtypes, '\n\n---\n')
print('Quantidade de dados √∫nicos:\n', df_raw.nunique())

## 2. Estat√≠sticas gerais da vari√°vel 'value' e sua distribui√ß√£o de frequ√™ncias absolutas

In [None]:
df_raw['value'].describe().round(1)

In [None]:
print('Quantidade de apari√ß√µes dos valores medidos para glucose no fluido intersticial (mg/dL)')
sns.histplot(df_raw['value'], kde=True)
plt.ylabel('N√∫mero de apari√ß√µes')
plt.xlabel('Glicose (mg/dL)')

## 3. Estat√≠sticas di√°rias de 'value'

In [None]:
print('Quantidade de medi√ß√µes por dia da semana')
df_raw['weekday'].value_counts().plot.bar()
plt.ylabel('Quantidade de medi√ß√µes')
plt.xlabel('Dia da semana')

In [None]:
print('N√∫mero de medi√ß√µes por data')
df_raw.groupby('date').size().plot(kind='bar', figsize=(15, 4), title='Quantidade de medi√ß√µes por data')
plt.ylabel('Quantidade de aferi√ß√µes')
plt.xlabel('Data')
plt.show()

Abaixo, temos a m√©dia por dia, mas com um por√©m: mesmo considerando dias com mais de 64 medi√ß√µes, ainda podem haver dias com medi√ß√µes irregulares, que n√£o contemplem todos os ciclos do dia!

In [None]:
print('M√©dia das medi√ß√µes nos dias em que houve aferi√ß√£o')
contagem_por_dia = df_raw.groupby('date_cont')['value'].count()
dias_validos = contagem_por_dia[contagem_por_dia > 64].index
media_filtrada = df_raw[df_raw['date_cont'].isin(dias_validos)].groupby('date_cont')['value'].mean()

# Plota a m√©dia di√°ria apenas para os dias com mais de 64 medi√ß√µes
media_filtrada.plot(marker='o', linestyle='-')

x = media_filtrada.index          # n√∫meros do dia: 0, 1, 3, 10, etc.
y = media_filtrada.values         # m√©dias de glicose

# Plotando com espa√ßamento proporcional
plt.plot(x, y, marker='o', linestyle='-')

# R√≥tulos dos eixos
plt.xlabel('Dia (contagem desde o in√≠cio)')
plt.ylabel('M√©dia de Glicose (mg/dL)')
plt.title(f'M√©dia di√°ria de glicose (apenas dias com mais de 64 medi√ß√µes)')

# Ativar grade
plt.grid(True)

plt.show()

In [None]:
print('Quantidade de medi√ß√µes por hora')
contagem_horas_ord = df_raw['hour'].value_counts().sort_index()
contagem_horas_ord.plot.bar()
plt.ylabel('Quantidade de medi√ß√µes')
plt.xlabel('Hora do dia')

## 1. H√° rela√ß√£o entre o valor da glicemia (value) e o hor√°rio do dia (time)? Em quais horas do dia h√° maiores picos de glicemia? Em quais horas do dia h√° menores valores de glicemia? 


In [None]:
# Valores de m√©dia, m√≠nimo e m√°ximo valores de glicemia (mg/dL) por hora do dia
df_raw.groupby('hour')['value'].agg(['mean', 'min', 'max']).round(1)

Serve para analisar o ciclo como um todo!

In [None]:
# Gr√°fico da m√©dia de glicemia por hora do dia 
media_por_hora = df_raw.groupby('hour')['value'].mean()
plt.figure(figsize=(10, 5))
sns.lineplot(x=media_por_hora.index, y=media_por_hora.values)
plt.title('M√©dia de glicemia por hora do dia')
plt.xlabel('Hora do dia')
plt.ylabel('Glicemia (mg/dL)')
plt.grid(True)
plt.xticks(range(24))
plt.show()

In [None]:
media_por_faixa = df_raw.groupby(['date_cont', 'faixa'])['value'].mean().unstack()

media_por_faixa.plot(figsize=(12, 6), marker='o')

plt.xlabel('Dia (contagem)')
plt.ylabel('Glicose m√©dia (mg/dL)')
plt.title('Evolu√ß√£o di√°ria da glicose por faixa hor√°ria')
plt.grid(True)
plt.legend(title='Faixa do dia', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()

# 2. Nos dados analisados, qual a porcentagem do tempo o paciente est√° dentro, acima ou abaixo dos valores de refer√™ncia ideais? 

##### Valores ideais:
##### TIR time in range: ‚â• 70% do tempo entre 70-180 mg/dL
##### TBR time below range: < 4% do tempo abaixo de 70 mg/dL
##### TBR time very below range: < 1% abaixo de 54 mg/dL
##### TAR time above range: < 25% acima de 180 mg/dL

In [None]:
total = len(df_raw)
tar = len(df_raw[df_raw['value'] > 180]) / total * 100
tir = len(df_raw[(df_raw['value'] >= 70) & (df_raw['value'] <= 180)]) / total * 100
tbr = len(df_raw[df_raw['value'] < 70]) / total * 100
tvbr = len(df_raw[df_raw['value'] < 54]) / total * 100

In [None]:
tar_check = '‚úîÔ∏è' if tar < 25 else '‚ùå'
tir_check = '‚úîÔ∏è' if tir >= 70 else '‚ùå'
tbr_check = '‚úîÔ∏è' if tbr < 4 else '‚ùå'
tvbr_check = '‚úîÔ∏è' if tvbr < 1 else '‚ùå'

In [None]:
print(f'| TAR time above range      | {tar:.1f}%  | < 25% acima de 180 mg/dL           | {tar_check} |')
print(f'| TIR time in range         | {tir:.1f}% |  ‚â• 70% do tempo entre 70-180 mg/dL | {tir_check} |')
print(f'| TBR time below range      | {tbr:.1f}% | < 4% do tempo abaixo de 70 mg/dL   | {tbr_check} |')
print(f'| TBR time very below range | {tvbr:.1f}%  | < 1% abaixo de 54 mg/dL            | {tvbr_check} |')

# 3. Dentro do per√≠odo de medi√ß√£o, houve algum dia em que a m√©dia de glicemia destoou muito do normal? Em quais momentos houve epis√≥dios de hiper (>180mg/dL) e hipoglicemia? (<70mg/dL)

In [None]:
from matplotlib.colors import ListedColormap, BoundaryNorm

mapa_medicoes = df_raw[['value']]
mapa_medicoes = mapa_medicoes.T

faixas = [0, 70, 180, df_raw['value'].max() + 1]

# Cores suaves e harm√¥nicas:
colors = ['#7DA6C1', '#A3C293', '#D46256']
cmap = ListedColormap(colors)
norm = BoundaryNorm(faixas, cmap.N)

# Plot
plt.figure(figsize=(20, 2))
sns.heatmap(mapa_medicoes, cmap=cmap, norm=norm, cbar_kws={'label': 'Glicose (mg/dL)'})
plt.yticks([], [])
plt.xlabel("Leituras")
plt.title("Mapa de calor com destaque para medi√ß√µes individuais acima de 180 e abaixo de 70")
plt.show()


# 4. Qu√£o r√°pido a curva de glicemia tende a voltar para os valores de refer√™ncia ideais? H√° alguma vari√°vel que influencia o tempo de retorno?

# 5. H√° diferen√ßa significativa da m√©dia de glicemia entre dias da semana? (dias √∫teis, fins de semana)

In [None]:
from matplotlib.colors import ListedColormap, BoundaryNorm

tabela = df_raw.pivot_table(index='hour', columns='weekday', values='value', aggfunc='mean')
max_val = df_raw['value'].max()

colors = ['#E99A8B', '#A3C293', '#D46256'] 
glucose_range = [0, 70, 140, max_val + 1]

cmap = ListedColormap(colors)
norm = BoundaryNorm(glucose_range, cmap.N)

plt.figure(figsize=(6, 6))
sns.heatmap(tabela, annot=True, fmt=".1f", cmap=cmap, norm=norm, cbar_kws={'label': 'Glicose (mg/dL)'})
plt.title("Glicose m√©dia por hora do dia e por dia da semana")
plt.ylabel("Hora do dia")
plt.xlabel("Dia da semana")
plt.show()

In [None]:
media_por_dia = df_raw.groupby('weekday')['value'].mean().reindex([
    'Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'
]).reset_index()

mapa_mediageral = pd.DataFrame([media_por_dia['value'].values], columns=media_por_dia['weekday'].values)

plt.figure(figsize=(8, 2))
sns.heatmap(mapa_mediageral, annot=True, fmt=".1f", cmap="crest", cbar_kws={'label': 'Glicose m√©dia (mg/dL)'})
plt.title("M√©dia de glicose no fluido intersticial por dia da semana")
plt.yticks([], []) 
plt.xlabel("Dia da semana")
plt.show()


# 6. H√° varia√ß√£o de glicemia significativa durante o per√≠odo noturno e durante a manh√£ (4h-8h)? (dawn phenomenon)

In [None]:
# Gr√°fico da m√©dia de glicemia por hora do dia 
media_por_hora = df_raw.groupby('hour')['value'].mean()
plt.figure(figsize=(10, 5))
sns.lineplot(x=media_por_hora.index, y=media_por_hora.values)
plt.title('M√©dia de glicemia por hora do dia')
plt.xlabel('Hora do dia')
plt.ylabel('Glicemia (mg/dL)')
plt.grid(True)
plt.xticks(range(24))
plt.show()

# 7. Qual a glicemia m√©dia geral do per√≠odo analisado?

In [None]:
media_global = df_raw['value'].mean()
media_check = '‚úîÔ∏è' if media_global > 70 and media_global < 180 else '‚ùå'
print('M√©dia geral:', media_global, media_check)

# 8. Qual o desvio padr√£o ou coeficiente de varia√ß√£o (CV%) da glicemia?

# 9. Quais dias em que houve mais instabilidade (maior varia√ß√£o)?

# 10. H√° consist√™ncia nos dados? √â poss√≠vel prever quais horas do dia haver√° oscila√ß√µes significativas?

# 11. H√° alguma diferen√ßa entre a m√©dia da primeira e √∫ltima metade da amostra? Houve alguma diferen√ßa no controle ao longo do m√™s ou permaneceu constante?

In [None]:
# 12. N√∫mero e dura√ß√£o m√©dia dos epis√≥dios de hipoglicemia e hiperglicemia
# 13. Velocidade m√©dia de subida e queda da glicemia
# 14. Tempo em hipoglicemia noturna (00h‚Äì6h)
# 17. Predi√ß√£o simples com regress√£o ou modelo de baseline

# Predi√ß√£o com regress√£o linear

In [None]:
#%pip install scikit-learn

In [None]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt

In [None]:
x = df_raw[['hour']]
y = df_raw['value']

In [None]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.2, random_state=42)

In [None]:
modelo = LinearRegression()
modelo.fit(x_treino, y_treino)


In [None]:
y_pred = modelo.predict(x_teste)
rmse = np.sqrt(mean_squared_error(y_teste, y_pred))

print("Coeficiente angular (slope):", modelo.coef_[0])
print("Intercepto:", modelo.intercept_)
print("R¬≤:", r2_score(y_teste, y_pred))
print("RMSE:", rmse)

In [None]:
plt.scatter(x_teste, y_teste, color='gray', label='Real')
plt.plot(x_teste, y_pred, color='blue', linewidth=2, label='Previs√£o')
plt.title('Previs√£o da glicemia com base na hora do dia')
plt.xlabel('Hora do dia')
plt.ylabel('Glicemia (mg/dL)')
plt.legend()
plt.grid(True)
plt.show()