In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = ["0", "4", "5", "13", "19", "29", "35", "46", "50", "51", "55", "59", "76", "87", "133", "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 0]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

Acurácia do modelo: 0.9279454722492697
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
1   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
2   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
3   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
4   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
..           ...           ...           ...           ...           ...   
74  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
75  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
76  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
77  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
78  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   

    Charging_13h  Charging_14h  Charg

In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = [, "4", "5", "13", "19", "29", "35", "46", "50", "51", "55", "59", "76", "87", "133", "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 4]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

A coluna Charging_20h não contém pelo menos duas classes distintas. Removendo esta coluna.
Acurácia do modelo: 0.9296536796536796
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar      Carregar      Carregar      Carregar  Não Carregar   
1   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
2   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
3   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
4   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
..           ...           ...           ...           ...           ...   
72  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
73  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
74  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
75  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
76  Não Carregar  Não C

In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = [ "5", "13", "19", "29", "35", "46", "50", "51", "55", "59", "76", "87", "133", "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 5]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

Acurácia do modelo: 0.9820179820179821
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar      Carregar      Carregar      Carregar      Carregar   
1   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
2   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
3   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
4       Carregar      Carregar      Carregar      Carregar      Carregar   
..           ...           ...           ...           ...           ...   
72  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
73  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
74  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
75  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
76  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   

    Charging_13h  Charging_14h  Charg

In [7]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = [ "13", "19", "29", "35", "46", "50", "51", "55", "59", "76", "87", "133", "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 13]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

A coluna Charging_20h não contém pelo menos duas classes distintas. Removendo esta coluna.
Acurácia do modelo: 0.9502164502164502
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
1   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
2   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
3   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
4   Não Carregar      Carregar      Carregar      Carregar      Carregar   
..           ...           ...           ...           ...           ...   
72  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
73  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
74  Não Carregar      Carregar      Carregar      Carregar      Carregar   
75  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
76  Não Carregar      C

In [8]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = ["19", "29", "35", "46", "50", "51", "55", "59", "76", "87", "133", "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 19]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

A coluna Charging_20h não contém pelo menos duas classes distintas. Removendo esta coluna.
Acurácia do modelo: 0.8888888888888888
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
1   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
2   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
3   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
4   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
..           ...           ...           ...           ...           ...   
73  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
74  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
75  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
76  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
77  Não Carregar  Não C

In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = [ "29", "35", "46", "50", "51", "55", "59", "76", "87", "133", "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 29]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

Acurácia do modelo: 0.9538461538461539
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
1   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
2   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
3   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
4   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
..           ...           ...           ...           ...           ...   
75  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
76  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
77  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
78  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
79  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   

    Charging_13h  Charging_14h  Charg

In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = [ "35", "46", "50", "51", "55", "59", "76", "87", "133", "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 35]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

A coluna Charging_20h não contém pelo menos duas classes distintas. Removendo esta coluna.
Acurácia do modelo: 0.9707792207792207
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
1   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
2   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
3   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
4   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
..           ...           ...           ...           ...           ...   
72  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
73  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
74  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
75  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
76  Não Carregar  Não C

In [11]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = [  "46", "50", "51", "55", "59", "76", "87", "133", "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 46]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

A coluna Charging_19h não contém pelo menos duas classes distintas. Removendo esta coluna.
A coluna Charging_20h não contém pelo menos duas classes distintas. Removendo esta coluna.
Acurácia do modelo: 0.9527744982290437
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
1   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
2       Carregar      Carregar      Carregar      Carregar      Carregar   
3       Carregar      Carregar      Carregar      Carregar      Carregar   
4   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
..           ...           ...           ...           ...           ...   
72  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
73  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
74      Carregar      Carregar      Carregar      Carregar      Carregar   
75      

In [12]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = [  "50", "51", "55", "59", "76", "87", "133", "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 50]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

Acurácia do modelo: 0.973026973026973
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar  Não Carregar  Não Carregar  Não Carregar      Carregar   
1   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
2   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
3   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
4   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
..           ...           ...           ...           ...           ...   
72  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
73  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
74  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
75  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
76  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   

    Charging_13h  Charging_14h  Chargi

In [13]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = [ "29", "35", "46", "50", "51", "55", "59", "76", "87", "133", "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 51]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

A coluna Charging_20h não contém pelo menos duas classes distintas. Removendo esta coluna.
Acurácia do modelo: 0.9967532467532467
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
1   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
2   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
3   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
4   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
..           ...           ...           ...           ...           ...   
72  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
73  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
74  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
75  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
76  Não Carregar  Não C

In [14]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = [ "29", "35", "46", "50", "51", "55", "59", "76", "87", "133", "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 55]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

Acurácia do modelo: 0.8739573679332715
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
1       Carregar      Carregar      Carregar  Não Carregar      Carregar   
2       Carregar      Carregar      Carregar      Carregar      Carregar   
3       Carregar      Carregar      Carregar      Carregar      Carregar   
4       Carregar      Carregar      Carregar      Carregar      Carregar   
..           ...           ...           ...           ...           ...   
78  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
79  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
80  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
81  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
82  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   

    Charging_13h  Charging_14h  Charg

In [15]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = [ "76", "87", "133", "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 76]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

Acurácia do modelo: 0.9497041420118343
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
1   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
2       Carregar      Carregar      Carregar      Carregar  Não Carregar   
3       Carregar      Carregar      Carregar      Carregar  Não Carregar   
4   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
..           ...           ...           ...           ...           ...   
73  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
74  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
75      Carregar      Carregar      Carregar      Carregar  Não Carregar   
76  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
77      Carregar      Carregar      Carregar      Carregar  Não Carregar   

    Charging_13h  Charging_14h  Charg

In [16]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = [ "29", "35", "46", "50", "51", "55", "59", "76", "87", "133", "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 87]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

Acurácia do modelo: 0.9310689310689311
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
1   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
2   Não Carregar      Carregar      Carregar      Carregar      Carregar   
3   Não Carregar      Carregar      Carregar      Carregar      Carregar   
4   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
..           ...           ...           ...           ...           ...   
72  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
73  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
74  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
75  Não Carregar      Carregar      Carregar      Carregar      Carregar   
76  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   

    Charging_13h  Charging_14h  Charg

In [17]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = [  "133", "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 133]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

A coluna Charging_19h não contém pelo menos duas classes distintas. Removendo esta coluna.
A coluna Charging_20h não contém pelo menos duas classes distintas. Removendo esta coluna.
Acurácia do modelo: 0.9090909090909091
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
1   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
2   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
3   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
4   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
..           ...           ...           ...           ...           ...   
75  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
76  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
77  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
78  Não 

In [18]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Carregar o dataframe inicial
User = pd.read_excel('EVIO_history_01-02-2023_29-02-2024.xlsx')
User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)', 'Nº cartão EVIO']]

# Remover valores de carregamento de energia inferiores a 1 kWh
User = User[User['Total Energy (kWh)'] >= 1]

# Lista de números de cartão desejados
#cartoes_desejados = [ "144", "145", "146", "150"]

User = User[User['Nº cartão EVIO'] == 144]

# Filtrar o DataFrame para conter apenas os usuários com os cartões desejados
#User = User[User['Nº cartão EVIO'].isin(cartoes_desejados)]


# Remover valores de duração de carregamento inferiores a 5 minutos
User = User[User['Duration (min)'] >= 5]

User = User[['Start date','Stop date','Duration (min)', 'Total Energy (kWh)']]

# Convertendo as colunas de data para o formato de data especificado
User['Start date'] = pd.to_datetime(User['Start date'], format='%m/%d/%Y | %H:%M')
User['Stop date'] = pd.to_datetime(User['Stop date'], format='%m/%d/%Y | %H:%M')

# Criando uma nova coluna 'Weekday' que contém o dia da semana
User['Weekday'] = User['Start date'].dt.day_name()

weekday_mapping = {
    'Monday': 1,
    'Tuesday': 2,
    'Wednesday': 3,
    'Thursday': 4,
    'Friday': 5,
    'Saturday': 6,
    'Sunday': 7
}

User['Weekday'] = User['Weekday'].map(weekday_mapping)

# Criar colunas para cada hora do dia (8h às 20h)
hours = range(8, 21)
for hour in hours:
    User[f'Charging_{hour}h'] = 0

# Preencher as colunas com valores binários (1 ou 0)
for index, row in User.iterrows():
    start_hour = row['Start date'].hour
    stop_hour = row['Stop date'].hour
    for hour in range(8, 21):
        if hour >= start_hour and hour <= stop_hour:
            User.at[index, f'Charging_{hour}h'] = 1

# Ordenar o dataframe pela coluna 'Start date' para garantir que os dados estejam em ordem temporal
User.sort_values(by='Start date', inplace=True)

# Calcular a diferença entre o stop date do último carregamento e o start date da linha seguinte em dias
User['Days_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.days
User['Days_since_last_charge'].fillna(0, inplace=True)

# Calcular a diferença entre o 'Start date' da linha atual e o 'Stop date' da linha anterior em horas
User['Hours_since_last_charge'] = (User['Start date'] - User['Stop date'].shift(1)).dt.total_seconds() / 3600
User['Hours_since_last_charge'].fillna(0, inplace=True)

# Gerando um índice de datas para o intervalo específico
start_date = "2023-02-14"
end_date = "2024-02-29"
date_range = pd.date_range(start=start_date, end=end_date, freq='D')
full_dates_df = pd.DataFrame(date_range, columns=['Date'])

# Converter a coluna 'Start date' do User para o mesmo formato de data
User['Date'] = User['Start date'].dt.normalize()

# Unir este índice ao dataset existente
full_dataset = full_dates_df.merge(User, on='Date', how='left')

# Preencher campos com zero para dias sem carregamento
columns_to_fill = ['Duration (min)', 'Total Energy (kWh)', 'Weekday', 'Charging_8h', 'Charging_9h', 
                   'Charging_10h', 'Charging_11h', 'Charging_12h', 'Charging_13h', 'Charging_14h', 
                   'Charging_15h', 'Charging_16h', 'Charging_17h', 'Charging_18h', 'Charging_19h', 
                   'Charging_20h', 'Days_since_last_charge', 'Hours_since_last_charge']

full_dataset[columns_to_fill] = full_dataset[columns_to_fill].fillna(0)

# Corrigir a coluna Weekday
full_dataset['Weekday'] = full_dataset['Date'].dt.day_name().map(weekday_mapping)

# Preencher as colunas 'Days_since_last_charge' e 'Hours_since_last_charge' corretamente
for i in range(1, len(full_dataset)):
    if full_dataset.loc[i, 'Total Energy (kWh)'] == 0:
        full_dataset.loc[i, 'Days_since_last_charge'] = full_dataset.loc[i-1, 'Days_since_last_charge'] + 1
        full_dataset.loc[i, 'Hours_since_last_charge'] = full_dataset.loc[i-1, 'Hours_since_last_charge'] + 24
    else:
        full_dataset.loc[i, 'Days_since_last_charge'] = 0
        full_dataset.loc[i, 'Hours_since_last_charge'] = 0

# Verificar se há pelo menos dois valores diferentes em cada coluna de destino
for hour in hours:
    col_name = f'Charging_{hour}h'
    if full_dataset[col_name].nunique() < 2:
        print(f"A coluna {col_name} não contém pelo menos duas classes distintas. Removendo esta coluna.")
        full_dataset.drop(columns=[col_name], inplace=True)

# Verificar se ainda temos colunas de destino após a remoção
target_columns = [f'Charging_{hour}h' for hour in hours if f'Charging_{hour}h' in full_dataset.columns]
if not target_columns:
    raise ValueError("Não há colunas de destino com pelo menos duas classes distintas. Não é possível treinar o modelo.")

# Usar 'Weekday' e 'Hours_since_last_charge' como variáveis de entrada
X = full_dataset[['Weekday', 'Hours_since_last_charge']].values
y = full_dataset[target_columns]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

# Treinar o modelo de regressão logística multinomial
model = MultiOutputClassifier(LogisticRegression(max_iter=1000))
model.fit(X_train, y_train)

# Fazer previsões para o conjunto de teste
predictions = model.predict(X_test)

# Avaliar a precisão do modelo comparando as previsões com y_test
accuracy = accuracy_score(y_test.values.ravel(), predictions.ravel())
print("Acurácia do modelo:", accuracy)

# Criar uma tabela de previsões com 0s e 1s
predictions_table = pd.DataFrame(predictions, columns=target_columns)
predictions_table.replace({0: 'Não Carregar', 1: 'Carregar'}, inplace=True)

# Exibir as previsões
print("Previsões:")
print(predictions_table)

# Calcular a matriz de confusão geral
overall_confusion_matrix = confusion_matrix(y_test.values.ravel(), predictions.ravel())

# Extrair os verdadeiros positivos e verdadeiros negativos da matriz de confusão geral
overall_true_positives = overall_confusion_matrix[1, 1]
overall_true_negatives = overall_confusion_matrix[0, 0]
overall_false_positives = overall_confusion_matrix[0, 1]
overall_false_negatives = overall_confusion_matrix[1, 0]

# Calcular o total de exemplos positivos e negativos
total_positives = overall_confusion_matrix[:, 1].sum()  # Soma da segunda coluna
total_negatives = overall_confusion_matrix[:, 0].sum()  # Soma da primeira coluna

# Calcular as percentagens de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
percentage_true_positives = overall_true_positives / total_positives * 100 if total_positives > 0 else 0
percentage_true_negatives = overall_true_negatives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_positives = overall_false_positives / total_negatives * 100 if total_negatives > 0 else 0
percentage_false_negatives = overall_false_negatives / total_positives * 100 if total_positives > 0 else 0

# Imprimir os resultados
print(f'Percentagem de True Positives: {percentage_true_positives:.2f}%')
print(f'Percentagem de True Negatives: {percentage_true_negatives:.2f}%')
print(f'Percentagem de False Positives: {percentage_false_positives:.2f}%')
print(f'Percentagem de False Negatives: {percentage_false_negatives:.2f}%')

A coluna Charging_20h não contém pelo menos duas classes distintas. Removendo esta coluna.
Acurácia do modelo: 0.9335443037974683
Previsões:
     Charging_8h   Charging_9h  Charging_10h  Charging_11h  Charging_12h  \
0   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
1   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
2   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
3   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
4   Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
..           ...           ...           ...           ...           ...   
74  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
75  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
76  Não Carregar      Carregar  Não Carregar  Não Carregar  Não Carregar   
77  Não Carregar  Não Carregar  Não Carregar  Não Carregar  Não Carregar   
78  Não Carregar  Não C

In [19]:
import pandas as pd

data = {
    'Cartão': [0, 4, 5, 13, 19, 29, 35, 46, 50, 51, 55, 76, 87, 133, 144],
    'Percentagem de True Positives': [24.32, 43.90, 33.33, 53.33, 19.23, 0.00, 81.25, 67.50, 85.33, 66.67, 45.63, 72.62, 68.89, 33.33, 50.00],
    'Percentagem de True Negatives': [95.35, 95.24, 99.59, 97.16, 92.99, 95.38, 97.65, 99.86, 98.27, 100.00, 97.25, 96.99, 96.88, 92.11, 93.72],
    'Percentagem de False Positives': [2.83, 2.60, 1.43, 2.39, 4.75, 0.00, 0.67, 5.36, 1.19, 0.33, 12.83, 2.47, 4.85, 1.39, 0.43],
    'Percentagem de False Negatives': [124.32, 102.44, 19.05, 55.56, 119.23, 0.00, 65.62, 0.83, 21.33, 0.00, 11.65, 33.33, 20.00, 377.78, 737.50],
    'Acurácia do Modelo': [0.9279, 0.9297, 0.9820, 0.9502, 0.8889, 0.9538, 0.9708, 0.9528, 0.9730, 0.9968, 0.8740, 0.9497, 0.9311, 0.9091, 0.9335]
}

df = pd.DataFrame(data)
print(df)


    Cartão  Percentagem de True Positives  Percentagem de True Negatives  \
0        0                          24.32                          95.35   
1        4                          43.90                          95.24   
2        5                          33.33                          99.59   
3       13                          53.33                          97.16   
4       19                          19.23                          92.99   
5       29                           0.00                          95.38   
6       35                          81.25                          97.65   
7       46                          67.50                          99.86   
8       50                          85.33                          98.27   
9       51                          66.67                         100.00   
10      55                          45.63                          97.25   
11      76                          72.62                          96.99   
12      87  