In [1]:
""" Módulo do cálculo do fast DTW
03

"""

import time
from tqdm import tqdm
from fastdtw import fastdtw
from scipy.spatial.distance import euclidean
from tslearn.metrics import cdist_dtw
from sklearn.cluster import DBSCAN
import pandas as pd
import numpy as np
import reading_data

Install h5py to use hdf5 features: http://docs.h5py.org/
  warn(h5py_msg)


In [2]:
# Getting whole data, 4500 emps
df_time_s_entrada = pd.read_csv(reading_data.df_time_s_entrada)
df_time_s_entrada["Empresa"] = df_time_s_entrada["Empresa"].astype(str)

segundo_df_time_s_entrada = pd.read_csv(reading_data.segundo_df_time_s_entrada)
segundo_df_time_s_entrada["Empresa"] = segundo_df_time_s_entrada["Empresa"].astype(str)

In [16]:
# Usando o df de emps que trocaram de nome ao longo dos 11 anos (55 emps)
df_hist_cambios = pd.read_csv(reading_data.historial_cambios_me_epp_solo)
emps_suspicious = df_hist_cambios[["CPF_CNPJ_Rem"]].rename(columns = {"CPF_CNPJ_Rem": "Empresa"}).astype(str)

df_cambios = segundo_df_time_s_entrada[segundo_df_time_s_entrada['Empresa'].isin(emps_suspicious['Empresa'])]
# df_cambios   52 rows × 366 columns

In [3]:
# 100 samples
df_100_samples = segundo_df_time_s_entrada[:100]

# 300
df_300_samples = segundo_df_time_s_entrada[:300]

# 500
df_500_samples = segundo_df_time_s_entrada[:500]

df_800_samples = segundo_df_time_s_entrada[:800]

df_1000_samples= segundo_df_time_s_entrada[:1000]

df_1500_samples= segundo_df_time_s_entrada[:1500]

In [31]:
def calculate_dtw(time_series_passed: pd.DataFrame):
    """Calcula a matriz de distância DTW entre séries temporais.
    
    Parameters
    ----------
    time_series_passed : pd.DataFrame
        DataFrame com séries temporais onde cada linha é uma série
        
    Returns
    -------
    numpy.ndarray
        Matriz de distância DTW entre todas as séries
    """

    print(f"Iniciando cálculo da matriz de distância DTW para {time_series_passed.shape[0]} séries temporais...")
    tempo_inicio = time.time()
    
    # calculating cross similarity matrix com barra de progresso
    print("Calculando matriz de distância DTW (pode levar algum tempo)...")
    tempo_calculo = time.time()
    distance_matrix = cdist_dtw(time_series_passed)
    tempo_fim = time.time()
    
    print(f"Matriz de distância calculada em {tempo_fim - tempo_calculo:.2f} segundos")
    print(f"Tempo total da função calculate_dtw: {tempo_fim - tempo_inicio:.2f} segundos")
    
    # Informações sobre a matriz gerada
    print(f"Dimensões da matriz de distância: {distance_matrix.shape}")
    print(f"Média das distâncias: {np.mean(distance_matrix):.2f}")
    print(f"Distância mínima (excluindo diagonais): {np.min(distance_matrix + np.eye(len(distance_matrix)) * np.max(distance_matrix)):.2f}")
    print(f"Distância máxima: {np.max(distance_matrix):.2f}")
    
    return distance_matrix


In [32]:
distance_matrix_cambios = calculate_dtw(df_cambios)
print(distance_matrix_cambios)

Iniciando cálculo da matriz de distância DTW para 52 séries temporais...
Calculando matriz de distância DTW (pode levar algum tempo)...
Matriz de distância calculada em 2.06 segundos
Tempo total da função calculate_dtw: 2.06 segundos
Dimensões da matriz de distância: (52, 52)
Média das distâncias: 9997407208585.14
Distância mínima (excluindo diagonais): 1300999998.00
Distância máxima: 85053928999991.00
[[0.0000000e+00 8.0908400e+11 2.2508340e+12 ... 2.4190492e+13
  3.7275896e+13 8.5053929e+13]
 [8.0908400e+11 0.0000000e+00 1.4417500e+12 ... 2.3381408e+13
  3.6466812e+13 8.4244845e+13]
 [2.2508340e+12 1.4417500e+12 0.0000000e+00 ... 2.1939658e+13
  3.5025062e+13 8.2803095e+13]
 ...
 [2.4190492e+13 2.3381408e+13 2.1939658e+13 ... 0.0000000e+00
  1.3085404e+13 6.0863437e+13]
 [3.7275896e+13 3.6466812e+13 3.5025062e+13 ... 1.3085404e+13
  0.0000000e+00 4.7778033e+13]
 [8.5053929e+13 8.4244845e+13 8.2803095e+13 ... 6.0863437e+13
  4.7778033e+13 0.0000000e+00]]


In [5]:
distance_matrix1 = calculate_dtw(df_100_samples)
distance_matrix1

Iniciando cálculo da matriz de distância DTW para 100 séries temporais...
Convertendo dados para formato adequado: 0.00 segundos
Calculando matriz de distância DTW (pode levar algum tempo)...
Matriz de distância calculada em 10.12 segundos
Tempo total da função calculate_dtw: 10.12 segundos
Dimensões da matriz de distância: (100, 100)
Média das distâncias: 14469597962.59
Distância mínima (excluindo diagonais): 931012.00
Distância máxima: 41755021083.00


array([[0.00000000e+00, 9.31012000e+05, 4.04064019e+08, ...,
        4.06400501e+10, 4.16903121e+10, 4.17550211e+10],
       [9.31012000e+05, 0.00000000e+00, 4.03133007e+08, ...,
        4.06391191e+10, 4.16893811e+10, 4.17540901e+10],
       [4.04064019e+08, 4.03133007e+08, 0.00000000e+00, ...,
        4.02359860e+10, 4.12862481e+10, 4.13509571e+10],
       ...,
       [4.06400501e+10, 4.06391191e+10, 4.02359860e+10, ...,
        0.00000000e+00, 1.05026204e+09, 1.11497102e+09],
       [4.16903121e+10, 4.16893811e+10, 4.12862481e+10, ...,
        1.05026204e+09, 0.00000000e+00, 6.47089810e+07],
       [4.17550211e+10, 4.17540901e+10, 4.13509571e+10, ...,
        1.11497102e+09, 6.47089810e+07, 0.00000000e+00]])

In [6]:
distance_matrix3 = calculate_dtw(df_300_samples)
distance_matrix3

Iniciando cálculo da matriz de distância DTW para 300 séries temporais...
Convertendo dados para formato adequado: 0.01 segundos
Calculando matriz de distância DTW (pode levar algum tempo)...
Matriz de distância calculada em 74.18 segundos
Tempo total da função calculate_dtw: 74.19 segundos
Dimensões da matriz de distância: (300, 300)
Média das distâncias: 286744923723.99
Distância mínima (excluindo diagonais): 81.00
Distância máxima: 934519830994.00


array([[0.00000000e+00, 9.31012000e+05, 4.04064019e+08, ...,
        9.22816831e+11, 9.24202831e+11, 9.34519831e+11],
       [9.31012000e+05, 0.00000000e+00, 4.03133007e+08, ...,
        9.22815900e+11, 9.24201900e+11, 9.34518900e+11],
       [4.04064019e+08, 4.03133007e+08, 0.00000000e+00, ...,
        9.22412767e+11, 9.23798767e+11, 9.34115767e+11],
       ...,
       [9.22816831e+11, 9.22815900e+11, 9.22412767e+11, ...,
        0.00000000e+00, 1.38600004e+09, 1.17030000e+10],
       [9.24202831e+11, 9.24201900e+11, 9.23798767e+11, ...,
        1.38600004e+09, 0.00000000e+00, 1.03170000e+10],
       [9.34519831e+11, 9.34518900e+11, 9.34115767e+11, ...,
        1.17030000e+10, 1.03170000e+10, 0.00000000e+00]])

In [7]:
distance_matrix5 = calculate_dtw(df_500_samples)
distance_matrix5

Iniciando cálculo da matriz de distância DTW para 500 séries temporais...
Convertendo dados para formato adequado: 0.01 segundos
Calculando matriz de distância DTW (pode levar algum tempo)...
Matriz de distância calculada em 194.61 segundos
Tempo total da função calculate_dtw: 194.62 segundos
Dimensões da matriz de distância: (500, 500)
Média das distâncias: 816294574832.89
Distância mínima (excluindo diagonais): 81.00
Distância máxima: 2115174830954.00


array([[0.00000000e+00, 9.31012000e+05, 4.04064019e+08, ...,
        2.09797183e+12, 2.09809083e+12, 2.11517483e+12],
       [9.31012000e+05, 0.00000000e+00, 4.03133007e+08, ...,
        2.09797090e+12, 2.09808990e+12, 2.11517390e+12],
       [4.04064019e+08, 4.03133007e+08, 0.00000000e+00, ...,
        2.09756777e+12, 2.09768677e+12, 2.11477077e+12],
       ...,
       [2.09797183e+12, 2.09797090e+12, 2.09756777e+12, ...,
        0.00000000e+00, 1.18999942e+08, 1.72029999e+10],
       [2.09809083e+12, 2.09808990e+12, 2.09768677e+12, ...,
        1.18999942e+08, 0.00000000e+00, 1.70840000e+10],
       [2.11517483e+12, 2.11517390e+12, 2.11477077e+12, ...,
        1.72029999e+10, 1.70840000e+10, 0.00000000e+00]])

In [81]:
distance_matrix8 = calculate_dtw(df_800_samples)
distance_matrix8

Iniciando cálculo da matriz de distância DTW para 800 séries temporais...
Calculando matriz de distância DTW (pode levar algum tempo)...
Matriz de distância calculada em 618.40 segundos
Tempo total da função calculate_dtw: 618.40 segundos
Dimensões da matriz de distância: (800, 800)
Média das distâncias: 1418964672391.78
Distância mínima (excluindo diagonais): 81.00
Distância máxima: 3783414830989.00


array([[0.00000000e+00, 9.31012000e+05, 4.04064019e+08, ...,
        3.77214483e+12, 3.77634083e+12, 3.78341483e+12],
       [9.31012000e+05, 0.00000000e+00, 4.03133007e+08, ...,
        3.77214390e+12, 3.77633990e+12, 3.78341390e+12],
       [4.04064019e+08, 4.03133007e+08, 0.00000000e+00, ...,
        3.77174077e+12, 3.77593677e+12, 3.78301077e+12],
       ...,
       [3.77214483e+12, 3.77214390e+12, 3.77174077e+12, ...,
        0.00000000e+00, 4.19599994e+09, 1.12700000e+10],
       [3.77634083e+12, 3.77633990e+12, 3.77593677e+12, ...,
        4.19599994e+09, 0.00000000e+00, 7.07400002e+09],
       [3.78341483e+12, 3.78341390e+12, 3.78301077e+12, ...,
        1.12700000e+10, 7.07400002e+09, 0.00000000e+00]])

In [82]:
distance_matrix10 = calculate_dtw(df_1000_samples)
distance_matrix10

Iniciando cálculo da matriz de distância DTW para 1000 séries temporais...
Calculando matriz de distância DTW (pode levar algum tempo)...
Matriz de distância calculada em 1024.72 segundos
Tempo total da função calculate_dtw: 1024.72 segundos
Dimensões da matriz de distância: (1000, 1000)
Média das distâncias: 1779467383690.56
Distância mínima (excluindo diagonais): 81.00
Distância máxima: 4665537830969.00


array([[0.00000000e+00, 9.31012000e+05, 4.04064019e+08, ...,
        4.66229883e+12, 4.66263383e+12, 4.66553783e+12],
       [9.31012000e+05, 0.00000000e+00, 4.03133007e+08, ...,
        4.66229790e+12, 4.66263290e+12, 4.66553690e+12],
       [4.04064019e+08, 4.03133007e+08, 0.00000000e+00, ...,
        4.66189477e+12, 4.66222977e+12, 4.66513377e+12],
       ...,
       [4.66229883e+12, 4.66229790e+12, 4.66189477e+12, ...,
        0.00000000e+00, 3.35000018e+08, 3.23900000e+09],
       [4.66263383e+12, 4.66263290e+12, 4.66222977e+12, ...,
        3.35000018e+08, 0.00000000e+00, 2.90399999e+09],
       [4.66553783e+12, 4.66553690e+12, 4.66513377e+12, ...,
        3.23900000e+09, 2.90399999e+09, 0.00000000e+00]])

In [83]:
distance_matrix15 = calculate_dtw(df_1500_samples)
distance_matrix10

Iniciando cálculo da matriz de distância DTW para 1500 séries temporais...
Calculando matriz de distância DTW (pode levar algum tempo)...
Matriz de distância calculada em 2070.10 segundos
Tempo total da função calculate_dtw: 2070.10 segundos
Dimensões da matriz de distância: (1500, 1500)
Média das distâncias: 2547427585977.91
Distância mínima (excluindo diagonais): 81.00
Distância máxima: 7349808831021.00


array([[0.00000000e+00, 9.31012000e+05, 4.04064019e+08, ...,
        4.66229883e+12, 4.66263383e+12, 4.66553783e+12],
       [9.31012000e+05, 0.00000000e+00, 4.03133007e+08, ...,
        4.66229790e+12, 4.66263290e+12, 4.66553690e+12],
       [4.04064019e+08, 4.03133007e+08, 0.00000000e+00, ...,
        4.66189477e+12, 4.66222977e+12, 4.66513377e+12],
       ...,
       [4.66229883e+12, 4.66229790e+12, 4.66189477e+12, ...,
        0.00000000e+00, 3.35000018e+08, 3.23900000e+09],
       [4.66263383e+12, 4.66263290e+12, 4.66222977e+12, ...,
        3.35000018e+08, 0.00000000e+00, 2.90399999e+09],
       [4.66553783e+12, 4.66553690e+12, 4.66513377e+12, ...,
        3.23900000e+09, 2.90399999e+09, 0.00000000e+00]])

In [84]:
# Saving matrices

np.save('mdtw0.npy', distance_matrix_cambios)
np.save('mdtw1.npy', distance_matrix1)
np.save('mdtw3.npy', distance_matrix3)
np.save('mdtw5.npy', distance_matrix5)
np.save('mdtw8.npy', distance_matrix8)
np.save('mdtw10.npy', distance_matrix10)
np.save('mdtw15.npy', distance_matrix15)

In [75]:
dbscan_object = DBSCAN(
    eps=10**9,
    metric="precomputed",
    min_samples=3
)

labels1 = dbscan_object.fit_predict(distance_matrix1)
print("labels 100")
print(labels1)

# Analisando resultados
n_clusters = len(set(labels1)) - (1 if -1 in labels1 else 0)
n_noise = list(labels1).count(-1)
print(f"Número de clusters encontrados: {n_clusters}")
print(f"Número de pontos de ruído: {n_noise}")
print(f"Distribuição dos clusters: {np.bincount(labels1 + 1)}")

labels 100
[ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  0  0  0  0  0  0  0  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
  1  2  2  2  2  2  2  2  3  3  3  3  3  3  3  3  3  4  4  4  4  4 -1  5
  5  5  5  5  5  5  6  6  6  6  6  6  7  7  7  7  7  7  7  7  7  8  8  8
  8  8 -1 -1]
Número de clusters encontrados: 9
Número de pontos de ruído: 3
Distribuição dos clusters: [ 3 31 18  7  9  5  7  6  9  5]


In [78]:
dbscan_object = DBSCAN(
    eps=10**9 ,
    metric="precomputed",
    min_samples=3
)

labels3 = dbscan_object.fit_predict(distance_matrix3)
print("labels 300")
print(labels3)

# Analisando resultados
n_clusters = len(set(labels3)) - (1 if -1 in labels3 else 0)
n_noise = list(labels3).count(-1)
print(f"Número de clusters encontrados: {n_clusters}")
print(f"Número de pontos de ruído: {n_noise}")
print(f"Distribuição dos clusters: {np.bincount(labels3 + 1)}")

labels 300
[ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  0  0  0  0  0  0  0  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
  1  2  2  2  2  2  2  2  3  3  3  3  3  3  3  3  3  4  4  4  4  4 -1  5
  5  5  5  5  5  5  6  6  6  6  6  6  7  7  7  7  7  7  7  7  7  8  8  8
  8  8  9  9  9  9 10 10 10 -1 11 11 11 11 11 -1 12 12 12 12 12 12 -1 -1
 -1 13 13 13 13 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 15 15 15
 15 15 15 15 15 15 15 16 16 16 16 16 -1 -1 17 17 17 17 17 18 18 18 18 19
 19 19 -1 -1 -1 -1 -1 -1 20 20 20 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 21 21 21 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 22
 22 22 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1]
Número de clusters encontrados: 23
Número de pontos de ruído: 129
Distribui

In [80]:
dbscan_object = DBSCAN(
    eps=10**10,
    metric="precomputed",
    min_samples=3
)

labels5 = dbscan_object.fit_predict(distance_matrix5)
print("labels 500")
print(labels5)

# Analisando resultados
n_clusters = len(set(labels5)) - (1 if -1 in labels5 else 0)
n_noise = list(labels5).count(-1)
print(f"Número de clusters encontrados: {n_clusters}")
print(f"Número de pontos de ruído: {n_noise}")
print(f"Distribuição dos clusters: {np.bincount(labels5 + 1)}")

labels 500
[ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  0  0  0  0  0  0  0  0  0  0  0  1  1  1  1  1  1  2  2  2  3  3  3  3
  3  3  3  3  3  3  3  3  3  4  4  4  5  5  5  6  6  6  6  6  6 -1 -1 -1
 -1 -1  7  7  7  7  7  7  7  7  7  7  7  7  8  8  8  8  8  8  8 -1 -1  9
  9  9  9 10 10 10 10 10 10 11 11 11 11 11 11 11 11 11 11 -1 12 12 12 12
 12 12 12 12 12 12 12 12 12 12 -1 -1 -1 -1 13 13 13 13 13 14 14 14 14 14
 14 14 14 14 14 14 -1 15 15 15 15 -1 16 16 16 16 16 16 16 16 16 16 17 17
 17 18 18 18 18 18 18 18 18 18 19 19 19 

In [85]:
dbscan_object = DBSCAN(
    eps=10**10,
    metric="precomputed",
    min_samples=3
)

labels8 = dbscan_object.fit_predict(distance_matrix8)
# print("labels 800")
# print(labels8)

# Analisando resultados
n_clusters = len(set(labels8)) - (1 if -1 in labels8 else 0)
n_noise = list(labels8).count(-1)
print(f"Número de clusters encontrados: {n_clusters}")
print(f"Número de pontos de ruído: {n_noise}")
print(f"Distribuição dos clusters: {np.bincount(labels8 + 1)}")

Número de clusters encontrados: 84
Número de pontos de ruído: 47
Distribuição dos clusters: [ 47 179   6   3  13   3   3   6  12   7   4   6  10  14   5  11   4  10
   3   9   4   3   3   5  10   4   8   5   5   8  16   6   8   3   7   5
   3   4  20   9   5   3   6  14   8  10   5  11   3   5   6  15  15   9
   5  11   3   4   4   8   3   5   3   4   3   7   6  10   6   5  12  13
   4   3   4   3   4  12  11   7   5   3  15   3   8]
