<a href="https://colab.research.google.com/github/kenniataisa/git-course/blob/main/filtragem_pymove.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install pymove
!pip install pandas


#Pymove: Explorando o Pré-processamento

O pré-processamento de dados é um conjunto de atividades executadas para preparar dados para análises futuras e atividades de mineração de dados. É
uma das partes mais importantes em qualquer projeto, portanto, o pré-processamento é indispensável para aplicação dos
algoritmos de Mineração de Dados, tanto para aumentar a qualidade dos resultados e
diminuir o tempo destinado a mineração, como para um melhor entendimento da natureza
dos dados a serem minerados. Neste notebook exploraremos os métodos de filtragem ruído em análise de trajetória.


# Carregando dados do arquivo

O conjunto de dados GeoLife GPS Trajectories utilizado neste tutorial é apenas uma parcela reduzida de um conjunto de dados amplos disponível em https://www.microsoft.com/en-us/download/details.aspx?id=52367. As técnicas e abordagens que serão exploradas podem ser aplicadas a conjuntos de dados maiores, mas, neste caso, estamos simplificando para fins didáticos.


In [4]:
from pymove import read_csv

In [5]:
df_move = read_csv("/content/drive/MyDrive/Colab Notebooks/pymove/geolife_sample.csv")

In [None]:
df_move.show_trajectories_info()
df_move.head()



Number of Points: 217653

Number of IDs objects: 2

Start Date:2008-10-23 05:53:05     End Date:2009-03-19 05:46:37

Bounding Box:(22.147577, 113.548843, 41.132062, 121.156224)





Unnamed: 0,lat,lon,datetime,id
0,39.984094,116.319236,2008-10-23 05:53:05,1
1,39.984198,116.319322,2008-10-23 05:53:06,1
2,39.984224,116.319402,2008-10-23 05:53:11,1
3,39.984211,116.319389,2008-10-23 05:53:16,1
4,39.984217,116.319422,2008-10-23 05:53:21,1


# Técnicas de Filtro de Ruído para Conjuntos de Trajetórias

---



O "módulo de filtros" é uma coleção de ferramentas que oferece várias funções para trabalhar com dados de maneira especial. Essas funções são projetadas para ajudar a melhorar ou suavizar os dados, removendo partes indesejadas que podem torná-los mais difíceis de entender.

# Importando o módulo

---



In [6]:
from pymove import filters


A função **"by_bbox"** é uma operação de filtragem que seleciona elementos de um conjunto de dados de acordo com sua localização. Ela analisa as coordenadas de cada elemento e retém apenas aqueles que caem dentro dos limites definidos pela caixa delimitadora. Em termos técnicos, é uma maneira de realizar consultas espaciais, focalizando apenas nos dados que se encaixam em uma área geográfica específica.

In [7]:
bbox = (22.147577, 113.54884299999999, 41.132062, 121.156224)
filt_df = filters.by_bbox(df_move, bbox)
filt_df.head()

Unnamed: 0,lat,lon,datetime,id
0,39.984094,116.319236,2008-10-23 05:53:05,1
1,39.984198,116.319322,2008-10-23 05:53:06,1
2,39.984224,116.319402,2008-10-23 05:53:11,1
3,39.984211,116.319389,2008-10-23 05:53:16,1
4,39.984217,116.319422,2008-10-23 05:53:21,1


A função **"by_datetime"** é um filtro de tempo para trajetórias de pontos. Ela seleciona e mostra apenas os movimentos que aconteceram dentro de um período definido pelos valores "start_datetime" (início) e "end_datetime" (fim). Isso permite analisar movimentos específicos que ocorreram durante esse intervalo de tempo.

In [8]:
filters.by_datetime(df_move, start_datetime = "2009-03-19 05:45:37", end_datetime = "2009-03-19 05:46:17")


Unnamed: 0,lat,lon,datetime,id
217643,40.000205,116.327173,2009-03-19 05:45:37,5
217644,40.000128,116.327171,2009-03-19 05:45:42,5
217645,40.000069,116.327179,2009-03-19 05:45:47,5
217646,40.000001,116.327219,2009-03-19 05:45:52,5
217647,39.999919,116.327211,2009-03-19 05:45:57,5
217648,39.999896,116.32729,2009-03-19 05:46:02,5
217649,39.999899,116.327352,2009-03-19 05:46:07,5
217650,39.999945,116.327394,2009-03-19 05:46:12,5
217651,40.000015,116.327433,2009-03-19 05:46:17,5


A função "by_label" é um filtro de rótulo que desempenha um papel crucial ao selecionar pontos de trajetórias com base em rótulos e seus valores correspondentes. Isso é particularmente útil quando você deseja extrair informações específicas de um conjunto de dados, focando apenas nos pontos que atendem a determinados critérios.

In [9]:
filters.by_label(df_move, value = 116.327219, label_name = "lon").head()


Unnamed: 0,lat,lon,datetime,id
3066,39.97916,116.327219,2008-10-24 06:34:27,1
13911,39.975424,116.327219,2008-10-26 08:18:06,1
16396,39.980411,116.327219,2008-10-27 00:30:47,1
33935,39.975832,116.327219,2008-11-05 11:04:04,1
41636,39.97699,116.327219,2008-11-07 10:34:41,1


A função **"by_id"** é um filtro que permite selecionar e analisar os pontos de movimentação de uma trajetória específica com base em um número de identificação único associado a essa trajetória. Ela simplifica a análise, focando apenas nos movimentos da trajetória escolhida e ignorando as outras. Isso ajuda a compreender o comportamento individual dentro das trajetórias.

In [10]:
filters.by_id(df_move, id_=5).head()


Unnamed: 0,lat,lon,datetime,id
108607,40.004155,116.321337,2008-10-24 04:12:30,5
108608,40.003834,116.321462,2008-10-24 04:12:35,5
108609,40.003783,116.321431,2008-10-24 04:12:40,5
108610,40.00369,116.321429,2008-10-24 04:12:45,5
108611,40.003589,116.321427,2008-10-24 04:12:50,5


A função **"by_tid"** é um filtro de trajetórias que permite concentrar-se em uma trajetória exata usando seu código "tid", formado pela combinação única de ID e data. Isso auxilia na análise detalhada de trajetórias específicas.







In [11]:
df_move.generate_tid_based_on_id_datetime()
filters.by_tid(df_move, "12008102305").head()

Unnamed: 0,lat,lon,datetime,id,tid
0,39.984094,116.319236,2008-10-23 05:53:05,1,12008102305
1,39.984198,116.319322,2008-10-23 05:53:06,1,12008102305
2,39.984224,116.319402,2008-10-23 05:53:11,1,12008102305
3,39.984211,116.319389,2008-10-23 05:53:16,1,12008102305
4,39.984217,116.319422,2008-10-23 05:53:21,1,12008102305


A função **"clean_consecutive_duplicates"** limpa um conjunto de dados removendo linhas repetidas que aparecem em sequência. Ela mantém apenas uma cópia de linhas iguais seguidas. Além disso, você pode escolher quais colunas deseja considerar, como "lat", para garantir uma análise mais eficiente e precisa dos dados.

In [12]:
filtered_df = filters.clean_consecutive_duplicates(df_move, subset = ["lat"])
len(filtered_df)

196142

A função **"clean_gps_jumps_by_distance"** tem o propósito de remover pontos atípicos ou "saltos" significativos de um conjunto de dados de trajetória. Agindo como um filtro, essa função elimina pontos que estão muito distantes dos demais, o que resulta em um conjunto de dados mais consistente e apropriado para análise. Isso ajuda a obter insights mais precisos sobre os padrões de movimento, eliminando valores que podem distorcer a compreensão dos dados.

In [29]:

filters.clean_gps_jumps_by_distance(df_move)


Generating distance features: 100%|██████████| 2/2 [00:00<00:00, 23.29it/s]


Unnamed: 0,id,lat,lon,datetime,tid,dist_to_prev,dist_to_next,dist_prev_to_next
0,1,39.984094,116.319236,2008-10-23 05:53:05,12008102305,,13.690153,
1,1,39.984198,116.319322,2008-10-23 05:53:06,12008102305,13.690153,7.403788,20.223428
2,1,39.984224,116.319402,2008-10-23 05:53:11,12008102305,7.403788,1.821083,5.888579
3,1,39.984211,116.319389,2008-10-23 05:53:16,12008102305,1.821083,2.889671,1.873356
4,1,39.984217,116.319422,2008-10-23 05:53:21,12008102305,2.889671,66.555997,68.727260
...,...,...,...,...,...,...,...,...
217648,5,39.999896,116.327290,2009-03-19 05:46:02,52009031905,7.198855,5.291709,12.214590
217649,5,39.999899,116.327352,2009-03-19 05:46:07,52009031905,5.291709,6.241949,10.400206
217650,5,39.999945,116.327394,2009-03-19 05:46:12,52009031905,6.241949,8.462920,14.628012
217651,5,40.000015,116.327433,2009-03-19 05:46:17,52009031905,8.462920,4.713399,6.713456


A função **"clean_gps_nearby_points_by_distances"** remove pontos de trajetórias quando a distância entre eles e o ponto anterior é menor que um valor definido como "radius_area". Isso simplifica as trajetórias, eliminando pontos muito próximos, o que é útil para focar em movimentos mais relevantes e reduzir variações insignificantes nos dados.

In [30]:
filters.clean_gps_nearby_points_by_distances(df_move, radius_area=10)


Generating distance features: 100%|██████████| 2/2 [00:00<00:00, 12.62it/s]


Unnamed: 0,id,lat,lon,datetime,tid,dist_to_prev,dist_to_next,dist_prev_to_next
0,1,39.984094,116.319236,2008-10-23 05:53:05,12008102305,,13.690153,
1,1,39.984198,116.319322,2008-10-23 05:53:06,12008102305,13.690153,7.403788,20.223428
5,1,39.984710,116.319865,2008-10-23 05:53:23,12008102305,66.555997,6.162987,60.622358
14,1,39.984959,116.319969,2008-10-23 05:54:03,12008102305,40.672170,11.324767,51.291054
15,1,39.985036,116.320056,2008-10-23 05:54:04,12008102305,11.324767,32.842422,24.923216
...,...,...,...,...,...,...,...,...
217563,5,40.001185,116.321791,2009-03-19 05:39:02,52009031905,11.604029,6.915583,17.245027
217637,5,40.000759,116.327088,2009-03-19 05:45:07,52009031905,28.946922,18.331999,47.148573
217638,5,40.000595,116.327066,2009-03-19 05:45:12,52009031905,18.331999,9.926875,27.905967
217641,5,40.000368,116.327072,2009-03-19 05:45:27,52009031905,10.877438,8.887992,19.705708


A função **"clean_gps_nearby_points_by_speed"** elimina pontos das trajetórias quando a velocidade de deslocamento entre um ponto e o ponto anterior é menor do que um valor definido como "speed_radius". Isso ajuda a filtrar movimentos lentos ou paradas, focando na análise de movimentos mais relevantes e proporcionando trajetórias mais suaves e significativas.

In [31]:
filters.clean_gps_nearby_points_by_speed(df_move, speed_radius=40.0)


Generating distance, time and speed features: 100%|██████████| 2/2 [00:00<00:00, 27.65it/s]


Unnamed: 0,id,lat,lon,datetime,tid,dist_to_prev,time_to_prev,speed_to_prev
0,1,39.984094,116.319236,2008-10-23 05:53:05,12008102305,,,
149,1,39.977648,116.326925,2008-10-23 10:33:00,12008102310,1470.641291,7.0,210.091613
560,1,40.009802,116.313247,2008-10-23 10:56:54,12008102310,47.020950,1.0,47.020950
561,1,40.009262,116.312948,2008-10-23 10:56:55,12008102310,65.222058,1.0,65.222058
1369,1,39.990659,116.326345,2008-10-24 00:04:29,12008102400,40.942759,1.0,40.942759
...,...,...,...,...,...,...,...,...
216382,5,40.000185,116.327286,2009-02-28 03:52:45,52009022803,333.656648,5.0,66.731330
217458,5,39.999918,116.320057,2009-03-19 04:36:02,52009031904,556.947064,5.0,111.389413
217459,5,39.999077,116.317156,2009-03-19 04:36:07,52009031904,264.212540,5.0,52.842508
217463,5,40.001122,116.320879,2009-03-19 04:40:52,52009031904,267.350055,5.0,53.470011


A função **"clean_gps_speed_max_radius"** remove pontos de trajetória que têm velocidade superior a um valor definido pelo usuário. Ela faz isso de forma repetitiva, verificando cada ponto em relação ao anterior, até que não haja mais pontos com velocidade acima do limite especificado. Essa função suaviza a trajetória, eliminando movimentos muito rápidos que podem não ser representativos do comportamento geral dos movimentos em análise.

In [32]:
filters.clean_gps_speed_max_radius(df_move)


Generating distance, time and speed features: 100%|██████████| 2/2 [00:00<00:00, 31.81it/s]


Unnamed: 0,id,lat,lon,datetime,tid,dist_to_prev,time_to_prev,speed_to_prev
0,1,39.984094,116.319236,2008-10-23 05:53:05,12008102305,,,
1,1,39.984198,116.319322,2008-10-23 05:53:06,12008102305,13.690153,1.0,13.690153
2,1,39.984224,116.319402,2008-10-23 05:53:11,12008102305,7.403788,5.0,1.480758
3,1,39.984211,116.319389,2008-10-23 05:53:16,12008102305,1.821083,5.0,0.364217
4,1,39.984217,116.319422,2008-10-23 05:53:21,12008102305,2.889671,5.0,0.577934
...,...,...,...,...,...,...,...,...
217648,5,39.999896,116.327290,2009-03-19 05:46:02,52009031905,7.198855,5.0,1.439771
217649,5,39.999899,116.327352,2009-03-19 05:46:07,52009031905,5.291709,5.0,1.058342
217650,5,39.999945,116.327394,2009-03-19 05:46:12,52009031905,6.241949,5.0,1.248390
217651,5,40.000015,116.327433,2009-03-19 05:46:17,52009031905,8.462920,5.0,1.692584


A função **"clean_trajectories_with_few_points"** remove trajetórias de um conjunto de dados se elas tiverem menos pontos do que o número mínimo definido pelo parâmetro "min_points_per_trajectory". Isso melhora a qualidade da análise ao eliminar trajetórias com informações insuficientes, permitindo focar nas trajetórias mais informativas e completas.

In [33]:
filters.clean_trajectories_with_few_points(df_move)


Unnamed: 0,lat,lon,datetime,id,tid
0,39.984094,116.319236,2008-10-23 05:53:05,1,12008102305
1,39.984198,116.319322,2008-10-23 05:53:06,1,12008102305
2,39.984224,116.319402,2008-10-23 05:53:11,1,12008102305
3,39.984211,116.319389,2008-10-23 05:53:16,1,12008102305
4,39.984217,116.319422,2008-10-23 05:53:21,1,12008102305
...,...,...,...,...,...
217648,39.999896,116.327290,2009-03-19 05:46:02,5,52009031905
217649,39.999899,116.327352,2009-03-19 05:46:07,5,52009031905
217650,39.999945,116.327394,2009-03-19 05:46:12,5,52009031905
217651,40.000015,116.327433,2009-03-19 05:46:17,5,52009031905


# Conclusão:

Em síntese, os métodos de filtragem desempenham um papel crucial na análise de trajetórias, permitindo refinar dados, destacar padrões relevantes e eliminar ruídos. Cada função de filtragem abordada oferece uma abordagem única para aprimorar a análise, atendendo a diferentes necessidades e contextos. Ao incorporar esses métodos, é possível obter insights mais precisos e úteis para tomadas de decisão informadas em diversas aplicações.

#Referências:
https://ww2.uft.edu.br/download/?d=42f33aee-e6e1-4ff7-b93e-8266fa41782e;1.0:O%20Pr%C3%A9-


https://repositorio.ufc.br/bitstream/riufc/58551/1/2019_tcc_ajamsanches.pdf

https://acervolima.com/tipos-de-outliers-em-mineracao-de-dados/

https://pymove.readthedocs.io/en/latest/examples/02_Exploring_Preprossessing.html

chatGPT
