Skip to content

ball7905/analysis_research_data

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

How to run

1. Embedding the data

options:

  • --data-path: đường dẫn data
  • --ouput: đường dẫn output
  • --batch_size: số lượng batch (should be 8 - 10)
  • --clean_stopword (loại bỏ stopword): True hoặc False
py src/embed_papers_hf.py --data-path data/biorxiv_sciedu.csv --output output/embeddings.jsonl --batch-size 8 --clean_stopword True

2. Visualization data

options:

  • --input: đường dẫn input
  • --titles: đường dẫn file data gốc (lấy titles)
  • --output: đường dẫn output
  • --n-clusters: tham số cluster
  • --neighbors: tham số neighbors (mặc định 15)
py src/umap_visualization.py --input output/embeddings.jsonl --titles data/biorxiv_sciedu.csv --output umap_clusters.html --n-clusters 6

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages

  • Python 100.0%