wikipedia-corpus

Here are 16 public repositories matching this topic...

macbre / faroese-corpus

Some Faroese language statistics taken from fo.wikipedia.org content dump

linguistics corpus-linguistics python3-script wikipedia-dump wikipedia-corpus linguistic-analysis faroe faroese faroese-language

Updated Dec 8, 2022
Python

Affenmilchmann / lingwiki

Star

(Ongoing module in development) Getting Wikipedia articles parsed content. Created for getting text corpuses data fast and easy. But can be freely used for other purpuses too

parser wikipedia multithreading linguistics corpus-linguistics corpus-data corpus-tools article-extractor wikipedia-corpus

Updated Jan 3, 2023
Python

jksware / ai-spanish-wikipedia-clustering

Star

Clustering of Spanish Wikipedia articles.

clustering numpy opencl sklearn nltk scipy gpu-acceleration gpu-computing wikipedia-corpus spanish-wikipedia

Updated Aug 21, 2017
Python

Triansh / Wiki-Searcher

Star

A search engine trained from a corpus of wikipedia articles to provide efficient query results.

search-engine information-retrieval wikipedia-corpus

Updated Oct 15, 2021
Python

rajatyadav1994 / Wise--WikiPedia-Search-Engine

Star

A Search Engine built based on Wikipedia dump of 75GB. Involves creation of Index file and returns search results in real time

search-engine wikipedia-dump wikipedia-corpus infomation-retrieval

Updated Nov 2, 2019
Python

PJ-Duo / wiki-corpus

Star

Create a wiki corpus using a wiki dump file for Natural Language Processing

corpus corpus-data corpus-tools wikipedia-corpus nlp-corpus wiki-corpus

Updated Mar 11, 2023
Python

moodser / splitter-transliteration

Star

Python script to split the text generated by 'wikipedia parallel title extractor' into separate text files (separate file for each language)

machine-translation transliteration machine-translation-data-processing wikipedia-corpus machine-tranliteration

Updated Aug 16, 2018
Python

afuschetto / wiki-extractor

Star

Command line tool to extract plain text from Wikipedia database dumps

wikipedia wikipedia-dump wikipedia-corpus

Updated Feb 25, 2021
Python

c0b23039a5 / WikiEntVec

Star

Distributed representations of words and named entities trained on Wikipedia. | Updated to gensim 4.

wikipedia corpus vectors wikipedia-corpus

Updated Jun 2, 2024
Python

quqixun / ReadWiki-ZH

Star

Convert WIKI dumped XML (Chinese) to human readable documents in markdown and txt.

wikipedia wikipedia-dump wikipedia-corpus

Updated Mar 25, 2020
Python

OlehOnyshchak / pyWikiMM

Star

Collects a multimodal dataset of Wikipedia articles and their images

Updated Mar 25, 2023
Python

kohjiaxuan / Wikipedia-Article-Scraper

Star

A complete Python text analytics package that allows users to search for a Wikipedia article, scrape it, conduct basic text analytics and integrate it to a data pipeline without writing excessive code.

wikipedia wikipedia-api text-analytics wikipedia-article wikipedia-search wikipedia-corpus wikipedia-scraper