YouCraw est un outils OpenSource pour récupérer les méta-données YouTube, basé sur l'API "YouTube Data API (v3)", et la sauvegarde de ces méta-données dans une base de donénes MongoDB.
Dans le dossier ExtractYoutube, vous trouvriez le code source en java, développé avec l'IDE NetBeans 8.1
- _id : l’identifiant de la vidéo
- title : le titre de la vidéo
- channelid : l’identifiant du canal
- channeltitle : le titre du canal
- datepub : la date de publication de la vidéo
- description : la description de la vidéo
- tags : une liste des mots liés à la vidéo
- kind : le type par exemple youtube#video
- defaultaudiolang : la langue par défaut de la vidéo
- viewcount : le nombre du vue de la vidéo
- likecount : le nombre des utilisateurs qui ont aimés la vidéo
- dislikecount : le nombre des utilisateurs qui n’ont pas aimés la vidéo
- commentscount : le nombre des commentaires
- comments : une liste des commentaires :
- author : l’auteur du commentaire
- like : le nombre des utilisateurs qui ont aimés le commentaire
- message : le contenu du commentaire
- transcription : la transcription de la vidéo
- OS Linux
- MongoDB https://www.mongodb.com/download-center?filter=enterprise#enterprise
- Youtube-DL https://rg3.github.io/youtube-dl/
- JAVA 1.8 ou supérieur
- Python 2.7 ou supérieur
- Copier le dossier RUN_YOUTUBE dans votre machine
- Création d'un compte Google sur le site https://developers.google.com/youtube/v3/getting-started
- Récupération de fichier JSON qui contient le "clientId", "clientSecret"
- Exécuter le script python "generateRefreshTokens.py" ou "getCredential.py" pour récupérer "refreshToken"
- Modifier les paramètres dans le fichier "YouCraw.sh"
$ ./YouCraw.sh
Le dossier RUN_LINGUISTIQUE contient des scripts en python et des modèles pour MaltParser (la construction des arbres syntaxique en dépendance), StanforNER (l'extraction des entités nommées).Ces scripts utilisent la base de données MongoDB et particulièrement la collection des méta-données pour construire d'autres collections linguistiques
- OS Linux
- MongoDB https://www.mongodb.com/download-center?filter=enterprise#enterprise
- JAVA 1.8 ou supérieur
- Python 2.7 ou supérieur
- Maltparser http://www.maltparser.org/download.html
- Stanford NER http://nlp.stanford.edu/software/CRF-NER.shtml
- TreeTagger http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
- SRILM http://www.speech.sri.com/projects/srilm/download.html
- MorphSegmenter https://www-i6.informatik.rwth-aachen.de/~mansour/MorphSegmenter/
- langdetect-1.0.6 https://pypi.python.org/pypi/langdetect?
- Morfessor-2.0.2alpha3 https://pypi.python.org/pypi/Morfessor/2.0.2alpha3
- nltk-3.2.1 https://pypi.python.org/pypi/nltk/3.2.1
- numpy-1.9.3 https://pypi.python.org/pypi/numpy/1.11.2rc1
- polyglot-master https://pypi.python.org/pypi/polyglot/16.7.4
- pycld2-0.31 https://pypi.python.org/pypi/pycld2/0.31
- PyICU-1.9.3 https://pypi.python.org/pypi/PyICU/1.9.3
- pymongo-3.3.0 https://pypi.python.org/pypi/pymongo/3.3.0
- six-1.10.0 https://pypi.python.org/pypi/six/1.10.0
- wheel-0.29.0 https://pypi.python.org/pypi/wheel/0.30.0a0
- JEIBA https://pypi.python.org/pypi/jieba/
- Copier tous les modèles de MaltParser (arabic1.3.mco, chinese1.3.mco, english1.3.mco, french1.3.mco, russian1.3.mco, german1.3.mco) dans le dossier RUN_LINGUISTIQUE
- Lancer le script ./YouDict.sh pour générer un dictionnaire (Dictionary_Sentence.conll) pour aider faire la segmentation de la transcription, sinon on crée un fichier vide et la segmentation devra des sauts des lignes. Avant de lancer le script modifier les paramètres (nom du serveur de MongoDB, nom de la base de données, le nom de la collection des méta données)
- Lancer le script getIDS.py pour récupérer les IDs des vidéos dans un fichier par exemple xaa (voir le script getIDS)
- Modifier les parametres dans le script YouCorpus.sh puis lancer le avec ./YouCorpus.sh
- Modifier les paramètres dans le script YiuLing1.sh puis lancer le avec ./YiuLing1.sh
Ce dossier contient tous les scripts pour faire la classification non supervisé et supervisé
- Installer R
- Installer Kmeans et CAH sous R
- Installer tm et topicmodels pour la méthode LDA
Modifier les paramètres DataTrain.sh et lancer le, pour générer les données d'apprentissage
Tester les scripts de classfication non supervisé et supervisé avec les données d'appretissage
Saber.N
OpenSource