Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

A propos du data set #3

Closed
dseddah opened this issue Nov 24, 2020 · 5 comments
Closed

A propos du data set #3

dseddah opened this issue Nov 24, 2020 · 5 comments

Comments

@dseddah
Copy link

dseddah commented Nov 24, 2020

Bonjour,
c'est vraiment un beau travail ! Dites, vous pouvez en dire plus sur la constitution du jeu de données ? d'où viennent les annotations ? Aggregations des scores des reviews ? vote des utilisateurs ?

Djamé

@dseddah
Copy link
Author

dseddah commented Nov 24, 2020

je viens juste voir le readme dans le dossier allocine_data set. Oubliez ce que j'ai dit.

Vous pouvez en dire plus sur la licence du data set ? est-ce qu'on peut le diffuser, etc ?

@TheophileBlard
Copy link
Owner

Bonjour, ce sont des données scrapées, comme l'explique le README, elles sont donc sans doute sujettes à des limitations. Je ne me suis pas vraiment posé la question, l'objectif de ce repo étant principalement d'entraîner des modèles. Concernant la licence et la diffusion je ne peux donc pas vous apporter de réponse claire. Dans tous les cas, les données peuvent être générées avec allocine_scraper.py en quelques heures.

@hodhoda
Copy link

hodhoda commented Dec 18, 2020

Bonjour,
Ma question se repose sur le code que vous avez utilisé pour calculer le pourcentage ( score) pour chaque sentiment (positive et negative), je le trouve pas sur votre page de github , le résultat d'affichage que je parle est montré sur cette page : https://huggingface.co/tblard/tf-allocine?text=Je+t%27appr%C3%A9cie+beaucoup.+Je+t%27aime.
Pour moi, je veux exécuter ce code sur mon propre script et pas seulement tester le résultat sur le site.
Pouvez vous svp de l'ajouter sur votre page github ou de me l'envoyer directement sur ma boite email: abzdhouda@gmail.com.
Merci pour votre aide.

@TheophileBlard
Copy link
Owner

Bonjour,
Ma question se repose sur le code que vous avez utilisé pour calculer le pourcentage ( score) pour chaque sentiment (positive et negative), je le trouve pas sur votre page de github , le résultat d'affichage que je parle est montré sur cette page : https://huggingface.co/tblard/tf-allocine?text=Je+t%27appr%C3%A9cie+beaucoup.+Je+t%27aime.
Pour moi, je veux exécuter ce code sur mon propre script et pas seulement tester le résultat sur le site.
Pouvez vous svp de l'ajouter sur votre page github ou de me l'envoyer directement sur ma boite email: abzdhouda@gmail.com.
Merci pour votre aide.

Bonjour, votre question ne concernant pas le jeu de données, j'ai ouvert une autre issue #4 qui explique comment récupérer les scores associés aux classes depuis du code python.

@hodhoda
Copy link

hodhoda commented Jan 2, 2021

Bonjour Teophile,
J'ai un problème dans le code de scrape_allocine, les données scrapées sont toutes presques vides, lors j'applique le code explore data, l'erreur suivant s'affiche: "a must be greater than 0 unless no samples are taken", et lorsque je vois les donnees allocine.pickles ils sont toutes de moins de 1Ko, ce que j'ai compris qu'il y a une erreur lors du téléchargement , et ainsi j'ai essayé pas mal de fois de répeter le meme processus sur le code de scraping et dans le fichier de création de data je reçois toujours le meme erreur. Pouvez vous SVP de m'envoyer directement les données allocine.pickles que vous avez utilisées pour la creation de votre base de données en Francais. J'en ai vraiment besoin pour continuer mes recherches sur l'analyse de sentiment.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants