Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Hors Série #1 : cadrage d'un projet, éthique des données, enjeux et débats. #39

Open
MohamedBsh opened this issue Apr 23, 2022 · 0 comments

Comments

@MohamedBsh
Copy link
Collaborator

MohamedBsh commented Apr 23, 2022

Plan proposé par : @AntoninLagarrigue (Discord : Zinzolin) et @tanguyesteoule (Discord : PhPMan)

Du théorique au concret (avec des exemples réels)

- L'IA confrontée à la réalité
(Essaie de montrer la différence entre faire des challenges sur kaggle et faire un vrai projet de data science de bout en bout. Quelles questions pratiques on sera amené à se poser. Je pense qu'on peut le faire sous forme de liste, genre les "X commandements de l'IA" ou un truc dans le style ^^)
- Quel protocole d'évaluation pour quel usage ?
- Les métriques sont-elles représentatives de l'usage ?
- Adapter la complexité du modèle en fonction des besoins (Penser itératif, ne pas réinventer la route)
- Conditions opérationnels
- Fuites de données
- Monitoring des prévisions
- Test avec données synthétiques
- Importance de la qualité des données + que du tunning des algos
- Comparaison à d'autres méthodes naïves/basiques/standards

- Aspects éthiques
(Ici c'est plutôt les points éthiques/morales qu'il faut garder en tête lorsqu'on attaque un sujet d'IA. Avec des exemples concrets de cas qui ont vraiment existés, sur les facebook files, cambridge analytica, zillow, ...)
- Point sur les impacts de l'IA dans nos vie, et les risques associés
- Ethique des données (anonymat, biais présents dans les données, recoupement de plusieurs datasets...)
- Usage détournée (désinformation/discrimination). Responsabilité du data scientist
- Excès de confiance (les modèles de ML ne sont pas infaillibles, il n'y a rien de magique), non neutralité des algos (il y a toujours des choix derrière les algos)
- Biais discricrimation/exclusion, parfois volontaires souvent négligés
- Autonomie des algos, controle/ garde-fous
- Manque de transparence

- Limites/Dangers de l'IA
(Se rapproche un peu de l'éthique sur certains points, mais peut être plus d'un point de vue technique.)
- Poisoning
- Adversarial attack
- Usage détourné

A insérer dans le plan

  • Un sur les problèmes concrets techniques (Peu de données, Déséquilibre des classes, fuites de données, ...) qui sont déjà utiles pour des challenges type kaggle qui reflètent pas forcément la réalité du métier.
  • Un qui se concentre plus sur "Comment définir le cadre d'un projet de data science ?" si celui ci n'est pas donné par un exercice ou par un challenge (parce qu'en général on va tous commencer là avant de se lancer dans un vrai projet perso/pro). Dans ce cas là on se pose toujours beaucoup de questions : Quel protocole d'évaluation ? Quelles métriques ? Par quel type de modèle commencer ? Quelles données ? Est-ce que mon modèle va bien répondre à mon problème ? A quoi se comparer ? .... . L'idée c'est de donner quelques pistes / exemples (tirés de nos expériences respectives) pour savoir un peu dans quelle direction partir.
  • utiliser le dataset house price aussi, c'est un classique et il parle à tout le monde (features m carré, nombre de chambres ...)
@MohamedBsh MohamedBsh changed the title Hors Série #1 : Aspect éthique des données Hors Série #1 : cadre d'un projet, éthique des données .. Apr 23, 2022
@MohamedBsh MohamedBsh changed the title Hors Série #1 : cadre d'un projet, éthique des données .. Hors Série #1 : cadrage d'un projet, éthique des données, enjeux et débats. Apr 23, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Development

No branches or pull requests

3 participants