Hors Série #1 : cadrage d'un projet, éthique des données, enjeux et débats. #39

MohamedBsh · 2022-04-23T16:01:54Z

Plan proposé par : @AntoninLagarrigue (Discord : Zinzolin) et @tanguyesteoule (Discord : PhPMan)

Du théorique au concret (avec des exemples réels)

- L'IA confrontée à la réalité
(Essaie de montrer la différence entre faire des challenges sur kaggle et faire un vrai projet de data science de bout en bout. Quelles questions pratiques on sera amené à se poser. Je pense qu'on peut le faire sous forme de liste, genre les "X commandements de l'IA" ou un truc dans le style ^^)
- Quel protocole d'évaluation pour quel usage ?
- Les métriques sont-elles représentatives de l'usage ?
- Adapter la complexité du modèle en fonction des besoins (Penser itératif, ne pas réinventer la route)
- Conditions opérationnels
- Fuites de données
- Monitoring des prévisions
- Test avec données synthétiques
- Importance de la qualité des données + que du tunning des algos
- Comparaison à d'autres méthodes naïves/basiques/standards

- Aspects éthiques
(Ici c'est plutôt les points éthiques/morales qu'il faut garder en tête lorsqu'on attaque un sujet d'IA. Avec des exemples concrets de cas qui ont vraiment existés, sur les facebook files, cambridge analytica, zillow, ...)
- Point sur les impacts de l'IA dans nos vie, et les risques associés
- Ethique des données (anonymat, biais présents dans les données, recoupement de plusieurs datasets...)
- Usage détournée (désinformation/discrimination). Responsabilité du data scientist
- Excès de confiance (les modèles de ML ne sont pas infaillibles, il n'y a rien de magique), non neutralité des algos (il y a toujours des choix derrière les algos)
- Biais discricrimation/exclusion, parfois volontaires souvent négligés
- Autonomie des algos, controle/ garde-fous
- Manque de transparence

- Limites/Dangers de l'IA
(Se rapproche un peu de l'éthique sur certains points, mais peut être plus d'un point de vue technique.)
- Poisoning
- Adversarial attack
- Usage détourné

A insérer dans le plan

Un sur les problèmes concrets techniques (Peu de données, Déséquilibre des classes, fuites de données, ...) qui sont déjà utiles pour des challenges type kaggle qui reflètent pas forcément la réalité du métier.
Un qui se concentre plus sur "Comment définir le cadre d'un projet de data science ?" si celui ci n'est pas donné par un exercice ou par un challenge (parce qu'en général on va tous commencer là avant de se lancer dans un vrai projet perso/pro). Dans ce cas là on se pose toujours beaucoup de questions : Quel protocole d'évaluation ? Quelles métriques ? Par quel type de modèle commencer ? Quelles données ? Est-ce que mon modèle va bien répondre à mon problème ? A quoi se comparer ? .... . L'idée c'est de donner quelques pistes / exemples (tirés de nos expériences respectives) pour savoir un peu dans quelle direction partir.
utiliser le dataset house price aussi, c'est un classique et il parle à tout le monde (features m carré, nombre de chambres ...)

MohamedBsh added the hors-serie label Apr 23, 2022

MohamedBsh assigned AntoninLagarrigue Apr 23, 2022

MohamedBsh changed the title ~~Hors Série #1 : Aspect éthique des données~~ Hors Série #1 : cadre d'un projet, éthique des données .. Apr 23, 2022

MohamedBsh changed the title ~~Hors Série #1 : cadre d'un projet, éthique des données ..~~ Hors Série #1 : cadrage d'un projet, éthique des données, enjeux et débats. Apr 23, 2022

MohamedBsh added this to Plans in Roadmap iA-Z | General | Organisation Apr 23, 2022

MohamedBsh assigned tanguyesteoule Apr 29, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Hors Série #1 : cadrage d'un projet, éthique des données, enjeux et débats. #39

Hors Série #1 : cadrage d'un projet, éthique des données, enjeux et débats. #39

MohamedBsh commented Apr 23, 2022 •

edited

Hors Série #1 : cadrage d'un projet, éthique des données, enjeux et débats. #39

Hors Série #1 : cadrage d'un projet, éthique des données, enjeux et débats. #39

Comments

MohamedBsh commented Apr 23, 2022 • edited

MohamedBsh commented Apr 23, 2022 •

edited