ressources, événements, source de données, données
Croix-Rouge, opendata, data.gouv.fr, quandl, wikipedia, Letor, WordNet, ImageNet, données, OpenWeatherMap, sources de données
annuaire de données
- Data Sources on the Web (MRAN)
- Awesome Public Datasets
- Wikidata
- Where can I find large datasets open to the public? (Quora)
API
- données vélib
- API SNCF
- Bing Maps API
- API Geocoding (voir également le module geopy)
- Dark Sky API (météo, temps passé et futur, payant)
Jeux de données
- banque Home Mortgage Disclouse Act (voir Introducing Blaze - HMDA Practice
- cinéma IMDB 5000 Movie Dataset
- climat OpenWeatherMap
- climat Land-Based Datasets and Products, Daily Global Weather Measurements, 1929-2009 (NCDC, GSOD), voir aussi Daily Global Weather Measurements (http://spatial-analyst.net/)
- code Evénements GitHub : tous les commit sur GitHub chaque jour (~15.000 commit par jour)
- consommation World Food Facts
- finance Daily News for Stock Market Prediction
- images ImageNet, base de données d'images avec leur contenu
- ML Kaggle Datasets
- ML UCI Machine Learning Repository (collection de jeux de données classés par type de problème - régression, classification, ...) Les jeux UCI apparaissent dans de nombreux scientifiques.
- ML Data Science at Microsoft Research
- ML Ensembles de données publics AWS (Amazon), AWS Public Data Sets
- ML Data Analysis, Modeling and Machine Learning Group
- ML Microsoft Research Letor
- ML List of datasets for machine learning research
- ML-deep: Open Data for Deep Learning
- ML-graphes Stanford Large Network Dataset Collection
- ML-big Pascal Large Scale Learning Challenge
- ML-big 170 millions courses de taxi à New-York (via l'article Building Azure ML Models on the NYC Taxi Dataset)
- ML-text urls, spam, ..., jeux de données utilisés comme benchmark pour la libraire libsvm
- ML-image Labeled Faces in the Wild : 1323 images, 5749 personnes, 1680 personnes avec 2 ou plus d'images, lire How well do facial recognition algorithms cope with a million strangers?
- musique Semantic Artist Similarity Dataset
- musique The Music Matrix – Exploring tags in the Million Song Dataset
- musique Audio Content Analysis Datasets
- musique projets, librairies Python, données sur la musique LabROSA (Columbia), librosa, Music Similarity, Million Song Dataset
- ONG Données Croix-Rouge sur les dons reçus
- politique Hillary Clinton's Emails
- santé Dépenses d'assurance maladie hors prestations hospitalières par caisse primaire/département (1 Go), La démographie des médecins (RPPS)
- santé Epidemium : challenge big data sur le cancer (voir Les challenges), le site référence également un nombre important de jeux de données autour des thèmes liés à la santé data.epidemium
- santé Global Disease Monitoring and Forecasting with Wikipedia
- sports European Soccer Database
- texte soTweet: Studying Twitter at Scale: base de 500 millions de tweets et 23 milliards de liens
- texte WordNet, base de données anglaises sur le vocabulaire, la grammaire, les synonymes...
- texte dump wikipedia
- texte SQuAD The Stanford Question Answering Dataset
- texte Multi-Domain Sentiment Dataset (version 2.0)
- vidéo Jiku, vidéo d'événements, de concerts
- vidéo YouTube 8M, 8 millions de vidéo YouTube par Google
- vidéo YouTube 1M Sports, 1 millions de vidéo annotées
- autres pistes: Where can I find large datasets open to the public?
Graphiques, cartes
moteurs de recherches sur les données
- data.gouv.fr, INSEE
- opendata Paris (presque toutes les villes ont maintenant un site open data, il suffit de chercher avec un moteur de recherche opendata + ville pour le trouver)
- data-publica
- data.epidemium
- Quandl (et son module python quandl, quandl/API,)
- Datahub
- AWS Public Data Sets (Amazon) (voir Using Public Data Sets et boto)
- UN ComTrade : United Nations Commodity Trade Statistics Database
- MusicBrainz Database
annuaire de données
stackoverflow
- nullege : moteur de recherche dédié au code Python
- stackoverflow : forum d'échanges sur des questions de code
- stackexchange : liste de forums d'échanges autour de sujets scientifiques appliqués, dont datascience stackexchange, mathoverflow, tex, latex, Web Apps, Computer Science Theory, Scientific Computation, Computer Science, Chess, Open Data, Software Recommendations, forum sur la langue française
Kagle, datascience, challenge, compétition
meetup, Data Tuesday, Data For Good
- Data Tuesday
- Big Data Meetup Paris, voir aussi search page
- Paris Startup Job Fair (a lieu régulièrement au 104 à Paris)
- Paris Datageeks
- Data For Good - FR
conférence, communauté, pydata, pycon, pyvideo, tutoral, vidéo
Agoranov, Microsoft, TekTos, numa
- Agoranov (Paris)
- Microsoft Spark (Paris)
- TekTos
- Le Top des incubateurs et accélérateurs de start-up à Paris
- numa (Paris)