DataScientest News Feed

Repo d'un cas d'usage du projet centré sur l'API Times Wire du NY Times

DataScientest News Feed

Objectifs

Fonctionnalités

1. Data Analytics

Construire un pipeline ETL de traitement des données:
- capable de les traiter par batch,
- extraites de l'API Times Wire
  - vers une solution de stockage des données bruts,
- transfomées pour être utilisable dans notre cas d'usage,
- renvoyées vers une base de données
  - répondant aux besoins analytiques et/ou applicatifs du cas d'usage,

2. Web Dev

Construire une application démontrant l'utilisabilité des données affinées:
- avec un back-end pour manipuler ces données (-> FastAPI),
- un front-end pour afficher le résultat et/ou interagir avec les données,

3. DataOps

Améliorer le fonctionnement du projet:
- développer une solution d'orchestration du pipeline ETL (-> Airflow),
- transférer le projet dans une solution cloud (-> GCP)
- ajouter une data warehouse pour piloter les interactions avec les données (-> BigQuery),

4. DevOps

Architecture

Exemples d'architecture visé (si on atteint l'étape d'implantation dans GCP):

Documentation

Analyse exploratoire

Ce projet collecte des données à partir de l'API Times Wire du NY Times.

Vous pouvez récupérer la collection de tests des endpoints du portail développeur du NY Times:

Exemples de repos GitHub

Ces repos GitHub ont de bonnes idées dont on peut s'inspirer pour la structure et le code:

pynytimes # extraction
DQMonstersDB-API # backend
DQMonstersDB-streamlit # frontend
DataEngineeringProject # orchestration

Structure

Les éléments principaux de ce repo sont organisés par logique fonctionnelle:

Data Pipeline:
- etl
  - extract
  - transform
  - load
Web App:
- api
  - backend
  - frontend
DataOps:
- orchestration

Pour démarrer le projet

clonez le repo
créez un environnement virtuel dédié au projet
installez poetry pour administrer les packages Python
- des outils modernes comme poetry ou pipenv sont préconisés pour la gestion des dépendances spécifiés dans un fichier toml,
- mais plusieurs outils de DevOps préconisent de revenir à pip et des fichiers txt pour lancer des job dans des environnements virtuels dédiés

Name		Name	Last commit message	Last commit date
Latest commit History 33 Commits
assets/diagrams		assets/diagrams
newsfeed		newsfeed
tests		tests
.env.sample.yaml		.env.sample.yaml
.envrc		.envrc
.flake8		.flake8
.gitignore		.gitignore
README.md		README.md
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DataScientest News Feed

Objectifs

Fonctionnalités

1. Data Analytics

2. Web Dev

3. DataOps

4. DevOps

Architecture

Documentation

Analyse exploratoire

Exemples de repos GitHub

Structure

Pour démarrer le projet

About

Releases

Packages

Languages

dst-nynews/newsfeed

Folders and files

Latest commit

History

Repository files navigation

DataScientest News Feed

Objectifs

Fonctionnalités

1. Data Analytics

2. Web Dev

3. DataOps

4. DevOps

Architecture

Documentation

Analyse exploratoire

Exemples de repos GitHub

Structure

Pour démarrer le projet

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages