Projet_Netfloox

Trello 📌

Diapo 🖼️

Le dossier Netfloox contient toute la partie Django.

Il y a beaucoup de CSV qui sont des extraits de la base de données.

bdd_load.py est le script python qui nous as permis d'envoyer toutes les données des fichiers d'iMDB sur la machine virtuelle Azure dans une base de données.

Script_all.sql permet de créer toute les clés primaires et de mettre les bons types dans la base de données.

cosine_similarity.py nous permet avec l'input d'un film de ressortir 5 films les plus similaires. Il s'appuie sur le CSV cosine_features_no_date.csv qui contient l'ensemble des films et des features importantes.

features.py nous permet de créer des CSV qui contiennent les éléments qui nous intéressent. On extrait les données avec une requête SQL sur la machine virtuelle qui contient la base de données.

model.py permet d'entrainer différents modèles comme KNN ou randomForest, le tout dans un pipeline avec GridSearchCV et RandomizedSearchCV pour rechercher les meilleurs hyperparamètres. À la fin, une fonction enregistre le meilleur modèle avec les meilleurs hyperparamètres et une autre fonction permet de charger ce modèle et de le tester avec des inputs de test.

query.py permet de faire des requêtes simples en SQL sur la VM.

Name		Name	Last commit message	Last commit date
Latest commit History 91 Commits
Netfloox		Netfloox
.gitignore		.gitignore
10kbest.csv		10kbest.csv
2kbest.csv		2kbest.csv
README.md		README.md
RandomForestClassifier_model.pkl		RandomForestClassifier_model.pkl
Script_all.sql		Script_all.sql
bdd_load.py		bdd_load.py
config.yaml		config.yaml
cosine_features_no_date.csv		cosine_features_no_date.csv
cosine_similarity.py		cosine_similarity.py
data.csv		data.csv
features.py		features.py
knn_features.csv		knn_features.csv
knn_features_names.csv		knn_features_names.csv
model.py		model.py
query.py		query.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projet_Netfloox

Trello 📌

Diapo 🖼️

Le dossier Netfloox contient toute la partie Django.

Il y a beaucoup de CSV qui sont des extraits de la base de données.

bdd_load.py est le script python qui nous as permis d'envoyer toutes les données des fichiers d'iMDB sur la machine virtuelle Azure dans une base de données.

Script_all.sql permet de créer toute les clés primaires et de mettre les bons types dans la base de données.

cosine_similarity.py nous permet avec l'input d'un film de ressortir 5 films les plus similaires. Il s'appuie sur le CSV cosine_features_no_date.csv qui contient l'ensemble des films et des features importantes.

features.py nous permet de créer des CSV qui contiennent les éléments qui nous intéressent. On extrait les données avec une requête SQL sur la machine virtuelle qui contient la base de données.

query.py permet de faire des requêtes simples en SQL sur la VM.

About

Releases

Packages

Languages

Lorenzo1208/Projet_Netfloox

Folders and files

Latest commit

History

Repository files navigation

Projet_Netfloox

Trello 📌

Diapo 🖼️

Le dossier Netfloox contient toute la partie Django.

Il y a beaucoup de CSV qui sont des extraits de la base de données.

bdd_load.py est le script python qui nous as permis d'envoyer toutes les données des fichiers d'iMDB sur la machine virtuelle Azure dans une base de données.

Script_all.sql permet de créer toute les clés primaires et de mettre les bons types dans la base de données.

cosine_similarity.py nous permet avec l'input d'un film de ressortir 5 films les plus similaires. Il s'appuie sur le CSV cosine_features_no_date.csv qui contient l'ensemble des films et des features importantes.

features.py nous permet de créer des CSV qui contiennent les éléments qui nous intéressent. On extrait les données avec une requête SQL sur la machine virtuelle qui contient la base de données.

query.py permet de faire des requêtes simples en SQL sur la VM.

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages