Skip to content

Apache Web Server analytics using PySpark (Big Data)

Notifications You must be signed in to change notification settings

yahiathen/log-analytics

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Ce reperotoire contient des analyses sur des données volumineuses qui sont en l'occurence des logs d'un serveur web, 
mais avant de les analyser des transformations sont requises pour mettre en forme les données ce que nous allons découvrir durant ce projet.

Mots clés: Python, Spark, PySpark, SQL, Parsers, Big Data, Statistiques déscriptives, Session   




Architecture du repertoire:
	* Repertoire "data": Contient les logs.
	* Repertoire "notebooks": Le notebook des analyses et visualisations des logs.
	* Repertoire "output": Contient les figures de data visualisation
	* Un fichier requirements contenant les libs python utilisées.	
    

Les données:
	* Mettre les logs dans le fichier acces.log (Exemple: http://www.almhuette-raith.at/apache-log/access.log)
	* Un fichier "léger" (acces_light.log) est crée pour valider les pipelines.




About

Apache Web Server analytics using PySpark (Big Data)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages