# Analyse des Logs Android avec PySpark
## Par OUSSAMA ELMAKNASSI

Ce notebook analyse les logs Android en utilisant PySpark pour compter :
- Les messages par **niveau** (I, D, E, W, V)
- Les messages par **heure**
- Les messages par **minute**

## 1. Installation et Configuration de PySpark

In [None]:
# Installation de PySpark
!pip install pyspark

# Installation de Java (d√©j√† disponible sur Colab)
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark"

print("‚úì PySpark install√© et configur√©")

## 2. Upload du fichier Android.log

**Instructions :**
1. Ex√©cutez la cellule ci-dessous
2. Cliquez sur "Choose Files"
3. S√©lectionnez votre fichier `Android.log`

In [None]:
from google.colab import files
import io

print("üìÅ Veuillez uploader votre fichier Android.log...")
uploaded = files.upload()

# Sauvegarder le fichier
for filename in uploaded.keys():
    print(f"‚úì Fichier upload√©: {filename} ({len(uploaded[filename])} bytes)")
    with open('Android.log', 'wb') as f:
        f.write(uploaded[filename])

print("\n‚úì Fichier pr√™t pour l'analyse !")

## 3. Initialisation de Spark

In [None]:
from pyspark import SparkContext, SparkConf
import re

# Configuration de Spark
conf = SparkConf().setAppName("Android Log Analysis").setMaster("local[*]")

# Arr√™ter le contexte existant s'il y en a un
try:
    sc.stop()
except:
    pass

# Cr√©er un nouveau contexte Spark
sc = SparkContext(conf=conf)

print("‚úì SparkContext initialis√©")
print(f"  - Version Spark: {sc.version}")
print(f"  - Master: {sc.master}")
print(f"  - Application: {sc.appName}")

## 4. Chargement des donn√©es

In [None]:
# Charger le fichier de logs dans un RDD
log_RDD = sc.textFile("Android.log")

# Compter le nombre total de lignes
total_lines = log_RDD.count()
print(f"‚úì Fichier charg√©: {total_lines:,} lignes")

# Afficher quelques exemples
print("\nüìã Exemples de lignes:")
for i, line in enumerate(log_RDD.take(5), 1):
    print(f"  {i}. {line[:100]}...")

## 5. Parsing des logs

In [None]:
def parse_log_line(line):
    """Extrait le timestamp et le level d'une ligne de log"""
    try:
        # Chercher le timestamp
        timestamp_match = re.search(r'(\d{4}-\d{2}-\d{2}[T ]\d{2}:\d{2})|' +
                                   r'(\d{2}-\d{2} \d{2}:\d{2})|' +
                                   r'(\d{2}:\d{2}:\d{2})', line)
        
        # Chercher le level (E, W, I, D, V)
        level_match = re.search(r'\b([EWIDV])\b|\[(ERROR|WARN|WARNING|INFO|DEBUG|VERBOSE)\]', 
                               line, re.IGNORECASE)
        
        timestamp = timestamp_match.group(0) if timestamp_match else None
        level = level_match.group(1) or level_match.group(2) if level_match else 'UNKNOWN'
        
        return (timestamp, level.upper())
    except:
        return (None, 'UNKNOWN')

def extract_hour(timestamp):
    """Extrait l'heure d'un timestamp"""
    if not timestamp:
        return 'UNKNOWN'
    try:
        hour_match = re.search(r'(\d{2}):\d{2}', timestamp)
        return hour_match.group(1) + ':00' if hour_match else 'UNKNOWN'
    except:
        return 'UNKNOWN'

def extract_minute(timestamp):
    """Extrait l'heure et la minute d'un timestamp"""
    if not timestamp:
        return 'UNKNOWN'
    try:
        minute_match = re.search(r'(\d{2}:\d{2})', timestamp)
        return minute_match.group(1) if minute_match else 'UNKNOWN'
    except:
        return 'UNKNOWN'

# Parser toutes les lignes
parsed_RDD = log_RDD.map(parse_log_line)
print("‚úì Fonctions de parsing d√©finies")
print("‚úì RDD pars√© cr√©√©")

## 6. COUNT PAR NIVEAU (LEVEL)

In [None]:
print("="*60)
print("COUNT PAR NIVEAU (LEVEL)")
print("="*60)

# Compter par niveau
level_counts = parsed_RDD.map(lambda x: (x[1], 1)) \
                        .reduceByKey(lambda a, b: a + b) \
                        .sortBy(lambda x: x[1], ascending=False)

level_results = level_counts.collect()

# Afficher les r√©sultats
for level, count in level_results:
    print(f"{level}: {count:,} messages")

print(f"\nTotal: {sum([count for _, count in level_results]):,} messages")

# Sauvegarder
level_counts.map(lambda x: f"{x[0]}: {x[1]}").saveAsTextFile("count_by_level")
print("\n‚úì Sauvegard√© dans: count_by_level/")

## 7. COUNT PAR HEURE

In [None]:
print("\n" + "="*60)
print("COUNT PAR HEURE")
print("="*60)

# Compter par heure
hour_counts = parsed_RDD.map(lambda x: (extract_hour(x[0]), 1)) \
                       .reduceByKey(lambda a, b: a + b) \
                       .sortBy(lambda x: x[0])

hour_results = hour_counts.collect()

# Afficher les r√©sultats
for hour, count in hour_results:
    print(f"{hour}: {count:,} messages")

print(f"\nTotal: {sum([count for _, count in hour_results]):,} messages")

# Sauvegarder
hour_counts.map(lambda x: f"{x[0]}: {x[1]}").saveAsTextFile("count_by_hour")
print("\n‚úì Sauvegard√© dans: count_by_hour/")

## 8. COUNT PAR MINUTE

In [None]:
print("\n" + "="*60)
print("COUNT PAR MINUTE (Top 50)")
print("="*60)

# Compter par minute
minute_counts = parsed_RDD.map(lambda x: (extract_minute(x[0]), 1)) \
                         .reduceByKey(lambda a, b: a + b) \
                         .sortBy(lambda x: x[1], ascending=False)

# Afficher le top 50
minute_results = minute_counts.take(50)
for minute, count in minute_results:
    print(f"{minute}: {count:,} messages")

total_minutes = minute_counts.count()
print(f"\nNombre total de minutes diff√©rentes: {total_minutes:,}")

# Sauvegarder
minute_counts.map(lambda x: f"{x[0]}: {x[1]}").saveAsTextFile("count_by_minute")
print("\n‚úì Sauvegard√© dans: count_by_minute/")

## 9. Statistiques globales

In [None]:
print("\n" + "="*60)
print("STATISTIQUES GLOBALES")
print("="*60)

total_logs = log_RDD.count()
print(f"Nombre total de lignes de log: {total_logs:,}")

# Statistiques sur les minutes
minute_stats = minute_counts.map(lambda x: x[1]).stats()
print(f"\nMessages par minute:")
print(f"  - Moyenne: {minute_stats.mean():,.2f}")
print(f"  - Maximum: {minute_stats.max():,}")
print(f"  - Minimum: {minute_stats.min():,}")

# Statistiques sur les heures
hour_stats = hour_counts.map(lambda x: x[1]).stats()
print(f"\nMessages par heure:")
print(f"  - Moyenne: {hour_stats.mean():,.2f}")
print(f"  - Maximum: {hour_stats.max():,}")
print(f"  - Minimum: {hour_stats.min():,}")

# R√©partition par niveau
print(f"\nR√©partition par niveau:")
total = sum([count for _, count in level_results])
for level, count in level_results:
    percentage = (count / total) * 100
    print(f"  - {level}: {percentage:.2f}%")

print("\n" + "="*60)
print("ANALYSE TERMIN√âE !")
print("="*60)

## 10. T√©l√©charger les r√©sultats

In [None]:
# Cr√©er un fichier ZIP avec tous les r√©sultats
!zip -r results.zip count_by_level count_by_hour count_by_minute

# T√©l√©charger le fichier ZIP
from google.colab import files
files.download('results.zip')

print("‚úì R√©sultats t√©l√©charg√©s !")

## 11. Nettoyage

In [None]:
# Arr√™ter le contexte Spark
sc.stop()
print("‚úì SparkContext arr√™t√©")