# 🔥 Projeto: Análise de Logs com PySpark

## 📝 Objetivo

- Processar dados de acesso a um site (simulados) com PySpark, realizando:

- Limpeza dos dados

- Agrupamentos e contagens

- Exportação dos resultados


### 🐍 1. Código com PySpark

🔧 Instale o PySpark (se ainda não tiver):

In [None]:
pip install pyspark

####  🧠 Código: analise_logs_spark.py

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, to_date, count, desc

# Criar sessão Spark
spark = SparkSession.builder \
    .appName("Análise de Logs Web") \
    .getOrCreate()

# Carregar os dados do CSV
df = spark.read.option("header", True).csv("web_logs.csv")

# Mostrar os dados
df.show()

# Converter timestamp para data
df = df.withColumn("data", to_date(col("timestamp")))

# Contagem de acessos por dia
acessos_por_dia = df.groupBy("data").agg(count("*").alias("total_acessos"))
acessos_por_dia.show()

# Páginas mais acessadas
paginas_top = df.groupBy("page").agg(count("*").alias("qtd_acessos")).orderBy(desc("qtd_acessos"))
paginas_top.show()

# Exportar resultados para CSV
acessos_por_dia.coalesce(1).write.mode("overwrite").option("header", True).csv("resultado/acessos_por_dia")
paginas_top.coalesce(1).write.mode("overwrite").option("header", True).csv("resultado/top_paginas")

# Encerrar a sessão
spark.stop()


###  📦 3. Resultados

Após rodar o script:

Saída 1: resultado/acessos_por_dia/ → acessos por dia

Saída 2: resultado/top_paginas/ → páginas mais acessadas



### 💡 Dicas:

Você pode usar datasets reais de logs também (ex: Apache logs).

Para ambientes mais pesados, instale Spark com Docker ou use em cluster (como no Google Colab com PySpark).

In [None]:
🔥 Projeto: Análise de Logs com PySpark