# üî• Projeto: An√°lise de Logs com PySpark

## üìù Objetivo

- Processar dados de acesso a um site (simulados) com PySpark, realizando:

- Limpeza dos dados

- Agrupamentos e contagens

- Exporta√ß√£o dos resultados


### üêç 1. C√≥digo com PySpark

üîß Instale o PySpark (se ainda n√£o tiver):

In [None]:
pip install pyspark

####  üß† C√≥digo: analise_logs_spark.py

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, to_date, count, desc

# Criar sess√£o Spark
spark = SparkSession.builder \
    .appName("An√°lise de Logs Web") \
    .getOrCreate()

# Carregar os dados do CSV
df = spark.read.option("header", True).csv("web_logs.csv")

# Mostrar os dados
df.show()

# Converter timestamp para data
df = df.withColumn("data", to_date(col("timestamp")))

# Contagem de acessos por dia
acessos_por_dia = df.groupBy("data").agg(count("*").alias("total_acessos"))
acessos_por_dia.show()

# P√°ginas mais acessadas
paginas_top = df.groupBy("page").agg(count("*").alias("qtd_acessos")).orderBy(desc("qtd_acessos"))
paginas_top.show()

# Exportar resultados para CSV
acessos_por_dia.coalesce(1).write.mode("overwrite").option("header", True).csv("resultado/acessos_por_dia")
paginas_top.coalesce(1).write.mode("overwrite").option("header", True).csv("resultado/top_paginas")

# Encerrar a sess√£o
spark.stop()


###  üì¶ 3. Resultados

Ap√≥s rodar o script:

Sa√≠da 1: resultado/acessos_por_dia/ ‚Üí acessos por dia

Sa√≠da 2: resultado/top_paginas/ ‚Üí p√°ginas mais acessadas



### üí° Dicas:

Voc√™ pode usar datasets reais de logs tamb√©m (ex: Apache logs).

Para ambientes mais pesados, instale Spark com Docker ou use em cluster (como no Google Colab com PySpark).

In [None]:
üî• Projeto: An√°lise de Logs com PySpark