# Projeto Big Data - Demonstração com Hadoop, Hive, Pig, Spark, HBase

Este notebook demonstra o uso das principais ferramentas do ecossistema Hadoop para um projeto Big Data.

## 🔥 Apache Spark - Leitura de JSON

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("BigDataProject") \
    .getOrCreate()

# Leitura de arquivo JSON
df_json = spark.read.json("config.json")
df_json.show()

## 🐝 Apache Hive - Criação de tabela e inserção

In [None]:
# Se o Hive estiver integrado com Spark:
spark.sql("""
CREATE TABLE IF NOT EXISTS produtos (
    id INT,
    nome STRING,
    preco FLOAT
)
STORED AS PARQUET
""")

## 🐘 Hive - Consulta com filtro

In [None]:
spark.sql("SELECT * FROM produtos WHERE preco > 100").show()

## 🐷 Apache Pig - Script básico


```pig
vendas = LOAD 'vendas.csv' USING PigStorage(',') AS (id:int, produto:chararray, valor:float);
filtro = FILTER vendas BY valor > 500;
DUMP filtro;
```
Salvar isso em um arquivo `.pig` e executar com:
```bash
pig script.pig
```

## 🧊 Hadoop HDFS - Comandos úteis

In [None]:
!hdfs dfs -mkdir -p /input
!hdfs dfs -put dados.csv /input
!hdfs dfs -ls /input

## 💾 Apache Hive - Carregamento de dados CSV

In [None]:
spark.sql("""
CREATE TABLE IF NOT EXISTS vendas (
    id INT,
    produto STRING,
    valor FLOAT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
""")

# Se o arquivo estiver no HDFS
spark.sql("LOAD DATA INPATH '/input/vendas.csv' INTO TABLE vendas")

## 🧮 Spark - Total de vendas por produto

In [None]:
df_vendas = spark.read.csv("vendas.csv", header=True, inferSchema=True)
df_vendas.groupBy("produto").sum("valor").withColumnRenamed("sum(valor)", "total_vendas").show()

## 📊 Hive - Tabela resumo de vendas

In [None]:
spark.sql("""
CREATE TABLE IF NOT EXISTS vendas_resumo AS
SELECT produto, SUM(valor) AS total_vendas
FROM vendas
GROUP BY produto
""")

## 🐷 Pig - Agrupamento de logs por URL


```pig
logs = LOAD 'logs.csv' USING PigStorage(',') AS (data:chararray, ip:chararray, url:chararray);
grouped = GROUP logs BY url;
counts = FOREACH grouped GENERATE group AS url, COUNT(logs) AS acessos;
DUMP counts;
```


## 🧱 HBase - Criação de tabela


```bash
hbase shell
> create 'clientes', 'info'
> put 'clientes', '1001', 'info:nome', 'Alice'
> put 'clientes', '1001', 'info:email', 'alice@email.com'
> scan 'clientes'
```


## 🐷 Pig + HBase


```pig
REGISTER /usr/lib/pig/piggybank.jar
DEFINE HBaseStorage org.apache.pig.backend.hadoop.hbase.HBaseStorage;

clientes = LOAD 'hbase://clientes'
    USING HBaseStorage('info:nome info:email')
    AS (nome:chararray, email:chararray);

DUMP clientes;
```


## ⚙️ PySpark - Importar dados do SQL Server

In [None]:
df_clientes = spark.read.format("jdbc") \
    .option("url", "jdbc:sqlserver://servidor:1433;databaseName=meubanco") \
    .option("dbtable", "clientes") \
    .option("user", "usuario") \
    .option("password", "senha") \
    .option("driver", "com.microsoft.sqlserver.jdbc.SQLServerDriver") \
    .load()

df_clientes.show()