# Building a Data Pipeline in Databricks and using Spark
---

#### Senior Data Scientist.: Dr. Eddy Giusepe Chirinos Isidro

# üöÄ Configura√ß√£o do Databricks Connect

Este notebook est√° configurado para usar **Databricks Connect**, permitindo executar c√≥digo localmente mas processando dados no cluster Databricks.

## üîê Informa√ß√µes necess√°rias:

1. **Server hostname**: URL do seu workspace Databricks
2. **Personal Access Token**: Token de acesso (User Settings ‚Üí Developer ‚Üí Access Tokens)
3. **Cluster ID**: ID do cluster ativo (copie da URL quando abrir um cluster)

## üìã Como configurar:

### 1Ô∏è‚É£ Criar vari√°veis de ambiente (recomendado):
```bash
export DATABRICKS_HOST="https://seu-workspace.cloud.databricks.com"
export DATABRICKS_TOKEN="dapi-seu-token-aqui"  
export DATABRICKS_CLUSTER_ID="cluster-id-aqui"
```

### 2Ô∏è‚É£ Ou configure diretamente no c√≥digo abaixo ‚¨áÔ∏è


# üìã COMO OBTER AS CREDENCIAIS DO DATABRICKS

## üîç 1. Server Hostname
- Va para seu workspace Databricks
- Copie a URL do navegador (ex: `https://dbc-a1b2c3d4-e5f6.cloud.databricks.com`)

## üîë 2. Personal Access Token
1. No Databricks workspace ‚Üí clique no seu **avatar** (canto superior direito)
2. **User Settings**
3. **Developer** (no menu lateral)
4. **Access Tokens**
5. **Generate New Token**
6. D√™ um nome (ex: "Local Development")
7. Defina expira√ß√£o (recomendo 90 dias)
8. **Generate** ‚Üí copie o token (come√ßa com `dapi-...`)

## üíª 3. Cluster ID
1. No Databricks workspace ‚Üí **Compute** (menu lateral)
2. Clique no cluster que deseja usar
3. Copie o **Cluster ID** da URL ou das configura√ß√µes do cluster

## üîí 4. Configurar de forma segura
### Op√ß√£o A: Vari√°veis de ambiente (recomendado)
```bash
export DATABRICKS_HOST="https://seu-workspace.cloud.databricks.com"
export DATABRICKS_TOKEN="dapi-seu-token-aqui"
export DATABRICKS_CLUSTER_ID="cluster-id-aqui"
```

### Op√ß√£o B: Arquivo .env (alternativa)
Crie um arquivo `.env` na pasta do projeto:
```
DATABRICKS_HOST=https://seu-workspace.cloud.databricks.com
DATABRICKS_TOKEN=dapi-seu-token-aqui
DATABRICKS_CLUSTER_ID=cluster-id-aqui
```

**‚ö†Ô∏è IMPORTANTE**: Nunca fa√ßa commit de tokens/credenciais para Git!

In [1]:
import os
from dotenv import load_dotenv, find_dotenv

# Carregar credenciais
_ = load_dotenv(find_dotenv())
databricks_host = os.environ['DATABRICKS_HOST']
databricks_token = os.environ['DATABRICKS_TOKEN']
databricks_cluster_id = os.environ['DATABRICKS_CLUSTER_ID']

print("üîó Conectando ao Databricks...")
print(f"üìç Host: {databricks_host}")
print(f"üÜî Cluster: {databricks_cluster_id}")

# Conectar ao Databricks
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder \
    .remote(
        host=databricks_host,
        token=databricks_token,
        cluster_id=databricks_cluster_id
    ) \
    .getOrCreate()

print("‚úÖ Conectado ao Databricks com sucesso!")
print(f"üîß Vers√£o Spark: {spark.version}")

# üìÅ CARREGAR DADOS DO VOLUME DATABRICKS
volume_path = "/Volumes/workspace/default_eddy/volumeeddy-tmp-sampledata/sample_data.csv"
print(f"\nüìÇ Carregando dados do Volume: {volume_path}")

df_spark = spark.read.csv(volume_path, header=True, inferSchema=True)

print("üéâ DADOS DO VOLUME CARREGADOS COM SUCESSO!")
print("\nüìä Primeiros registros:")
df_spark.show()

print(f"\nüìà Informa√ß√µes do Dataset:")
print(f"   ‚Ä¢ Linhas: {df_spark.count()}")
print(f"   ‚Ä¢ Colunas: {len(df_spark.columns)}")
print(f"   ‚Ä¢ Nomes das Colunas: {df_spark.columns}")

print("\nüìã Schema do Dataset:")
df_spark.printSchema()

# Converter para Pandas para an√°lises adicionais (opcional)
df_pandas = df_spark.toPandas()
print(f"\n‚úÖ Dados tamb√©m dispon√≠veis como Pandas DataFrame para an√°lises locais!")


üîó Conectando ao Databricks...
üìç Host: https://dbc-15e1a878-daba.cloud.databricks.com
üÜî Cluster: 0919-175003-lz63w6ap-v2n
‚úÖ Conectado ao Databricks com sucesso!
üîß Vers√£o Spark: 4.0.0

üìÇ Carregando dados do Volume: /Volumes/workspace/default_eddy/volumeeddy-tmp-sampledata/sample_data.csv
üéâ DADOS DO VOLUME CARREGADOS COM SUCESSO!

üìä Primeiros registros:
+-------+---+-----------+
|   Name|Age|       City|
+-------+---+-----------+
|  Alice| 25|   New York|
|    Bob| 17|Los Angeles|
|Charlie| 35|    Chicago|
|  Diana| 16|    Houston|
| Edward| 45|    Phoenix|
+-------+---+-----------+


üìà Informa√ß√µes do Dataset:
   ‚Ä¢ Linhas: 5
   ‚Ä¢ Colunas: 3
   ‚Ä¢ Nomes das Colunas: ['Name', 'Age', 'City']

üìã Schema do Dataset:
root
 |-- Name: string (nullable = true)
 |-- Age: integer (nullable = true)
 |-- City: string (nullable = true)


‚úÖ Dados tamb√©m dispon√≠veis como Pandas DataFrame para an√°lises locais!


In [2]:
# üìä AN√ÅLISE AVAN√áADA DOS DADOS DO VOLUME DATABRICKS
print("="*70)
print("üìä AN√ÅLISE COMPLETA DOS DADOS DO VOLUME DATABRICKS")
print("="*70)

# Estat√≠sticas descritivas com Spark
print("\nüìä Estat√≠sticas Descritivas (processadas no cluster Databricks):")
df_spark.describe().show()

# An√°lises com Spark SQL
print("\nüîç An√°lises com Spark SQL:")

# Registrar como view tempor√°ria para usar SQL
df_spark.createOrReplaceTempView("pessoas")

# 1. An√°lise de idade
print("\nüë• An√°lise de Idade:")
idade_stats = spark.sql("""
    SELECT 
        AVG(Age) as idade_media,
        MIN(Age) as idade_minima,
        MAX(Age) as idade_maxima,
        COUNT(*) as total_pessoas
    FROM pessoas
""")
idade_stats.show()

# 2. Maiores de idade
print("\nüîû Pessoas maiores de idade:")
adults = spark.sql("SELECT * FROM pessoas WHERE Age >= 18")
adults.show()

adult_count = adults.count()
total_count = df_spark.count()
print(f"üìà {adult_count} de {total_count} pessoas s√£o maiores de idade ({adult_count/total_count*100:.1f}%)")

# 3. An√°lise por cidade
print("\nüèôÔ∏è Contagem por Cidade:")
city_analysis = spark.sql("""
    SELECT City, COUNT(*) as quantidade
    FROM pessoas 
    GROUP BY City 
    ORDER BY quantidade DESC
""")
city_analysis.show()

# 4. An√°lises avan√ßadas com Window Functions
print("\nüìà An√°lises Avan√ßadas:")
advanced_analysis = spark.sql("""
    SELECT 
        Name,
        Age,
        City,
        CASE 
            WHEN Age >= 18 THEN 'Adulto'
            ELSE 'Menor de idade'
        END as categoria_idade,
        ROW_NUMBER() OVER (PARTITION BY City ORDER BY Age DESC) as ranking_idade_cidade
    FROM pessoas
    ORDER BY City, Age DESC
""")
advanced_analysis.show()

# Converter para Pandas para an√°lises complementares
print("\nüêº An√°lises complementares com Pandas:")
df_pandas = df_spark.toPandas()
print(f"   ‚Ä¢ Dataset convertido: {df_pandas.shape[0]} linhas, {df_pandas.shape[1]} colunas")
print(f"   ‚Ä¢ Idade m√©dia: {df_pandas['Age'].mean():.2f} anos")
print(f"   ‚Ä¢ Cidades √∫nicas: {df_pandas['City'].nunique()}")

print("\n‚úÖ Pipeline ETL com Databricks Volume conclu√≠do com sucesso!")
print("   ‚Ä¢ üå©Ô∏è Processamento: Cluster Databricks")
print("   ‚Ä¢ üìÅ Fonte: Volume Databricks")
print(f"   ‚Ä¢ üìä Registros: {df_spark.count()}")
print(f"   ‚Ä¢ üöÄ Engine: Spark {spark.version}")
print("   ‚Ä¢ üíæ Dispon√≠vel em: Spark DataFrame + Pandas DataFrame")


üìä AN√ÅLISE COMPLETA DOS DADOS DO VOLUME DATABRICKS

üìä Estat√≠sticas Descritivas (processadas no cluster Databricks):
+-------+------+------------------+-------+
|summary|  Name|               Age|   City|
+-------+------+------------------+-------+
|  count|     5|                 5|      5|
|   mean|  NULL|              27.6|   NULL|
| stddev|  NULL|12.361229712289955|   NULL|
|    min| Alice|                16|Chicago|
|    max|Edward|                45|Phoenix|
+-------+------+------------------+-------+


üîç An√°lises com Spark SQL:

üë• An√°lise de Idade:
+-----------+------------+------------+-------------+
|idade_media|idade_minima|idade_maxima|total_pessoas|
+-----------+------------+------------+-------------+
|       27.6|          16|          45|            5|
+-----------+------------+------------+-------------+


üîû Pessoas maiores de idade:
+-------+---+--------+
|   Name|Age|    City|
+-------+---+--------+
|  Alice| 25|New York|
|Charlie| 35| Chicago|
| Edwa