## Exercício 1: Upload de Dados para o DBFS
Tarefa: Faça o upload de um arquivo CSV contendo dados de vendas para o DBFS e liste o conteúdo do diretório.

In [0]:
dbutils.fs.cp("dbfs:/FileStore/aula_02/Bank_Marketing.csv", "/dbfs/FileStore/aula_02/Bank_Marketing.csv")

Out[3]: True

In [0]:
dbutils.fs.ls("dbfs:/FileStore/aula_02/")

Out[4]: [FileInfo(path='dbfs:/FileStore/aula_02/Bank_Marketing.csv', name='Bank_Marketing.csv', size=3700884, modificationTime=1699314362000)]

## Exercício 2: Leitura e Análise de Dados

Tarefa: Leia o arquivo CSV de vendas do DBFS e execute uma análise simples, como a contagem de registros e a exibição das primeiras linhas.

In [0]:
from pyspark.sql.functions import *

# Leitura do arquivo CSV
df = spark.read.csv("/dbfs/FileStore/aula_02/Bank_Marketing.csv", header=True, inferSchema=True)

# Contagem
df.count()


Out[13]: 45211

In [0]:
# Exibição das primeiras 5 linhas
df.show(5)

+---+------------+--------------+---------+------+---------------+------------+-------------+-------+----------------+------------------+---------------------+--------+-----+--------+--------+------------+
|Age|         Job|Marital Status|Education|Credit|Balance (euros)|Housing Loan|Personal Loan|Contact|Last Contact Day|Last Contact Month|Last Contact Duration|Campaign|Pdays|Previous|Poutcome|Subscription|
+---+------------+--------------+---------+------+---------------+------------+-------------+-------+----------------+------------------+---------------------+--------+-----+--------+--------+------------+
| 58|  management|       married| tertiary|    no|           2143|         yes|           no|unknown|               5|               may|                  261|       1|   -1|       0| unknown|           1|
| 44|  technician|        single|secondary|    no|             29|         yes|           no|unknown|               5|               may|                  151|       1|   -1|  

## Exercício 3: Escrita de Resultados de Análise

Tarefa: Realize uma análise adicional dos dados e escreva os resultados de volta para o DBFS.

In [0]:
# Análise adicional dos dados (por exemplo, cálculo de médias)
education_avg_balance = df.groupBy(month("Education").alias("Education_group")).agg(avg("Balance (euros)").alias("Balance_group"))

education_avg_balance.display()

Education_group,Balance_group
,1362.2720576850766


In [0]:
# Escreva os resultados de volta para o DBFS em formato CSV
education_avg_balance.write.csv("/dbfs/FileStore/aula_02/day_balance.csv", header=True)

## Exercício 4: Remoção de Arquivos

Tarefa: Remova um arquivo específico do DBFS e verifique se o arquivo foi excluído com sucesso.

In [0]:
dbutils.fs.rm("/dbfs/FileStore/aula_02/day_balance.csv", True)

Out[24]: True

## Exercício 5: Criação de Diretórios

Tarefa: Crie um novo diretório no DBFS e faça o upload de um arquivo para esse diretório.

In [0]:
dbutils.fs.mkdirs("/dbfs/FileStore/new_directory")
dbutils.fs.cp("dbfs:/FileStore/aula_02/Bank_Marketing.csv", "/dbfs/FileStore/new_directory/Bank_Marketing.csv")


Out[25]: True

## Exercício 6: Renomeação de Arquivos

Tarefa: Renomeie um arquivo no DBFS e verifique se o arquivo foi renomeado com sucesso.

In [0]:
dbutils.fs.mv("dbfs:/FileStore/aula_02/Bank_Marketing.csv", "dbfs:/FileStore/aula_02/New_Bank_Marketing.csv")

Out[30]: True

In [0]:
dbutils.fs.ls("dbfs:/FileStore/aula_02/")

Out[31]: [FileInfo(path='dbfs:/FileStore/aula_02/New_Bank_Marketing.csv', name='New_Bank_Marketing.csv', size=3700884, modificationTime=1699317898000)]

## Exercício:
Estudo de Caso: Validando a Implementação do Databricks e da Computação em Nuvem

Cenário de Negócios: Você é o CTO de uma empresa que está considerando a implementação do Databricks e a migração para a computação em nuvem. A empresa lida com grandes volumes de dados e busca uma solução que permita escalabilidade, flexibilidade e eficiência nos custos. Sua tarefa é apresentar motivos para a implementação do Databricks e da computação em nuvem.

Tarefa: Desenvolva uma análise que justifique a implementação do Databricks e da computação em nuvem com base nos benefícios oferecidos por essas tecnologias.


A implementação do Databricks e a migração para a computação em nuvem podem trazer diversos benefícios para a empresa, especialmente se a organização lida com grandes volumes de dados. Abaixo, vou destacar os principais motivos para considerar essas tecnologias:

1. Escalabilidade:
   - A computação em nuvem oferece escalabilidade sob demanda, permitindo que a empresa aumente ou diminua os recursos de computação de acordo com suas necessidades. Isso é fundamental para lidar com grandes volumes de dados, pois a capacidade de escalar automaticamente ajuda a evitar gargalos e garantir o desempenho contínuo.

2. Flexibilidade:
   - Databricks é uma plataforma de análise de dados que oferece suporte a uma variedade de linguagens de programação, incluindo SQL, Python, R e Scala. Isso permite que a equipe de dados utilize a linguagem mais adequada para cada tarefa, tornando o processo de análise de dados mais flexível e eficaz.

3. Eficiência nos Custos:
   - A computação em nuvem elimina a necessidade de investir em hardware e infraestrutura própria, reduzindo significativamente os custos de capital. Além disso, a alocação de recursos na nuvem é baseada no modelo pay-as-you-go, o que significa que a empresa paga apenas pelos recursos que realmente utiliza, tornando os custos mais previsíveis e controláveis.

4. Processamento Distribuído:
   - Databricks é construído sobre o Apache Spark, uma estrutura de processamento de dados distribuída que permite o processamento eficiente de grandes volumes de dados em paralelo. Isso acelera o tempo de processamento e análise de dados, o que é essencial para a tomada de decisões em tempo real.

5. Colaboração e Produtividade:
   - Databricks oferece um ambiente de colaboração em equipe, permitindo que os cientistas de dados e engenheiros colaborem de forma eficaz. Além disso, a plataforma suporta a criação de fluxos de trabalho de dados automatizados, o que aumenta a produtividade da equipe.

6. Segurança e Conformidade:
   - As principais provedoras de serviços em nuvem, como AWS, Azure e Google Cloud, investem fortemente em segurança e conformidade. Isso permite que as empresas garantam a proteção de dados sensíveis e cumpram regulamentações, como o GDPR e o HIPAA.

7. Acesso a Serviços Avançados:
   - A computação em nuvem oferece acesso a uma ampla gama de serviços avançados, como aprendizado de máquina, análise avançada, IoT e muito mais. Databricks integra-se facilmente a esses serviços, permitindo que a empresa aproveite inovações tecnológicas de ponta.

8. Gerenciamento Simplificado:
   - A gestão de infraestrutura e recursos em nuvem é simplificada, com ferramentas de gerenciamento centralizadas. Isso permite que a equipe de TI se concentre mais na análise de dados e menos na manutenção de hardware e software.

Em resumo, a implementação do Databricks e a migração para a computação em nuvem oferecem uma série de benefícios, incluindo escalabilidade, flexibilidade, eficiência nos custos, processamento distribuído, segurança, colaboração, acesso a serviços avançados e gerenciamento simplificado. Essas tecnologias são fundamentais para empresas que lidam com grandes volumes de dados e desejam obter insights valiosos de forma eficiente e eficaz.