In [0]:
#Spark é uma plataforma de computação em cluster. Spark permite que seus dados e cálculos através dos clusters com múltiplos nós. 
#Dividir os dados torna-se mais fácil de se trabalhar com grandes datasets porque cada nó atua com um pequeno volume de dados em relação ao todo.
#Assim como cadá nó possui seu subset do total dos dados, o nó também irá executar operações necessárias, de maneira que a execução e os dados serão trabalhados de forma paralela em todos os nós do cluster.


#Antes de decidir se a tecnologia Spark faz sentido para a resolução do seu problema, você deve se fazer as seguintes perguntas:
#1. Meus dados são grandes o suficiente para serem processados em mais de uma máquina ?
#2. Minhas operações podem ser facilmente paralelizáveis ?

#A estrutura de dados RDD - Resilient Distributed Dataset está no cerne do framework Spark, trantando-se de um objeto baixo nível que permite que o Spark execute sua máquina de dividir os dados em múltiplos nós em um cluster. Por outro lado, RDDs são extremamente complexos de se trabalhar diretamente por se tratar de uma estrutura baixo nível, nos exemplos deste notebook utilizaremos uma abstração construída no topo dos RDDs.

#A estrutura do Spark DataFrame possui uma enorme similaridade com uma tabela, tornando a estrutura como sendo algo fácil e compreensível de executar.


In [0]:
#Print no console o SparkContext
print(sc)

<SparkContext master=local[8] appName=Databricks Shell>


In [0]:
#Print a versão do Spark
print(sc.version)

3.2.1


In [2]:
#Importando as bibliotecas que usaremos nos exercícios
import pandas as pd


# Import SparkSession from pyspark.sql
from pyspark.sql import SparkSession

#Crie uma variavel chamada my_spark e printe o conteúdo dela
my_spark = SparkSession.builder.getOrCreate()

#Print my_spark
print(my_spark)

ModuleNotFoundError: No module named 'pyspark'

In [None]:
#Uma breve introdução aos DataFrames com Pandas
#Criando um DataFrame Pandas a partir de um parte de listas

In [5]:
#Os valores podem ser expressos como uma lista de tuplas onde cada tupla corresponderá a uma Row de nosso dataframe
valor = [("Joao","Silva",23,"M",1),("Pedro","Matos",12,"G",1),("Ricardo","Pereira",30,"GG",2),("Schopenhauer","Souza",30,"M",1)]
print(type(valor))

#As colunas podem ser expressas como uma lista de strings
colunas = ['nome', 'sobrenome','idade','tamanho_camiseta', 'codigo_modelo_camiseta']
print(type(colunas))

#Com estas duas estruturas em mãos podemos usar o método Dataframe do pandas é criarmos um DataFrame pandas a partir deles
df_test = pd.DataFrame(valor, columns=colunas)



<class 'list'>
<class 'list'>


In [6]:
#Explorando algumas funcionalidades do DataFrame Pandas
#O DataFrame possui uma série de métodos embutidos que permitem realizar análises e operações em cima dos dados nele presentes

##Digitar o nome da variável do DataFrame irá forçar um print do conteúdo do mesmo no console
df_test
##O método describe por sua vez retorna uma análise descritiva do DataFrame
df_test.describe()

##O atributo shape retorna o as quandidades de linhas(rows) e colunas(columns) do DataFrame
df_test.shape

##O atributo values irá retornar um array bidimensional de valores
df_test.values

##O método len() retornará a quantidade de linhas em um DataFrame
len(df_test)

##Abaixo segue um exemplo de como contar individualmente quantas vezes cada nome aparece em uma coluna
df_test['nome'].value_counts()

##Os métodos head e tail retornam os primeiros e últimos valores respectivamente
df_test.head()
df_test.tail()

Unnamed: 0,nome,sobrenome,idade,tamanho_camiseta,codigo_modelo_camiseta
0,Joao,Silva,23,M,1
1,Pedro,Matos,12,G,1
2,Ricardo,Pereira,30,GG,2
3,Schopenhauer,Souza,30,M,1


In [4]:
#PRÁTICA 
#Caso eu precisasse saber quantas camisas por tamanho foram pedidas, implemente na próxima célula como isso funcionaria.

In [0]:
#Prática 
#Implemente dois DataFrames onde:
# O primeiro DataFrame será referente a tabela de preços das camisetas pelo tamanho, onde tempos a seguinte ordem <tamanho> - <preco>
# PP - 25.00
# P  - 25.50
# M  - 30.00
# G  - 40.00
# GG - 45.00
# O segundo DataFrame será referente aos tipos de camisa, onde:
# 1 - Regata
# 2 - Com Manga

In [0]:
valores_tamanhos = [('PP',25.00),('P',25.50),('M',30.00),('G',40.00),('GG',45.00)]
colunas_tamanhos = ['tamanho_camiseta','preco_camiseta']
df_tamanhos_camisetas = pd.DataFrame(valores_tamanhos, columns=colunas_tamanhos)

df_tamanhos_camisetas

Unnamed: 0,tamanho_camiseta,preco_camiseta
0,PP,25.0
1,P,25.5
2,M,30.0
3,G,40.0
4,GG,45.0


In [0]:
valores_modelo_camisetas = [(1,"Regata"),(2,"Com Manga")]
colunas_modelo_camisetas = ["codigo_modelo_camiseta","descricao_modelo_camiseta"]

df_modelos_camisetas = pd.DataFrame(valores_modelo_camisetas, columns=colunas_modelo_camisetas)

df_modelos_camisetas

Unnamed: 0,codigo_modelo_camiseta,descricao_modelo_camiseta
0,1,Regata
1,2,Com Manga


In [0]:
#Os DataFrames pandas possuem métodos construídos internamente para realizarem a ordenação dos valores de seus dados a partir de suas colunas
#https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.sort_values.html

#O método sort_values(parametro) é utilizado para tal operação é possível ordenar os dados a partir de uma coluna passando seu nome como parâmetro entre os parênteses sort_values("col1") , também sendo possível realizar a ordenação por mais de uma coluna , passando uma lista de strings contendo os nomes das colunas como sort_values(['col1','col2'])
df_test.sort_values('nome')

df_test.sort_values(['nome','idade'])

df_test.sort_values(by=['nome','idade'], ascending=False)


Unnamed: 0,nome,sobrenome,idade,tamanho_camiseta,codigo_modelo_camiseta
3,Schopenhauer,Souza,30,M,1
2,Ricardo,Pereira,30,GG,2
1,Pedro,Matos,12,G,1
0,Joao,Silva,23,M,1


In [0]:
#É possível realizar filtros nos dados do DataFrame utilizando a sintaxe abaixo:
## dataframe_ex[dataframe_ex['atributo']>1000] - neste exemplo filtraríamos valores acima de 1000 da coluna atributo 

df_test[df_test['idade']>=30]


Unnamed: 0,nome,sobrenome,idade,tamanho_camiseta,codigo_modelo_camiseta
2,Ricardo,Pereira,30,GG,2
3,Schopenhauer,Souza,30,M,1


In [0]:
#É possível unir colunas para criar uma nova
df_test['nome_completo'] = df_test['nome']+" "+df_test['sobrenome']
df_test

Unnamed: 0,nome,sobrenome,idade,tamanho_camiseta,codigo_modelo_camiseta,nome_completo
0,Joao,Silva,23,M,1,Joao Silva
1,Pedro,Matos,12,G,1,Pedro Matos
2,Ricardo,Pereira,30,GG,2,Ricardo Pereira
3,Schopenhauer,Souza,30,M,1,Schopenhauer Souza


In [0]:
#É possível tornar um campo do nosso DataFrame como o índice utilizando o método set_index()

valores_agencias = [(1,"Comunica","2019"),(2,"Ampla","1994"),(3,"Optima","2002")]
colunas_agencias = ["codigo_agencia", "nome_agencia","ano_agencia"]

df_agencia = pd.DataFrame(valores_agencias, columns=colunas_agencias)
df_agencia

df_agencia.set_index("codigo_agencia")

Unnamed: 0_level_0,nome_agencia,ano_agencia
codigo_agencia,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Comunica,2019
2,Ampla,1994
3,Optima,2002


In [0]:
#Mergeando Dataframes

#https://pandas.pydata.org/docs/user_guide/merging.html

df1 = pd.DataFrame(
    {
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    },
    index=[0, 1, 2, 3],
)


df2 = pd.DataFrame(
    {
        "A": ["A4", "A5", "A6", "A7"],
        "B": ["B4", "B5", "B6", "B7"],
        "C": ["C4", "C5", "C6", "C7"],
        "D": ["D4", "D5", "D6", "D7"],
    },
    index=[4, 5, 6, 7],
)


df3 = pd.DataFrame(
    {
        "A": ["A8", "A9", "A10", "A11"],
        "B": ["B8", "B9", "B10", "B11"],
        "C": ["C8", "C9", "C10", "C11"],
        "D": ["D8", "D9", "D10", "D11"],
    },
    index=[8, 9, 10, 11],
)

df_all = pd.concat([df1, df2, df3])
df_all

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [0]:
#Realizando Join de Dataframes
##https://datacarpentry.org/python-socialsci/11-joins/index.html

valores_projetos_agencia = [(1,2, "Carnaval 2000"),(2,2, "Carnaval 2001"),(3,1, "Carnaval 2002"),(4,1, "Carnaval 2005"),(5,2, "Carnaval 2006"),(6,1, "Carnaval 2007"),(7,2, "Carnaval 2008"),(8,1, "Carnaval 2009"),(9,2, "Carnaval 2010"),(10,1, "Carnaval 2011"),(11,1, "Carnaval 2012"),(12,1, "Carnaval 2013"),(13,2, "Carnaval 2014"),(14,1, "Carnaval 2015"),(15,2, "Carnaval 2016"),(16,2, "Carnaval 2017"),(17,1, "Carnaval 2018"),(18,1, "Carnaval 2019"),(19,1, "Carnaval 2020"),(20,1, "Carnaval 2022"),(21,1, "São João 2002"),(22,3, "São João 2003"),(23,3, "São João 2004"),(24,3, "São João 2005"),(25,3, "São João 2006"),(26,3, "São João 2007"),(27,1, "São João 2017"),(28,3, "São João 2015")]
colunas_projetos_agencia = ['codigo_projeto','codigo_agencia','nome_projeto']

df_projetos_agencia = pd.DataFrame(valores_projetos_agencia, columns=colunas_projetos_agencia)

df_projetos_agencia.head(3)

Unnamed: 0,codigo_projeto,codigo_agencia,nome_projeto
0,1,2,Carnaval 2000
1,2,2,Carnaval 2001
2,3,1,Carnaval 2002


In [0]:
df_agencias_e_projetos = pd.merge(df_agencia, df_projetos_agencia, how='inner', on='codigo_agencia')

In [0]:
df_agencias_e_projetos.head(3)

Unnamed: 0,codigo_agencia,nome_agencia,ano_agencia,codigo_projeto,nome_projeto
0,1,Comunica,2019,3,Carnaval 2002
1,1,Comunica,2019,4,Carnaval 2005
2,1,Comunica,2019,6,Carnaval 2007
