<font color='red' style='font-size: 40px;'> 1) Trabalhando com Dataframes - Parte 1</font>
<hr style='border: 2px solid red;'>

## 1.1) Criaçao de DataFrame 

In [2]:
from datetime import datetime, date
from pyspark.sql import Row

df = spark.createDataFrame([
    Row(Cidade = 'Salvador', Populacao = 6., Time = 'Bahia', Data_Cadastro = date(2022, 12, 19)),
    Row(Cidade = 'Sao Paulo', Populacao = 45., Time = 'Palmeiras', Data_Cadastro = date(2022, 5, 5)),
    Row(Cidade = 'Recife', Populacao = 3., Time = 'Sport', Data_Cadastro = date(2022, 7, 2)),
    Row(Cidade = 'Maceio', Populacao = 2., Time = 'CSA', Data_Cadastro = date(2022, 8, 1))
])
df

DataFrame[Cidade: string, Populacao: double, Time: string, Data_Cadastro: date]

In [3]:
# Exibindo dados do DataFrame
df.show()

+---------+---------+---------+-------------+
|   Cidade|Populacao|     Time|Data_Cadastro|
+---------+---------+---------+-------------+
| Salvador|      6.0|    Bahia|   2022-12-19|
|Sao Paulo|     45.0|Palmeiras|   2022-05-05|
|   Recife|      3.0|    Sport|   2022-07-02|
|   Maceio|      2.0|      CSA|   2022-08-01|
+---------+---------+---------+-------------+



In [4]:
# Exibindo três registros do Dataframe na vertical
df.show(3, vertical = True)

-RECORD 0-------------------
 Cidade        | Salvador   
 Populacao     | 6.0        
 Time          | Bahia      
 Data_Cadastro | 2022-12-19 
-RECORD 1-------------------
 Cidade        | Sao Paulo  
 Populacao     | 45.0       
 Time          | Palmeiras  
 Data_Cadastro | 2022-05-05 
-RECORD 2-------------------
 Cidade        | Recife     
 Populacao     | 3.0        
 Time          | Sport      
 Data_Cadastro | 2022-07-02 
only showing top 3 rows



In [5]:
# Exibindo todos os dados com o collect()
df.collect()

[Row(Cidade='Salvador', Populacao=6.0, Time='Bahia', Data_Cadastro=datetime.date(2022, 12, 19)),
 Row(Cidade='Sao Paulo', Populacao=45.0, Time='Palmeiras', Data_Cadastro=datetime.date(2022, 5, 5)),
 Row(Cidade='Recife', Populacao=3.0, Time='Sport', Data_Cadastro=datetime.date(2022, 7, 2)),
 Row(Cidade='Maceio', Populacao=2.0, Time='CSA', Data_Cadastro=datetime.date(2022, 8, 1))]

In [6]:
# Sumarizando Estatísticas Descritivas 
df.select('Cidade', 'Populacao').describe().show()

+-------+---------+-----------------+
|summary|   Cidade|        Populacao|
+-------+---------+-----------------+
|  count|        4|                4|
|   mean|     null|             14.0|
| stddev|     null|20.73644135332772|
|    min|   Maceio|              2.0|
|    max|Sao Paulo|             45.0|
+-------+---------+-----------------+



In [7]:
# Exibindo o Schema do Dataframe
df.printSchema()

root
 |-- Cidade: string (nullable = true)
 |-- Populacao: double (nullable = true)
 |-- Time: string (nullable = true)
 |-- Data_Cadastro: date (nullable = true)



In [13]:
# Carregando o módulo de funçoes e criando uma Nova Coluna
from pyspark.sql.functions import upper, max, min, mean

df.withColumn('Cidade_U', upper(df.Cidade)).show()

+---------+---------+---------+-------------+---------+
|   Cidade|Populacao|     Time|Data_Cadastro| Cidade_U|
+---------+---------+---------+-------------+---------+
| Salvador|      6.0|    Bahia|   2022-12-19| SALVADOR|
|Sao Paulo|     45.0|Palmeiras|   2022-05-05|SAO PAULO|
|   Recife|      3.0|    Sport|   2022-07-02|   RECIFE|
|   Maceio|      2.0|      CSA|   2022-08-01|   MACEIO|
+---------+---------+---------+-------------+---------+



In [14]:
# Filtrando a Cidade de Salvador
df.filter(df.Cidade == 'Salvador').show()

+--------+---------+-----+-------------+
|  Cidade|Populacao| Time|Data_Cadastro|
+--------+---------+-----+-------------+
|Salvador|      6.0|Bahia|   2022-12-19|
+--------+---------+-----+-------------+



In [17]:
# Ordena o dataframe pela coluna Populacao
df.sort('Populacao', ascending = False).show()

+---------+---------+---------+-------------+
|   Cidade|Populacao|     Time|Data_Cadastro|
+---------+---------+---------+-------------+
|Sao Paulo|     45.0|Palmeiras|   2022-05-05|
| Salvador|      6.0|    Bahia|   2022-12-19|
|   Recife|      3.0|    Sport|   2022-07-02|
|   Maceio|      2.0|      CSA|   2022-08-01|
+---------+---------+---------+-------------+



In [18]:
# Renomeando uma coluna no dataframe
df.withColumnRenamed('Cidade_U', 'Cidade_UPPER').show()

+---------+---------+---------+-------------+
|   Cidade|Populacao|     Time|Data_Cadastro|
+---------+---------+---------+-------------+
| Salvador|      6.0|    Bahia|   2022-12-19|
|Sao Paulo|     45.0|Palmeiras|   2022-05-05|
|   Recife|      3.0|    Sport|   2022-07-02|
|   Maceio|      2.0|      CSA|   2022-08-01|
+---------+---------+---------+-------------+



In [19]:
# Criando uma tabela temporária em memória com os dados e utilizando consulta SQL
df.createOrReplaceTempView('Dados')
spark.sql('select count(*) as quantidade from Dados').show()

+----------+
|quantidade|
+----------+
|         4|
+----------+



## 1.2) Transformando um RDD em Dataframe

In [27]:
# carregando os dados sobre Capital de países
paises = [('Brasil', 100000), ('Argentina', 20000), ('Australia', 35000), ('Italia', 40000), ('Egito', 65000), ('Mexico', 80000)]
rddpaises = spark.sparkContext.parallelize(paises)

In [28]:
# Convertendo os dados do RDD para Dataframe com a operaçao toDF()
dataframerdd = rddpaises.toDF()

In [29]:
# Exibindo os dados do Dataframe
dataframerdd.show()

+---------+------+
|       _1|    _2|
+---------+------+
|   Brasil|100000|
|Argentina| 20000|
|Australia| 35000|
|   Italia| 40000|
|    Egito| 65000|
|   Mexico| 80000|
+---------+------+



In [30]:
# Criando o Schema das Colunas dos Campos do Dataframe
Colunas = ['Pais', 'Total_capital(Bilhoes)']
dataframerdd2 = rddpaises.toDF(Colunas)
dataframerdd2.printSchema()
dataframerdd2.show(truncate = False)

root
 |-- Pais: string (nullable = true)
 |-- Total_capital(Bilhoes): long (nullable = true)

+---------+----------------------+
|Pais     |Total_capital(Bilhoes)|
+---------+----------------------+
|Brasil   |100000                |
|Argentina|20000                 |
|Australia|35000                 |
|Italia   |40000                 |
|Egito    |65000                 |
|Mexico   |80000                 |
+---------+----------------------+



<font color='red' style='font-size: 40px;'> 2) Trabalhando com Dataframes - Parte 2</font>
<hr style='border: 2px solid red;'>

# Carregando dados de um arquivo para um Dataframe

> 1. Vamos analisar dados sobre alimentos, buscando realizar:
    
- Limpeza dos dados
- Separaçao de determinadas colunas
- Busca de respostas

> 2. Questoes a serem levantadas:
    
- Há inconsistência nos dados?
- É possível verificar características de sobrepeso nos dados, já que este atributo nao existe?
- Qual resultado é possível interpretar com a pesquisa por sobrepeso?

In [31]:
from pyspark.sql import SparkSession

# criando um objeto SparkSession e um appName
spark = SparkSession.builder.appName('fooddf').getOrCreate()


In [32]:
# Fazendo leitura do arquivo food_coded.csv
df = spark.read.option('header', 'True').csv('food_coded.csv')

In [33]:
# Exibindo 10 primeiras linhas
df.show(10)

+---------------+------+--------------------+----------------+------------+--------------+------+--------------------+--------------------+---------------------------+----+----------------------------+-------+--------------------+------------------+-----+--------------------+--------------------+---------------------+----------+----------+-----------+--------+----------------+-----------------+--------------------+-----------------+--------+--------------------+-----+---------+-----------+----------+---------------+--------------------+--------------------+----------------+------+-----------+------------+--------------+--------------+--------------------+----------------+--------------------+-----------------+-------------+------------+------------+------------+----------------------+----+------+---------+-----------------+---------------+-----------+-----------+--------+---------------+--------------------+
|            GPA|Gender|           breakfast|calories_chicken|calories_day|cal

In [34]:
# Exibindo o Schema
df.printSchema()

root
 |-- GPA: string (nullable = true)
 |-- Gender: string (nullable = true)
 |-- breakfast: string (nullable = true)
 |-- calories_chicken: string (nullable = true)
 |-- calories_day: string (nullable = true)
 |-- calories_scone: string (nullable = true)
 |-- coffee: string (nullable = true)
 |-- comfort_food: string (nullable = true)
 |-- comfort_food_reasons: string (nullable = true)
 |-- comfort_food_reasons_coded9: string (nullable = true)
 |-- cook: string (nullable = true)
 |-- comfort_food_reasons_coded11: string (nullable = true)
 |-- cuisine: string (nullable = true)
 |-- diet_current: string (nullable = true)
 |-- diet_current_coded: string (nullable = true)
 |-- drink: string (nullable = true)
 |-- eating_changes: string (nullable = true)
 |-- eating_changes_coded: string (nullable = true)
 |-- eating_changes_coded1: string (nullable = true)
 |-- eating_out: string (nullable = true)
 |-- employment: string (nullable = true)
 |-- ethnic_food: string (nullable = true)
 |-- e

In [35]:
# Selecionando algumas colunas
df.select('mother_profession', 'type_sports', 'Gender', 'weight', 'calories_day').show(30)

+--------------------+--------------------+------+--------------------+------------+
|   mother_profession|         type_sports|Gender|              weight|calories_day|
+--------------------+--------------------+------+--------------------+------------+
|          unemployed|          car racing|     2|                 187|         nan|
|           Nurse RN |         Basketball |     1|                 155|           3|
|       owns business|                none|     1|I'm not answering...|           4|
|                null|                null|     1|                null|           3|
|                null|                null|  null|                null|        null|
|                null|                null|     4|                null|           1|
|Substance Abuse C...|            Softball|     1|                 190|           2|
|        Hair Braider|               None.|     1|                 190|           3|
|          Journalist|              soccer|     2|               

In [36]:
# utilizando funcoes do pyspark
from pyspark.sql.functions import * # Importando todas as Bibliotecas

# Filtrando os dados que nao sao nulos
resultado_df1 = df.filter(df.weight.isNotNull()).select('mother_profession', 'type_sports', 'Gender', 'weight', 'calories_day')

# Exibindo os dados
resultado_df1.show()

+--------------------+--------------------+------+--------------------+------------+
|   mother_profession|         type_sports|Gender|              weight|calories_day|
+--------------------+--------------------+------+--------------------+------------+
|          unemployed|          car racing|     2|                 187|         nan|
|           Nurse RN |         Basketball |     1|                 155|           3|
|       owns business|                none|     1|I'm not answering...|           4|
|Substance Abuse C...|            Softball|     1|                 190|           2|
|        Hair Braider|               None.|     1|                 190|           3|
|          Journalist|              soccer|     2|                 180|           3|
|                cook|                none|     1|                 137|           3|
|Elementary School...|                none|     1|                 180|         nan|
|  Pharmaceutical rep|        field hockey|     1|               

In [37]:
# Retirando por meio de REGEX todos os caracteres que nao sejam numericos do campo weight
resultado_df2 = resultado_df1.filter(col('weight').rlike('^[0-9]*$'))
resultado_df2.show()

+--------------------+--------------------+------+------+------------+
|   mother_profession|         type_sports|Gender|weight|calories_day|
+--------------------+--------------------+------+------+------------+
|          unemployed|          car racing|     2|   187|         nan|
|           Nurse RN |         Basketball |     1|   155|           3|
|Substance Abuse C...|            Softball|     1|   190|           2|
|        Hair Braider|               None.|     1|   190|           3|
|          Journalist|              soccer|     2|   180|           3|
|                cook|                none|     1|   137|           3|
|Elementary School...|                none|     1|   180|         nan|
|  Pharmaceutical rep|        field hockey|     1|   125|           3|
|     Chidos Cleaners|              soccer|     1|   116|           3|
|     Court Reporter |             Running|     1|   110|           4|
|Child care provider |Soccer and basket...|     2|   264|           3|
|     

In [39]:
# Gerando uma agregaçao dos dados por Gender e Weight
resultado_df2.groupBy('Gender', 'weight').count().orderBy('weight').show()

+------+------+-----+
|Gender|weight|count|
+------+------+-----+
|     1|     1|    1|
|     1|   100|    1|
|     1|   105|    1|
|     1|   110|    1|
|     1|   112|    1|
|     1|   113|    1|
|     1|   115|    1|
|     1|   116|    1|
|     1|   120|    3|
|     1|   123|    1|
|     1|   125|    4|
|     1|   127|    1|
|     1|   128|    2|
|     1|   129|    2|
|     1|   130|    3|
|     1|   135|    7|
|     2|   135|    1|
|     1|   137|    1|
|     2|   140|    2|
|     1|   140|    6|
+------+------+-----+
only showing top 20 rows



In [42]:
# Selecionando os registros cujos weight >= 150, indicando sobrepeso, separando por tipo de esporte
resultado_df3 = resultado_df2.select('type_sports', when(resultado_df2.weight >= 150, 'Sobrepeso'))
resultado_df3.show()

+--------------------+--------------------------------------------+
|         type_sports|CASE WHEN (weight >= 150) THEN Sobrepeso END|
+--------------------+--------------------------------------------+
|          car racing|                                   Sobrepeso|
|         Basketball |                                   Sobrepeso|
|            Softball|                                   Sobrepeso|
|               None.|                                   Sobrepeso|
|              soccer|                                   Sobrepeso|
|                none|                                        null|
|                none|                                   Sobrepeso|
|        field hockey|                                        null|
|              soccer|                                        null|
|             Running|                                        null|
|Soccer and basket...|                                   Sobrepeso|
|intramural volley...|                          

In [43]:
# Retirando as informacoes nulas de Sobrepeso
resultado_df4 = resultado_df3.filter(resultado_df3[1].isNotNull())
resultado_df4.show()

+--------------------+--------------------------------------------+
|         type_sports|CASE WHEN (weight >= 150) THEN Sobrepeso END|
+--------------------+--------------------------------------------+
|          car racing|                                   Sobrepeso|
|         Basketball |                                   Sobrepeso|
|            Softball|                                   Sobrepeso|
|               None.|                                   Sobrepeso|
|              soccer|                                   Sobrepeso|
|                none|                                   Sobrepeso|
|Soccer and basket...|                                   Sobrepeso|
|              Hockey|                                   Sobrepeso|
|              Hockey|                                   Sobrepeso|
|              hockey|                                   Sobrepeso|
|          basketball|                                   Sobrepeso|
|              Soccer|                          

In [44]:
# Retirando as informacoes none, None., nan do primeiro campo (type_sports)
resultado_df4.filter((resultado_df3[0] != 'none') & (resultado_df3[0] != 'None.') & (resultado_df3[0] != 'nan')).show()

+--------------------+--------------------------------------------+
|         type_sports|CASE WHEN (weight >= 150) THEN Sobrepeso END|
+--------------------+--------------------------------------------+
|          car racing|                                   Sobrepeso|
|         Basketball |                                   Sobrepeso|
|            Softball|                                   Sobrepeso|
|              soccer|                                   Sobrepeso|
|Soccer and basket...|                                   Sobrepeso|
|              Hockey|                                   Sobrepeso|
|              Hockey|                                   Sobrepeso|
|              hockey|                                   Sobrepeso|
|          basketball|                                   Sobrepeso|
|              Soccer|                                   Sobrepeso|
|              Tennis|                                   Sobrepeso|
|   tennis soccer gym|                          