## Instalando o PySpark no Google Colab

In [None]:
!pip install pyspark



# Primeiros passos com PySpark

Primeiramente, vamos iniciar nossa SparkSession

In [None]:
from pyspark.sql import SparkSession
sc = SparkSession.builder.master('local[*]').getOrCreate()

## Manipulação de dados

Existem vários métodos populares para manipulação de DataFrames no PySpark, que é a biblioteca do Apache Spark para processamento de dados distribuídos. Aqui estão alguns métodos comuns no PySpark, comparados com métodos populares equivalentes no pandas:

Leitura de dados:

- PySpark: spark.read.format().load() ou spark.read.csv()
- Pandas: pd.read_csv() ou pd.read_excel()

Exibição de dados:

- PySpark: df.show(), df.printSchema(), df.head()
- Pandas: df.head(), df.info(), df.describe()

Seleção de colunas:

- PySpark: df.select('column_name'),
- Pandas: df['column_name'], df.loc[:, 'column_name']

Filtragem de dados:

- PySpark: df.filter(), df.where()
- Pandas: df[df['condition']], df.loc[df['condition']]

Agrupamento e agregação:

- PySpark: df.groupBy().agg(), df.groupby().sum()
- Pandas: df.groupby().agg(), df.groupby().sum()

Ordenação de dados:

- PySpark: df.orderBy(), df.sort()
- Pandas: df.sort_values(), df.sort_index()

Adição e remoção de colunas:

- PySpark: df.withColumn(), df.drop()
- Pandas: df['new_column'] = value, df.drop()

Junção de DataFrames:

- PySpark: df.join()
- Pandas: df.merge(), df.merge()

Operações de agregação personalizadas:

- PySpark: functions, pyspark.sql.functions
- Pandas: groupby().apply(), funções personalizadas do Python

Vamos ler um arquivo .csv disponibilizado pelo Airbnb utilizando o método `read.csv()`

In [None]:
!wget --quiet --show-progress https://rtvad.blob.core.windows.net/misc-data/listings.csv



### `read.format().load()` ou `spark.read.csv()`
   Esses comandos são utilizados para carregar dados de um arquivo ou fonte externa para um DataFrame no Pyspark.

In [None]:
df_spark = sc.read.csv("./listings.csv", inferSchema=True, header=True)

### `show()`
   Esse comando é usado para exibir uma prévia dos dados do DataFrame em formato de tabela.

In [None]:
df_spark.show()

+------------------+--------------------+---------+---------------+-------------------+--------------------+------------------+------------------+---------------+-----+--------------+-----------------+-----------+-----------------+------------------------------+----------------+---------------------+-------+
|                id|                name|  host_id|      host_name|neighbourhood_group|       neighbourhood|          latitude|         longitude|      room_type|price|minimum_nights|number_of_reviews|last_review|reviews_per_month|calculated_host_listings_count|availability_365|number_of_reviews_ltm|license|
+------------------+--------------------+---------+---------------+-------------------+--------------------+------------------+------------------+---------------+-----+--------------+-----------------+-----------+-----------------+------------------------------+----------------+---------------------+-------+
|          29051942|Rental unit in Ip...|  4307081|        Nereu A|   

### `printSchema()`
   Esse comando mostra o esquema do DataFrame, exibindo a estrutura dos campos e seus tipos de dados.

In [None]:
df_spark.printSchema()

root
 |-- id: long (nullable = true)
 |-- name: string (nullable = true)
 |-- host_id: integer (nullable = true)
 |-- host_name: string (nullable = true)
 |-- neighbourhood_group: string (nullable = true)
 |-- neighbourhood: string (nullable = true)
 |-- latitude: double (nullable = true)
 |-- longitude: double (nullable = true)
 |-- room_type: string (nullable = true)
 |-- price: integer (nullable = true)
 |-- minimum_nights: integer (nullable = true)
 |-- number_of_reviews: integer (nullable = true)
 |-- last_review: date (nullable = true)
 |-- reviews_per_month: double (nullable = true)
 |-- calculated_host_listings_count: integer (nullable = true)
 |-- availability_365: integer (nullable = true)
 |-- number_of_reviews_ltm: integer (nullable = true)
 |-- license: string (nullable = true)



### `head()`
   Esse comando retorna as primeiras linhas do DataFrame como uma lista.

In [None]:
df_spark.head()

Row(id=29051942, name='Rental unit in Ipanema · Studio · 1 bed · 1 bath', host_id=4307081, host_name='Nereu A', neighbourhood_group=None, neighbourhood='Ipanema', latitude=-22.98341, longitude=-43.2147, room_type='Entire home/apt', price=334, minimum_nights=3, number_of_reviews=1, last_review=datetime.date(2018, 10, 7), reviews_per_month=0.02, calculated_host_listings_count=52, availability_365=362, number_of_reviews_ltm=0, license=None)

### `select()`
   Esse comando permite selecionar colunas específicas do DataFrame.

In [None]:
selected_df = df_spark.select('name')
selected_df.show()

+--------------------+
|                name|
+--------------------+
|Rental unit in Ip...|
|Home in Rio de Ja...|
|Home in Rio · 2 b...|
|Rental unit in Bo...|
|Condo in Campo Gr...|
|Home in Copacaban...|
|Rental unit in Ri...|
|Home in Rio de Ja...|
|Rental unit in Ri...|
|Rental unit in Ri...|
|Home in Rio · 3 b...|
|Rental unit in Ri...|
|Rental unit in Ri...|
|Rental unit in Ri...|
|Hostel in Rio de ...|
|Rental unit in Ri...|
|Loft in Rio de Ja...|
|Home in Rio de Ja...|
|Rental unit in Ri...|
|Rental unit in Ri...|
+--------------------+
only showing top 20 rows



### `df.filter` ou `df.where`
   Esses comandos são usados para filtrar registros com base em condições específicas.

In [None]:
filtered_df = df_spark.filter(df_spark["price"] > 100)
filtered_df.show()

+------------------+--------------------+---------+---------------+-------------------+--------------------+------------------+------------------+---------------+-----+--------------+-----------------+-----------+-----------------+------------------------------+----------------+---------------------+-------+
|                id|                name|  host_id|      host_name|neighbourhood_group|       neighbourhood|          latitude|         longitude|      room_type|price|minimum_nights|number_of_reviews|last_review|reviews_per_month|calculated_host_listings_count|availability_365|number_of_reviews_ltm|license|
+------------------+--------------------+---------+---------------+-------------------+--------------------+------------------+------------------+---------------+-----+--------------+-----------------+-----------+-----------------+------------------------------+----------------+---------------------+-------+
|          29051942|Rental unit in Ip...|  4307081|        Nereu A|   

### `df.groupby.agg`
   Esse comando é utilizado para agrupar o DataFrame por uma ou mais colunas e aplicar uma ou mais operações agregadas, como sum, count, mean, etc.

In [None]:
aggregated_df = df_spark.groupby("neighbourhood").agg({"price": "avg", "number_of_reviews": "sum"})
aggregated_df.show()

+-------------------+------------------+----------------------+
|      neighbourhood|        avg(price)|sum(number_of_reviews)|
+-------------------+------------------+----------------------+
|             Cocotá|             230.0|                     2|
|              Gávea| 991.0049751243781|                  2000|
|       Tomás Coelho|             100.5|                     4|
|            Ipanema| 966.4082763115022|                 85048|
|           Realengo|           955.625|                    12|
|      Gardênia Azul| 381.2647058823529|                   185|
|              Rocha| 444.3333333333333|                    26|
|      Bento Ribeiro| 286.8181818181818|                   176|
|Vicente de Carvalho|              94.5|                    14|
|         Manguinhos|             117.0|                     0|
|           Botafogo| 753.7788461538462|                 25471|
|               Leme| 514.1632653061224|                 11791|
|        Jacarepaguá| 679.3083280356008|

### `df.groupby.sum`
   Esse comando é usado para agrupar o DataFrame por uma ou mais colunas e calcular a soma de uma ou mais colunas numéricas.

In [None]:
summed_df = df_spark.groupby("neighbourhood").sum("price", "number_of_reviews")
summed_df.show()

+-------------------+----------+----------------------+
|      neighbourhood|sum(price)|sum(number_of_reviews)|
+-------------------+----------+----------------------+
|             Cocotá|       690|                     2|
|              Gávea|    199192|                  2000|
|       Tomás Coelho|       402|                     4|
|            Ipanema|   2965907|                 85048|
|           Realengo|      7645|                    12|
|      Gardênia Azul|     12963|                   185|
|              Rocha|      3999|                    26|
|      Bento Ribeiro|      3155|                   176|
|Vicente de Carvalho|       189|                    14|
|         Manguinhos|       117|                     0|
|           Botafogo|   1019109|                 25471|
|               Leme|    302328|                 11791|
|        Jacarepaguá|   1068552|                 17136|
|       Campo Grande|     63741|                   918|
|            Rocinha|     15574|                

### `df.orderBy` ou `df.sort`
   Esses comandos são utilizados para ordenar o DataFrame com base em uma ou mais colunas.

In [None]:
sorted_df = df_spark.orderBy("price")
sorted_df.show()

+------------------+--------------------+---------+----------------+-------------------+--------------------+-------------------+-------------------+---------------+-----+--------------+-----------------+-----------+-----------------+------------------------------+----------------+---------------------+-------+
|                id|                name|  host_id|       host_name|neighbourhood_group|       neighbourhood|           latitude|          longitude|      room_type|price|minimum_nights|number_of_reviews|last_review|reviews_per_month|calculated_host_listings_count|availability_365|number_of_reviews_ltm|license|
+------------------+--------------------+---------+----------------+-------------------+--------------------+-------------------+-------------------+---------------+-----+--------------+-----------------+-----------+-----------------+------------------------------+----------------+---------------------+-------+
|          43148322|Hotel in Barra da...|315032561|  Américas

### `df.withColumn`
  Esse comando permite criar uma nova coluna ou substituir os valores de uma coluna existente.

In [None]:
updated_df = df_spark.withColumn("reviews_per_month_int", df_spark["reviews_per_month"].cast("integer"))
updated_df.show()

+------------------+--------------------+---------+---------------+-------------------+--------------------+------------------+------------------+---------------+-----+--------------+-----------------+-----------+-----------------+------------------------------+----------------+---------------------+-------+---------------------+
|                id|                name|  host_id|      host_name|neighbourhood_group|       neighbourhood|          latitude|         longitude|      room_type|price|minimum_nights|number_of_reviews|last_review|reviews_per_month|calculated_host_listings_count|availability_365|number_of_reviews_ltm|license|reviews_per_month_int|
+------------------+--------------------+---------+---------------+-------------------+--------------------+------------------+------------------+---------------+-----+--------------+-----------------+-----------+-----------------+------------------------------+----------------+---------------------+-------+---------------------+
|   