<a href="https://colab.research.google.com/github/julioreis-dev/tutorial_pandas/blob/main/Big_Data_Como_instalar_o_PySpark_no_Google_Colab.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Big Data: Como instalar o PySpark no Google Colab

Como instalar o PySpark no Google Colab é uma dúvida comum entre aqueles que estão migrando seus projetos de Data Science para ambientes na nuvem.

O termo Big Data está cada vez mais presente, e mesmo projetos pessoais podem assumir uma grande dimensionalidade devido à quantidade de dados disponíveis.

Para analisar grandes volumes de dados, Big Data, com velocidade, o Apache Spark é uma ferramenta muito utilizada, dada a sua capacidade de processamento de dados e computação paralela.

O Spark foi pensado para ser acessível, oferecendo diversas APIs e frameworks em Python, Scala, SQL e diversas outras linguagens.

## PySpark no Google Colab

PySpark é a interface alto nível que permite você conseguir acessar e usar o Spark por meio da linguagem Python. Usando o PySpark, você consegue escrever todo o seu código usando apenas o nosso estilo Python de escrever código.

Já o Google Colab é uma ferramenta incrível, poderosa e gratuita – com suporte de GPU inclusive. Uma vez que roda 100% na nuvem, você não tem a necessidade de instalar qualquer coisa na sua própria máquina.

No entanto, apesar da maioria das bibliotecas de Data Science estarem previamente instaladas no Colab, o mesmo não acontece com o PySpark. Para conseguir usar o PySpark é necessário alguns passos intermediários, que não são triviais para aqueles que estão começando.

Dessa maneira, preparei um tutorial simples e direto ensinando a instalar as dependências e a biblioteca.

## Instalando o PySpark no Google Colab

Instalar o PySpark não é um processo direto como de praxe em Python. Não basta usar um pip install apenas. Na verdade, antes de tudo é necessário instalar dependências como o Java 8, Apache Spark 2.3.2 junto com o Hadoop 2.7.

In [None]:
# instalar as dependências
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://archive.apache.org/dist/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz
!tar xf spark-2.4.4-bin-hadoop2.7.tgz
!pip install -q findspark

A próxima etapa é configurar as variáveis de ambiente, pois isso habilita o ambiente do Colab a identificar corretamente onde as dependências estão rodando.

Para conseguir “manipular” o terminal e interagir como ele, você pode usar a biblioteca os.

In [None]:
# configurar as variáveis de ambient
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.4.4-bin-hadoop2.7"

# tornar o pyspark "importável"
import findspark
findspark.init('spark-2.4.4-bin-hadoop2.7')

Com tudo pronto, vamos rodar uma sessão local para testar se a instalação funcionou corretamente.

In [None]:
# iniciar uma sessão local e importar dados do Airbnb
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Practise').getOrCreate()

# download do http para arquivo local
# !wget --quiet --show-progress http://data.insideairbnb.com/brazil/rj/rio-de-janeiro/2019-07-15/visualisations/listings.csv

# carregar dados do Airbnb
df_spark = spark.read.csv("/content/sample_data/california_housing_test.csv", inferSchema=True, header=True)

# ver algumas informações sobre os tipos de dados de cada coluna
df_spark.printSchema()

root
 |-- longitude: double (nullable = true)
 |-- latitude: double (nullable = true)
 |-- housing_median_age: double (nullable = true)
 |-- total_rooms: double (nullable = true)
 |-- total_bedrooms: double (nullable = true)
 |-- population: double (nullable = true)
 |-- households: double (nullable = true)
 |-- median_income: double (nullable = true)
 |-- median_house_value: double (nullable = true)



## Big Data e Python

A biblioteca PySpark permite você criar seu servidor Apache Spark, trabalhar com grandes volumes de dados e até mesmo fazer streaming em tempo real.

Na minha opinião, o Spark é o melhor framework para trabalhar com Big Data. Tenha certeza que o PySpark vai te ajudar muito ao criar uma interface Python que permita a comunicação entre seu projeto e o servidor.

Neste artigo, o meu objetivo foi unicamente apresentar a biblioteca, além de ensinar como você pode instalá-la em um ambiente de nuvem gratuito, o Google Colab. Aproveite e comece a usar hoje mesmo 🙂

In [None]:
spark

In [None]:
df_spark


DataFrame[longitude: double, latitude: double, housing_median_age: double, total_rooms: double, total_bedrooms: double, population: double, households: double, median_income: double, median_house_value: double]

In [None]:
df_spark.describe()

DataFrame[summary: string, longitude: string, latitude: string, housing_median_age: string, total_rooms: string, total_bedrooms: string, population: string, households: string, median_income: string, median_house_value: string]

In [None]:
df_spark.describe().show()

+-------+-------------------+------------------+------------------+-----------------+------------------+------------------+------------------+------------------+------------------+
|summary|          longitude|          latitude|housing_median_age|      total_rooms|    total_bedrooms|        population|        households|     median_income|median_house_value|
+-------+-------------------+------------------+------------------+-----------------+------------------+------------------+------------------+------------------+------------------+
|  count|               3000|              3000|              3000|             3000|              3000|              3000|              3000|              3000|              3000|
|   mean|-119.58920000000029| 35.63538999999999|28.845333333333333|2599.578666666667| 529.9506666666666|1402.7986666666666|           489.912| 3.807271799999998|        205846.275|
| stddev| 1.9949362939550166|2.1296695233438334|12.555395554955757|2155.593331625582|415.654368

In [None]:
df_spark.show()

+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|longitude|latitude|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|
+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|  -122.05|   37.37|              27.0|     3885.0|         661.0|    1537.0|     606.0|       6.6085|          344700.0|
|   -118.3|   34.26|              43.0|     1510.0|         310.0|     809.0|     277.0|        3.599|          176500.0|
|  -117.81|   33.78|              27.0|     3589.0|         507.0|    1484.0|     495.0|       5.7934|          270500.0|
|  -118.36|   33.82|              28.0|       67.0|          15.0|      49.0|      11.0|       6.1359|          330000.0|
|  -119.67|   36.33|              19.0|     1241.0|         244.0|     850.0|     237.0|       2.9375|           81700.0|
|  -119.56|   36.51|    

In [None]:
type(df_spark)

pyspark.sql.dataframe.DataFrame

In [None]:
df_spark.columns

['longitude',
 'latitude',
 'housing_median_age',
 'total_rooms',
 'total_bedrooms',
 'population',
 'households',
 'median_income',
 'median_house_value']

In [None]:
df_spark.head(3)

[Row(longitude=-122.05, latitude=37.37, housing_median_age=27.0, total_rooms=3885.0, total_bedrooms=661.0, population=1537.0, households=606.0, median_income=6.6085, median_house_value=344700.0),
 Row(longitude=-118.3, latitude=34.26, housing_median_age=43.0, total_rooms=1510.0, total_bedrooms=310.0, population=809.0, households=277.0, median_income=3.599, median_house_value=176500.0),
 Row(longitude=-117.81, latitude=33.78, housing_median_age=27.0, total_rooms=3589.0, total_bedrooms=507.0, population=1484.0, households=495.0, median_income=5.7934, median_house_value=270500.0)]

In [None]:
df_spark.select('longitude')

DataFrame[longitude: double]

In [None]:
df_spark.select('longitude').show()

+---------+
|longitude|
+---------+
|  -122.05|
|   -118.3|
|  -117.81|
|  -118.36|
|  -119.67|
|  -119.56|
|  -121.43|
|  -120.65|
|  -122.84|
|  -118.02|
|  -118.24|
|  -119.12|
|  -121.93|
|  -117.03|
|  -117.97|
|  -117.99|
|  -120.81|
|   -121.2|
|  -118.88|
|  -122.59|
+---------+
only showing top 20 rows



In [None]:
df_spark.select(['longitude', 'population']).show()

+---------+----------+
|longitude|population|
+---------+----------+
|  -122.05|    1537.0|
|   -118.3|     809.0|
|  -117.81|    1484.0|
|  -118.36|      49.0|
|  -119.67|     850.0|
|  -119.56|     663.0|
|  -121.43|     604.0|
|  -120.65|    1341.0|
|  -122.84|    1446.0|
|  -118.02|    2830.0|
|  -118.24|    1288.0|
|  -119.12|     564.0|
|  -121.93|     535.0|
|  -117.03|    1935.0|
|  -117.97|    1217.0|
|  -117.99|     157.0|
|  -120.81|     189.0|
|   -121.2|    1603.0|
|  -118.88|     654.0|
|  -122.59|    3450.0|
+---------+----------+
only showing top 20 rows



In [None]:
df_spark.dtypes

[('longitude', 'double'),
 ('latitude', 'double'),
 ('housing_median_age', 'double'),
 ('total_rooms', 'double'),
 ('total_bedrooms', 'double'),
 ('population', 'double'),
 ('households', 'double'),
 ('median_income', 'double'),
 ('median_house_value', 'double')]

# ***Adicionando colunas***

In [None]:
df_spark=df_spark.withColumn('Experience', df_spark['latitude']+2)

In [None]:
df_spark.show()

+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+----------+
|longitude|latitude|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|Experience|
+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+----------+
|  -122.05|   37.37|              27.0|     3885.0|         661.0|    1537.0|     606.0|       6.6085|          344700.0|     39.37|
|   -118.3|   34.26|              43.0|     1510.0|         310.0|     809.0|     277.0|        3.599|          176500.0|     36.26|
|  -117.81|   33.78|              27.0|     3589.0|         507.0|    1484.0|     495.0|       5.7934|          270500.0|     35.78|
|  -118.36|   33.82|              28.0|       67.0|          15.0|      49.0|      11.0|       6.1359|          330000.0|     35.82|
|  -119.67|   36.33|              19.0|     1241.0|         244.0|   

# ***Removendo colunas***

In [None]:
df_spark=df_spark.drop('Experience')

In [None]:
df_spark.show()

+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|longitude|latitude|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|
+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|  -122.05|   37.37|              27.0|     3885.0|         661.0|    1537.0|     606.0|       6.6085|          344700.0|
|   -118.3|   34.26|              43.0|     1510.0|         310.0|     809.0|     277.0|        3.599|          176500.0|
|  -117.81|   33.78|              27.0|     3589.0|         507.0|    1484.0|     495.0|       5.7934|          270500.0|
|  -118.36|   33.82|              28.0|       67.0|          15.0|      49.0|      11.0|       6.1359|          330000.0|
|  -119.67|   36.33|              19.0|     1241.0|         244.0|     850.0|     237.0|       2.9375|           81700.0|
|  -119.56|   36.51|    

In [None]:
df_spark = df_spark.withColumnRenamed('longitude', 'long')

In [None]:
df_spark.show()

+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|   long|latitude|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|
+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|-122.05|   37.37|              27.0|     3885.0|         661.0|    1537.0|     606.0|       6.6085|          344700.0|
| -118.3|   34.26|              43.0|     1510.0|         310.0|     809.0|     277.0|        3.599|          176500.0|
|-117.81|   33.78|              27.0|     3589.0|         507.0|    1484.0|     495.0|       5.7934|          270500.0|
|-118.36|   33.82|              28.0|       67.0|          15.0|      49.0|      11.0|       6.1359|          330000.0|
|-119.67|   36.33|              19.0|     1241.0|         244.0|     850.0|     237.0|       2.9375|           81700.0|
|-119.56|   36.51|              37.0|   

In [None]:
df_spark.na.drop().show()

+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|   long|latitude|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|
+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|-122.05|   37.37|              27.0|     3885.0|         661.0|    1537.0|     606.0|       6.6085|          344700.0|
| -118.3|   34.26|              43.0|     1510.0|         310.0|     809.0|     277.0|        3.599|          176500.0|
|-117.81|   33.78|              27.0|     3589.0|         507.0|    1484.0|     495.0|       5.7934|          270500.0|
|-118.36|   33.82|              28.0|       67.0|          15.0|      49.0|      11.0|       6.1359|          330000.0|
|-119.67|   36.33|              19.0|     1241.0|         244.0|     850.0|     237.0|       2.9375|           81700.0|
|-119.56|   36.51|              37.0|   

In [None]:
df_spark.count()

3000

In [None]:
len(df_spark.columns)

9

In [None]:
df_spark.na.fill('Missing').show()

+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|   long|latitude|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|
+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|-122.05|   37.37|              27.0|     3885.0|         661.0|    1537.0|     606.0|       6.6085|          344700.0|
| -118.3|   34.26|              43.0|     1510.0|         310.0|     809.0|     277.0|        3.599|          176500.0|
|-117.81|   33.78|              27.0|     3589.0|         507.0|    1484.0|     495.0|       5.7934|          270500.0|
|-118.36|   33.82|              28.0|       67.0|          15.0|      49.0|      11.0|       6.1359|          330000.0|
|-119.67|   36.33|              19.0|     1241.0|         244.0|     850.0|     237.0|       2.9375|           81700.0|
|-119.56|   36.51|              37.0|   

In [None]:
df_spark.na.fill('Missing', subset=['long']).show()

+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|   long|latitude|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|
+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|-122.05|   37.37|              27.0|     3885.0|         661.0|    1537.0|     606.0|       6.6085|          344700.0|
| -118.3|   34.26|              43.0|     1510.0|         310.0|     809.0|     277.0|        3.599|          176500.0|
|-117.81|   33.78|              27.0|     3589.0|         507.0|    1484.0|     495.0|       5.7934|          270500.0|
|-118.36|   33.82|              28.0|       67.0|          15.0|      49.0|      11.0|       6.1359|          330000.0|
|-119.67|   36.33|              19.0|     1241.0|         244.0|     850.0|     237.0|       2.9375|           81700.0|
|-119.56|   36.51|              37.0|   

# ***Filter Operations***

In [None]:
df_spark.filter('median_house_value>200000').show()

+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|   long|latitude|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|
+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|-122.05|   37.37|              27.0|     3885.0|         661.0|    1537.0|     606.0|       6.6085|          344700.0|
|-117.81|   33.78|              27.0|     3589.0|         507.0|    1484.0|     495.0|       5.7934|          270500.0|
|-118.36|   33.82|              28.0|       67.0|          15.0|      49.0|      11.0|       6.1359|          330000.0|
|-121.93|   37.25|              36.0|     1089.0|         182.0|     535.0|     170.0|         4.69|          252600.0|
|-117.03|   32.97|              16.0|     3936.0|         694.0|    1935.0|     659.0|       4.5625|          231200.0|
|-117.97|   33.73|              27.0|   

In [None]:
df_spark.filter(df_spark['median_house_value']>200000).show()

+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|   long|latitude|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|
+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|-122.05|   37.37|              27.0|     3885.0|         661.0|    1537.0|     606.0|       6.6085|          344700.0|
|-117.81|   33.78|              27.0|     3589.0|         507.0|    1484.0|     495.0|       5.7934|          270500.0|
|-118.36|   33.82|              28.0|       67.0|          15.0|      49.0|      11.0|       6.1359|          330000.0|
|-121.93|   37.25|              36.0|     1089.0|         182.0|     535.0|     170.0|         4.69|          252600.0|
|-117.03|   32.97|              16.0|     3936.0|         694.0|    1935.0|     659.0|       4.5625|          231200.0|
|-117.97|   33.73|              27.0|   

In [None]:
df_spark.filter('median_house_value>200000').select(['long', 'total_rooms']).show()

+-------+-----------+
|   long|total_rooms|
+-------+-----------+
|-122.05|     3885.0|
|-117.81|     3589.0|
|-118.36|       67.0|
|-121.93|     1089.0|
|-117.03|     3936.0|
|-117.97|     2097.0|
|-118.88|     1590.0|
|-122.59|     8814.0|
|-118.16|     2994.0|
|-118.03|     1401.0|
|-122.42|     3587.0|
|-118.39|     2612.0|
|-118.45|     4845.0|
|-118.48|     3078.0|
|-122.53|     1560.0|
|-119.01|     5785.0|
|-116.92|     2770.0|
|-118.06|     1980.0|
|-118.23|     1308.0|
|-117.24|     9998.0|
+-------+-----------+
only showing top 20 rows



In [None]:
df_spark.filter((df_spark['long']>-117) & (df_spark['total_rooms']>20000)).show()

+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|   long|latitude|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|
+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|-116.36|   33.78|               6.0|    24121.0|        4522.0|    4176.0|    2221.0|       3.3799|          239300.0|
+-------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+



In [None]:
df_spark.filter((df_spark['long']>-117) & (df_spark['total_rooms']>20000)).select(['long', 'total_rooms']).show()

+-------+-----------+
|   long|total_rooms|
+-------+-----------+
|-116.36|    24121.0|
+-------+-----------+



# ***Groupby an Aggregate Functions***

In [None]:
df_spark.groupBy('long').sum().show()

+-------+-------------------+------------------+-----------------------+----------------+-------------------+---------------+---------------+------------------+-----------------------+
|   long|          sum(long)|     sum(latitude)|sum(housing_median_age)|sum(total_rooms)|sum(total_bedrooms)|sum(population)|sum(households)|sum(median_income)|sum(median_house_value)|
+-------+-------------------+------------------+-----------------------+----------------+-------------------+---------------+---------------+------------------+-----------------------+
|-121.27|            -606.35|             192.7|                  112.0|         17246.0|             3664.0|         8435.0|         3463.0|16.583099999999998|               765600.0|
|-119.04|            -119.04|             35.31|                   11.0|          2161.0|              371.0|         1267.0|          388.0|            4.1957|                92700.0|
|-122.02|            -1220.2|375.05999999999995|                  285.0|   

In [None]:
df_spark.groupBy('long').max().show()

+-------+---------+-------------+-----------------------+----------------+-------------------+---------------+---------------+------------------+-----------------------+
|   long|max(long)|max(latitude)|max(housing_median_age)|max(total_rooms)|max(total_bedrooms)|max(population)|max(households)|max(median_income)|max(median_house_value)|
+-------+---------+-------------+-----------------------+----------------+-------------------+---------------+---------------+------------------+-----------------------+
|-121.27|  -121.27|        38.66|                   33.0|          6663.0|             1369.0|         2840.0|         1299.0|            4.3098|               213500.0|
|-119.04|  -119.04|        35.31|                   11.0|          2161.0|              371.0|         1267.0|          388.0|            4.1957|                92700.0|
|-122.02|  -122.02|        38.26|                   44.0|          4280.0|              763.0|         2216.0|          779.0|           10.0968|     