In [3]:
from pyspark.sql import SparkSession

In [6]:
spark = SparkSession.builder.appName('basics').getOrCreate()

In [8]:
spark

In [11]:
df = spark.read.json('funcionarios.json')

In [12]:
df

DataFrame[cargo: string, departamento: string, id_func: bigint, nome: string, salario: bigint]

In [14]:
df.show()

+---------+----------------+-------+---------------+-------+
|    cargo|    departamento|id_func|           nome|salario|
+---------+----------------+-------+---------------+-------+
| Analista|        Projetos|      1|  Marcio Santos|   5000|
|Instrutor|     Treinamento|      2|   Bruno Garcia|   4000|
|Vendedora|          Vendas|      3|    Celia Silva|   3500|
| Gerencia|Recursos Humanos|      4|   Beatriz Dias|   5500|
|Instrutor|     Treinamento|      5| Sandro Correia|   4200|
| Analista|        Projetos|      6|   Leticia Dias|   5100|
| Analista|        Projetos|      7|   Cacio Farias|   5100|
| Gerencia|   Administracao|      8|     Cezar Maia|   7000|
|Vendedora|          Vendas|      9|   Amanda Nunes|   3500|
|Vendedora|          Vendas|     10|   Paula Priore|   3500|
| Analista|        Projetos|     11|     Carla Neto|   4000|
|Vendedora|          Vendas|     12|   Marcia Costa|   2700|
| Analista|Recursos Humanos|     13|  Luciana Prado|   4100|
|Vendedora|          Ven

In [17]:
df.createOrReplaceTempView('funcionarios')

In [19]:
spark.sql('SELECT * FROM funcionarios').show()

DataFrame[cargo: string, departamento: string, id_func: bigint, nome: string, salario: bigint]

In [21]:
spark.sql('SELECT cargo FROM funcionarios').show()

+---------+
|    cargo|
+---------+
| Analista|
|Instrutor|
|Vendedora|
| Gerencia|
|Instrutor|
| Analista|
| Analista|
| Gerencia|
|Vendedora|
|Vendedora|
| Analista|
|Vendedora|
| Analista|
|Vendedora|
|Instrutor|
|Vendedora|
| Analista|
| Gerencia|
|Instrutor|
|Vendedora|
+---------+



In [None]:
spark.sql('SELECT cargo FROM funcionarios').show()

In [23]:
def execute_query(query):
    spark.sql(query).show()

In [25]:
execute_query('SELECT * FROM funcionarios where salario > 4000')

+---------+----------------+-------+---------------+-------+
|    cargo|    departamento|id_func|           nome|salario|
+---------+----------------+-------+---------------+-------+
| Analista|        Projetos|      1|  Marcio Santos|   5000|
| Gerencia|Recursos Humanos|      4|   Beatriz Dias|   5500|
|Instrutor|     Treinamento|      5| Sandro Correia|   4200|
| Analista|        Projetos|      6|   Leticia Dias|   5100|
| Analista|        Projetos|      7|   Cacio Farias|   5100|
| Gerencia|   Administracao|      8|     Cezar Maia|   7000|
| Analista|Recursos Humanos|     13|  Luciana Prado|   4100|
| Analista|        Projetos|     17|Claudio Queiroz|   6500|
| Gerencia|   Administracao|     18|   Diego Chaves|   7500|
|Instrutor|     Treinamento|     19|Sergio Nogueira|   5300|
+---------+----------------+-------+---------------+-------+



In [30]:
execute_query('SELECT distinct(cargo) FROM funcionarios where salario > 4000')

+---------+
|    cargo|
+---------+
|Instrutor|
| Gerencia|
| Analista|
+---------+



In [28]:
dir(spark.read)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_df',
 '_jreader',
 '_set_opts',
 '_spark',
 'csv',
 'format',
 'jdbc',
 'json',
 'load',
 'option',
 'options',
 'orc',
 'parquet',
 'schema',
 'table',
 'text']

In [31]:
df.printSchema()

root
 |-- cargo: string (nullable = true)
 |-- departamento: string (nullable = true)
 |-- id_func: long (nullable = true)
 |-- nome: string (nullable = true)
 |-- salario: long (nullable = true)



In [51]:
#para retringir os tipos e colunas do meu df, posso inclusive só pegar as colunas que quero e criar restrições nulas, etc.

from pyspark.sql.types import(
    StructField,
    StringType,
    IntegerType,
    StructType
)

schema = StructType(fields=[
    StructField('cargo', StringType(), nullable=True),
    StructField('departamento', StringType(), nullable=True),
    StructField('id_func', IntegerType(), nullable=True),
    StructField('nome', StringType(), nullable=True),
    StructField('salario', StringType(), nullable=True),
])

df = spark.read.json('funcionarios.json', schema)

In [39]:
df.select('nome').show()

+---------------+
|           nome|
+---------------+
|  Marcio Santos|
|   Bruno Garcia|
|    Celia Silva|
|   Beatriz Dias|
| Sandro Correia|
|   Leticia Dias|
|   Cacio Farias|
|     Cezar Maia|
|   Amanda Nunes|
|   Paula Priore|
|     Carla Neto|
|   Marcia Costa|
|  Luciana Prado|
| Roberta Amaral|
|Rogerio Ribeiro|
|   Rosana Rocha|
|Claudio Queiroz|
|   Diego Chaves|
|Sergio Nogueira|
|  Samantha Reis|
+---------------+



In [40]:
df.select(['nome', 'id_func']).show()

+---------------+-------+
|           nome|id_func|
+---------------+-------+
|  Marcio Santos|      1|
|   Bruno Garcia|      2|
|    Celia Silva|      3|
|   Beatriz Dias|      4|
| Sandro Correia|      5|
|   Leticia Dias|      6|
|   Cacio Farias|      7|
|     Cezar Maia|      8|
|   Amanda Nunes|      9|
|   Paula Priore|     10|
|     Carla Neto|     11|
|   Marcia Costa|     12|
|  Luciana Prado|     13|
| Roberta Amaral|     14|
|Rogerio Ribeiro|     15|
|   Rosana Rocha|     16|
|Claudio Queiroz|     17|
|   Diego Chaves|     18|
|Sergio Nogueira|     19|
|  Samantha Reis|     20|
+---------------+-------+



In [53]:
df_2 = df.withColumn('gratificacao', df['salario'] * 0.8)

In [55]:
df_2 = df_2.withColumn('total_beneficios', df_2['salario'] + df_2['gratificacao'])

In [58]:
df_2.show()

+---------+----------------+-------+---------------+-------+------------+----------------+
|    cargo|    departamento|id_func|           nome|salario|gratificacao|total_beneficios|
+---------+----------------+-------+---------------+-------+------------+----------------+
| Analista|        Projetos|      1|  Marcio Santos|   5000|      4000.0|          9000.0|
|Instrutor|     Treinamento|      2|   Bruno Garcia|   4000|      3200.0|          7200.0|
|Vendedora|          Vendas|      3|    Celia Silva|   3500|      2800.0|          6300.0|
| Gerencia|Recursos Humanos|      4|   Beatriz Dias|   5500|      4400.0|          9900.0|
|Instrutor|     Treinamento|      5| Sandro Correia|   4200|      3360.0|          7560.0|
| Analista|        Projetos|      6|   Leticia Dias|   5100|      4080.0|          9180.0|
| Analista|        Projetos|      7|   Cacio Farias|   5100|      4080.0|          9180.0|
| Gerencia|   Administracao|      8|     Cezar Maia|   7000|      5600.0|         12600.0|

In [61]:
df_colab = spark.read.csv('colaboradores.csv', header=True)

In [62]:
df_colab.printSchema()

root
 |-- id: string (nullable = true)
 |-- nome: string (nullable = true)
 |-- cargo: string (nullable = true)
 |-- salario: string (nullable = true)
 |-- departamento: string (nullable = true)
 |-- datadeadmissao: string (nullable = true)



In [64]:
df_colab.show()

+---+---------------+---------+-------+----------------+--------------+
| id|           nome|    cargo|salario|    departamento|datadeadmissao|
+---+---------------+---------+-------+----------------+--------------+
|  1|  Marcio Santos| Analista|5000.00|        Projetos|    2010-01-04|
|  2|   Bruno Garcia|Instrutor|4000.00|     Treinamento|    2010-01-06|
|  3|    Celia Silva|Vendedora|3500.00|          Vendas|    2011-02-07|
|  4|   Beatriz Dias| Gerencia|5500.00|Recursos Humanos|    2011-09-22|
|  5| Sandro Correia|Instrutor|4200.00|     Treinamento|    2012-02-15|
|  6|   Leticia Dias| Analista|5100.00|        Projetos|    2012-04-26|
|  7|   Cacio Farias| Analista|5100.00|        Projetos|    2012-10-25|
|  8|     Cezar Maia| Gerencia|7000.00|   Administracao|    2014-02-21|
|  9|   Amanda Nunes|Vendedora|3500.00|          Vendas|    2014-02-28|
| 10|   Paula Priore|Vendedora|3500.00|          Vendas|    2014-03-07|
| 11|     Carla Neto| Analista|4000.00|        Projetos|    2015

In [70]:
df_2.filter(df_2['salario'] < 3000).show()
#ou
df_2.filter('salario < 3000').show()

+---------+------------+-------+--------------+-------+------------+----------------+
|    cargo|departamento|id_func|          nome|salario|gratificacao|total_beneficios|
+---------+------------+-------+--------------+-------+------------+----------------+
|Vendedora|      Vendas|     12|  Marcia Costa|   2700|      2160.0|          4860.0|
|Vendedora|      Vendas|     14|Roberta Amaral|   2800|      2240.0|          5040.0|
+---------+------------+-------+--------------+-------+------------+----------------+

+---------+------------+-------+--------------+-------+------------+----------------+
|    cargo|departamento|id_func|          nome|salario|gratificacao|total_beneficios|
+---------+------------+-------+--------------+-------+------------+----------------+
|Vendedora|      Vendas|     12|  Marcia Costa|   2700|      2160.0|          4860.0|
|Vendedora|      Vendas|     14|Roberta Amaral|   2800|      2240.0|          5040.0|
+---------+------------+-------+--------------+------

In [73]:
df_2.groupBy('departamento').count().show()

+----------------+-----+
|    departamento|count|
+----------------+-----+
|Recursos Humanos|    2|
|        Projetos|    5|
|          Vendas|    7|
|   Administracao|    2|
|     Treinamento|    4|
+----------------+-----+



In [76]:
df_2.groupBy('departamento').agg({'salario':'mean'}).show()

+----------------+-----------------+
|    departamento|     avg(salario)|
+----------------+-----------------+
|Recursos Humanos|           4800.0|
|        Projetos|           5140.0|
|          Vendas|3285.714285714286|
|   Administracao|           7250.0|
|     Treinamento|           4375.0|
+----------------+-----------------+



In [78]:
df_2.orderBy('departamento').show()

+---------+----------------+-------+---------------+-------+------------+----------------+
|    cargo|    departamento|id_func|           nome|salario|gratificacao|total_beneficios|
+---------+----------------+-------+---------------+-------+------------+----------------+
| Gerencia|   Administracao|      8|     Cezar Maia|   7000|      5600.0|         12600.0|
| Gerencia|   Administracao|     18|   Diego Chaves|   7500|      6000.0|         13500.0|
| Analista|        Projetos|     11|     Carla Neto|   4000|      3200.0|          7200.0|
| Analista|        Projetos|     17|Claudio Queiroz|   6500|      5200.0|         11700.0|
| Analista|        Projetos|      1|  Marcio Santos|   5000|      4000.0|          9000.0|
| Analista|        Projetos|      6|   Leticia Dias|   5100|      4080.0|          9180.0|
| Analista|        Projetos|      7|   Cacio Farias|   5100|      4080.0|          9180.0|
| Gerencia|Recursos Humanos|      4|   Beatriz Dias|   5500|      4400.0|          9900.0|

In [81]:
from pyspark.sql.functions import avg, stddev

df_2.select(avg('salario')).show()

+------------+
|avg(salario)|
+------------+
|      4515.0|
+------------+



In [87]:
df_2.select(stddev('salario')).alias('std').show()
#or
df_2.select(stddev('salario')).show()
#or
df_2.select(stddev('salario').alias('Desvio padrão')).show()

+--------------------+
|stddev_samp(salario)|
+--------------------+
|    1347.22912520086|
+--------------------+

+--------------------+
|stddev_samp(salario)|
+--------------------+
|    1347.22912520086|
+--------------------+

+----------------+
|   Desvio padrão|
+----------------+
|1347.22912520086|
+----------------+



In [88]:
from pyspark.sql.functions import hour,dayofyear,month,year

In [98]:
df_colab.select(
    month(
        df_colab['datadeadmissao']
    )
).show()

+---------------------+
|month(datadeadmissao)|
+---------------------+
|                    1|
|                    1|
|                    2|
|                    9|
|                    2|
|                    4|
|                   10|
|                    2|
|                    2|
|                    3|
|                    2|
|                    2|
|                    9|
|                   10|
|                    8|
|                    9|
|                    1|
|                   10|
|                   10|
|                   12|
+---------------------+



In [95]:
df_colab_2 = spark.read.csv('colaboradores_data_missing.csv', header=True)

In [97]:
df_colab_2.show()

+---+---------------+---------+-------+----------------+--------------+
| id|           nome|    cargo|salario|    departamento|datadeadmissao|
+---+---------------+---------+-------+----------------+--------------+
|  1|  Marcio Santos| Analista|5000.00|        Projetos|    2010-01-04|
|  2|   Bruno Garcia|Instrutor|4000.00|     Treinamento|    2010-01-06|
|  3|    Celia Silva|Vendedora|   null|            null|    2011-02-07|
|  4|   Beatriz Dias| Gerencia|5500.00|Recursos Humanos|    2011-09-22|
|  5| Sandro Correia|Instrutor|4200.00|     Treinamento|    2012-02-15|
|  6|   Leticia Dias| Analista|   null|        Projetos|    2012-04-26|
|  7|   Cacio Farias| Analista|5100.00|        Projetos|    2012-10-25|
|  8|     Cezar Maia| Gerencia|7000.00|            null|    2014-02-21|
|  9|   Amanda Nunes|Vendedora|3500.00|          Vendas|    2014-02-28|
| 10|   Paula Priore|Vendedora|3500.00|          Vendas|    2014-03-07|
| 11|     Carla Neto| Analista|4000.00|        Projetos|    2015

In [100]:
#drop linha que possua qualquer coluna null
df_colab_2.na.drop().show()
#ou
df_colab_2.na.drop(how='any').show()

+---+---------------+---------+-------+----------------+--------------+
| id|           nome|    cargo|salario|    departamento|datadeadmissao|
+---+---------------+---------+-------+----------------+--------------+
|  1|  Marcio Santos| Analista|5000.00|        Projetos|    2010-01-04|
|  2|   Bruno Garcia|Instrutor|4000.00|     Treinamento|    2010-01-06|
|  4|   Beatriz Dias| Gerencia|5500.00|Recursos Humanos|    2011-09-22|
|  5| Sandro Correia|Instrutor|4200.00|     Treinamento|    2012-02-15|
|  7|   Cacio Farias| Analista|5100.00|        Projetos|    2012-10-25|
|  9|   Amanda Nunes|Vendedora|3500.00|          Vendas|    2014-02-28|
| 10|   Paula Priore|Vendedora|3500.00|          Vendas|    2014-03-07|
| 11|     Carla Neto| Analista|4000.00|        Projetos|    2015-02-17|
| 13|  Luciana Prado| Analista|4100.00|Recursos Humanos|    2015-09-17|
| 14| Roberta Amaral|Vendedora|2800.00|          Vendas|    2015-10-17|
| 15|Rogerio Ribeiro|Instrutor|4000.00|     Treinamento|    2010

In [102]:
#dropa linhas cuja coluna salário seja null
df_colab_2.na.drop(subset=['salario']).show()

+---+---------------+---------+-------+----------------+--------------+
| id|           nome|    cargo|salario|    departamento|datadeadmissao|
+---+---------------+---------+-------+----------------+--------------+
|  1|  Marcio Santos| Analista|5000.00|        Projetos|    2010-01-04|
|  2|   Bruno Garcia|Instrutor|4000.00|     Treinamento|    2010-01-06|
|  4|   Beatriz Dias| Gerencia|5500.00|Recursos Humanos|    2011-09-22|
|  5| Sandro Correia|Instrutor|4200.00|     Treinamento|    2012-02-15|
|  7|   Cacio Farias| Analista|5100.00|        Projetos|    2012-10-25|
|  8|     Cezar Maia| Gerencia|7000.00|            null|    2014-02-21|
|  9|   Amanda Nunes|Vendedora|3500.00|          Vendas|    2014-02-28|
| 10|   Paula Priore|Vendedora|3500.00|          Vendas|    2014-03-07|
| 11|     Carla Neto| Analista|4000.00|        Projetos|    2015-02-17|
| 13|  Luciana Prado| Analista|4100.00|Recursos Humanos|    2015-09-17|
| 14| Roberta Amaral|Vendedora|2800.00|          Vendas|    2015

In [106]:
#dropa apenas linhas que possuam todas as colunas null
df_colab_2.na.drop(how='all').show()

+---+---------------+---------+-------+----------------+--------------+
| id|           nome|    cargo|salario|    departamento|datadeadmissao|
+---+---------------+---------+-------+----------------+--------------+
|  1|  Marcio Santos| Analista|5000.00|        Projetos|    2010-01-04|
|  2|   Bruno Garcia|Instrutor|4000.00|     Treinamento|    2010-01-06|
|  3|    Celia Silva|Vendedora|   null|            null|    2011-02-07|
|  4|   Beatriz Dias| Gerencia|5500.00|Recursos Humanos|    2011-09-22|
|  5| Sandro Correia|Instrutor|4200.00|     Treinamento|    2012-02-15|
|  6|   Leticia Dias| Analista|   null|        Projetos|    2012-04-26|
|  7|   Cacio Farias| Analista|5100.00|        Projetos|    2012-10-25|
|  8|     Cezar Maia| Gerencia|7000.00|            null|    2014-02-21|
|  9|   Amanda Nunes|Vendedora|3500.00|          Vendas|    2014-02-28|
| 10|   Paula Priore|Vendedora|3500.00|          Vendas|    2014-03-07|
| 11|     Carla Neto| Analista|4000.00|        Projetos|    2015

In [109]:
#preenche as células null do dataset com o valor especificado
df_colab_2.na.fill('100', subset=['salario']).show()

+---+---------------+---------+-------+----------------+--------------+
| id|           nome|    cargo|salario|    departamento|datadeadmissao|
+---+---------------+---------+-------+----------------+--------------+
|  1|  Marcio Santos| Analista|5000.00|        Projetos|    2010-01-04|
|  2|   Bruno Garcia|Instrutor|4000.00|     Treinamento|    2010-01-06|
|  3|    Celia Silva|Vendedora|    100|            null|    2011-02-07|
|  4|   Beatriz Dias| Gerencia|5500.00|Recursos Humanos|    2011-09-22|
|  5| Sandro Correia|Instrutor|4200.00|     Treinamento|    2012-02-15|
|  6|   Leticia Dias| Analista|    100|        Projetos|    2012-04-26|
|  7|   Cacio Farias| Analista|5100.00|        Projetos|    2012-10-25|
|  8|     Cezar Maia| Gerencia|7000.00|            null|    2014-02-21|
|  9|   Amanda Nunes|Vendedora|3500.00|          Vendas|    2014-02-28|
| 10|   Paula Priore|Vendedora|3500.00|          Vendas|    2014-03-07|
| 11|     Carla Neto| Analista|4000.00|        Projetos|    2015

In [128]:
from pyspark.sql.types import DoubleType

schema = StructType(
    fields=[
        StructField('id', IntegerType(), True),
        StructField('nome', StringType(), True),
        StructField('cargo', StringType(), True),
        StructField('salario', DoubleType(), True),        
        StructField('departamento', StringType(), True),        
        StructField('datadeadmissao', StringType(), True) 
    ]
)


df_colab_2 = spark.read.csv('colaboradores_data_missing.csv', header=True, schema=schema)

In [129]:
df_colab_2.printSchema()

root
 |-- id: integer (nullable = true)
 |-- nome: string (nullable = true)
 |-- cargo: string (nullable = true)
 |-- salario: double (nullable = true)
 |-- departamento: string (nullable = true)
 |-- datadeadmissao: string (nullable = true)



In [130]:
df_colab_2.show()

+---+---------------+---------+-------+----------------+--------------+
| id|           nome|    cargo|salario|    departamento|datadeadmissao|
+---+---------------+---------+-------+----------------+--------------+
|  1|  Marcio Santos| Analista| 5000.0|        Projetos|    2010-01-04|
|  2|   Bruno Garcia|Instrutor| 4000.0|     Treinamento|    2010-01-06|
|  3|    Celia Silva|Vendedora|   null|            null|    2011-02-07|
|  4|   Beatriz Dias| Gerencia| 5500.0|Recursos Humanos|    2011-09-22|
|  5| Sandro Correia|Instrutor| 4200.0|     Treinamento|    2012-02-15|
|  6|   Leticia Dias| Analista|   null|        Projetos|    2012-04-26|
|  7|   Cacio Farias| Analista| 5100.0|        Projetos|    2012-10-25|
|  8|     Cezar Maia| Gerencia| 7000.0|            null|    2014-02-21|
|  9|   Amanda Nunes|Vendedora| 3500.0|          Vendas|    2014-02-28|
| 10|   Paula Priore|Vendedora| 3500.0|          Vendas|    2014-03-07|
| 11|     Carla Neto| Analista| 4000.0|        Projetos|    2015

In [132]:
df_colab_2 = df_colab_2.na.fill(100.0, subset=['salario'])
df_colab_2 = df_colab_2.na.fill('N/A', subset=['departamento'])

df_colab_2.show()

+---+---------------+---------+-------+----------------+--------------+
| id|           nome|    cargo|salario|    departamento|datadeadmissao|
+---+---------------+---------+-------+----------------+--------------+
|  1|  Marcio Santos| Analista| 5000.0|        Projetos|    2010-01-04|
|  2|   Bruno Garcia|Instrutor| 4000.0|     Treinamento|    2010-01-06|
|  3|    Celia Silva|Vendedora|  100.0|             N/A|    2011-02-07|
|  4|   Beatriz Dias| Gerencia| 5500.0|Recursos Humanos|    2011-09-22|
|  5| Sandro Correia|Instrutor| 4200.0|     Treinamento|    2012-02-15|
|  6|   Leticia Dias| Analista|  100.0|        Projetos|    2012-04-26|
|  7|   Cacio Farias| Analista| 5100.0|        Projetos|    2012-10-25|
|  8|     Cezar Maia| Gerencia| 7000.0|             N/A|    2014-02-21|
|  9|   Amanda Nunes|Vendedora| 3500.0|          Vendas|    2014-02-28|
| 10|   Paula Priore|Vendedora| 3500.0|          Vendas|    2014-03-07|
| 11|     Carla Neto| Analista| 4000.0|        Projetos|    2015