In [1]:
# Import SparkContext
from pyspark import SparkContext as sc

In [2]:
# Verify SparkContext
print(sc)

<class 'pyspark.context.SparkContext'>


In [3]:
# Print Spark version
print(sc.version)

<property object at 0x0000026726818958>


In [4]:
# Import SparkSession from pyspark.sql
from pyspark.sql import SparkSession

In [5]:
# Create my_spark
spark = SparkSession.builder.getOrCreate()

In [6]:
# Print my_spark
print(spark)
spark

<pyspark.sql.session.SparkSession object at 0x0000026727E06608>


In [7]:
#Incluindo datasets
spark.sparkContext.addFile('datasets/airports.csv')
spark.sparkContext.addFile('datasets/flights_small.csv')
spark.sparkContext.addFile('datasets/planes.csv')

In [8]:
# Print the tables in the catalog
print(spark.catalog.listTables())

[]


In [9]:
from pyspark import SparkFiles

#read CSV Files
airports = spark.read.csv(SparkFiles.get("airports.csv"), header = True, sep = ",")
flights = spark.read.csv(SparkFiles.get("flights_small.csv"), header = True, sep = ",")
planes = spark.read.csv(SparkFiles.get("planes.csv"), header = True, sep = ",")

In [10]:
#read book
sherlock = spark.read.text("sherlock\sherlock.txt")
sherlock.show(3)

+--------------------+
|               value|
+--------------------+
|Project Gutenberg...|
|                    |
|This eBook is for...|
+--------------------+
only showing top 3 rows



In [11]:
#Create Views
airports.createOrReplaceTempView("airports")
flights.createOrReplaceTempView("flights")
planes.createOrReplaceTempView("planes")
sherlock.createOrReplaceTempView("sherlock")

In [12]:
# Print the tables in the catalog
print(spark.catalog.listTables())

[Table(name='airports', database=None, description=None, tableType='TEMPORARY', isTemporary=True), Table(name='flights', database=None, description=None, tableType='TEMPORARY', isTemporary=True), Table(name='planes', database=None, description=None, tableType='TEMPORARY', isTemporary=True), Table(name='sherlock', database=None, description=None, tableType='TEMPORARY', isTemporary=True)]


In [13]:
query = "from flights select * limit 10"

In [14]:
# Get the first 10 rows 
temp = spark.sql(query)

In [15]:
# Show the results
temp.show()

+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+----+--------+--------+----+------+
|year|month|day|dep_time|dep_delay|arr_time|arr_delay|carrier|tailnum|flight|origin|dest|air_time|distance|hour|minute|
+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+----+--------+--------+----+------+
|2014|   12|  8|     658|       -7|     935|       -5|     VX| N846VA|  1780|   SEA| LAX|     132|     954|   6|    58|
|2014|    1| 22|    1040|        5|    1505|        5|     AS| N559AS|   851|   SEA| HNL|     360|    2677|  10|    40|
|2014|    3|  9|    1443|       -2|    1652|        2|     VX| N847VA|   755|   SEA| SFO|     111|     679|  14|    43|
|2014|    4|  9|    1705|       45|    1839|       34|     WN| N360SW|   344|   PDX| SJC|      83|     569|  17|     5|
|2014|    3|  9|     754|       -1|    1015|        1|     AS| N612AS|   522|   SEA| BUR|     127|     937|   7|    54|
|2014|    1| 15|    1037|        7|    1

In [16]:
# Convert the results to a pandas DataFrame
pd_temp = temp.toPandas()

In [17]:
# Print the head of pd_counts
print(pd_temp.head())

   year month day dep_time dep_delay arr_time arr_delay carrier tailnum  \
0  2014    12   8      658        -7      935        -5      VX  N846VA   
1  2014     1  22     1040         5     1505         5      AS  N559AS   
2  2014     3   9     1443        -2     1652         2      VX  N847VA   
3  2014     4   9     1705        45     1839        34      WN  N360SW   
4  2014     3   9      754        -1     1015         1      AS  N612AS   

  flight origin dest air_time distance hour minute  
0   1780    SEA  LAX      132      954    6     58  
1    851    SEA  HNL      360     2677   10     40  
2    755    SEA  SFO      111      679   14     43  
3    344    PDX  SJC       83      569   17      5  
4    522    SEA  BUR      127      937    7     54  


In [18]:
import pandas as pd
import numpy as np

# Create pd_temp
pd_temp = pd.DataFrame(np.random.random(10))

In [19]:
# Create spark_temp from pd_temp
spark_temp = spark.createDataFrame(pd_temp)

In [20]:
# Add spark_temp to the catalog
spark_temp.createOrReplaceTempView("temp")


In [21]:
spark_temp.show()

+-------------------+
|                  0|
+-------------------+
|  0.994825739301711|
|0.07122966797125085|
| 0.2948252020949441|
| 0.4234781708603724|
| 0.3350677030482747|
|0.01011659380263219|
|0.41466404118391265|
|0.21541177682808155|
| 0.7730650292317558|
| 0.4540992168136757|
+-------------------+



In [22]:
#Renomeando coluna
df = spark_temp.withColumn("value", spark_temp[0]).select("value")
df.show()

+-------------------+
|              value|
+-------------------+
|  0.994825739301711|
|0.07122966797125085|
| 0.2948252020949441|
| 0.4234781708603724|
| 0.3350677030482747|
|0.01011659380263219|
|0.41466404118391265|
|0.21541177682808155|
| 0.7730650292317558|
| 0.4540992168136757|
+-------------------+



## Converting

In [23]:
# Create the DataFrame flights
flights = spark.table("flights")

In [24]:
flights.printSchema()

root
 |-- year: string (nullable = true)
 |-- month: string (nullable = true)
 |-- day: string (nullable = true)
 |-- dep_time: string (nullable = true)
 |-- dep_delay: string (nullable = true)
 |-- arr_time: string (nullable = true)
 |-- arr_delay: string (nullable = true)
 |-- carrier: string (nullable = true)
 |-- tailnum: string (nullable = true)
 |-- flight: string (nullable = true)
 |-- origin: string (nullable = true)
 |-- dest: string (nullable = true)
 |-- air_time: string (nullable = true)
 |-- distance: string (nullable = true)
 |-- hour: string (nullable = true)
 |-- minute: string (nullable = true)



In [25]:
from pyspark.sql import functions as F

flights = flights.withColumn("distance", flights["distance"].cast('int'))\
                 .withColumn("air_time", flights.air_time.cast('float'))\
                 .withColumn("dep_delay", flights.dep_delay.cast('float'))

flights.printSchema()

root
 |-- year: string (nullable = true)
 |-- month: string (nullable = true)
 |-- day: string (nullable = true)
 |-- dep_time: string (nullable = true)
 |-- dep_delay: float (nullable = true)
 |-- arr_time: string (nullable = true)
 |-- arr_delay: string (nullable = true)
 |-- carrier: string (nullable = true)
 |-- tailnum: string (nullable = true)
 |-- flight: string (nullable = true)
 |-- origin: string (nullable = true)
 |-- dest: string (nullable = true)
 |-- air_time: float (nullable = true)
 |-- distance: integer (nullable = true)
 |-- hour: string (nullable = true)
 |-- minute: string (nullable = true)



## Creating Columns

In [26]:
flights.show(3)

+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+----+--------+--------+----+------+
|year|month|day|dep_time|dep_delay|arr_time|arr_delay|carrier|tailnum|flight|origin|dest|air_time|distance|hour|minute|
+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+----+--------+--------+----+------+
|2014|   12|  8|     658|     -7.0|     935|       -5|     VX| N846VA|  1780|   SEA| LAX|   132.0|     954|   6|    58|
|2014|    1| 22|    1040|      5.0|    1505|        5|     AS| N559AS|   851|   SEA| HNL|   360.0|    2677|  10|    40|
|2014|    3|  9|    1443|     -2.0|    1652|        2|     VX| N847VA|   755|   SEA| SFO|   111.0|     679|  14|    43|
+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+----+--------+--------+----+------+
only showing top 3 rows



In [27]:
# Add duration_hrs
flights = flights.withColumn("duration_hrs", flights.air_time/60)
flights.show(3)

+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+----+--------+--------+----+------+------------+
|year|month|day|dep_time|dep_delay|arr_time|arr_delay|carrier|tailnum|flight|origin|dest|air_time|distance|hour|minute|duration_hrs|
+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+----+--------+--------+----+------+------------+
|2014|   12|  8|     658|     -7.0|     935|       -5|     VX| N846VA|  1780|   SEA| LAX|   132.0|     954|   6|    58|         2.2|
|2014|    1| 22|    1040|      5.0|    1505|        5|     AS| N559AS|   851|   SEA| HNL|   360.0|    2677|  10|    40|         6.0|
|2014|    3|  9|    1443|     -2.0|    1652|        2|     VX| N847VA|   755|   SEA| SFO|   111.0|     679|  14|    43|        1.85|
+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+----+--------+--------+----+------+------------+
only showing top 3 rows



## SQL in a nutshell

In [28]:
spark.sql("""
SELECT AVG(air_time) / 60 avg_time_duration, origin, carrier
FROM flights
GROUP BY origin, carrier
""").show()

+------------------+------+-------+
| avg_time_duration|origin|carrier|
+------------------+------+-------+
| 2.641062801932367|   PDX|     US|
|3.4815763052208837|   SEA|     AA|
|2.5649012189995797|   PDX|     AS|
|2.9572755417956658|   PDX|     DL|
|1.5976558033161805|   SEA|     OO|
|3.4336904761904763|   SEA|     B6|
| 1.293419540229885|   PDX|     OO|
|  2.78377065111759|   PDX|     UA|
|3.3224926253687315|   SEA|     US|
|2.1333333333333333|   PDX|     F9|
|3.2710648148148147|   PDX|     AA|
| 3.027322796934866|   SEA|     UA|
|1.4189814814814814|   PDX|     VX|
| 3.008447488584475|   PDX|     B6|
|1.8805555555555555|   SEA|     VX|
|1.7586513994910942|   PDX|     WN|
| 3.136781609195402|   SEA|     DL|
|5.6587962962962965|   SEA|     HA|
|2.1505747126436785|   SEA|     F9|
|2.6464069845533915|   SEA|     AS|
+------------------+------+-------+
only showing top 20 rows



## Filtering Data

In [29]:
# Filter flights by passing a string
long_flights1 = flights.filter("distance > 1000")

In [30]:
# Filter flights by passing a column of boolean values
long_flights2 =  flights.filter(flights.distance > 1000)

In [31]:
# Print the data to check they're equal
long_flights1.show(3)
long_flights2.show(3)

+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+----+--------+--------+----+------+------------+
|year|month|day|dep_time|dep_delay|arr_time|arr_delay|carrier|tailnum|flight|origin|dest|air_time|distance|hour|minute|duration_hrs|
+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+----+--------+--------+----+------+------------+
|2014|    1| 22|    1040|      5.0|    1505|        5|     AS| N559AS|   851|   SEA| HNL|   360.0|    2677|  10|    40|         6.0|
|2014|    4| 19|    1236|     -4.0|    1508|       -7|     AS| N309AS|   490|   SEA| SAN|   135.0|    1050|  12|    36|        2.25|
|2014|   11| 19|    1812|     -3.0|    2352|       -4|     AS| N564AS|    26|   SEA| ORD|   198.0|    1721|  18|    12|         3.3|
+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+----+--------+--------+----+------+------------+
only showing top 3 rows

+----+-----+---+--------+---------+--------+

# Selecting

In [32]:
# Select the first set of columns
selected1 = flights.select("tailnum", "origin", "dest")
selected1.show(3)

+-------+------+----+
|tailnum|origin|dest|
+-------+------+----+
| N846VA|   SEA| LAX|
| N559AS|   SEA| HNL|
| N847VA|   SEA| SFO|
+-------+------+----+
only showing top 3 rows



In [33]:
# Select the second set of columns
temp = flights.select(flights.origin, flights.dest, flights.carrier)
temp.show(3)

+------+----+-------+
|origin|dest|carrier|
+------+----+-------+
|   SEA| LAX|     VX|
|   SEA| HNL|     AS|
|   SEA| SFO|     VX|
+------+----+-------+
only showing top 3 rows



In [34]:
# Define first filter
filterA = flights.origin == "SEA"

# Define second filter
filterB = flights.dest == "PDX"
filterB

Column<b'(dest = PDX)'>

In [35]:
# Filter the data, first by filterA then by filterB
selected2 = temp.filter(filterA).filter(filterB)
selected2.show(3)

+------+----+-------+
|origin|dest|carrier|
+------+----+-------+
|   SEA| PDX|     OO|
|   SEA| PDX|     OO|
|   SEA| PDX|     OO|
+------+----+-------+
only showing top 3 rows



In [36]:
# Define avg_speed
avg_speed = (flights.distance/(flights.air_time/60)).alias("avg_speed")
avg_speed

Column<b'(distance / (air_time / 60)) AS `avg_speed`'>

In [37]:
# Select the correct columns
speed1 = flights.select("origin", "dest", "tailnum", avg_speed)
speed1.show(3)

+------+----+-------+------------------+
|origin|dest|tailnum|         avg_speed|
+------+----+-------+------------------+
|   SEA| LAX| N846VA| 433.6363636363636|
|   SEA| HNL| N559AS| 446.1666666666667|
|   SEA| SFO| N847VA|367.02702702702703|
+------+----+-------+------------------+
only showing top 3 rows



In [38]:
# Create the same table using a SQL expression
speed2 = flights.selectExpr("origin", "dest", "tailnum", "distance/(air_time/60) as avg_speed")
speed2.show(3)

+------+----+-------+------------------+
|origin|dest|tailnum|         avg_speed|
+------+----+-------+------------------+
|   SEA| LAX| N846VA| 433.6363636363636|
|   SEA| HNL| N559AS| 446.1666666666667|
|   SEA| SFO| N847VA|367.02702702702703|
+------+----+-------+------------------+
only showing top 3 rows



## Aggregating

In [39]:
# Find the shortest flight from PDX in terms of distance
flights.filter(flights.origin == "PDX").groupBy().min("distance").show()

+-------------+
|min(distance)|
+-------------+
|          106|
+-------------+



In [40]:
# Find the longest flight from SEA in terms of air time
flights.filter('origin = "SEA"').groupBy().max("air_time").show()

+-------------+
|max(air_time)|
+-------------+
|        409.0|
+-------------+



In [41]:
# Average duration of Delta flights
flights.filter(flights.carrier == 'DL').filter(flights.origin == 'SEA').groupBy().avg('air_time').show()

+------------------+
|     avg(air_time)|
+------------------+
|188.20689655172413|
+------------------+



In [42]:
# Total hours in the air
flights.withColumn("duration_hrs", flights.air_time/60).groupBy().sum("duration_hrs").show()

+------------------+
| sum(duration_hrs)|
+------------------+
|25289.600000000126|
+------------------+



## Grouping and Aggregating

In [43]:
# Group by tailnum
by_plane = flights.groupBy("tailnum")
by_plane

<pyspark.sql.group.GroupedData at 0x2672583c488>

In [44]:
# Number of flights each plane made
by_plane.count().show(3)

+-------+-----+
|tailnum|count|
+-------+-----+
| N442AS|   38|
| N102UW|    2|
| N36472|    4|
+-------+-----+
only showing top 3 rows



In [45]:
# Group by origin
by_origin = flights.groupBy("origin")
by_origin

<pyspark.sql.group.GroupedData at 0x26725847d48>

In [46]:
# Average duration of flights from PDX and SEA
by_origin.avg("air_time").show()

+------+------------------+
|origin|     avg(air_time)|
+------+------------------+
|   SEA| 160.4361496051259|
|   PDX|137.11543248288737|
+------+------------------+



In [47]:
# Group by month and dest
by_month_dest = flights.groupBy("month", "dest")

In [48]:
# Average departure delay by month and destination
by_month_dest.avg("dep_delay").show(3)

+-----+----+-------------------+
|month|dest|     avg(dep_delay)|
+-----+----+-------------------+
|   11| TUS|-2.3333333333333335|
|   11| ANC|  7.529411764705882|
|    1| BUR|              -1.45|
+-----+----+-------------------+
only showing top 3 rows



In [49]:
# Import pyspark.sql.functions as F
import pyspark.sql.functions as F

# Standard deviation of departure delay
by_month_dest.agg(F.stddev("dep_delay")).show(3)

+-----+----+----------------------+
|month|dest|stddev_samp(dep_delay)|
+-----+----+----------------------+
|   11| TUS|    3.0550504633038935|
|   11| ANC|    18.604716401245316|
|    1| BUR|     15.22627576540667|
+-----+----+----------------------+
only showing top 3 rows



## Joining

In [50]:
# Examine the data
print(airports)

DataFrame[faa: string, name: string, lat: string, lon: string, alt: string, tz: string, dst: string]


In [51]:
# Rename the faa column
airports = airports.withColumnRenamed("faa", "dest")
print(airports)

DataFrame[dest: string, name: string, lat: string, lon: string, alt: string, tz: string, dst: string]


In [52]:
# Join the DataFrames
flights_with_airports = flights.join(airports, flights.dest == airports.dest, how='left')
print(flights_with_airports)

DataFrame[year: string, month: string, day: string, dep_time: string, dep_delay: float, arr_time: string, arr_delay: string, carrier: string, tailnum: string, flight: string, origin: string, dest: string, air_time: float, distance: int, hour: string, minute: string, duration_hrs: double, dest: string, name: string, lat: string, lon: string, alt: string, tz: string, dst: string]


In [53]:
flights_with_airports.show(3)

+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+----+--------+--------+----+------+------------+----+------------------+---------+-----------+---+---+---+
|year|month|day|dep_time|dep_delay|arr_time|arr_delay|carrier|tailnum|flight|origin|dest|air_time|distance|hour|minute|duration_hrs|dest|              name|      lat|        lon|alt| tz|dst|
+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+----+--------+--------+----+------+------------+----+------------------+---------+-----------+---+---+---+
|2014|   12|  8|     658|     -7.0|     935|       -5|     VX| N846VA|  1780|   SEA| LAX|   132.0|     954|   6|    58|         2.2| LAX|  Los Angeles Intl|33.942536|-118.408075|126| -8|  A|
|2014|    1| 22|    1040|      5.0|    1505|        5|     AS| N559AS|   851|   SEA| HNL|   360.0|    2677|  10|    40|         6.0| HNL|     Honolulu Intl|21.318681|-157.922428| 13|-10|  N|
|2014|    3|  9|    1443|     -2.0|    1652| 

In [54]:
# Join the DataFrames
flights_with_airports = flights.join(airports, on= ["dest"], how='leftouter')
flights_with_airports.show(3)

+----+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+--------+--------+----+------+------------+------------------+---------+-----------+---+---+---+
|dest|year|month|day|dep_time|dep_delay|arr_time|arr_delay|carrier|tailnum|flight|origin|air_time|distance|hour|minute|duration_hrs|              name|      lat|        lon|alt| tz|dst|
+----+----+-----+---+--------+---------+--------+---------+-------+-------+------+------+--------+--------+----+------+------------+------------------+---------+-----------+---+---+---+
| LAX|2014|   12|  8|     658|     -7.0|     935|       -5|     VX| N846VA|  1780|   SEA|   132.0|     954|   6|    58|         2.2|  Los Angeles Intl|33.942536|-118.408075|126| -8|  A|
| HNL|2014|    1| 22|    1040|      5.0|    1505|        5|     AS| N559AS|   851|   SEA|   360.0|    2677|  10|    40|         6.0|     Honolulu Intl|21.318681|-157.922428| 13|-10|  N|
| SFO|2014|    3|  9|    1443|     -2.0|    1652|        2|     VX| N8

## Join the DataFrames

In [56]:
# Rename year column
planes = planes.withColumnRenamed('year', 'plane_year')

In [59]:
# Join the DataFrames
model_data = flights.join(planes, on='tailnum', how="leftouter")
model_data.show(3)
model_data.printSchema()

+-------+----+-----+---+--------+---------+--------+---------+-------+------+------+----+--------+--------+----+------+------------+----------+--------------------+------------+--------+-------+-----+-----+---------+
|tailnum|year|month|day|dep_time|dep_delay|arr_time|arr_delay|carrier|flight|origin|dest|air_time|distance|hour|minute|duration_hrs|plane_year|                type|manufacturer|   model|engines|seats|speed|   engine|
+-------+----+-----+---+--------+---------+--------+---------+-------+------+------+----+--------+--------+----+------+------------+----------+--------------------+------------+--------+-------+-----+-----+---------+
| N846VA|2014|   12|  8|     658|     -7.0|     935|       -5|     VX|  1780|   SEA| LAX|   132.0|     954|   6|    58|         2.2|      2011|Fixed wing multi ...|      AIRBUS|A320-214|      2|  182|   NA|Turbo-fan|
| N559AS|2014|    1| 22|    1040|      5.0|    1505|        5|     AS|   851|   SEA| HNL|   360.0|    2677|  10|    40|         6.0|

## String to integer

In [60]:
# Cast the columns to integers
model_data = model_data.withColumn("arr_delay", model_data.arr_delay.cast('integer'))
model_data = model_data.withColumn("air_time", model_data.air_time.cast('integer'))
model_data = model_data.withColumn("month", model_data.month.cast('integer'))
model_data = model_data.withColumn("plane_year", model_data.plane_year.cast('integer'))
model_data.printSchema()

root
 |-- tailnum: string (nullable = true)
 |-- year: string (nullable = true)
 |-- month: integer (nullable = true)
 |-- day: string (nullable = true)
 |-- dep_time: string (nullable = true)
 |-- dep_delay: float (nullable = true)
 |-- arr_time: string (nullable = true)
 |-- arr_delay: integer (nullable = true)
 |-- carrier: string (nullable = true)
 |-- flight: string (nullable = true)
 |-- origin: string (nullable = true)
 |-- dest: string (nullable = true)
 |-- air_time: integer (nullable = true)
 |-- distance: integer (nullable = true)
 |-- hour: string (nullable = true)
 |-- minute: string (nullable = true)
 |-- duration_hrs: double (nullable = true)
 |-- plane_year: integer (nullable = true)
 |-- type: string (nullable = true)
 |-- manufacturer: string (nullable = true)
 |-- model: string (nullable = true)
 |-- engines: string (nullable = true)
 |-- seats: string (nullable = true)
 |-- speed: string (nullable = true)
 |-- engine: string (nullable = true)



## Create a new column

In [63]:
# Create the column plane_age
model_data = model_data.withColumn("plane_age", model_data.year - model_data.plane_year)
model_data.count()

9303

## Making a Boolean

In [66]:
# Create is_late
model_data = model_data.withColumn("is_late", model_data.arr_delay > 0)

# Convert to an integer
model_data = model_data.withColumn("label", model_data.is_late.cast('integer'))

# Remove missing values
model_data = model_data.filter("arr_delay is not NULL \
                                and dep_delay is not NULL \
                                and air_time is not NULL \
                                and plane_year is not NULL")
model_data.count()

9303

# Categorical features
Como você sabe, o Spark requer dados numéricos para modelagem. Até agora, isso não foi um problema; mesmo colunas booleanas podem ser facilmente convertidas em números inteiros sem nenhum problema. Mas você também estará usando a companhia aérea e o destino do avião como recursos em seu modelo. Eles são codificados como strings e não há nenhuma maneira óbvia de convertê-los em um tipo de dados numérico. 

Felizmente, o PySpark possui funções para lidar com isso incorporado ao submódulo pyspark.ml.features. Você pode criar o que é chamado de 'vetores quentes' para representar a transportadora e o destino de cada voo. Um vetor quente é uma maneira de representar uma característica categórica em que toda observação tem um vetor no qual todos os elementos são zero, exceto no máximo um elemento, que tem o valor de um (1). Cada elemento no vetor corresponde a um nível do recurso, portanto, é possível dizer qual é o nível certo, vendo qual elemento do vetor é igual a um (1). 

O primeiro passo para codificar seu recurso categórico é criar um StringIndexer. Os membros desta classe são estimadores que usam um DataFrame com uma coluna de cadeias e mapeiam cada cadeia exclusiva para um número. Em seguida, o Estimator retorna um Transformer que pega um DataFrame, anexa o mapeamento a ele como metadados e retorna um novo DataFrame com uma coluna numérica correspondente à coluna da string. 

A segunda etapa é codificar essa coluna numérica como um vetor quente usando um OneHotEncoder. Isso funciona exatamente da mesma maneira que o StringIndexer, criando um estimador e depois um transformador. O resultado final é uma coluna que codifica seu recurso categórico como um vetor adequado para rotinas de aprendizado de máquina! 

Isso pode parecer complicado, mas não se preocupe! Tudo o que você precisa lembrar é que você precisa criar um StringIndexer e um OneHotEncoder, e o Pipeline cuidará do resto.

http://spark.apache.org/docs/latest/ml-features.html

In [69]:
from pyspark.ml.feature import StringIndexer, OneHotEncoder

# Create a StringIndexer
carr_indexer = StringIndexer(inputCol="carrier", outputCol="carrier_index")

# Create a OneHotEncoder
carr_encoder = OneHotEncoder(inputCol="carrier_index", outputCol="carrier_fact")

In [70]:
# Create a StringIndexer
dest_indexer = StringIndexer(inputCol = "dest", outputCol = "dest_index")

# Create a OneHotEncoder
dest_encoder = OneHotEncoder(inputCol = "dest_index", outputCol = "dest_fact")

A última etapa do pipeline é combinar todas as colunas que contêm nossos recursos em uma única coluna. Isso deve ser feito antes que a modelagem possa ocorrer, pois toda rotina de modelagem do Spark espera que os dados estejam neste formulário. Você pode fazer isso armazenando cada um dos valores de uma coluna como uma entrada em um vetor. Então, do ponto de vista do modelo, toda observação é um vetor que contém todas as informações sobre ele e um rótulo que informa ao modelador a que valor essa observação corresponde. 

Por esse motivo, o submódulo pyspark.ml.feature contém uma classe chamada VectorAssembler. Este Transformer pega todas as colunas especificadas e as combina em uma nova coluna vetorial.

In [71]:
from pyspark.ml.feature import VectorAssembler

# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=["month", "air_time", "carrier_fact", "dest_fact", "plane_age"], \
                                outputCol="features")

Você está finalmente pronto para criar um pipeline!

Pipeline é uma classe no módulo pyspark.ml que combina todos os estimadores e transformadores que você já criou. Isso permite reutilizar o mesmo processo de modelagem repetidamente, agrupando-o em um objeto simples. Legal, certo?

In [74]:
# Import Pipeline
from pyspark.ml import Pipeline

# Make the pipeline
flights_pipe = Pipeline(stages=[dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler])

## Teste e Treinamento

Depois que você limpa seus dados e os prepara para modelagem, uma das etapas mais importantes é dividir os dados em um conjunto de testes e um conjunto de treinamento. Depois disso, não toque nos dados do teste até achar que tem um bom modelo! Ao criar modelos e formar hipóteses, você pode testá-los em seus dados de treinamento para ter uma idéia do desempenho deles. 

Depois de obter seu modelo favorito, você poderá ver quão bem ele prevê os novos dados no seu conjunto de testes. Esses dados nunca antes vistos darão uma idéia muito mais realista do desempenho do seu modelo no mundo real quando você estiver tentando prever ou classificar novos dados. 

No Spark, é importante garantir que você divida os dados após todas as transformações. Isso ocorre porque operações como StringIndexer nem sempre produzem o mesmo índice, mesmo quando recebem a mesma lista de strings.

In [76]:
# Fit and transform the data
piped_data = flights_pipe.fit(model_data).transform(model_data)

piped_data.show(3)

+-------+----+-----+---+--------+---------+--------+---------+-------+------+------+----+--------+--------+----+------+------------+----------+--------------------+------------+--------+-------+-----+-----+---------+---------+-------+-----+----------+---------------+-------------+--------------+--------------------+
|tailnum|year|month|day|dep_time|dep_delay|arr_time|arr_delay|carrier|flight|origin|dest|air_time|distance|hour|minute|duration_hrs|plane_year|                type|manufacturer|   model|engines|seats|speed|   engine|plane_age|is_late|label|dest_index|      dest_fact|carrier_index|  carrier_fact|            features|
+-------+----+-----+---+--------+---------+--------+---------+-------+------+------+----+--------+--------+----+------+------------+----------+--------------------+------------+--------+-------+-----+-----+---------+---------+-------+-----+----------+---------------+-------------+--------------+--------------------+
| N846VA|2014|   12|  8|     658|     -7.0|   

In [80]:
# Split the data into training and test sets with same Seed
# 60% training and 40% test
training, test = piped_data.randomSplit([.6, .4], 42)
print(training.count(), test.count())

5621 3682


# Regressão Logística

O modelo que você ajustará neste capítulo é chamado de regressão logística. Este modelo é muito semelhante a uma regressão linear, mas, em vez de prever uma variável numérica, prevê a probabilidade (entre 0 e 1) de um evento. 

Para usar isso como um algoritmo de classificação, basta atribuir um ponto de corte a essas probabilidades. Se a probabilidade prevista estiver acima do ponto de corte, você classifica essa observação como um 'sim' (neste caso, o vôo está atrasado); se estiver abaixo, você a classifica como um 'não'! 

Você ajustará esse modelo testando valores diferentes para vários hiperparâmetros. Um hiperparâmetro é apenas um valor no modelo que não é estimado a partir dos dados, mas é fornecido pelo usuário para maximizar o desempenho do modelo. Para este curso, não é necessário entender a matemática por trás de todos esses valores - o importante é que você experimente algumas opções diferentes e escolha a melhor.

In [81]:
# Import LogisticRegression
from pyspark.ml.classification import LogisticRegression

# Create a LogisticRegression Estimator
lr = LogisticRegression()

## Cross validation

Agora você ajustará seu modelo de regressão logística usando um procedimento chamado validação cruzada k-fold. Este é um método de estimar o desempenho do modelo em dados não vistos (como o DataFrame de teste).

Ele funciona dividindo os dados de treinamento em algumas partições diferentes. O número exato depende de você, mas neste curso você usará o valor padrão de três do PySpark. Depois que os dados são divididos, uma das partições é retirada e o modelo é adequado para as outras. Em seguida, o erro é medido em relação à partição retida. Isso é repetido para cada uma das partições, para que cada bloco de dados seja mantido e usado como um conjunto de testes exatamente uma vez. Em seguida, é calculado o erro médio em cada uma das partições. Isso é chamado de erro de validação cruzada do modelo e é uma boa estimativa do erro real nos dados retidos. 

Você usará a validação cruzada para escolher os hiperparâmetros criando uma grade dos possíveis pares de valores para os dois hiperparâmetros, elasticNetParam e regParam, e usando o erro de validação cruzada para comparar todos os modelos diferentes para escolher o melhor!

O que a validação cruzada permite estimar? O Erro estimado do modelo no conjunto de testes.

Crie o avaliador

A primeira coisa que você precisa ao fazer a validação cruzada para a seleção de modelos é uma maneira de comparar diferentes modelos. Felizmente, o submódulo pyspark.ml.evaluation possui classes para avaliar diferentes tipos de modelos. Seu modelo é um modelo de classificação binária; portanto, você usará o BinaryClassificationEvaluator no módulo pyspark.ml.evaluation.

Este avaliador calcula a área sob o ROC. Essa é uma métrica que combina os dois tipos de erros que um classificador binário pode cometer (falsos positivos e falsos negativos) em um número simples. Você aprenderá mais sobre isso no final do capítulo!

In [82]:
# Import the evaluation submodule
import pyspark.ml.evaluation as evals

# Create a BinaryClassificationEvaluator
evaluator = evals.BinaryClassificationEvaluator(metricName="areaUnderROC")

### Crie uma grid

Em seguida, você precisa criar uma grade de valores para pesquisar ao procurar os hiperparâmetros ideais. O submódulo pyspark.ml.tuning inclui uma classe chamada ParamGridBuilder que faz exatamente isso (talvez você esteja começando a perceber um padrão aqui; o PySpark possui um submódulo para praticamente tudo!).

Você precisará usar os métodos .addGrid() e .build() para criar uma grade que possa ser usada para validação cruzada. O método .addGrid() usa um parâmetro de modelo (um atributo do modelo Estimator, lr (regressao Logistica), que você criou há alguns exercícios atrás) e uma lista de valores que você deseja tentar. O método .build () não aceita argumentos, apenas retorna a grade que você usará mais tarde.

In [83]:
# Import the tuning submodule
import pyspark.ml.tuning as tune
import numpy as np

# Create the parameter grid
grid = tune.ParamGridBuilder()

# Add the hyperparameter
# numpy cria uma lista de numeros de 0 a 0.1 incrementando por .01
grid = grid.addGrid(lr.regParam, np.arange(0, .1, .01)) 
grid = grid.addGrid(lr.elasticNetParam, [0, 1])

# Build the grid
grid = grid.build()

### Crie um validador

O submódulo pyspark.ml.tuning também possui uma classe chamada CrossValidator para executar a validação cruzada. Esse Estimador leva o modelador que você deseja ajustar, a grade de hiperparâmetros criados e o avaliador que deseja usar para comparar seus modelos.

O submódulo pyspark.ml.tune já foi importado como sintonia. Você criará o CrossValidator passando o Estimador de regressão logística lr, a grade de parâmetros e o avaliador que você criou nos exercícios anteriores.

In [84]:
# Create the CrossValidator
cv = tune.CrossValidator(estimator=lr,
               estimatorParamMaps=grid,
               evaluator=evaluator )

### Ajuste o modelo

Você está finalmente pronto para encaixar nos modelos e selecionar o melhor!

Infelizmente, a validação cruzada é um procedimento muito intensivo em termos computacionais. A instalação de todos os modelos levaria muito tempo no DataCamp.

Para fazer isso localmente, você usaria o código:

```
# Ajustar modelos de validação cruzada
modelos = cv.fit (treinamento)

# Extraia o melhor modelo
best_lr = models.bestModel
```

Lembre-se de que os dados de treinamento são chamados de treinamento e você está usando lr para ajustar-se a um modelo de regressão logística. A validação cruzada selecionou os valores dos parâmetros regParam = 0 e elasticNetParam = 0 como os melhores. Esses são os valores padrão, portanto, você não precisa fazer mais nada com lr antes de ajustar o modelo.

In [85]:
# Call lr.fit()
best_lr = lr.fit(training)

# Print best_lr
print(best_lr)

LogisticRegressionModel: uid = LogisticRegression_c9659a62fe2b, numClasses = 2, numFeatures = 81


In [86]:
# Fit cross validation models
models = cv.fit(training)

# Extract the best model
best_lr = models.bestModel

In [87]:
# Print best_lr
print(best_lr)

LogisticRegressionModel: uid = LogisticRegression_c9659a62fe2b, numClasses = 2, numFeatures = 81


In [88]:
models

CrossValidatorModel_5b4b685e8cbd

### Avaliando classificadores binários

Neste curso, usaremos uma métrica comum para algoritmos de classificação binária chamada AUC, ou área sob a curva. Nesse caso, a curva é a ROC, ou curva de operação do receptor. Os detalhes do que essas coisas realmente medem não são importantes para este curso. Tudo o que você precisa saber é que, para nossos propósitos, quanto mais próxima a AUC estiver de uma (1), melhor o modelo!

In [89]:
# Use the model to predict the test set
test_results = best_lr.transform(test)

# Evaluate the predictions
print(evaluator.evaluate(test_results))

0.699089985568893
