In [0]:
# File location and type
file_location = "/FileStore/tables/Electric_Vehicle_Population_Data.csv"
file_type = "csv"

# CSV options
infer_schema = "true"
first_row_is_header = "true"
delimiter = ","

# The applied options are for CSV files. For other file types, these will be ignored.
df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df)

In [0]:
#Importaciones
from pyspark.sql.functions import *

In [0]:
# Seleccionar Columnas: Selecciona las columnas "VIN", "City" y "Model" del DataFrame.
df.select(col("VIN (1-10)"), col("City"), col("Model")).show()

In [0]:
# Filtrar Datos: Filtra el DataFrame para mostrar solo los registros donde el "Model Year" sea mayor que 2018.
df_mayor_2018 = df.where(col("Model Year") > 2018)
display(df_mayor_2018)

In [0]:
# Agregaciones: Calcula el promedio de la columna "Electric Range".
df.select(round(avg("Electric Range"),2).alias("Promedio Rango Electrico")).show()

In [0]:
# Conteo de Registros: Cuenta el número total de registros en el DataFrame.
df.select(count("*").alias("Total Registros")).show()

In [0]:
# Agregaciones por Grupo: Calcula el promedio de "Base MSRP" agrupado por "Make".
df_agrupado = df.groupBy("Make").agg(round(avg("Base MSRP"),2).alias("Promedio Base MSRP"))
display(df_agrupado)

In [0]:
# Ordenamiento: Ordena el DataFrame por "Electric Range" en orden descendente.
df_ordenado = df.select("*").orderBy(desc("Electric Range"))
display(df_ordenado)

In [0]:
# Renombrar Columnas: Renombra la columna "Model" a "Car Model" y la columna "State" a "Vehicle State".
df_col_renomb = (df
                 .withColumnRenamed("Model", "Car Model")
                 .withColumnRenamed("State", "Vehicle State"))
display(df_col_renomb)

In [0]:
# Operaciones de String: Agrega una nueva columna llamada "City_State" que contenga la concatenación de las columnas "City" y "State", separadas por un guion bajo.
df_new = df.withColumn("City_State", concat(col("City"), lit("_"), col("State")))
display(df_new)

In [0]:
# Filtrar por Múltiples Condiciones: Filtra el DataFrame para mostrar solo los registros donde el "Model Year" sea mayor que 2018 y el "Electric Range" sea mayor que 200.
df_filtrado = df.where(col("Model Year") > 2018).where(col("Electric Range") > 200)
display(df_filtrado)

In [0]:
df.select("Electric Vehicle Type").distinct().show()

In [0]:
# Agregaciones con Filtro: Calcula el promedio de "Base MSRP" solo para los registros donde "Electric Vehicle Type" es igual a "Battery Electric".
df_battery_electric = df.where(col("Electric Vehicle Type").contains(lit("Battery Electric"))).select(round(avg("Base MSRP"),2))
display(df_battery_electric)

In [0]:
# Funciones Matemáticas: Agrega una nueva columna llamada "Precio_Promedio" que contenga el precio promedio calculado como el promedio de "Base MSRP" y "Electric Range".
df_precio_promedio = df.withColumn("Precio_Promedio", (col("Base MSRP") + col("Electric Range"))/2)
display(df_precio_promedio)

In [0]:
# Eliminar Columnas: Elimina las columnas "Legislative District" y "DOL Vehicle ID" del DataFrame.
df_col_eliminadas = df.drop("Legislative District") \
                      .drop("DOL Vehicle ID")
display(df_col_eliminadas)

In [0]:
# Agregación: Calcula el máximo "Electric Range" agrupado por "Model Year" y "Make".

df_max_elect_range = df.groupBy("Model Year", "Make").agg(max("Electric Range"))
display(df_max_elect_range)