# Tarea Apache Spark
>Importa las librerías necesarias dónde sea necesario


In [2]:
import pandas as pd 
from pyspark.sql import SparkSession

### SparkSession
>Crea un SparkSession para comenzar la tarea

In [3]:
spark = SparkSession.builder.appName("MiAplicacion").getOrCreate()

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/12/07 00:13:51 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


### Crear un DataFrame
>Lee el csv datosTarea.csv, mételo a un DF y muéstralo.

In [4]:
df = spark.read.csv('datosTarea.csv', header=True, inferSchema=True)
df.show()

+-----+---------------+--------------------+--------------------+--------------------+--------------------+-------+--------------------+-------------------+--------+-----------+------+
|Index|Organization Id|                Name|             Website|             Country|         Description|Founded|            Industry|Number of employees|Networth|stock_price|profit|
+-----+---------------+--------------------+--------------------+--------------------+--------------------+-------+--------------------+-------------------+--------+-----------+------+
|    1|FAB0d41d5b5d22c|         Ferrell LLC|  https://price.net/|    Papua New Guinea|Horizontal empowe...|   1990|            Plastics|               3498|  402269|         33| 12125|
|    2|6A7EdDEA9FaDC52|Mckinney, Riley a...|http://www.hall-b...|             Finland|User-centric syst...|   2015|Glass / Ceramics ...|               4952|  569480|         49| 12001|
|    3|0bFED1ADAE4bcC1|          Hester Ltd|http://sullivan-r...|          

### Filtro de datos
>Consigue todas las empresas que empiecen con 'M' y tengan entre 4000 y 7000 empleados. Sólo muestra los nombres y el número de empleados.

In [5]:
from pyspark.sql.functions import col
# Filtrar por nombre y número de empleados
filtered_df1 = df.filter(
    (col("Name").startswith("M")) & 
    (col("Number of employees") >= 4000) & 
    (col("Number of employees") <= 7000)
).select("Name", "Number of employees")

filtered_df1.show()

+--------------------+-------------------+
|                Name|Number of employees|
+--------------------+-------------------+
|Mckinney, Riley a...|               4952|
|       Mcintosh-Mora|               4389|
|     Mckenzie-Melton|               4589|
|          Massey LLC|               5004|
|        Mays-Preston|               5786|
+--------------------+-------------------+



>Consigue todos los países que no inicien con las letras 'b', 's' y 'm', pero que tampoco tengan un netword mayor a 500000. Muestra el nombre de la compañía, el país y el networth.

In [6]:
filtered_df2 = df.filter(
    (~col("Country").startswith("b")) & 
    (~col("Country").startswith("s")) & 
    (~col("Country").startswith("m")) & 
    (col("Networth") <= 500000)
).select("Name", "Country", "Networth")

filtered_df2.show()

+--------------------+--------------------+--------+
|                Name|             Country|Networth|
+--------------------+--------------------+--------+
|         Ferrell LLC|    Papua New Guinea|  402269|
|      Holder-Sellers|        Turkmenistan|  105914|
|Keller, Campos an...|             Liberia|  329130|
|      Pacheco-Spears|              Sweden|   88435|
|         Harrell LLC|          Guadeloupe|  251274|
|         Jenkins Inc|        South Africa|  139725|
|Dickson, Richmond...|      Czech Republic|  359030|
|        Prince-David|    Christmas Island|  120289|
|         Rivas Group|           Australia|  477824|
|Sloan, Mays and W...|                Chad|   41975|
|Glass, Barrera an...|     Kyrgyz Republic|  300150|
|          Pineda-Cox|             Bolivia|  150880|
|Baker, Mccann and...|               Kenya|  188370|
|            Hahn PLC|             Belarus|  427224|
|Valentine, Fergus...|              Jersey|  412274|
|           Walls LLC|          Cape Verde|  1

### Funciones
Crea una función con @pandas_udf que que le reste a los profits la media en cada renglón. Crea una nueva columna que muestre los resultados.

In [7]:
from pyspark.sql.functions import udf
from pyspark.sql.types import DoubleType

# Calcular la media de la columna 'profits'
mean_profit = df.select(col("profit")).groupBy().avg().first()[0]

# Crear una UDF para restar la media de la columna 'profit'
@udf(DoubleType())
def subtract_mean(value):
    return value - mean_profit

# Aplicar la UDF al DataFrame para crear una nueva columna
df_with_subtracted_mean = df.withColumn("profit_minus_mean", subtract_mean(col("profit")))

# Muestra los resultados
df_with_subtracted_mean.show()

[Stage 8:>                                                          (0 + 1) / 1]

+-----+---------------+--------------------+--------------------+--------------------+--------------------+-------+--------------------+-------------------+--------+-----------+------+-------------------+
|Index|Organization Id|                Name|             Website|             Country|         Description|Founded|            Industry|Number of employees|Networth|stock_price|profit|  profit_minus_mean|
+-----+---------------+--------------------+--------------------+--------------------+--------------------+-------+--------------------+-------------------+--------+-----------+------+-------------------+
|    1|FAB0d41d5b5d22c|         Ferrell LLC|  https://price.net/|    Papua New Guinea|Horizontal empowe...|   1990|            Plastics|               3498|  402269|         33| 12125|-248.64999999999964|
|    2|6A7EdDEA9FaDC52|Mckinney, Riley a...|http://www.hall-b...|             Finland|User-centric syst...|   2015|Glass / Ceramics ...|               4952|  569480|         49| 12

                                                                                

### Grouping data
>Agrupa por industry y muestra cuáles son las empresas con el profit más alto. Muestra los primeros tres.

In [8]:
from pyspark.sql.functions import max, avg

# Agrupar por 'industry' y encontrar la empresa con el profit más alto en cada industria
top_profits_by_industry = df.groupBy("Industry").agg(max("profit").alias("MaxProfit"))

# Ordenar por 'MaxProfit' en orden descendente y mostrar las tres primeras
top_profits_by_industry.orderBy(col("MaxProfit").desc()).show(3)

+--------------------+---------+
|            Industry|MaxProfit|
+--------------------+---------+
|  Legislative Office|    19363|
|Museums / Institu...|    19079|
|             Farming|    18850|
+--------------------+---------+
only showing top 3 rows



>Agrupa por industry y calcula el promedio de empleados que tienen

In [9]:
# Agrupar por 'industry' y calcular el promedio de empleados
average_employees_by_industry = df.groupBy("Industry").agg(avg("Number of employees").alias("AverageEmployees"))

# Mostrar los resultados
average_employees_by_industry.show()

+--------------------+-----------------+
|            Industry| AverageEmployees|
+--------------------+-----------------+
|Primary / Seconda...|6457.666666666667|
|     Broadcast Media|           2589.0|
|           Wholesale|           5010.0|
|Investment Manage...|           3133.5|
|    Food / Beverages|           9011.0|
|  Gambling / Casinos|           4873.0|
|Logistics / Procu...|           4155.0|
|            Maritime|            769.0|
|            Wireless|           6146.0|
|Education Management|            339.0|
|       Arts / Crafts|           2800.0|
|           Insurance|           1215.0|
|  Financial Services|           5157.0|
|Business Supplies...|           9097.0|
|Consumer Electronics|           5022.0|
|       Public Safety|           5287.0|
|Information Techn...|           3934.0|
|Civic / Social Or...|           2442.0|
|      Consumer Goods|           9069.0|
|Glass / Ceramics ...|           4952.0|
+--------------------+-----------------+
only showing top

### SQL
>Usando Spark SQL, obtén cuántas empresas se fundaron despúes del 2000.

In [10]:
# Registrar el DataFrame como una vista temporal SQL
df.createOrReplaceTempView("empresas")

# Ejecutar la consulta SQL para obtener el número de empresas fundadas después del 2000
query = """
SELECT COUNT(*) as total_empresas_post_2000
FROM empresas
WHERE Founded > 2000
"""

# Ejecutar la consulta y mostrar los resultados
result = spark.sql(query)
result.show()

+------------------------+
|total_empresas_post_2000|
+------------------------+
|                      38|
+------------------------+



### ML Regresión Lineal
>Con número de empleados, networth y stock price, obtén una predicción del profit a través de una regresión lineal.

In [12]:
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.sql.functions import pandas_udf, PandasUDFType

# Asignar los nombres de las columnas a variables para fácil referencia
features = ['Number of employees', 'Networth', 'stock_price']
label = 'profit'

# Preparar los datos para el modelo de regresión lineal
assembler = VectorAssembler(inputCols=features, outputCol="features")
data = assembler.transform(df)

# Definir la columna de características y la columna objetivo
data = data.withColumnRenamed(label, "label").select("features", "label")

# Dividir los datos en conjunto de entrenamiento y conjunto de prueba
train_data, test_data = data.randomSplit([0.7, 0.3])

# Inicializar el modelo de regresión lineal
lr = LinearRegression()

# Entrenar el modelo con los datos de entrenamiento
lr_model = lr.fit(train_data)

# Predecir los profits en el conjunto de prueba
predictions = lr_model.transform(test_data)

# Selección de columnas para convertir a DataFrame de Pandas
selected_columns = predictions.select("features", "label", "prediction")

# Evaluar las predicciones
evaluator = RegressionEvaluator(labelCol="label", predictionCol="prediction", metricName="rmse")

# Calcular el error cuadrático medio (Root Mean Squared Error, RMSE)
rmse = evaluator.evaluate(predictions)
print("RMSE: %g" % rmse)

# También puedes evaluar otras métricas, como el coeficiente de determinación (R2)
r2 = evaluator.evaluate(predictions, {evaluator.metricName: "r2"})
print("R2: %g" % r2)

23/12/07 00:19:10 WARN Instrumentation: [948727ad] regParam is zero, which might cause numerical instability and overfitting.


RMSE: 4506.28
R2: 0.0348812


>Una vez que obtengas los resultados, a través del api de pandas, conviértelo en un pandas on spark DataFrame y pásalo a csv.

In [13]:
# Convierte el DataFrame de Spark a un DataFrame de Pandas usando Pandas API
@pandas_udf(selected_columns.schema, PandasUDFType.GROUPED_MAP)
def to_pandas_udf(pdf):
    return pdf

# Selección de columnas para convertir a DataFrame de Pandas
pandas_df = predictions.select("features", "label", "prediction").toPandas()

# Guardar el DataFrame de Pandas como CSV
pandas_df.to_csv("predictions.csv", index=False)