<a id='big-data-pyspark-y-colaboratorio'></a>
## Big data, PySpark

Big data generalmente significa datos de un volumen tan grande que las soluciones normales de almacenamiento de datos no pueden almacenarlos y procesarlos de manera eficiente. En esta era, los datos se generan a un ritmo absurdo. Se recopilan datos por cada movimiento que realiza una persona. La mayor parte de los grandes datos proviene de tres fuentes principales:
<ol>
   <li>Datos sociales</li>
   <li>Datos de la máquina</li>
   <li>Datos transaccionales</li>
</ol>

Algunos ejemplos comunes de las fuentes de dichos datos incluyen búsquedas en Internet, publicaciones en Facebook, cámaras de timbre, relojes inteligentes, historial de compras en línea, etc. Cada acción crea datos, es solo una cuestión de si hay una manera de recopilarlos o no. Pero lo interesante es que de todos estos datos recopilados, ni siquiera el 5% se está utilizando por completo. Existe una gran demanda de profesionales de big data en la industria. Aunque el número de graduados con especialización en big data está aumentando, el problema es que no tienen el conocimiento práctico sobre escenarios de big data, lo que conduce a malas arquitecturas y métodos ineficientes de procesamiento de datos.

>Si está interesado en saber más sobre el panorama y las tecnologías involucradas, aquí hay [un artículo](https://hostingtribunal.com/blog/big-data-stats/) ¡que encontré realmente interesante!

<a id='pyspark'></a>
### PySpark

Si está trabajando en el campo de los grandes datos, definitivamente debe haber oído hablar de Spark. Si observa el sitio web de [Apache Spark](https://spark.apache.org/), verá que se dice que es un "motor de análisis unificado ultrarrápido". PySpark es una versión de Spark que se utiliza para procesar y analizar volúmenes masivos de datos. Si está familiarizado con Python y lo ha probado con grandes conjuntos de datos, debe saber que el tiempo de ejecución puede ser ridículo. ¡Entra en PySpark!

Imagine que sus datos residen de manera distribuida en diferentes lugares. Si intenta llevar sus datos a un punto y ejecutar su código allí, no solo sería ineficiente, sino que también causaría problemas de memoria. Ahora digamos que su código va a los datos en lugar de que los datos lleguen a donde está su código. Esto ayudará a evitar el movimiento de datos innecesario que, por lo tanto, reducirá el tiempo de ejecución.

PySpark es la API Python de Spark; lo que significa que puede hacer casi todas las cosas que Python puede hacer. Canalizaciones de aprendizaje automático (ML), análisis de datos exploratorios (a escala), ETL para plataforma de datos, ¡y mucho más! Y todos ellos de forma distribuida. Una de las mejores partes de pyspark es que si ya está familiarizado con python, es realmente fácil de aprender.

Además de PySpark, existe otro lenguaje llamado Scala que se utiliza para el procesamiento de big data. Scala suele ser 10 veces más rápido que *Python*, ya que es nativo de Hadoop y se basa en JVM. Pero PySpark se está adoptando a un ritmo acelerado debido a la facilidad de uso, la curva de aprendizaje más fácil y las capacidades de ML.

Explicaré brevemente cómo funciona un trabajo de PySpark, pero le recomiendo que lea más sobre la [arquitectura](https://data-flair.training/blogs/how-apache-spark-works/) y cómo funciona todo. Ahora, antes de entrar en materia, permítanme hablar primero sobre algunas <u>jergas básicas</u>:

<b>Cluster</b> es un conjunto de computadoras conectadas de forma flexible o estrecha que funcionan juntas para que puedan verse como un solo sistema.

<b>Hadoop</b> es un marco de código abierto, escalable y tolerante a fallas escrito en Java. Procesa de manera eficiente grandes volúmenes de datos en un grupo de hardware básico. Hadoop no es solo un sistema de almacenamiento, sino que es una plataforma para el almacenamiento y el procesamiento de grandes datos.

<b>HDFS</b> (sistema de archivos distribuido Hadoop). Es uno de los sistemas de almacenamiento más fiables del mundo. HDFS es un sistema de archivos de Hadoop diseñado para almacenar archivos muy grandes que se ejecutan en un clúster de hardware básico.

<b>MapReduce</b> es un marco de procesamiento de datos, que tiene 2 fases: Mapper y Reducer. El procedimiento map realiza el filtrado y la clasificación, y el método reduce realiza una operación de resumen. Por lo general, se ejecuta en un clúster de Hadoop.

<b>Transformación</b> se refiere a las operaciones aplicadas en un conjunto de datos para crear un nuevo conjunto de datos. Filter, groupBy y map son ejemplos de transformaciones.

<b>Acciones</b> Las acciones se refieren a una operación que le indica a Spark que realice un cálculo y envíe el resultado al controlador. Este es un ejemplo de acción.

¡Bien! Ahora que eso está fuera del camino, permítanme explicar cómo se ejecuta un trabajo de chispa. En terma simple, cada vez que envía un trabajo pyspark, el código se convierte internamente en un programa MapReduce y se ejecuta en la máquina virtual Java. Ahora, uno de los pensamientos que podría estar apareciendo en su mente probablemente sea: <br>`Así que el código se convierte en un programa MapReduce. ¿No significaría eso que MapReduce es más rápido que pySpark?`<br> Bueno, la respuesta es un rotundo NO. Esto es lo que hace que los trabajos de Spark sean especiales. Spark es capaz de manejar una gran cantidad de datos a la vez, en su entorno distribuido. Lo hace a través del <u>procesamiento en memoria</u>, que es lo que lo hace casi 100 veces más rápido que Hadoop. Otro factor que lo hace rápido es <u>Lazy Evaluation</u>. Spark retrasa su evaluación tanto como puede. Cada vez que envía un trabajo, Spark crea un plan de acción sobre cómo ejecutar el código y luego no hace nada. Finalmente, cuando solicita el resultado (es decir, llama a una acción), ejecuta el plan, que es básicamente todas las transformaciones que ha mencionado en su código. Esa es básicamente la esencia de esto.

Ahora, por último, quiero hablar sobre más cosas. Spark consta principalmente de 4 módulos:

<ol>
    <li>Spark SQL: ayuda a escribir programas Spark utilizando consultas similares a SQL.</li>
    <li>Spark Streaming: es una extensión de la API principal de Spark que permite el procesamiento de transmisiones de datos en vivo escalable, de alto rendimiento y tolerante a fallas. se usa mucho en el procesamiento de datos de redes sociales.</li>
    <li>Spark MLLib: es el componente de aprendizaje automático de SPark. Ayuda a entrenar modelos ML en conjuntos de datos masivos con una eficiencia muy alta. </li>
    <li>Spark GraphX: es el componente de visualización de Spark. Permite a los usuarios ver datos como gráficos y como colecciones sin movimiento ni duplicación de datos.</li>
</ol>

Espero que esta imagen dé una mejor idea de lo que estoy hablando:
<img alt="Módulos Spark" src="https://2s7gjr373w3x22jf92z99mgm5w-wpengine.netdna-ssl.com/wp-content/uploads/2015/11/spark-streaming-datanami.png

In [None]:
!pip install pyspark pandas numpy findspark

In [None]:
from pyspark import SparkConf
from pyspark.sql import SparkSession
import pandas as pd
conf = SparkConf().setAppName('spark-app').setMaster('local[*]')
spark = SparkSession.builder.config(conf=conf).getOrCreate()
spark

In [None]:
url = 'https://jacobceles.github.io/knowledge_repo/colab_and_pyspark/cars.csv'
df = spark.createDataFrame(pd.read_csv(url, sep=";"))
df.show(5)

El comando anterior carga nuestros datos desde un dataframe (DF). Un marco de datos es una estructura de datos etiquetada bidimensional con columnas de tipos potencialmente diferentes.

<a id='ver-el-marco de datos'></a>
### Visualización del dataframe

Hay un par de formas de ver su dataframe (DF) en PySpark:

1. `df.take(5)` devolverá una lista de cinco objetos Row.
2. `df.collect()` obtendrá todos los datos de todo el DataFrame. Tenga mucho cuidado al usarlo, porque si tiene un gran conjunto de datos, puede bloquear fácilmente el nodo del controlador.
3. `df.show()` es el método más utilizado para ver un marco de datos. Hay algunos parámetros que podemos pasar a este método, como el número de filas y el truncamiento. Por ejemplo, `df.show(5, False)` o ` df.show(5, truncate=False)` mostrará los datos completos sin ningún truncamiento.
4. `df.limit(5)` **devolverá un nuevo DataFrame** tomando las primeras n filas. Como la chispa se distribuye en la naturaleza, no hay garantía de que `df.limit()` le brinde los mismos resultados cada vez.

Veamos algunos de ellos en acción a continuación:

In [None]:
df.show(5, truncate=False)

In [None]:
df.limit(5)

<a id='ver-columnas-del-marco-de-datos'></a>
### Visualización de columnas

In [None]:
df.columns

<a id='esquema del marco de datos'></a>
### Esquema del dataframe

Hay dos métodos comúnmente utilizados para ver los tipos de datos de un dataframe

In [None]:
df.dtypes

In [None]:
df.printSchema()

<a id='inferencia-esquema-implícito'></a>
#### Esquema de inferencia implícita

Podemos usar el parámetro `inferschema=true` para inferir el esquema de entrada automáticamente mientras cargamos los datos. A continuación se muestra un ejemplo:

In [None]:
url = 'https://jacobceles.github.io/knowledge_repo/colab_and_pyspark/cars.csv'
df = spark.createDataFrame(pd.read_csv(url, sep=";"))
df.printSchema()

Como puede ver, el tipo de datos se ha deducido automáticamente incluso con la precisión correcta para el tipo decimal. Un problema que podría surgir aquí es que a veces, cuando tiene que leer varios archivos con diferentes esquemas en diferentes archivos, puede haber un problema con la inferencia implícita que conduce a valores nulos en algunas columnas. Por lo tanto, veamos también cómo definir esquemas explícitamente.

<a id='inferencia-esquema-explícito'></a>
#### Definición explícita del esquema

In [None]:
from pyspark.sql.types import *
df.columns

In [None]:
# Creating a list of the schema in the format column_name, data_type
labels = [
     ('Car',StringType()),
     ('MPG',DoubleType()),
     ('Cylinders',IntegerType()),
     ('Displacement',DoubleType()),
     ('Horsepower',DoubleType()),
     ('Weight',DoubleType()),
     ('Acceleration',DoubleType()),
     ('Model',IntegerType()),
     ('Origin',StringType())
]

In [None]:
# Creating the schema that will be passed when reading the csv
schema = StructType([StructField (x[0], x[1], True) for x in labels])
schema

In [None]:
df.show(truncate=False)

Como podemos ver aquí, los datos se han cargado correctamente con los tipos de datos especificados.

<a id='operaciones-del-marco-de-datos-en-columnas'></a>
## Operaciones de columnas

Veremos lo siguiente en esta sección:

1. Selección de columnas
2. Selección de varias columnas
3. Agregar nuevas columnas
4. Cambiar el nombre de las columnas
5. Agrupación por columnas
6. Eliminación de columnas

<a id='seleccionar-columnas'></a>
### Selección de columnas

In [None]:
# 1st method
# Column name is case sensitive in this usage
print(df.Car)
print("*"*20)
df.select(df.Car).show(truncate=False)

**NOTA:**

> **No siempre podemos usar la notación de puntos porque esto se romperá cuando los nombres de las columnas tengan nombres o atributos reservados para la clase del marco de datos. Además, los nombres de las columnas distinguen entre mayúsculas y minúsculas, por lo que siempre debemos asegurarnos de que los nombres de las columnas se hayan cambiado a un caso particular antes de usarlo. **

In [None]:
# 2nd method
# Column name is case insensitive here
print(df['car'])
print("*"*20)
df.select(df['car']).show(truncate=False)

In [None]:
# 3rd method
# Column name is case insensitive here
from pyspark.sql.functions import col
df.select(col('car')).show(truncate=False)

<a id='seleccionando-múltiples-columnas'></a>
### Selección de varias columnas

In [None]:
# 1st method
# Column name is case sensitive in this usage
print(df.Car, df.Cylinders)
print("*"*40)
df.select(df.Car, df.Cylinders).show(truncate=False)

In [None]:
# 2nd method
# Column name is case insensitive in this usage
print(df['car'],df['cylinders'])
print("*"*40)
df.select(df['car'],df['cylinders']).show(truncate=False)

In [None]:
# 3rd method
# Column name is case insensitive in this usage
from pyspark.sql.functions import col
df.select(col('car'),col('cylinders')).show(truncate=False)

<a id='agregar-nuevas-columnas'></a>
### Adición de nuevas columnas

A continuación veremos tres casos:

1. Agregar una nueva columna
2. Agregar múltiples columnas
3. Derivar una nueva columna de una existente

In [None]:
# CASE 1: Adding a new column
# We will add a new column called 'first_column' at the end
from pyspark.sql.functions import lit
df = df.withColumn('first_column',lit(1)) 
# lit means literal. It populates the row with the literal value given.
# When adding static data / constant values, it is a good practice to use it.
df.show(5,truncate=False)

In [None]:
# CASE 2: Adding multiple columns
# We will add two new columns called 'second_column' and 'third_column' at the end
df = df.withColumn('second_column', lit(2)) \
       .withColumn('third_column', lit('Third Column')) 
# lit means literal. It populates the row with the literal value given.
# When adding static data / constant values, it is a good practice to use it.
df.show(5,truncate=False)

In [None]:
# CASE 3: Deriving a new column from an exisitng one
# We will add a new column called 'car_model' which has the value of car and model appended together with a space in between 
from pyspark.sql.functions import concat
df = df.withColumn('car_model', concat(col("Car"), lit(" "), col("model")))
# lit means literal. It populates the row with the literal value given.
# When adding static data / constant values, it is a good practice to use it.
df.show(5,truncate=False)

Como podemos ver, el nuevo modelo de coche de columnas se ha creado a partir de columnas existentes. Dado que nuestro objetivo era crear una columna que tuviera el valor del automóvil y el modelo junto con un espacio en el medio, hemos utilizado el operador `concat`.

<a id='renombrar-columnas'></a>
### Cambio de nombre de columnas

Usamos la función `withColumnRenamed` para cambiar el nombre de una columna en PySpark. Veámoslo en acción a continuación:

In [None]:
#Renaming a column in PySpark
df = df.withColumnRenamed('first_column', 'new_column_one') \
       .withColumnRenamed('second_column', 'new_column_two') \
       .withColumnRenamed('third_column', 'new_column_three')
df.show(truncate=False)

<a id='agrupación-por-columnas'></a>
### Agrupación por columnas

Aquí, vemos la forma de agrupar valores de la API Dataframe. Discutiremos cómo:


1. Agrupar por una sola columna
2. Agrupar por múltiples columnas

In [None]:
# Group By a column in PySpark
df.groupBy('Origin').count().show(5)

In [None]:
# Group By multiple columns in PySpark
df.groupBy('Origin', 'Model').count().show(5)

<a id='eliminando-columnas'></y>
### Eliminación de columnas

In [None]:
#Remove columns in PySpark
df = df.drop('new_column_one')
df.show(5,truncate=False)

In [None]:
#Remove multiple columnss in one go
df = df.drop('new_column_two') \
       .drop('new_column_three')
df.show(5,truncate=False)