# Pyspark Basic Introduction

## Instalamos pyspark

In [2]:
# !pip install pyspark

## Importamos pyspark

In [3]:
import pyspark
import pandas as pd

In [4]:
from pyspark.sql import SparkSession

El módulo .sql proporciona una clase llamada SparkSession, que es una entrada principal para trabajar con SQL en Spark. A través de SparkSession, puedes realizar varias tareas SQL en Spark:

    · Ejecución de Consultas SQL: selecciones, filtraciones, agregaciones y otras operaciones SQL en tus datos distribuidos.
    · Creación de Tablas Temporales
    · Lectura y Escritura de Datos

Leemos el archivo `test.csv`

In [5]:
type(pd.read_csv('./data/test1.csv'))

pandas.core.frame.DataFrame

### Vamos a crear una sesión.
Esto nos da acceso a la API de DataFrame y Dataset, que básicamente nos sirve para ejecutar las distintas acciones y transformaciones sobre nuestros datos.

#### **Importante**: es necesario tener instalado JAVA 8 o superior para el funcionamiento de PySpark. 
1. Instalar (https://www.java.com/es/download/ie_manual.jsp)
2. Reiniciar PC
3. Correr la celda y permitir cambios como administrador

In [6]:
spark = SparkSession.builder.appName('Practise').getOrCreate() # Inicia sesión para poder utilizar los comandos de spark

PySparkRuntimeError: [JAVA_GATEWAY_EXITED] Java gateway process exited before sending its port number.

Visualizamos la sesión

In [6]:
spark

Ahora vamos a leer `test.csv` a través de Spark

In [7]:
df_pyspark = spark.read.csv('data/test1.csv')

Ahora vamos a leer `test.csv` a través de Spark

In [8]:
df_pyspark.show()

+---------+---+----------+------+
|      _c0|_c1|       _c2|   _c3|
+---------+---+----------+------+
|     Name|age|Experience|Salary|
|    Krish| 31|        10| 30000|
|Sudhanshu| 30|         8| 25000|
|    Sunny| 29|         4| 20000|
|     Paul| 24|         3| 20000|
|   Harsha| 21|         1| 15000|
|  Shubham| 23|         2| 18000|
+---------+---+----------+------+



Si nos fijamos, nos está mostrando nombres raros en las columnas y además la primera fila la componen los nombres de las columnas.

Para evitar eso, necesitamos poner unos argumentos para evitarlo

In [9]:
df_pyspark = spark.read.option('header', 'true').csv('data/test1.csv')

In [10]:
df_pyspark.show()

+---------+---+----------+------+
|     Name|age|Experience|Salary|
+---------+---+----------+------+
|    Krish| 31|        10| 30000|
|Sudhanshu| 30|         8| 25000|
|    Sunny| 29|         4| 20000|
|     Paul| 24|         3| 20000|
|   Harsha| 21|         1| 15000|
|  Shubham| 23|         2| 18000|
+---------+---+----------+------+



In [11]:
df_pyspark = spark.read.csv('data/test1.csv', header=True)

In [12]:
df_pyspark.show()

+---------+---+----------+------+
|     Name|age|Experience|Salary|
+---------+---+----------+------+
|    Krish| 31|        10| 30000|
|Sudhanshu| 30|         8| 25000|
|    Sunny| 29|         4| 20000|
|     Paul| 24|         3| 20000|
|   Harsha| 21|         1| 15000|
|  Shubham| 23|         2| 18000|
+---------+---+----------+------+



Vemos el tipo de objeto que es

In [13]:
type(df_pyspark)

pyspark.sql.dataframe.DataFrame

Vemos la información de las columnas

In [14]:
df_pyspark.printSchema()

root
 |-- Name: string (nullable = true)
 |-- age: string (nullable = true)
 |-- Experience: string (nullable = true)
 |-- Salary: string (nullable = true)

