# Data Frames con pyspark

ref: https://spark.apache.org/docs/3.1.1/api/python/getting_started/quickstart.html#DataFrame-Creation

A la hora de crear data frames con spark tenemos varios mecanismos

1) desde una lista de columnas sin esquema  (se infiere el esquema)
2) desde una lista de columnas con esquema

3) desde un data frame de pandas 

4) desde un RDD


## Método 1 desde una lista de columnas sin esquemas

para ello se puede usar el método  
spark.creeteDataFrame(  Array) que recibe como parámetro un array de datos

In [5]:
#1 f Creamos un data frame desde una lista de columnas  (sin espeficicar la estructura de datos "esquema" )
from datetime import datetime, date
#import pandas as pd
from pyspark.sql import Row

df = spark.createDataFrame([
    Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
    Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
    Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
])
print (df)
df.show()

DataFrame[a: bigint, b: double, c: string, d: date, e: timestamp]


                                                                                

+---+---+-------+----------+-------------------+
|  a|  b|      c|         d|                  e|
+---+---+-------+----------+-------------------+
|  1|2.0|string1|2000-01-01|2000-01-01 12:00:00|
|  2|3.0|string2|2000-02-01|2000-01-02 12:00:00|
|  4|5.0|string3|2000-03-01|2000-01-03 12:00:00|
+---+---+-------+----------+-------------------+



## Método 2 desde una lista de columnas con esquema
para ello se le pasa el esquema como segundo parámetro al metodo createDataFrame (Array , Schema)


ejemplo:

spark.createDataFrame(myArray, schema='a long, b double, c string, d date, e timestamp)

## EJERCICIO 1 repetir la carga de los datos especificando el esquema de los datos



In [1]:
#2 desde una lista de columnas con esquema

#Ejercicio 1: todo 
#repetir la carga de los datos especificando el esquema de los datos






## Método 3 desde un DataFrame de Pandas 

Para ello partimos de un DataFrame creado con Pandas, es este ejemplo lo creamos el df manualmente. Una vez creado el data frame usamos la funcion createDataFrame(param1), que recibe como param 1 el data frame de pandas


## Ejercicio 2 crear un dataframe desde un data frame de pandas, mostar los datos y la estructura

In [8]:
 #3 desde un data frame de pandas
## Ejercicio 2 - todo

import pandas as pd
pandas_df = pd.DataFrame({
    'a': [1, 2, 3],
    'b': [2., 3., 4.],
    'c': ['string1', 'string2', 'string3'],
    'd': [date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1)],
    'e': [datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0)]
})






In [5]:
#al igual que de un Data set de pandas se puede pasar a un dataset de spark, tambien se puede hacer al contrario
df_pandas = df.toPandas()
df_pandas

Unnamed: 0,a,b,c,d,e
0,1,2.0,string1,2000-01-01,2000-01-01 12:00:00
1,2,3.0,string2,2000-02-01,2000-01-02 12:00:00
2,3,4.0,string3,2000-03-01,2000-01-03 12:00:00


## Método 4  desde un rdd

la funcion createDataFrme puede recibir un RDD como parámetro, además se le puede indicar el esquema

a la hora de indicarle el esquema, se le puede indicar el nombre de las columnas o el nombre y tipo

ejemplos:

* schema=['a', 'b', 'c', 'd', 'e']
* schema='a long, b double, c string, d date, e timestamp'

## Ejercicio 3, dado un rdd creado a partir de un array, crear un data set usando como segundo parametro los nombres de la columna


In [9]:
# 4 desde un RDD

# ejercicio 3 - todo
myArray= [
    (1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),
    (2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))
]








In [15]:
#desde un rdd usando la funcion toDF()
df   = rdd.toDF()

df.show()
df.printSchema()

+---+---+-------+----------+-------------------+
| _1| _2|     _3|        _4|                 _5|
+---+---+-------+----------+-------------------+
|  1|2.0|string1|2000-01-01|2000-01-01 12:00:00|
|  2|3.0|string2|2000-02-01|2000-01-02 12:00:00|
|  3|4.0|string3|2000-03-01|2000-01-03 12:00:00|
+---+---+-------+----------+-------------------+

root
 |-- _1: long (nullable = true)
 |-- _2: double (nullable = true)
 |-- _3: string (nullable = true)
 |-- _4: date (nullable = true)
 |-- _5: timestamp (nullable = true)



In [16]:
#desde un rdd usando la funcion toDF() y pasandole como parametros el nombre de las columnas
df   = rdd.toDF(schema=['a', 'b', 'c', 'd', 'e'])
df.show()
df.printSchema()


+---+---+-------+----------+-------------------+
|  a|  b|      c|         d|                  e|
+---+---+-------+----------+-------------------+
|  1|2.0|string1|2000-01-01|2000-01-01 12:00:00|
|  2|3.0|string2|2000-02-01|2000-01-02 12:00:00|
|  3|4.0|string3|2000-03-01|2000-01-03 12:00:00|
+---+---+-------+----------+-------------------+

root
 |-- a: long (nullable = true)
 |-- b: double (nullable = true)
 |-- c: string (nullable = true)
 |-- d: date (nullable = true)
 |-- e: timestamp (nullable = true)



## Visualizacion

A la hora de mostrar los datos se usa el metodo <b>show()</b>

La visualizacion de los resultados con este método no es muy amigable y en caso de tener muchas columnas, puede ser un pcoo lioso.

Se puede habilitar <b>spark.sql.repl.eagerEval.enabled </b> para mostar los datos de un modo más amigable 

* tambien se pueden mostrar las filas de manera vertical, peude venir bien cuando haya muchas columnas

In [7]:
spark.conf.set('spark.sql.repl.eagerEval.enabled', True)
df

a,b,c,d,e
1,2.0,string1,2000-01-01,2000-01-01 12:00:00
2,3.0,string2,2000-02-01,2000-01-02 12:00:00
3,4.0,string3,2000-03-01,2000-01-03 12:00:00


In [8]:
df.show(1, vertical=True)

-RECORD 0------------------
 a   | 1                   
 b   | 2.0                 
 c   | string1             
 d   | 2000-01-01          
 e   | 2000-01-01 12:00:00 
only showing top 1 row



In [9]:
#columnas del dataframe
df.columns

['a', 'b', 'c', 'd', 'e']

In [10]:
#esquema del dataframe
df.printSchema()

root
 |-- a: long (nullable = true)
 |-- b: double (nullable = true)
 |-- c: string (nullable = true)
 |-- d: date (nullable = true)
 |-- e: timestamp (nullable = true)



In [11]:
#resumen "estadístico del dataframe"
df.describe().show()

+-------+---+---+-------+
|summary|  a|  b|      c|
+-------+---+---+-------+
|  count|  3|  3|      3|
|   mean|2.0|3.0|   null|
| stddev|1.0|1.0|   null|
|    min|  1|2.0|string1|
|    max|  3|4.0|string3|
+-------+---+---+-------+



In [12]:
#mostramos las n primeras filas
df.take(1)

[Row(a=1, b=2.0, c='string1', d=datetime.date(2000, 1, 1), e=datetime.datetime(2000, 1, 1, 12, 0))]

In [18]:
#mostramos la n ultimas filas
df.tail(1)

[Row(a=3, b=4.0, c='string3', d=datetime.date(2000, 3, 1), e=datetime.datetime(2000, 1, 3, 12, 0))]

 # Tipos de datos - Data frames
 
 Explicacion de los diferentes typos de datos
 
 ref: https://spark.apache.org/docs/latest/sql-ref-datatypes.html 
 
 
 
ByteType: int or long. 1-byte. Range of -128 to 127

ShortType: int or long. 2-byte Range of -32768 to 32767

IntegerType 

LongType: 8-byte. +-9223372036854775808

FloatType 	float. 4-byte single-precision 

DoubleType 	float)

DecimalType 	decimal.Decimal

StringType 	string 

BinaryType 	bytearray

BooleanType 	bool

TimestampType 	datetime.datetime

DateType 	datetime.date

ArrayType 	list, tuple, or array
..
 
    
    