### ![Spark Logo Tiny](https://files.training.databricks.com/images/105/logo_spark_tiny.png) Cambiar tipo de datos usando 'cast'

In [0]:
data = [('Andres Jeria', 'Python', 3, 10000, '02-07-2021',True),
        ('Javiera Zarate', 'Scala', 2, 8000, '07-10-2021',False),
        ('Tomas Rojas', 'Java', 6, 15000, '20-08-2021',True),
        ('Nicolas Pereira', 'C++', 12, 6000, '02-12-2021',False)
       ]

columnas = ['nombre','curso','duracion_meses','costo','fecha_inicio','pago_realizado']

df = spark.createDataFrame(data, columnas)
df.printSchema()
df.show(truncate=False)

root
 |-- nombre: string (nullable = true)
 |-- curso: string (nullable = true)
 |-- duracion_meses: long (nullable = true)
 |-- costo: long (nullable = true)
 |-- fecha_inicio: string (nullable = true)
 |-- pago_realizado: boolean (nullable = true)

+---------------+------+--------------+-----+------------+--------------+
|nombre         |curso |duracion_meses|costo|fecha_inicio|pago_realizado|
+---------------+------+--------------+-----+------------+--------------+
|Andres Jeria   |Python|3             |10000|02-07-2021  |true          |
|Javiera Zarate |Scala |2             |8000 |07-10-2021  |false         |
|Tomas Rojas    |Java  |6             |15000|20-08-2021  |true          |
|Nicolas Pereira|C++   |12            |6000 |02-12-2021  |false         |
+---------------+------+--------------+-----+------------+--------------+



#### Usando DataFrame.withColumn( )

El DataFrame.withColumn(colName, col) devuelve un nuevo DataFrame añadiendo una columna o reemplazando la columna existente que tiene el mismo nombre.

Utilizaremos el método cast(x, dataType) para convertir la columna en un tipo de datos diferente. Aquí, el parámetro "x" es el nombre de la columna y dataType es el tipo de datos al que se quiere cambiar la columna respectiva.

In [0]:
df_modif = df.withColumn('costo',df['costo'].cast('float'))

df_modif.printSchema()
df_modif.show()

root
 |-- nombre: string (nullable = true)
 |-- curso: string (nullable = true)
 |-- duracion_meses: long (nullable = true)
 |-- costo: float (nullable = true)
 |-- fecha_inicio: string (nullable = true)
 |-- pago_realizado: boolean (nullable = true)

+---------------+------+--------------+-------+------------+--------------+
|         nombre| curso|duracion_meses|  costo|fecha_inicio|pago_realizado|
+---------------+------+--------------+-------+------------+--------------+
|   Andres Jeria|Python|             3|10000.0|  02-07-2021|          true|
| Javiera Zarate| Scala|             2| 8000.0|  07-10-2021|         false|
|    Tomas Rojas|  Java|             6|15000.0|  20-08-2021|          true|
|Nicolas Pereira|   C++|            12| 6000.0|  02-12-2021|         false|
+---------------+------+--------------+-------+------------+--------------+



#### Cambiar el tipo de dato de múltiples columnas

In [0]:
from pyspark.sql.types import StringType, DateType, FloatType

df_modif = df.withColumn('costo', df['costo'].cast(FloatType())). \
              withColumn('fecha_inicio', df['fecha_inicio'].cast(DateType())). \
              withColumn('pago_realizado', df['pago_realizado'].cast(StringType()))

df_modif.printSchema()
df_modif.show()

root
 |-- nombre: string (nullable = true)
 |-- curso: string (nullable = true)
 |-- duracion_meses: long (nullable = true)
 |-- costo: float (nullable = true)
 |-- fecha_inicio: date (nullable = true)
 |-- pago_realizado: string (nullable = true)

+---------------+------+--------------+-------+------------+--------------+
|         nombre| curso|duracion_meses|  costo|fecha_inicio|pago_realizado|
+---------------+------+--------------+-------+------------+--------------+
|   Andres Jeria|Python|             3|10000.0|        null|          true|
| Javiera Zarate| Scala|             2| 8000.0|        null|         false|
|    Tomas Rojas|  Java|             6|15000.0|        null|          true|
|Nicolas Pereira|   C++|            12| 6000.0|        null|         false|
+---------------+------+--------------+-------+------------+--------------+



#### Usando DataFrame.select( )

In [0]:
from pyspark.sql.functions import col
from pyspark.sql.types import StringType, DateType, FloatType, IntegerType

df_modif = df.select(df.nombre, df.curso, df.duracion_meses, 
                    (df.costo.cast(FloatType())),
                    (df.fecha_inicio.cast(DateType())),
                    (df.pago_realizado.cast(StringType()))
                    )

df_modif.printSchema()
df_modif.show()

root
 |-- nombre: string (nullable = true)
 |-- curso: string (nullable = true)
 |-- duracion_meses: long (nullable = true)
 |-- costo: float (nullable = true)
 |-- fecha_inicio: date (nullable = true)
 |-- pago_realizado: string (nullable = true)

+---------------+------+--------------+-------+------------+--------------+
|         nombre| curso|duracion_meses|  costo|fecha_inicio|pago_realizado|
+---------------+------+--------------+-------+------------+--------------+
|   Andres Jeria|Python|             3|10000.0|        null|          true|
| Javiera Zarate| Scala|             2| 8000.0|        null|         false|
|    Tomas Rojas|  Java|             6|15000.0|        null|          true|
|Nicolas Pereira|   C++|            12| 6000.0|        null|         false|
+---------------+------+--------------+-------+------------+--------------+



##### Cambiar al mismo tipo de datos para todas las columnas

In [0]:
df_modif = df.select([col(c).cast(StringType()).alias(c) for c in df.columns])

df_modif.printSchema()
df_modif.show()

root
 |-- nombre: string (nullable = true)
 |-- curso: string (nullable = true)
 |-- duracion_meses: string (nullable = true)
 |-- costo: string (nullable = true)
 |-- fecha_inicio: string (nullable = true)
 |-- pago_realizado: string (nullable = true)

+---------------+------+--------------+-----+------------+--------------+
|         nombre| curso|duracion_meses|costo|fecha_inicio|pago_realizado|
+---------------+------+--------------+-----+------------+--------------+
|   Andres Jeria|Python|             3|10000|  02-07-2021|          true|
| Javiera Zarate| Scala|             2| 8000|  07-10-2021|         false|
|    Tomas Rojas|  Java|             6|15000|  20-08-2021|          true|
|Nicolas Pereira|   C++|            12| 6000|  02-12-2021|         false|
+---------------+------+--------------+-----+------------+--------------+



##### Cambio de varias columnas a los diferentes tipos de datos

In [0]:
dict = {
    'nombre':StringType(),
    'curso':StringType(),
    'duracion_meses':IntegerType(),
    'costo':FloatType(),
    'fecha_inicio':DateType(),
    'pago_realizado':StringType()
}

df_modif = df.select([df.cast(dict).alias(c) for c in df.columns])

df_modif.printSchema()
df_modif.show()

[0;31m---------------------------------------------------------------------------[0m
[0;31mAttributeError[0m                            Traceback (most recent call last)
[0;32m<command-4076097558779834>[0m in [0;36m<cell line: 10>[0;34m()[0m
[1;32m      8[0m }
[1;32m      9[0m [0;34m[0m[0m
[0;32m---> 10[0;31m [0mdf_modif[0m [0;34m=[0m [0mdf[0m[0;34m.[0m[0mselect[0m[0;34m([0m[0;34m[[0m[0mdf[0m[0;34m.[0m[0mcast[0m[0;34m([0m[0mdict[0m[0;34m)[0m[0;34m.[0m[0malias[0m[0;34m([0m[0mc[0m[0;34m)[0m [0;32mfor[0m [0mc[0m [0;32min[0m [0mdf[0m[0;34m.[0m[0mcolumns[0m[0;34m][0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0m[1;32m     11[0m [0;34m[0m[0m
[1;32m     12[0m [0mdf_modif[0m[0;34m.[0m[0mprintSchema[0m[0;34m([0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m

[0;32m<command-4076097558779834>[0m in [0;36m<listcomp>[0;34m(.0)[0m
[1;32m      8[0m }
[1;32m      9[0m [0;34m[0m[0m
[0;32m---> 10[0;31m [0mdf_modif[0m

#### Usando spark.sql( )

In [0]:
df.createOrReplaceTempView('sql')

df_modif = spark.sql('''
           SELECT nombre,
                  curso,
                  INT(duracion_meses),
                  FLOAT(costo),
                  DATE(fecha_inicio),
                  STRING(pago_realizado)
           FROM sql     
           ''')

df_modif.printSchema()
df_modif.show()

root
 |-- nombre: string (nullable = true)
 |-- curso: string (nullable = true)
 |-- duracion_meses: integer (nullable = true)
 |-- costo: float (nullable = true)
 |-- fecha_inicio: date (nullable = true)
 |-- pago_realizado: string (nullable = true)

+---------------+------+--------------+-------+------------+--------------+
|         nombre| curso|duracion_meses|  costo|fecha_inicio|pago_realizado|
+---------------+------+--------------+-------+------------+--------------+
|   Andres Jeria|Python|             3|10000.0|        null|          true|
| Javiera Zarate| Scala|             2| 8000.0|        null|         false|
|    Tomas Rojas|  Java|             6|15000.0|        null|          true|
|Nicolas Pereira|   C++|            12| 6000.0|        null|         false|
+---------------+------+--------------+-------+------------+--------------+

