[![pythonista](img/pythonista.png)](https://www.pythonista.io)

# Tipos de datos básicos.

In [None]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Tipos de datos").getOrCreate()
ct = spark.sparkContext

%load_ext sparksql_magic

In [None]:
df = spark.read.parquet('data/data_covid.parquet')
df.createOrReplaceTempView("COVID_NACIONAL")

*Spark SQL* soporta diversos tipos de datos básicos.

Los tipos de datos son fundamentales en *Spark SQL* por varias razones:

1. **Optimización de Almacenamiento y Rendimiento:** Los tipos de datos adecuados pueden ayudar a reducir el espacio de almacenamiento y mejorar el rendimiento de las consultas, ya que Spark puede aplicar optimizaciones específicas según el tipo de dato.

2. **Interoperabilidad:** Al utilizar tipos de datos compatibles con SQL estándar, Spark SQL facilita la integración con otras herramientas y sistemas que admiten SQL.

3. **Facilidad de Uso:** Los tipos de datos bien definidos hacen que sea más fácil comprender y manipular los datos, lo que simplifica el desarrollo y el mantenimiento de las aplicaciones.

4. **Precisión:** Al utilizar tipos de datos adecuados, se garantiza la precisión de los cálculos y se evitan problemas de redondeo o pérdida de información.

* https://spark.apache.org/docs/latest/sql-ref-datatypes.html#tab_SQL_0

## Tipos de Datos en Spark SQL.

*Spark SQL* ofrece una amplia gama de tipos de datos que se pueden utilizar para modelar y analizar diferentes tipos de información. A continuación, se presentan algunos de los tipos de datos más comunes:

1. **Tipos Numéricos:**
   - `IntegerType`: Representa números enteros de 32 bits.
   - `LongType`: Para números enteros de 64 bits.
   - `FloatType` y `DoubleType`: Tipos de punto flotante de precisión simple y doble, respectivamente.

2. **Tipos de Texto:**
   - `StringType`: Utilizado para cadenas de texto.
   - `TimestampType`: Almacena marcas de tiempo con fecha y hora.
   - `DateType`: Para representar fechas sin información de hora.

3. **Tipos Booleanos:**
   - `BooleanType`: Almacena valores verdaderos o falsos.

4. **Tipos Complejos:**
   - `ArrayType`: Permite representar una colección ordenada de elementos del mismo tipo.
   - `MapType`: Define una colección de pares clave-valor.
   - `StructType`: Utilizado para modelar estructuras de datos anidadas.

5. **Tipos Binarios:**
   - `BinaryType`: Se utiliza para almacenar datos binarios, como imágenes o archivos.

6. **Tipos Especiales:**
   - `DecimalType`: Representa números decimales con precisión configurable.
   - `NullType`: Denota un valor nulo.



|Tipo de Spark |	SQL|
|:--------:|:--------|
|BooleanType|```BOOLEAN```|
|ByteType|```BYTE```, ```TINYINT```|
|ShortType|```SHORT```, ```SMALLINT```|
|IntegerType|```INT```, ```INTEGER```|
|LongType|```LONG```, ```BIGINT```|
|FloatType|```FLOAT```, ```REAL```|
|DoubleType|```DOUBLE```|
|DateType|```DATE```|
|TimestampType| ```TIMESTAMP```|
|StringType|```STRING```|
|BinaryType|```BINARY```|
|DecimalType|```DECIMAL```, ```DEC```, ```NUMERIC```|
|YearMonthIntervalType|```INTERVAL YEAR```, ```INTERVAL YEAR TO MONTH```, ```INTERVAL MONTH```|
|DayTimeIntervalType|```INTERVAL DAY```, ```INTERVAL DAY TO HOUR```, ```INTERVAL DAY TO MINUTE```, ```INTERVAL DAY TO SECOND```, ```INTERVAL HOUR```, ```INTERVAL HOUR TO MINUTE```, ```INTERVAL HOUR TO SECOND```, ```INTERVAL MINUTE```, ```INTERVAL MINUTE TO SECOND```, ```INTERVAL SECOND```|
|ArrayType|```ARRAY<element_type>```|
|StructType|```STRUCT<field1_name: field1_type, field2_name: field2_type, …>```|
|MapType|```MAP<key_type, value_type>```|

## Tipos de datos Especiales.

* Infinito
* ```NaN```

* https://spark.apache.org/docs/latest/sql-ref-datatypes.html#floating-point-special-values

## Funciones de conversión.

    Existen funciones que permiten transformar elementos a un tipo específico. 

* https://spark.apache.org/docs/latest/sql-ref-functions-builtin.html#conversion-functions

### La función ```CAST()```.

La función `CAST()` se utiliza para cambiar el tipo de datos de una columna en un *DataFrame* de *Spark SQL*. Esto puede ser necesario en situaciones en las que los tipos de datos de las columnas no coinciden con las necesidades de su análisis o cuando se requiere una conversión explícita para realizar operaciones específicas.

La sintaxis básica de la función `CAST` es la siguiente:

```
CAST(<columna> AS <nuevo_tipo>)
```

Donde:
* `<columna>` es la columna que desea convertir.
* `<nuevo_tipo>` es el tipo de datos al que desea convertirla.

**Ejemplos:**

In [None]:
%%sparksql --cache
SELECT CAST(Index AS STRING)
FROM COVID_NACIONAL;

In [None]:
%%sparksql --cache
SELECT CAST(Index AS INTEGER)
FROM COVID_NACIONAL;

In [None]:
%%sparksql --cache
SELECT CAST(Index AS DATE)
FROM COVID_NACIONAL;

In [None]:
%%sparksql --cache
SELECT CAST(Index AS BOOLEAN)
FROM COVID_NACIONAL;

In [None]:
spark.stop()

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2023.</p>