# Tipos de dados no Spark: Simples e Complexo

### Estrutura Simples

| Tipo do Dado  | Equivalência em Python  | Instância no Spark                           |
| ------------- | ----------------------- | -------------------------------------------- |
| ByteType    | int               | ByteType()                                 |
| ShortType | int       | ShortType()                              |
| IntegerType      | int          | IntegerType()                                   |
| LongType     | int   | LongType()              |
| FloatType       | float                    | FloatType() |
| StringType    | str         | StringType()                         |
| BooleanType   | Bool | BooleanType() |
| DecimalType   | decimal.Decimal | DecimalType() |

### Estrutura Complexa

| Tipo do Dado  | Equivalência em Python  | Instância no Spark                           |
| ------------- | ----------------------- | -------------------------------------------- |
| BinaryType    | bytearray               | BinaryType()                                 |
| TimestampType | datetime.datetime       | TimestampType()                              |
| DateType      | datetime.date           | DateType()                                   |
| ArrayType     | List, tuple, or array   | ArrayType(dataType, [nullable])              |
| MapType       | dict                    | MapType(keyType, valueType, [nul<br/>lable]) |
| StructType    | List or tuple           | StructType([fields])                         |
| StructField   | Um objeto do tipo campo | StructField(name, dataType, [nul<br/>lable]) |

## Importando tipos

In [0]:
from pyspark.sql.types import StructType, StructField, StringType, ArrayType, MapType

## Exemplo de estrutura complexa

In [0]:
data = [
    (
        'Guilherme', [
            {
                'Telefones':
                {
                    'Fixo': '2137706213',
                    'Celular': '2196857513'
                }
            }
        ]
    ),
    (
        'Jéssica', [
            {
                'Telefones':
                {
                    'Fixo': '1122565427',
                    'Celular': '11984529368'
                }
            }
        ]
    )
]

## Schema Spark

> (Nome, [{Telefones: {Fixo: numero, Celular: numero}}])  
> tuple(string, list[dict[string: dict[string, string]]])

In [0]:
SCHEMA_TELEFONES = StructType(
    [
        StructField('Nome', StringType()),
        StructField('Contato',ArrayType(MapType(StringType(), StringType())))
    ]
)

## Dataframe Spark

In [0]:
df = spark.createDataFrame(data, SCHEMA_TELEFONES)

In [0]:
display(df)

Nome,Contato
Guilherme,"List(Map(Telefones -> {Celular=2196857513, Fixo=2137706213}))"
Jéssica,"List(Map(Telefones -> {Celular=11984529368, Fixo=1122565427}))"


## O Pandas aceita a mesma estrutura?

In [0]:
df.toPandas()

## Convertendo para estrutura simples do Pandas

In [0]:
from pyspark.sql.functions import to_json

In [0]:
pd = df.select(df.Nome,to_json(df.Contato).alias('Contato'))

In [0]:
pandinha = pd.toPandas()
display(pandinha)

Nome,Contato
Guilherme,"[{""Telefones"":""{Celular=2196857513, Fixo=2137706213}""}]"
Jéssica,"[{""Telefones"":""{Celular=11984529368, Fixo=1122565427}""}]"


## Convertendo para estrutura original dos dados

In [0]:
pandinha_dict = pandinha.to_dict('records')
pandinha_dict

##### Toda a estrutura em 'Contatos' está como string é preciso converter para uma estrutura complexa e aninhada.

In [0]:
def converte_estrutura(texto: str):
    index_celular = texto.find('Celular') + 8
    index_fixo = texto.find('Fixo') + 5
    celular = texto[index_celular: index_celular + 10]
    fixo = texto[index_fixo: index_fixo + 10]
    
    return {'Celular': celular, 'Fixo': fixo}

In [0]:
original = [(pessoa['Nome'], [{'Telefones': converte_estrutura(pessoa['Contato'])}]) for pessoa in pandinha_dict]

for pessoas in original:
    print(pessoas)

## Recriando o dataframe com o Spark

In [0]:
df2 = spark.createDataFrame(original, SCHEMA_TELEFONES)

In [0]:
display(df2)

Nome,Contato
Guilherme,"List(Map(Telefones -> {Celular=2196857513, Fixo=2137706213}))"
Jéssica,"List(Map(Telefones -> {Celular=1198452936, Fixo=1122565427}))"


## Conclusão

O pandas não suporta estruturas complexas de dados, como solução ele converte toda a estrutura como uma string, deixando com que o desenvolvedor converta esses dados. Em contrapartida, o Spark mantém a estrutura dos dados oferecendo uma lista de tipagem mais ampla e estruturada.