# Colunas e Linhas no Apache Spark

O Apache Spark oferece recursos robustos para trabalhar com colunas e linhas de dados. As colunas são componentes essenciais para selecionar e transformar dados, enquanto as linhas representam entradas individuais em um DataFrame.

## Colunas

As colunas são objetos que representam uma única coluna em um DataFrame. Elas possuem vários métodos e funcionalidades para transformação e manipulação de dados.

| Recurso                                      | Descrição                                                                                          |
|---------------------------------------------|----------------------------------------------------------------------------------------------------|
| Seleção de Coluna                           | Você pode selecionar uma coluna usando notação de ponto, como `df.coluna`, ou `df["coluna"]`.       |
| Operações Matemáticas                       | As colunas suportam operações matemáticas, como soma, subtração, multiplicação e divisão.        |
| Funções de Agregação                        | Você pode aplicar funções de agregação, como `count`, `sum`, `avg`, `max` e `min`, a uma coluna. |
| Alias (Apelidos)                            | É possível renomear colunas usando o método `.alias("novo_nome")`.                                |
| Operações de String                         | Realize operações de string em colunas usando funções como `.substr`, `.lower`, `.replace`, etc. |

## Linhas

As linhas representam entradas individuais em um DataFrame. Elas contêm os valores para cada coluna em um determinado registro.

| Recurso                                      | Descrição                                                                                      |
|---------------------------------------------|------------------------------------------------------------------------------------------------|
| Acesso a Dados                              | Você pode acessar os dados de uma linha usando notação de ponto ou índices, como `linha.coluna` ou `linha[índice]`. |
| Conversão para Dicionário                   | Converta uma linha em um dicionário para fácil manipulação usando o método `.asDict()`.    |
| Comparação de Linhas                        | Compare linhas para verificar igualdade ou ordem usando operadores de comparação.         |
| Construção de Linhas                        | Crie linhas usando o construtor `Row`. Isso é útil para criar novas linhas em operações de transformação de dados. |

## Exemplo de Uso

Aqui está um exemplo que demonstra a seleção de colunas e o acesso a dados de linhas em um DataFrame:

```python
# Importe os módulos necessários
from pyspark.sql import SparkSession, Row

# Crie um DataFrame de exemplo
data = [Row(nome="Alice", idade=30), Row(nome="Bob", idade=35)]
df = spark.createDataFrame(data)

# Selecione uma coluna
nomes = df.select("nome")

# Acesse dados da linha
primeira_linha = df.first()
nome_da_primeira_linha = primeira_linha.nome
```

# Tipos de Dados no Apache Spark

O Apache Spark oferece uma variedade de tipos de dados que podem ser usados para representar informações em DataFrames. Cada tipo de dado tem características específicas que o tornam adequado para diferentes cenários.

## Tipos de Dados Primitivos

Os tipos de dados primitivos são os blocos de construção fundamentais para representar informações em Spark:

| Tipo de Dado   | Descrição                                      | Exemplo de Caso de Uso                     |
|-----------------|------------------------------------------------|------------------------------------------|
| IntegerType     | Números inteiros de 32 bits                     | Idades, quantidades, índices.             |
| LongType        | Números inteiros de 64 bits                     | IDs exclusivos, contagens extensas.      |
| FloatType       | Números de ponto flutuante de 32 bits           | Medidas com decimais, preços.             |
| DoubleType      | Números de ponto flutuante de 64 bits           | Valores de alta precisão, coordenadas.    |
| StringType      | Sequências de caracteres                        | Nomes, descrições, textos.                |
| BooleanType     | Valores booleanos (True/False)                 | Marcadores de verdadeiro ou falso.        |
| DateType        | Datas                                        | Datas de eventos, vencimentos.            |
| TimestampType   | Data e hora                                 | Registro de eventos com horários.        |
| BinaryType      | Dados binários                                | Imagens, arquivos binários.               |
| NullType        | Valor nulo (ausência de valor)                | Registros incompletos ou ausentes.        |

## Tipos de Dados Complexos

Os tipos de dados complexos permitem representar informações mais estruturadas:

| Tipo de Dado        | Descrição                                    | Exemplo de Caso de Uso                  |
|---------------------|----------------------------------------------|---------------------------------------|
| ArrayType           | Lista ordenada de elementos                  | Lista de produtos em um pedido.      |
| MapType             | Coleção de pares chave-valor                  | Dicionário de configurações.          |
| StructType          | Estrutura de dados com campos nomeados       | Registro de funcionário com nome e idade. |
| StructField         | Campo dentro de um StructType                | Colunas em um DataFrame.              |
