In [1]:
import polars as pl

In [2]:
from datetime import datetime

# Lendo & Escrevendo

In [3]:
df = pl.DataFrame(
    {
        "integer": [1, 2, 3],
        "date": [
            datetime(2025, 1, 1),
            datetime(2025, 1, 2),
            datetime(2025, 1, 3),
        ],
        "float": [4.0, 5.0, 6.0],
        "string": ["a", "b", "c"],
    }
)

O código acima está criando um `DataFrame` em Polars.

### Descrição do Código

1. **`pl.DataFrame`**:
   - Esta é a classe usada para criar um novo DataFrame em Polars. Um DataFrame é uma estrutura de dados bidimensional, semelhante a uma tabela de banco de dados ou uma planilha do Excel, composta por linhas e colunas.

2. **Dicionário de Dados**:
   - O dicionário passado para `pl.DataFrame` define os dados e a estrutura do DataFrame. Cada chave do dicionário representa o nome de uma coluna, e o valor associado a cada chave é uma lista que contém os dados dessa coluna.
   
3. **Colunas do DataFrame**:
   - `"integer"`: Uma coluna de inteiros, contendo os valores `[1, 2, 3]`.
   - `"date"`: Uma coluna de datas, onde cada valor é uma instância de `datetime` representando uma data específica em janeiro de 2025.
   - `"float"`: Uma coluna de números de ponto flutuante, com os valores `[4.0, 5.0, 6.0]`.
   - `"string"`: Uma coluna de strings, contendo os valores `["a", "b", "c"]`.

### Vantagens e Uso

- **Eficiência**: Polars é otimizado para desempenho, permitindo manipulações rápidas de grandes volumes de dados.
- **Flexibilidade**: O suporte a tipos de dados variados (inteiros, floats, datetimes, strings) facilita o tratamento de conjuntos de dados complexos.
- **Facilidade de Uso**: Criar DataFrames com dicionários torna a inicialização de dados simples e intuitiva.

### Considerações

- **Coerência de Tipos**: Certifique-se de que cada lista associada a uma chave no dicionário possui elementos do mesmo tipo para garantir a consistência dos dados.
- **Comprimento das Listas**: Todas as listas devem ter o mesmo comprimento, já que cada posição nas listas representa uma linha no DataFrame.

In [4]:
print(df)

shape: (3, 4)
┌─────────┬─────────────────────┬───────┬────────┐
│ integer ┆ date                ┆ float ┆ string │
│ ---     ┆ ---                 ┆ ---   ┆ ---    │
│ i64     ┆ datetime[μs]        ┆ f64   ┆ str    │
╞═════════╪═════════════════════╪═══════╪════════╡
│ 1       ┆ 2025-01-01 00:00:00 ┆ 4.0   ┆ a      │
│ 2       ┆ 2025-01-02 00:00:00 ┆ 5.0   ┆ b      │
│ 3       ┆ 2025-01-03 00:00:00 ┆ 6.0   ┆ c      │
└─────────┴─────────────────────┴───────┴────────┘


### Detalhes dos Tipos de Dados

- **`integer` (`i64`)**: Representa uma coluna de inteiros de 64 bits.
- **`date` (`datetime[μs]`)**: Representa uma coluna de datas/horas, com precisão de microssegundos.
- **`float` (`f64`)**: Representa uma coluna de números de ponto flutuante de 64 bits.
- **`string` (`str`)**: Representa uma coluna de strings.


In [5]:
df.write_csv("docs/data/output.csv")
df_csv = pl.read_csv("docs/data/output.csv")
print(df_csv)

shape: (3, 4)
┌─────────┬────────────────────────────┬───────┬────────┐
│ integer ┆ date                       ┆ float ┆ string │
│ ---     ┆ ---                        ┆ ---   ┆ ---    │
│ i64     ┆ str                        ┆ f64   ┆ str    │
╞═════════╪════════════════════════════╪═══════╪════════╡
│ 1       ┆ 2025-01-01T00:00:00.000000 ┆ 4.0   ┆ a      │
│ 2       ┆ 2025-01-02T00:00:00.000000 ┆ 5.0   ┆ b      │
│ 3       ┆ 2025-01-03T00:00:00.000000 ┆ 6.0   ┆ c      │
└─────────┴────────────────────────────┴───────┴────────┘


Esse código acima faz o seguinte:

1. **`df.write_csv("docs/data/output.csv")`**:
   - Escreve o conteúdo do DataFrame `df` em um arquivo CSV localizado no caminho `"docs/data/output.csv"`.

2. **`df_csv = pl.read_csv("docs/data/output.csv")`**:
   - Lê o arquivo CSV recém-criado e cria um novo DataFrame `df_csv` com os dados contidos nesse arquivo.

3. **`print(df_csv)`**:
   - Imprime o conteúdo do DataFrame `df_csv` no console, mostrando os dados lidos do arquivo CSV.

Este processo salva o DataFrame em um arquivo CSV e, em seguida, lê o arquivo para recriar o DataFrame a partir do CSV, permitindo a verificação de que os dados foram salvos e lidos corretamente.

# Expressões

As expressões são o ponto forte do Polars. Elas oferecem uma estrutura modular que permite combinar conceitos simples em consultas complexas. Abaixo, abordamos os componentes básicos que servem como blocos de construção (ou, na terminologia do Polars, `contextos`) para todas as suas consultas:

- `select`
- `filter`
- `with_columns`
- `group_by`

## Select

Para selecionar uma coluna, precisamos fazer duas coisas:

1. Definir de qual DataFrame queremos os dados.
2. Selecionar os dados que precisamos.

No exemplo abaixo, você verá que selecionamos `col('*')`. <span style="color:yellow">O asterisco representa todas as colunas.</span>

In [6]:
import numpy as np

In [7]:
data = {
    "a": [0, 1, 2, 3, 4],
    "b": [0.077466, 0.545195, 0.260404, 0.328957, 0.267925],
    "c": [
        datetime(2025, 12, 1),
        datetime(2025, 12, 2),
        datetime(2025, 12, 3),
        datetime(2025, 12, 4),
        datetime(2025, 12, 5)
    ],
    "d": [1.0, 2.0, np.nan, -42.0, None]
}

In [8]:
df = pl.DataFrame(data)

In [9]:
df.select(pl.col("*"))

a,b,c,d
i64,f64,datetime[μs],f64
0,0.077466,2025-12-01 00:00:00,1.0
1,0.545195,2025-12-02 00:00:00,2.0
2,0.260404,2025-12-03 00:00:00,
3,0.328957,2025-12-04 00:00:00,-42.0
4,0.267925,2025-12-05 00:00:00,


Você também pode especificar as colunas específicas que deseja retornar. Existem duas maneiras de fazer isso. A primeira opção é passar os nomes das colunas, como visto abaixo.

In [10]:
df.select(pl.col("a", "b"))

a,b
i64,f64
0,0.077466
1,0.545195
2,0.260404
3,0.328957
4,0.267925


## Filter

<span style="color:yellow">A opção `filter` nos permite criar um subconjunto do DataFrame. Usamos o mesmo DataFrame de antes e filtramos entre duas datas especificadas.</span>

In [11]:
df.filter(
    pl.col("c").is_between(datetime(2025,12,2), datetime(2025,12,3)),
)

a,b,c,d
i64,f64,datetime[μs],f64
1,0.545195,2025-12-02 00:00:00,2.0
2,0.260404,2025-12-03 00:00:00,


O código acima filtra o DataFrame `df` para retornar apenas as linhas onde a coluna `"c"` contém datas entre 2 de dezembro de 2025 e 3 de dezembro de 2025, inclusivamente.

Com o `filter`, você também pode criar filtros mais complexos que incluam várias colunas.

In [12]:
df.filter((pl.col("a") <= 3) & (pl.col("d").is_not_nan()))

a,b,c,d
i64,f64,datetime[μs],f64
0,0.077466,2025-12-01 00:00:00,1.0
1,0.545195,2025-12-02 00:00:00,2.0
3,0.328957,2025-12-04 00:00:00,-42.0


O código acima filtra o DataFrame `df` para retornar apenas as linhas onde:

- A coluna `"a"` tem valores menores ou iguais a 3.
- A coluna `"d"` não contém valores `NaN`.

Isso significa que apenas as linhas que atendem a ambas as condições serão incluídas no resultado.

Aqui está o detalhamento de cada parte do código acima:

1. **`df.filter(...)`**:
   - **Função `filter`**: Aplica um filtro ao DataFrame `df`, retornando apenas as linhas que atendem à condição especificada dentro dos parênteses.

2. **`(pl.col("a") <= 3)`**:
   - **`pl.col("a")`**: Seleciona a coluna `"a"` do DataFrame.
   - **`<= 3`**: Aplica uma condição para verificar se os valores da coluna `"a"` são menores ou iguais a 3.

3. **`&`**:
   - **Operador `&`**: <span style="color:yellow">Realiza uma operação lógica "E" (AND) entre duas condições. Ambas as condições precisam ser verdadeiras para que a linha seja incluída no resultado final.</span>

4. **`(pl.col("d").is_not_nan())`**:
   - **`pl.col("d")`**: Seleciona a coluna `"d"` do DataFrame.
   - **`is_not_nan()`**: Verifica se os valores da coluna `"d"` não são `NaN` (Not a Number). Retorna `True` para valores que não são `NaN` e `False` para valores `NaN`.

### Resumo

O código filtra o DataFrame `df`, retornando apenas as linhas onde:

- Os valores da coluna `"a"` são menores ou iguais a 3.
- Os valores da coluna `"d"` não são `NaN`.

## Adicionar colunas (`with_columns`)

`with_columns` permite criar novas colunas para suas análises. Criamos duas novas colunas, `e` e `b+42`. Primeiro, somamos todos os valores da coluna `b` e armazenamos os resultados na coluna `e`. Em seguida, adicionamos 42 aos valores de `b`, criando uma nova coluna `b+42` para armazenar esses resultados.

In [13]:
df.with_columns(pl.col("b").sum().alias("e"), (pl.col("b") + 42).alias("b+42"))

a,b,c,d,e,b+42
i64,f64,datetime[μs],f64,f64,f64
0,0.077466,2025-12-01 00:00:00,1.0,1.479947,42.077466
1,0.545195,2025-12-02 00:00:00,2.0,1.479947,42.545195
2,0.260404,2025-12-03 00:00:00,,1.479947,42.260404
3,0.328957,2025-12-04 00:00:00,-42.0,1.479947,42.328957
4,0.267925,2025-12-05 00:00:00,,1.479947,42.267925


### Detalhamento

1. **`df.with_columns(...)`**:
   - **Função `with_columns`**: Adiciona uma ou mais novas colunas ao DataFrame `df` <span style="color:yellow">ou modifica colunas existentes</span>. Retorna um novo DataFrame com as alterações aplicadas.
   - **Parâmetros**: Aceita uma ou mais expressões Polars que definem as novas colunas a serem criadas ou alteradas.

2. **`pl.col("b")`**:
   - **Função `pl.col`**: Seleciona a coluna `"b"` do DataFrame para operações subsequentes.
   - **Parâmetro**: 
     - `"b"`: O nome da coluna a ser selecionada.

3. **`sum()`**:
   - **Método `sum`**: Calcula a soma de todos os valores na coluna selecionada. No contexto de `pl.col("b")`, calcula a soma de todos os valores na coluna `"b"`.

4. **`alias("e")`**:
   - **Método `alias`**: Renomeia a coluna resultante da operação anterior.
   - **Parâmetro**:
     - `"e"`: O novo nome para a coluna que contém a soma dos valores de `"b"`.

5. **`(pl.col("b") + 42)`**:
   - **Operação `+`**: Adiciona 42 a cada valor na coluna `"b"`.

6. **`.alias("b+42")`**:
   - **Método `alias`**: Renomeia a nova coluna resultante da operação de adição.
   - **Parâmetro**:
     - `"b+42"`: O novo nome para a coluna que contém os valores de `"b"` aumentados em 42.

### Resumo

O código cria duas novas colunas no DataFrame `df`:

- **Coluna `"e"`**: Contém a soma de todos os valores da coluna `"b"`.
- **Coluna `"b+42"`**: Contém os valores da coluna `"b"` com 42 adicionado a cada um deles.

Essas operações são aplicadas ao DataFrame `df` usando a função `with_columns`, que permite adicionar ou modificar colunas de forma expressiva.

## Group by

Vamos criar um novo DataFrame para a funcionalidade de **agrupar por**. Este novo DataFrame incluirá vários "grupos" pelos quais queremos agrupar.

In [14]:
df2 = pl.DataFrame(
    {
        "x": range(8),
        "y": ["A", "A", "A", "B","B", "C", "X", "X"],
    }
)

In [15]:
df2

x,y
i64,str
0,"""A"""
1,"""A"""
2,"""A"""
3,"""B"""
4,"""B"""
5,"""C"""
6,"""X"""
7,"""X"""


In [16]:
df2.group_by("y", maintain_order=True).len()

y,len
str,u32
"""A""",3
"""B""",2
"""C""",1
"""X""",2


### Detalhamento

1. **`df2.group_by("y", maintain_order=True)`**:
   - **Função `group_by`**: Agrupa as linhas do DataFrame `df2` com base nos valores da coluna especificada, criando grupos de dados para operações agregadas.
   - **Parâmetros**:
     - `"y"`: Nome da coluna usada para agrupar os dados. As linhas que compartilham o mesmo valor na coluna `"y"` serão agrupadas.
     - `maintain_order=True`: Mantém a ordem das linhas dentro de cada grupo como estão no DataFrame original. Sem essa opção, a ordem das linhas pode ser alterada durante o agrupamento.

2. **`.len()`**:
   - **Método `len`**: Calcula o número de elementos (ou o tamanho) de cada grupo formado pelo método `group_by`.
   - Sem parâmetros: Retorna um DataFrame com a contagem de elementos em cada grupo.

### Resumo

O código agrupa o DataFrame `df2` pela coluna `"y"` enquanto mantém a ordem original das linhas dentro de cada grupo e calcula o número de elementos em cada grupo. O resultado é um novo DataFrame que mostra quantas linhas estão presentes em cada grupo baseado na coluna `"y"`.

In [17]:
df2.group_by("y", maintain_order=True).agg(
    pl.col("*").count().alias("count"),
    pl.col("*").sum().alias("sum"),
)

y,count,sum
str,u32,i64
"""A""",3,3
"""B""",2,7
"""C""",1,5
"""X""",2,13


1. **Agrupamento dos Dados:**
   - `df2.group_by("y", maintain_order=True)`: Agrupa o DataFrame `df2` pela coluna `"y"`. O parâmetro `maintain_order=True` assegura que a ordem original dos dados é mantida dentro de cada grupo, embora isso possa afetar o desempenho.

2. **Agregação:**
   - `.agg(...)`: Aplica operações de agregação aos grupos definidos.
   - `pl.col("*").count().alias("count")`: Conta o número de linhas em cada grupo. O uso de `pl.col("*")` indica que a contagem será aplicada a todas as colunas, mas, na prática, é apenas necessário um nome de coluna ou `pl.count()` para contar as linhas.
   - `pl.col("*").sum().alias("sum")`: Calcula a soma de todas as colunas para cada grupo. O `pl.col("*")` indica que a soma será calculada para cada coluna numérica presente no DataFrame.

**Resultado:**
O resultado desse código é um novo DataFrame que contém, para cada valor único na coluna `"y"`:

- Uma coluna chamada `"count"` que representa o número de linhas no grupo.
- Uma coluna chamada `"sum"` que representa a soma dos valores de cada coluna numérica dentro do grupo.

## Combination

Abaixo estão alguns exemplos de como combinar operações para criar o DataFrame necessário.

In [18]:
df_x = df.with_columns((pl.col("a") * pl.col("b")).alias("a * b")).select(
    pl.all().exclude(["c", "d"])
)

print(df_x)

shape: (5, 3)
┌─────┬──────────┬──────────┐
│ a   ┆ b        ┆ a * b    │
│ --- ┆ ---      ┆ ---      │
│ i64 ┆ f64      ┆ f64      │
╞═════╪══════════╪══════════╡
│ 0   ┆ 0.077466 ┆ 0.0      │
│ 1   ┆ 0.545195 ┆ 0.545195 │
│ 2   ┆ 0.260404 ┆ 0.520808 │
│ 3   ┆ 0.328957 ┆ 0.986871 │
│ 4   ┆ 0.267925 ┆ 1.0717   │
└─────┴──────────┴──────────┘


1. **Criação de uma Nova Coluna:**
   - `(pl.col("a") * pl.col("b")).alias("a * b")`: Calcula o produto das colunas `"a"` e `"b"` e cria uma nova coluna com o nome `"a * b"`.

2. **Atualização do DataFrame:**
   - `df.with_columns(...)`: Adiciona a nova coluna calculada ao DataFrame original `df`.

3. **Seleção de Colunas:**
   - `.select(pl.all().exclude(["c", "d"]))`: Seleciona todas as colunas do DataFrame, exceto as colunas `"c"` e `"d"`, removendo-as do resultado final.

4. **Resultado Final:**
   - O DataFrame resultante `df_x` inclui todas as colunas originais (exceto `"c"` e `"d"`) e a nova coluna `"a * b"`.

5. **Exibição do DataFrame:**
   - `print(df_x)`: Exibe o DataFrame resultante, mostrando as colunas selecionadas e a nova coluna calculada.

In [19]:
df_y = df.with_columns((pl.col("a") * pl.col("b")).alias("a * b")).select(
    pl.all().exclude("d")
)

print(df_y)

shape: (5, 4)
┌─────┬──────────┬─────────────────────┬──────────┐
│ a   ┆ b        ┆ c                   ┆ a * b    │
│ --- ┆ ---      ┆ ---                 ┆ ---      │
│ i64 ┆ f64      ┆ datetime[μs]        ┆ f64      │
╞═════╪══════════╪═════════════════════╪══════════╡
│ 0   ┆ 0.077466 ┆ 2025-12-01 00:00:00 ┆ 0.0      │
│ 1   ┆ 0.545195 ┆ 2025-12-02 00:00:00 ┆ 0.545195 │
│ 2   ┆ 0.260404 ┆ 2025-12-03 00:00:00 ┆ 0.520808 │
│ 3   ┆ 0.328957 ┆ 2025-12-04 00:00:00 ┆ 0.986871 │
│ 4   ┆ 0.267925 ┆ 2025-12-05 00:00:00 ┆ 1.0717   │
└─────┴──────────┴─────────────────────┴──────────┘


1. **Criação de uma Nova Coluna:**
   - `(pl.col("a") * pl.col("b")).alias("a * b")`: Este trecho calcula o produto dos valores das colunas `"a"` e `"b"` para cada linha do DataFrame e cria uma nova coluna chamada `"a * b"` com os resultados.

2. **Atualização do DataFrame:**
   - `df.with_columns(...)`: Adiciona a nova coluna `"a * b"` ao DataFrame original `df`.

3. **Seleção de Colunas:**
   - `.select(pl.all().exclude("d"))`: Seleciona todas as colunas do DataFrame atualizado, exceto a coluna `"d"`. Isso significa que o resultado não incluirá a coluna `"d"`.

4. **Resultado Final:**
   - O DataFrame resultante `df_y` contém todas as colunas do DataFrame original (com a nova coluna `"a * b"` adicionada), exceto a coluna `"d"`.

5. **Exibição do DataFrame:**
   - `print(df_y)`: Imprime o DataFrame `df_y`, mostrando as colunas selecionadas e a nova coluna calculada.

<span style="color: yellow; font-weight: bold; font-style: italic;">Este código essencialmente adiciona uma nova coluna calculada ao DataFrame e remove uma coluna existente antes de exibir o resultado. </span>

## Combinando DataFrames

Há duas maneiras de combinar DataFrames, dependendo do caso de uso: <span style="color: blue; background-color: lightgreen;">junção e concatenação</span>.

### Join

O Polars suporta todos os tipos de junção (por exemplo, esquerda, direita, interna, externa). Vamos dar uma olhada mais de perto em como juntar dois DataFrames em um único DataFrame. Nossos dois DataFrames têm uma coluna do tipo 'id': a e x. Podemos usar essas colunas para juntar os DataFrames neste exemplo.

In [20]:
df = pl.DataFrame(
    {
        "a": range(8),
        "b": np.random.rand(8),
        "d": [1.0,2.0,float("nan"), float("nan"), 0.0, -5.0, -42.0, None],
    }
)

1. **Importações Necessárias:**

   Para que o código funcione, é necessário importar a biblioteca Polars e Numpy:

   ```python
   import polars as pl
   import numpy as np
   ```

2. **Criação do DataFrame:**

   O DataFrame `df` é criado com a função `pl.DataFrame`, passando um dicionário como argumento. Cada chave do dicionário representa o nome de uma coluna e o valor associado é uma lista ou outra estrutura que contém os dados para essa coluna.

   ```python
   df = pl.DataFrame(
       {
           "a": range(8),
           "b": np.random.rand(8),
           "d": [1.0, 2.0, float("nan"), float("nan"), 0.0, -5.0, -42.0, None],
       }
   )
   ```

   - **Coluna "a":** 
     - **`range(8)`**: Gera uma sequência de números inteiros de 0 a 7. Portanto, a coluna "a" conterá os valores [0, 1, 2, 3, 4, 5, 6, 7].

   - **Coluna "b":**
     - **`np.random.rand(8)`**: Cria uma lista de 8 números aleatórios entre 0.0 e 1.0. Cada execução do código gerará valores diferentes.

   - **Coluna "d":**
     - Contém uma lista de valores [1.0, 2.0, `float("nan")`, `float("nan")`, 0.0, -5.0, -42.0, `None`].
     - **`float("nan")`**: Representa um valor "Not a Number", comum em cálculos que resultam em indefinições.
     - **`None`**: Representa um valor nulo ou ausente.

### Resultado

Após a execução, o DataFrame `df` terá a seguinte estrutura:

|   a |       b       |    d     |
|----:|:-------------:|:--------:|
|   0 | valor_aleatório |   1.0   |
|   1 | valor_aleatório |   2.0   |
|   2 | valor_aleatório |  NaN    |
|   3 | valor_aleatório |  NaN    |
|   4 | valor_aleatório |   0.0   |
|   5 | valor_aleatório |  -5.0   |
|   6 | valor_aleatório | -42.0   |
|   7 | valor_aleatório |  None   |

### Observações

- A coluna "b" conterá valores diferentes a cada execução devido ao uso da função aleatória `np.random.rand`.
- A presença de `NaN` e `None` na coluna "d" indica valores indefinidos ou ausentes, que podem necessitar de tratamento especial dependendo das operações subsequentes.

In [21]:
df

a,b,d
i64,f64,f64
0,0.774758,1.0
1,0.051611,2.0
2,0.287443,
3,0.151926,
4,0.211105,0.0
5,0.888085,-5.0
6,0.974784,-42.0
7,0.491723,


In [22]:
df2 = pl.DataFrame(
    {
        "x": range(8),
        "y": ["A", "A", "A", "B", "B", "C", "X", "X"],
    }
)

Esse código cria um DataFrame `df2` com duas colunas, `x` e `y`, e 8 linhas.

```python
df2 = pl.DataFrame(
    {
        "x": range(8),
        "y": ["A", "A", "A", "B", "B", "C", "X", "X"],
    }
)
```

### Estrutura do DataFrame

- **Coluna "x":**
  - **`range(8)`**: Cria uma sequência de números inteiros de 0 a 7. Assim, a coluna "x" terá os valores [0, 1, 2, 3, 4, 5, 6, 7].

- **Coluna "y":**
  - Contém uma lista de strings ["A", "A", "A", "B", "B", "C", "X", "X"].
  - Esses valores representam categorias ou labels associadas aos valores da coluna "x".

### Resultado

O DataFrame `df2` resultante terá a seguinte estrutura:

|  x  | y |
|----:|:-:|
|  0  | A |
|  1  | A |
|  2  | A |
|  3  | B |
|  4  | B |
|  5  | C |
|  6  | X |
|  7  | X |

### Observações

- A coluna "x" representa uma sequência de números, enquanto a coluna "y" categoriza ou agrupa essas entradas em diferentes labels.
- Essa estrutura é útil para operações como agrupamento ou agregação com base nas categorias da coluna "y".

In [23]:
df2

x,y
i64,str
0,"""A"""
1,"""A"""
2,"""A"""
3,"""B"""
4,"""B"""
5,"""C"""
6,"""X"""
7,"""X"""


In [24]:
joined = df.join(df2, left_on="a", right_on="x")

O código acima executa uma operação de junção (join) entre dois DataFrames, `df` e `df2`. 

### Operação de Join

<span style="color:red; font-weight: bold">A operação de join combina colunas de dois DataFrames com base em uma chave ou condição específica. No caso desse código</span>:

```python
joined = df.join(df2, left_on="a", right_on="x")
```

- **DataFrames Envolvidos:**
  - `df`: O primeiro DataFrame, que contém as colunas "a", "b", e "d".
  - `df2`: O segundo DataFrame, que contém as colunas "x" e "y".

- **Chaves de Junção:**
  - **`left_on="a"`**: Usa a coluna "a" de `df` como chave para a junção.
  - **`right_on="x"`**: Usa a coluna "x" de `df2` como chave para a junção.

### Tipo de Join

Por padrão, a operação `join` realiza um **inner join**, que retorna apenas as linhas onde as chaves de junção das duas tabelas correspondem.

### Resultado da Junção

O DataFrame `joined` resultante terá as seguintes colunas:

- Todas as colunas de `df`: "a", "b", "d".
- Todas as colunas de `df2`: "x", "y".

Cada linha no DataFrame `joined` será o resultado da combinação de linhas de `df` e `df2` onde os valores das colunas "a" e "x" são iguais.

### Exemplo de Como os Dados se Combinarão

Suponha que `df` e `df2` sejam:

```plaintext
df:
|  a |      b      |   d   |
|---:|:-----------:|:-----:|
|  0 | 0.123456    |  1.0  |
|  1 | 0.654321    |  2.0  |
|  2 | 0.789012    |  NaN  |
|  3 | 0.234567    |  NaN  |
|  4 | 0.345678    |  0.0  |
|  5 | 0.456789    | -5.0  |
|  6 | 0.567890    | -42.0 |
|  7 | 0.678901    | None  |

df2:
|  x | y |
|---:|:-:|
|  0 | A |
|  1 | A |
|  2 | A |
|  3 | B |
|  4 | B |
|  5 | C |
|  6 | X |
|  7 | X |
```

O DataFrame `joined` resultante seria:

```plaintext
joined:
|  a |      b      |   d   |  x | y |
|---:|:-----------:|:-----:|---:|:-:|
|  0 | 0.123456    |  1.0  |  0 | A |
|  1 | 0.654321    |  2.0  |  1 | A |
|  2 | 0.789012    |  NaN  |  2 | A |
|  3 | 0.234567    |  NaN  |  3 | B |
|  4 | 0.345678    |  0.0  |  4 | B |
|  5 | 0.456789    | -5.0  |  5 | C |
|  6 | 0.567890    | -42.0 |  6 | X |
|  7 | 0.678901    | None  |  7 | X |
```

### Resumo

- **Finalidade**: Combinar dados de dois DataFrames com base em colunas comuns.
- **Resultado**: Inclui apenas linhas onde as chaves de junção "a" (de `df`) e "x" (de `df2`) são iguais.

In [25]:
print(joined)

shape: (8, 4)
┌─────┬──────────┬───────┬─────┐
│ a   ┆ b        ┆ d     ┆ y   │
│ --- ┆ ---      ┆ ---   ┆ --- │
│ i64 ┆ f64      ┆ f64   ┆ str │
╞═════╪══════════╪═══════╪═════╡
│ 0   ┆ 0.774758 ┆ 1.0   ┆ A   │
│ 1   ┆ 0.051611 ┆ 2.0   ┆ A   │
│ 2   ┆ 0.287443 ┆ NaN   ┆ A   │
│ 3   ┆ 0.151926 ┆ NaN   ┆ B   │
│ 4   ┆ 0.211105 ┆ 0.0   ┆ B   │
│ 5   ┆ 0.888085 ┆ -5.0  ┆ C   │
│ 6   ┆ 0.974784 ┆ -42.0 ┆ X   │
│ 7   ┆ 0.491723 ┆ null  ┆ X   │
└─────┴──────────┴───────┴─────┘


No universo do Polars e da análise de dados em geral, uma junção (ou "join" em inglês) é uma operação que combina registros de duas tabelas (ou DataFrames) <span style="color:orange; font-weight:bold">com base em uma condição comum</span>. 

<span style="color:lightgreen; font-weight:bold">A junção é utilizada para reunir dados que estão dispersos em diferentes tabelas, permitindo análises mais completas e integradas</span>. 

Existem vários tipos de junções, cada uma atendendo a diferentes necessidades de combinação de dados:

1. **Inner Join (Junção Interna)**: Retorna apenas os registros que têm correspondências em ambas as tabelas. Se não houver correspondência, o registro será descartado.
   
2. **Left Join (Junção à Esquerda)**: Retorna todos os registros da tabela à esquerda e os registros correspondentes da tabela à direita. Se não houver correspondência, os valores da tabela à direita serão `NULL`.

3. **Right Join (Junção à Direita)**: Retorna todos os registros da tabela à direita e os registros correspondentes da tabela à esquerda. Se não houver correspondência, os valores da tabela à esquerda serão `NULL`.

4. **Full Outer Join (Junção Externa Completa)**: Retorna todos os registros quando há uma correspondência em uma das tabelas. Registros sem correspondência em ambas as tabelas terão `NULL` nos campos onde não houver correspondência.

5. **Cross Join (Junção Cruzada)**: Retorna o produto cartesiano das duas tabelas, ou seja, cada linha de uma tabela é combinada com todas as linhas da outra tabela.

No Polars, as junções são realizadas usando métodos específicos, como `join`, que permitem especificar o tipo de junção e as colunas nas quais a junção será baseada. Por exemplo:

```python
import polars as pl

# Supondo que temos dois DataFrames
df1 = pl.DataFrame({
    "key": [1, 2, 3],
    "value_df1": ["A", "B", "C"]
})

df2 = pl.DataFrame({
    "key": [1, 2, 4],
    "value_df2": ["X", "Y", "Z"]
})

# Realizando uma junção interna (Inner Join) baseada na coluna 'key'
result = df1.join(df2, on="key", how="inner")

print(result)
```

O resultado do `print(result)` seria:

```
shape: (2, 3)
┌─────┬──────────┬──────────┐
│ key │ value_df1│ value_df2│
│ --- │ ---      │ ---      │
│ i64 │ str      │ str      │
├─────┼──────────┼──────────┤
│ 1   │ A        │ X        │
│ 2   │ B        │ Y        │
└─────┴──────────┴──────────┘
```

Neste exemplo, a junção interna retorna apenas as linhas onde a coluna `key` tem correspondências em ambos os DataFrames, resultando nas chaves `1` e `2`.

Este código combina `df1` e `df2` usando uma junção interna na coluna `key`, resultando em um DataFrame que contém apenas as chaves presentes em ambos os DataFrames.

## Concat

Também podemos concatenar dois DataFrames. A concatenação vertical tornará o DataFrame mais longo. A concatenação horizontal tornará o DataFrame mais largo. Abaixo, você pode ver o resultado de uma concatenação horizontal de nossos dois DataFrames.

In [26]:
stacked = df.hstack(df2)

In [27]:
print(stacked)

shape: (8, 5)
┌─────┬──────────┬───────┬─────┬─────┐
│ a   ┆ b        ┆ d     ┆ x   ┆ y   │
│ --- ┆ ---      ┆ ---   ┆ --- ┆ --- │
│ i64 ┆ f64      ┆ f64   ┆ i64 ┆ str │
╞═════╪══════════╪═══════╪═════╪═════╡
│ 0   ┆ 0.774758 ┆ 1.0   ┆ 0   ┆ A   │
│ 1   ┆ 0.051611 ┆ 2.0   ┆ 1   ┆ A   │
│ 2   ┆ 0.287443 ┆ NaN   ┆ 2   ┆ A   │
│ 3   ┆ 0.151926 ┆ NaN   ┆ 3   ┆ B   │
│ 4   ┆ 0.211105 ┆ 0.0   ┆ 4   ┆ B   │
│ 5   ┆ 0.888085 ┆ -5.0  ┆ 5   ┆ C   │
│ 6   ┆ 0.974784 ┆ -42.0 ┆ 6   ┆ X   │
│ 7   ┆ 0.491723 ┆ null  ┆ 7   ┆ X   │
└─────┴──────────┴───────┴─────┴─────┘


O código `stacked = df.hstack(df2)` realiza uma concatenação <span style="color:yellow; font-weight:bold">horizontal</span> dos DataFrames `df` e `df2`. 

### Detalhes da Operação

- **`df.hstack(df2)`**: A função `hstack` é usada para empilhar (concatenar) os DataFrames horizontalmente. Isso significa que as colunas de `df2` são adicionadas ao lado das colunas de `df`.

### Resultado

O DataFrame resultante, `stacked`, terá as seguintes características:

- **Número de Linhas**: O mesmo número de linhas que `df` e `df2`, assumindo que ambos têm o mesmo número de linhas.
- **Número de Colunas**: O número total de colunas será a soma das colunas de `df` e `df2`.

### Exemplo

Suponha que `df` e `df2` sejam:

```plaintext
df:
|  a |  b |
|----|----|
|  1 | 10 |
|  2 | 20 |
|  3 | 30 |

df2:
|  x |  y |
|----|----|
|  4 | A  |
|  5 | B  |
|  6 | C  |
```

Após executar `stacked = df.hstack(df2)`, o DataFrame `stacked` será:

```plaintext
stacked:
|  a |  b |  x |  y |
|----|----|----|----|
|  1 | 10 |  4 | A  |
|  2 | 20 |  5 | B  |
|  3 | 30 |  6 | C  |
```

### Resumo

- **Objetivo**: Concatenar dois DataFrames lado a lado.
- **Resultado**: O DataFrame `stacked` contém todas as colunas de `df` e `df2` combinadas horizontalmente, mantendo o número de linhas inalterado.

No universo do Polars e da análise de dados, **concatenar** refere-se à operação de unir dois ou mais DataFrames (ou outras estruturas de dados) ao longo de um eixo, seja verticalmente (linha a linha) ou horizontalmente (coluna a coluna). Vamos ver cada uma das formas de concatenação com mais detalhes:

### 1. **Concatenação Vertical**

**Descrição:** Adiciona as linhas de um DataFrame abaixo das linhas de outro DataFrame. A estrutura de colunas dos DataFrames deve ser compatível (ou seja, as colunas devem ter os mesmos nomes e tipos).

**Uso Típico:** Quando você deseja empilhar dados adicionais em um DataFrame existente. Por exemplo, juntar registros de diferentes períodos de tempo.

**Exemplo em Polars:**

```python
df1 = pl.DataFrame({"a": [1, 2], "b": [3, 4]})
df2 = pl.DataFrame({"a": [5, 6], "b": [7, 8]})

concatenated = df1.vstack(df2)
```

**Resultado:**

```plaintext
| a | b |
|---|---|
| 1 | 3 |
| 2 | 4 |
| 5 | 7 |
| 6 | 8 |
```

### 2. **Concatenação Horizontal**

**Descrição:** Adiciona as colunas de um DataFrame ao lado das colunas de outro DataFrame. Os DataFrames devem ter o mesmo número de linhas para garantir que os dados sejam alinhados corretamente.

**Uso Típico:** Quando você deseja combinar diferentes conjuntos de dados que compartilham a mesma linha de registros, mas têm diferentes atributos ou variáveis.

**Exemplo em Polars:**

```python
df1 = pl.DataFrame({"a": [1, 2], "b": [3, 4]})
df2 = pl.DataFrame({"c": [5, 6], "d": [7, 8]})

concatenated = df1.hstack(df2)
```

**Resultado:**

```plaintext
| a | b | c | d |
|---|---|---|---|
| 1 | 3 | 5 | 7 |
| 2 | 4 | 6 | 8 |
```

### Pontos Importantes

- **Compatibilidade de Estrutura:** Para concatenação vertical, as colunas devem ser compatíveis. Para concatenação horizontal, o número de linhas deve ser o mesmo.
- **Preservação de Índices:** Na concatenação vertical, os índices podem ser preservados ou reinicializados. Na concatenação horizontal, os índices das linhas permanecem inalterados.

A concatenação é uma operação fundamental na manipulação de dados, usada para combinar dados de diferentes fontes ou formatos de maneira coesa. 

<div style="text-align: center; font-size: 24px; color:orange">
    FIM
</div>