### Importando as bibliotecas

In [None]:
import polars as pl
import pandas as pd
import numpy as np
import pyarrow

### Fonte dos dados
#### https://dados.gov.br/dados/conjuntos-dados/cadastro-nacional-da-pessoa-juridica---cnpj

### Lendo o CSV

In [None]:
df = pl.read_csv("assets/cnaes.csv", separator=";", has_header=False, new_columns=["codigo", "descricao"])

### Operações básicas

In [None]:
df.shape

(1359, 2)

In [None]:
df.head(5)

codigo,descricao
i64,str
111301,"""Cultivo de arr…"
111302,"""Cultivo de mil…"
111303,"""Cultivo de tri…"
111399,"""Cultivo de out…"
112101,"""Cultivo de alg…"


In [None]:
df.tail(3)

codigo,descricao
i64,str
9609208,"""Higiene e embe…"
9609299,"""Outras ativida…"
9700500,"""Serviços domés…"
9900800,"""Organismos int…"
8888888,"""Atividade Econ…"


In [None]:
df.dtypes

[Int64, String]

In [None]:
df.sample(50)

codigo,descricao
i64,str
2521700,"""Fabricação de …"
1621800,"""Fabricação de …"
4649408,"""Comércio ataca…"
1811302,"""Impressão de l…"
1020102,"""Fabricação de …"
7739002,"""Aluguel de equ…"
4329199,"""Outras obras d…"
3230200,"""Fabricação de …"
9420100,"""Atividades de …"
4639702,"""Comércio ataca…"


### Selecionando a coluna `codigo`

In [None]:
codigos = df.select(pl.col("codigo"))
codigos

codigo
i64
111301
111302
111303
111399
112101
112102
112199
113000
114800
115600


### Selecionando a coluna `descricao`

In [None]:
descricao = df.select(pl.col("descricao"))
descricao

descricao
str
"""Cultivo de arr…"
"""Cultivo de mil…"
"""Cultivo de tri…"
"""Cultivo de out…"
"""Cultivo de alg…"
"""Cultivo de jut…"
"""Cultivo de out…"
"""Cultivo de can…"
"""Cultivo de fum…"
"""Cultivo de soj…"


### Pegando registros duplicados

In [None]:
print(df.with_columns(
        pl.col("descricao").is_duplicated().alias("is_duplicated")
).filter(pl.col("is_duplicated") == "true"))

shape: (8, 3)
┌─────────┬───────────────────────────────────┬───────────────┐
│ codigo  ┆ descricao                         ┆ is_duplicated │
│ ---     ┆ ---                               ┆ ---           │
│ i64     ┆ str                               ┆ bool          │
╞═════════╪═══════════════════════════════════╪═══════════════╡
│ 3511500 ┆ Geração de energia elétrica       ┆ true          │
│ 3511501 ┆ Geração de energia elétrica       ┆ true          │
│ 4751200 ┆ Comércio varejista especializado… ┆ true          │
│ 4751201 ┆ Comércio varejista especializado… ┆ true          │
│ 5239700 ┆ Atividades auxiliares dos transp… ┆ true          │
│ 5239799 ┆ Atividades auxiliares dos transp… ┆ true          │
│ 6201500 ┆ Desenvolvimento de programas de … ┆ true          │
│ 6201501 ┆ Desenvolvimento de programas de … ┆ true          │
└─────────┴───────────────────────────────────┴───────────────┘
