# Função (dataset sintético)

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# define a função que gera o dataset sintético
def gerar_dataset_sintetico(n=200, seed=42):
    # fixa a semente para reprodutibilidade
    np.random.seed(seed)
    # lista completa de UFs brasileiras
    ufs = ["AC","AL","AP","AM","BA","CE","DF","ES","GO","MA","MT","MS","MG","PA","PB",
           "PR","PE","PI","RJ","RN","RS","RO","RR","SC","SP","SE","TO"]
    # define a data atual como referência
    hoje = datetime.today()
    # gera datas de nascimento aleatórias entre 18 e 40 anos
    datas_nascimento = [hoje - timedelta(days=int(365 * np.random.uniform(18, 40))) for _ in range(n)]
    # cria o DataFrame principal
    df = pd.DataFrame({
        # cria um identificador único incremental
        "id": range(1, n + 1),
        # gera sexo aleatório
        "sexo": np.random.choice(["M", "F"], size=n),
        # gera estados aleatórios
        "uf": np.random.choice(ufs, size=n),
        # atribui datas de nascimento
        "data_nascimento": datas_nascimento,
        # gera notas de matemática com distribuição normal truncada
        "nota_matematica": np.random.normal(6.5, 1.5, n).clip(0, 10),
        # gera notas de física com distribuição normal truncada
        "nota_fisica": np.random.normal(7.5, 2.7, n).clip(0, 10),
        # gera notas de química com distribuição normal truncada
        "nota_quimica": np.random.normal(6.5, 1.6, n).clip(0, 10),
        # gera notas de inglês com distribuição normal truncada
        "nota_ingles": np.random.normal(7.0, 1.2, n).clip(0, 10),
        # gera notas de português com distribuição normal truncada
        "nota_portugues": np.random.normal(6.8, 1.3, n).clip(0, 10),
        # gera quantidade de filhos como inteiro (Poisson)
        "quantidade_filhos": np.random.poisson(lam=1.2, size=n).astype(int)
    })
    # calcula a idade aproximada a partir da data de nascimento
    df["idade"] = df["data_nascimento"].apply(lambda x: (hoje - x).days // 365)
    # força zero filhos para menores de 18 anos
    df.loc[df["idade"] < 18, "quantidade_filhos"] = 0
    # retorna o DataFrame final
    return df

# Gera o dataset sintético

In [2]:
# gera o dataset sintético
df = gerar_dataset_sintetico(n=20000)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   id                 20000 non-null  int64         
 1   sexo               20000 non-null  object        
 2   uf                 20000 non-null  object        
 3   data_nascimento    20000 non-null  datetime64[ns]
 4   nota_matematica    20000 non-null  float64       
 5   nota_fisica        20000 non-null  float64       
 6   nota_quimica       20000 non-null  float64       
 7   nota_ingles        20000 non-null  float64       
 8   nota_portugues     20000 non-null  float64       
 9   quantidade_filhos  20000 non-null  int32         
 10  idade              20000 non-null  int64         
dtypes: datetime64[ns](1), float64(5), int32(1), int64(2), object(2)
memory usage: 1.6+ MB


# Comandos Python

✔️ import pandas as pd  
✔️ pd.read_csv()  
✔️ df.head()  
✔️ df.tail()  
✔️ df.info()  
✔️ df.describe()  
✔️ df['coluna']  
✔️ df[df['coluna'] > x]  
✔️ df.groupby()  
✔️ df.sort_values()  
✔️ df.isnull().sum()  
✔️ df.fillna()  
✔️ df.dropna()

## Head

In [3]:
# exibe as primeiras linhas do dataset
df.head()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,quantidade_filhos,idade
0,1,F,MG,1999-10-18 20:55:09.356234,4.319503,8.195804,8.393607,7.179562,8.212824,1,26
1,2,F,TO,1987-02-16 20:55:09.356234,4.991319,10.0,6.645519,7.11557,9.332715,0,38
2,3,F,CE,1991-12-09 20:55:09.356234,8.338124,1.877807,8.809046,7.954536,7.564541,0,34
3,4,M,AC,1994-11-13 20:55:09.356234,5.716371,10.0,6.003478,6.934793,6.15608,1,31
4,5,M,CE,2004-08-07 20:55:09.356234,7.472725,7.556392,6.120767,6.593623,8.568878,2,21


## Tail

In [4]:
# exibe as últimas linhas do dataset
df.tail()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,quantidade_filhos,idade
19995,19996,M,AM,1988-09-30 20:55:09.356234,3.672413,7.213874,6.959902,7.839001,7.920293,1,37
19996,19997,M,RJ,2007-01-01 20:55:09.356234,6.119708,4.745181,5.486606,6.302505,7.881138,0,19
19997,19998,F,AL,2001-05-09 20:55:09.356234,8.268505,5.093781,6.446561,6.794381,5.725462,1,24
19998,19999,M,MT,1998-04-14 20:55:09.356234,5.902699,8.181471,7.228378,6.018716,5.006354,1,27
19999,20000,M,MT,2004-03-29 20:55:09.356234,6.761171,3.436367,8.014234,7.232908,5.990048,1,21


## Info

In [5]:
# mostra tipos, memória e valores nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   id                 20000 non-null  int64         
 1   sexo               20000 non-null  object        
 2   uf                 20000 non-null  object        
 3   data_nascimento    20000 non-null  datetime64[ns]
 4   nota_matematica    20000 non-null  float64       
 5   nota_fisica        20000 non-null  float64       
 6   nota_quimica       20000 non-null  float64       
 7   nota_ingles        20000 non-null  float64       
 8   nota_portugues     20000 non-null  float64       
 9   quantidade_filhos  20000 non-null  int32         
 10  idade              20000 non-null  int64         
dtypes: datetime64[ns](1), float64(5), int32(1), int64(2), object(2)
memory usage: 1.6+ MB


## Describe

In [6]:
# apresenta estatísticas descritivas das colunas numéricas
df.describe()

Unnamed: 0,id,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,quantidade_filhos,idade
count,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0
mean,10000.5,6.500439,7.227739,6.49766,6.995439,6.812076,1.19045,28.4839
std,5773.647028,1.49123,2.283213,1.598194,1.192807,1.278964,1.094184,6.339105
min,1.0,0.557631,0.0,0.545875,2.453559,1.341846,0.0,18.0
25%,5000.75,5.500341,5.672525,5.397442,6.193615,5.944982,0.0,23.0
50%,10000.5,6.501285,7.459497,6.509872,6.987128,6.815183,1.0,28.0
75%,15000.25,7.522477,9.292931,7.591178,7.804888,7.68499,2.0,34.0
max,20000.0,10.0,10.0,10.0,10.0,10.0,7.0,39.0


## df[nome_coluna]

In [7]:
# seleciona uma única coluna
df["uf"]

0        MG
1        TO
2        CE
3        AC
4        CE
         ..
19995    AM
19996    RJ
19997    AL
19998    MT
19999    MT
Name: uf, Length: 20000, dtype: object

## Filtro lógico com nome_coluna

In [8]:
# filtra registros com idade maior que 25
df[df["idade"] > 25]

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,quantidade_filhos,idade
0,1,F,MG,1999-10-18 20:55:09.356234,4.319503,8.195804,8.393607,7.179562,8.212824,1,26
1,2,F,TO,1987-02-16 20:55:09.356234,4.991319,10.000000,6.645519,7.115570,9.332715,0,38
2,3,F,CE,1991-12-09 20:55:09.356234,8.338124,1.877807,8.809046,7.954536,7.564541,0,34
3,4,M,AC,1994-11-13 20:55:09.356234,5.716371,10.000000,6.003478,6.934793,6.156080,1,31
7,8,M,MG,1988-12-26 20:55:09.356234,8.456707,6.009883,6.340221,6.766094,10.000000,0,37
...,...,...,...,...,...,...,...,...,...,...,...
19991,19992,M,PE,1991-05-03 20:55:09.356234,7.003758,10.000000,6.451853,7.667586,5.839237,1,34
19993,19994,M,AC,1997-03-13 20:55:09.356234,5.865017,10.000000,6.214769,7.738497,5.714823,0,28
19994,19995,M,AP,1988-03-21 20:55:09.356234,4.934196,7.859707,8.547665,4.923109,7.023684,1,37
19995,19996,M,AM,1988-09-30 20:55:09.356234,3.672413,7.213874,6.959902,7.839001,7.920293,1,37


## Group by com média

In [9]:
# agrupa por estado e calcula média de matemática
df.groupby("uf")["nota_matematica"].mean()

uf
AC    6.486863
AL    6.541370
AM    6.473147
AP    6.420040
BA    6.561655
CE    6.435255
DF    6.508192
ES    6.448317
GO    6.552246
MA    6.499946
MG    6.487432
MS    6.577173
MT    6.491586
PA    6.495201
PB    6.556079
PE    6.554649
PI    6.483235
PR    6.571731
RJ    6.458164
RN    6.530404
RO    6.405598
RR    6.466639
RS    6.447631
SC    6.531069
SE    6.520465
SP    6.446105
TO    6.568517
Name: nota_matematica, dtype: float64

## Group by com mais de uma coluna e média

In [10]:
# agrupa por sexo e calcula médias de física e química
df.groupby("sexo")[["nota_fisica", "nota_quimica"]].mean()

Unnamed: 0_level_0,nota_fisica,nota_quimica
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
F,7.2144,6.511533
M,7.240814,6.484062


## Sort_values

In [11]:
# ordena os alunos pela nota de matemática
df.sort_values("nota_matematica", ascending=False)

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,quantidade_filhos,idade
10390,10391,F,MA,1988-07-17 20:55:09.356234,10.000000,7.314368,7.045482,7.199648,5.077848,2,37
18203,18204,F,AL,1990-01-06 20:55:09.356234,10.000000,10.000000,5.168422,5.240195,6.451523,0,36
5078,5079,M,SC,1997-05-26 20:55:09.356234,10.000000,6.750254,5.955038,6.310790,8.540626,2,28
14715,14716,F,RS,2005-01-28 20:55:09.356234,10.000000,9.632524,5.893209,6.643384,5.372331,1,20
1260,1261,M,DF,2002-02-11 20:55:09.356234,10.000000,4.632468,7.702320,7.925740,4.161888,2,23
...,...,...,...,...,...,...,...,...,...,...,...
10780,10781,F,RJ,1986-12-11 20:55:09.356234,1.296625,9.084918,5.977501,5.912075,6.316310,1,39
12534,12535,F,ES,2004-09-29 20:55:09.356234,1.275847,7.943028,8.389810,4.540847,6.727801,2,21
19413,19414,M,SE,1999-12-10 20:55:09.356234,1.093406,6.836639,8.408188,6.787220,6.514450,3,26
6662,6663,F,AL,2000-05-28 20:55:09.356234,0.737111,5.174326,10.000000,5.953883,9.255369,0,25


## Isnull() e sum()

In [12]:
# contabiliza valores nulos por coluna
df.isnull().sum()

id                   0
sexo                 0
uf                   0
data_nascimento      0
nota_matematica      0
nota_fisica          0
nota_quimica         0
nota_ingles          0
nota_portugues       0
quantidade_filhos    0
idade                0
dtype: int64

## Fillna

In [13]:
# substitui valores nulos por zero
df.fillna(0)

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,quantidade_filhos,idade
0,1,F,MG,1999-10-18 20:55:09.356234,4.319503,8.195804,8.393607,7.179562,8.212824,1,26
1,2,F,TO,1987-02-16 20:55:09.356234,4.991319,10.000000,6.645519,7.115570,9.332715,0,38
2,3,F,CE,1991-12-09 20:55:09.356234,8.338124,1.877807,8.809046,7.954536,7.564541,0,34
3,4,M,AC,1994-11-13 20:55:09.356234,5.716371,10.000000,6.003478,6.934793,6.156080,1,31
4,5,M,CE,2004-08-07 20:55:09.356234,7.472725,7.556392,6.120767,6.593623,8.568878,2,21
...,...,...,...,...,...,...,...,...,...,...,...
19995,19996,M,AM,1988-09-30 20:55:09.356234,3.672413,7.213874,6.959902,7.839001,7.920293,1,37
19996,19997,M,RJ,2007-01-01 20:55:09.356234,6.119708,4.745181,5.486606,6.302505,7.881138,0,19
19997,19998,F,AL,2001-05-09 20:55:09.356234,8.268505,5.093781,6.446561,6.794381,5.725462,1,24
19998,19999,M,MT,1998-04-14 20:55:09.356234,5.902699,8.181471,7.228378,6.018716,5.006354,1,27


## Dropna()

In [14]:
# remove linhas com qualquer valor nulo
df.dropna()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,quantidade_filhos,idade
0,1,F,MG,1999-10-18 20:55:09.356234,4.319503,8.195804,8.393607,7.179562,8.212824,1,26
1,2,F,TO,1987-02-16 20:55:09.356234,4.991319,10.000000,6.645519,7.115570,9.332715,0,38
2,3,F,CE,1991-12-09 20:55:09.356234,8.338124,1.877807,8.809046,7.954536,7.564541,0,34
3,4,M,AC,1994-11-13 20:55:09.356234,5.716371,10.000000,6.003478,6.934793,6.156080,1,31
4,5,M,CE,2004-08-07 20:55:09.356234,7.472725,7.556392,6.120767,6.593623,8.568878,2,21
...,...,...,...,...,...,...,...,...,...,...,...
19995,19996,M,AM,1988-09-30 20:55:09.356234,3.672413,7.213874,6.959902,7.839001,7.920293,1,37
19996,19997,M,RJ,2007-01-01 20:55:09.356234,6.119708,4.745181,5.486606,6.302505,7.881138,0,19
19997,19998,F,AL,2001-05-09 20:55:09.356234,8.268505,5.093781,6.446561,6.794381,5.725462,1,24
19998,19999,M,MT,1998-04-14 20:55:09.356234,5.902699,8.181471,7.228378,6.018716,5.006354,1,27


## Criando arquivo parquet

In [15]:
df.to_parquet('df_fast_track.parquet')

## Criando arquivo csv

In [16]:
df.to_csv('df_fast_track.csv', sep = ';', index = False)

## Lendo arquivo csv

In [17]:
df_from_csv = pd.read_csv('df_fast_track.csv', sep = ',')
# df_from_csv.head()

# Comandos SQL (com duckdb)
✔️ SELECT  
✔️ FROM  
✔️ WHERE  
✔️ ORDER BY  
✔️ SUM()  
✔️ COUNT()  
✔️ AVG()  
✔️ GROUP BY  
✔️ CREATE  
✔️ INSERT  
✔️ DELETE

## Importando o duckdb

In [18]:
# importa a biblioteca duckdb
import duckdb
# cria uma conexão em memória
con = duckdb.connect()
# registra o DataFrame como tabela SQL
con.register("alunos", df)

<_duckdb.DuckDBPyConnection at 0x16d2bbc41f0>

## Select, from

In [19]:
# executa um SELECT com filtro por idade
con.execute("SELECT * FROM alunos WHERE idade > 25").df()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,quantidade_filhos,idade
0,1,F,MG,1999-10-18 20:55:09.356234,4.319503,8.195804,8.393607,7.179562,8.212824,1,26
1,2,F,TO,1987-02-16 20:55:09.356234,4.991319,10.000000,6.645519,7.115570,9.332715,0,38
2,3,F,CE,1991-12-09 20:55:09.356234,8.338124,1.877807,8.809046,7.954536,7.564541,0,34
3,4,M,AC,1994-11-13 20:55:09.356234,5.716371,10.000000,6.003478,6.934793,6.156080,1,31
4,8,M,MG,1988-12-26 20:55:09.356234,8.456707,6.009883,6.340221,6.766094,10.000000,0,37
...,...,...,...,...,...,...,...,...,...,...,...
12734,19992,M,PE,1991-05-03 20:55:09.356234,7.003758,10.000000,6.451853,7.667586,5.839237,1,34
12735,19994,M,AC,1997-03-13 20:55:09.356234,5.865017,10.000000,6.214769,7.738497,5.714823,0,28
12736,19995,M,AP,1988-03-21 20:55:09.356234,4.934196,7.859707,8.547665,4.923109,7.023684,1,37
12737,19996,M,AM,1988-09-30 20:55:09.356234,3.672413,7.213874,6.959902,7.839001,7.920293,1,37


## From, group by, order by

In [20]:
# executa agregação com GROUP BY e ORDER BY
con.execute("""
SELECT
    uf,
    COUNT(*) AS total_alunos,
    AVG(nota_matematica) AS media_matematica
FROM alunos
GROUP BY uf
ORDER BY media_matematica DESC
""").df()

Unnamed: 0,uf,total_alunos,media_matematica
0,MS,723,6.577173
1,PR,711,6.571731
2,TO,736,6.568517
3,BA,722,6.561655
4,PB,721,6.556079
5,PE,749,6.554649
6,GO,739,6.552246
7,AL,759,6.54137
8,SC,750,6.531069
9,RN,737,6.530404


## Select, from, where

In [21]:
# seleciona registros com valores nulos em nota_fisica
con.execute("SELECT * FROM alunos WHERE nota_fisica IS NULL").df()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,quantidade_filhos,idade


## Create table

In [22]:
# cria uma tabela física a partir do DataFrame
con.execute("CREATE TABLE alunos_sql AS SELECT * FROM alunos")

<_duckdb.DuckDBPyConnection at 0x16d2bbc41f0>

In [23]:
con.execute("DESCRIBE alunos_sql").fetchdf()


Unnamed: 0,column_name,column_type,null,key,default,extra
0,id,BIGINT,YES,,,
1,sexo,VARCHAR,YES,,,
2,uf,VARCHAR,YES,,,
3,data_nascimento,TIMESTAMP_NS,YES,,,
4,nota_matematica,DOUBLE,YES,,,
5,nota_fisica,DOUBLE,YES,,,
6,nota_quimica,DOUBLE,YES,,,
7,nota_ingles,DOUBLE,YES,,,
8,nota_portugues,DOUBLE,YES,,,
9,quantidade_filhos,INTEGER,YES,,,


## Insert

In [24]:
# insere um novo registro manualmente
con.execute("INSERT INTO alunos_sql VALUES (20001,'F','SP',DATE '2000-01-01',8.0,7.5,7.0,9.0,8.5,24,1)")

<_duckdb.DuckDBPyConnection at 0x16d2bbc41f0>

In [25]:
con.execute("SELECT * FROM alunos_sql where id = 20001").df()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,quantidade_filhos,idade
0,20001,F,SP,2000-01-01,8.0,7.5,7.0,9.0,8.5,24,1


## Delete

In [27]:
# remove registros com nota de física nula
con.execute("DELETE FROM alunos_sql WHERE id = 20001")

<_duckdb.DuckDBPyConnection at 0x16d2bbc41f0>

In [28]:
con.execute("SELECT * FROM alunos_sql where id = 20001").df()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,quantidade_filhos,idade


# Funções do PowerBI
✔️ `SUM(coluna)`
Soma todos os valores numéricos da coluna no contexto atual de filtro.  
✔️ `COUNT(coluna)`
Conta quantos valores não nulos existem na coluna, respeitando os filtros.  
✔️ `DIVIDE(numerador, denominador)`
Realiza divisão segura, evitando erro quando o denominador é zero.  
✔️ `CALCULATE()`
Recalcula uma métrica alterando o contexto de filtro. É a função central do DAX.  
✔️ `FILTER()`
Cria um filtro linha a linha com base em uma condição lógica.  
✔️ `ALL()`
Remove filtros de uma tabela ou coluna, permitindo cálculos globais.  
✔️ `VALUES()`
Retorna os valores distintos de uma coluna dentro do contexto atual.  
✔️ `COUNTROWS()`
Conta o número de linhas de uma tabela (física ou virtual).  
✔️ `IF()`
Avalia uma condição sobre métricas agregadas e retorna um valor conforme o resultado.  
✔️ `SWITCH()`
Avalia múltiplas condições sobre uma métrica agregada, substituindo vários IF encadeados.  
✔️ `SUMX()`
Avalia uma expressão linha a linha e soma os resultados obtidos.  
✔️ `RELATED()`
Busca um valor em uma tabela relacionada. Usado apenas em coluna calculada.