# Função (dataset sintético)

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# define a função que gera o dataset sintético
def gerar_dataset_sintetico(n=200, seed=42):
    # fixa a semente para reprodutibilidade
    np.random.seed(seed)
    # lista completa de UFs brasileiras
    ufs = ["AC","AL","AP","AM","BA","CE","DF","ES","GO","MA","MT","MS","MG","PA","PB",
           "PR","PE","PI","RJ","RN","RS","RO","RR","SC","SP","SE","TO"]
    # define a data atual como referência
    hoje = datetime.today()
    # gera datas de nascimento aleatórias entre 18 e 40 anos
    datas_nascimento = [hoje - timedelta(days=int(365 * np.random.uniform(18, 40))) for _ in range(n)]
    # cria o DataFrame principal
    df = pd.DataFrame({
        # cria um identificador único incremental
        "id": range(1, n + 1),
        # gera sexo aleatório
        "sexo": np.random.choice(["M", "F"], size=n),
        # gera estados aleatórios
        "uf": np.random.choice(ufs, size=n),
        # atribui datas de nascimento
        "data_nascimento": datas_nascimento,
        # gera notas de matemática com distribuição normal truncada
        "nota_matematica": np.random.normal(6.5, 1.5, n).clip(0, 10),
        # gera notas de física com distribuição normal truncada
        "nota_fisica": np.random.normal(7.5, 2.7, n).clip(0, 10),
        # gera notas de química com distribuição normal truncada
        "nota_quimica": np.random.normal(6.5, 1.6, n).clip(0, 10),
        # gera notas de inglês com distribuição normal truncada
        "nota_ingles": np.random.normal(7.0, 1.2, n).clip(0, 10),
        # gera notas de português com distribuição normal truncada
        "nota_portugues": np.random.normal(6.8, 1.3, n).clip(0, 10),
    })
    # calcula a idade aproximada a partir da data de nascimento
    df["idade"] = df["data_nascimento"].apply(lambda x: (hoje - x).days // 365)
    # retorna o DataFrame final
    return df

# Gera o dataset sintético

In [2]:
# gera o dataset sintético
df = gerar_dataset_sintetico(n=20000)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   id               20000 non-null  int64         
 1   sexo             20000 non-null  object        
 2   uf               20000 non-null  object        
 3   data_nascimento  20000 non-null  datetime64[ns]
 4   nota_matematica  20000 non-null  float64       
 5   nota_fisica      20000 non-null  float64       
 6   nota_quimica     20000 non-null  float64       
 7   nota_ingles      20000 non-null  float64       
 8   nota_portugues   20000 non-null  float64       
 9   idade            20000 non-null  int64         
dtypes: datetime64[ns](1), float64(5), int64(2), object(2)
memory usage: 1.5+ MB


# Comandos Python

✔️ import pandas as pd  
✔️ pd.read_csv()  
✔️ df.head()  
✔️ df.tail()  
✔️ df.info()  
✔️ df.describe()  
✔️ df['coluna']  
✔️ df[df['coluna'] > x]  
✔️ df.groupby()  
✔️ df.sort_values()  
✔️ df.isnull().sum()  
✔️ df.fillna()  
✔️ df.dropna()

In [3]:
# exibe as primeiras linhas do dataset
df.head()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
0,1,F,MG,1999-10-18 20:09:08.027266,4.319503,8.195804,8.393607,7.179562,8.212824,26
1,2,F,TO,1987-02-16 20:09:08.027266,4.991319,10.0,6.645519,7.11557,9.332715,38
2,3,F,CE,1991-12-09 20:09:08.027266,8.338124,1.877807,8.809046,7.954536,7.564541,34
3,4,M,AC,1994-11-13 20:09:08.027266,5.716371,10.0,6.003478,6.934793,6.15608,31
4,5,M,CE,2004-08-07 20:09:08.027266,7.472725,7.556392,6.120767,6.593623,8.568878,21


In [4]:
# exibe as últimas linhas do dataset
df.tail()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
19995,19996,M,AM,1988-09-30 20:09:08.027266,3.672413,7.213874,6.959902,7.839001,7.920293,37
19996,19997,M,RJ,2007-01-01 20:09:08.027266,6.119708,4.745181,5.486606,6.302505,7.881138,19
19997,19998,F,AL,2001-05-09 20:09:08.027266,8.268505,5.093781,6.446561,6.794381,5.725462,24
19998,19999,M,MT,1998-04-14 20:09:08.027266,5.902699,8.181471,7.228378,6.018716,5.006354,27
19999,20000,M,MT,2004-03-29 20:09:08.027266,6.761171,3.436367,8.014234,7.232908,5.990048,21


In [5]:
# mostra tipos, memória e valores nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   id               20000 non-null  int64         
 1   sexo             20000 non-null  object        
 2   uf               20000 non-null  object        
 3   data_nascimento  20000 non-null  datetime64[ns]
 4   nota_matematica  20000 non-null  float64       
 5   nota_fisica      20000 non-null  float64       
 6   nota_quimica     20000 non-null  float64       
 7   nota_ingles      20000 non-null  float64       
 8   nota_portugues   20000 non-null  float64       
 9   idade            20000 non-null  int64         
dtypes: datetime64[ns](1), float64(5), int64(2), object(2)
memory usage: 1.5+ MB


In [6]:
# apresenta estatísticas descritivas das colunas numéricas
df.describe()

Unnamed: 0,id,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
count,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0
mean,10000.5,6.500439,7.227739,6.49766,6.995439,6.812076,28.4839
std,5773.647028,1.49123,2.283213,1.598194,1.192807,1.278964,6.339105
min,1.0,0.557631,0.0,0.545875,2.453559,1.341846,18.0
25%,5000.75,5.500341,5.672525,5.397442,6.193615,5.944982,23.0
50%,10000.5,6.501285,7.459497,6.509872,6.987128,6.815183,28.0
75%,15000.25,7.522477,9.292931,7.591178,7.804888,7.68499,34.0
max,20000.0,10.0,10.0,10.0,10.0,10.0,39.0


In [7]:
# seleciona uma única coluna
df["uf"]

0        MG
1        TO
2        CE
3        AC
4        CE
         ..
19995    AM
19996    RJ
19997    AL
19998    MT
19999    MT
Name: uf, Length: 20000, dtype: object

In [8]:
# filtra registros com idade maior que 25
df[df["idade"] > 25]

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
0,1,F,MG,1999-10-18 20:09:08.027266,4.319503,8.195804,8.393607,7.179562,8.212824,26
1,2,F,TO,1987-02-16 20:09:08.027266,4.991319,10.000000,6.645519,7.115570,9.332715,38
2,3,F,CE,1991-12-09 20:09:08.027266,8.338124,1.877807,8.809046,7.954536,7.564541,34
3,4,M,AC,1994-11-13 20:09:08.027266,5.716371,10.000000,6.003478,6.934793,6.156080,31
7,8,M,MG,1988-12-26 20:09:08.027266,8.456707,6.009883,6.340221,6.766094,10.000000,37
...,...,...,...,...,...,...,...,...,...,...
19991,19992,M,PE,1991-05-03 20:09:08.027266,7.003758,10.000000,6.451853,7.667586,5.839237,34
19993,19994,M,AC,1997-03-13 20:09:08.027266,5.865017,10.000000,6.214769,7.738497,5.714823,28
19994,19995,M,AP,1988-03-21 20:09:08.027266,4.934196,7.859707,8.547665,4.923109,7.023684,37
19995,19996,M,AM,1988-09-30 20:09:08.027266,3.672413,7.213874,6.959902,7.839001,7.920293,37


In [None]:
df.groupby(['uf','sexo']).agg(nota_matematica = ('nota_matema'))

In [9]:
# agrupa por estado e calcula média de matemática
df.groupby("uf")["nota_matematica"].mean()

uf
AC    6.486863
AL    6.541370
AM    6.473147
AP    6.420040
BA    6.561655
CE    6.435255
DF    6.508192
ES    6.448317
GO    6.552246
MA    6.499946
MG    6.487432
MS    6.577173
MT    6.491586
PA    6.495201
PB    6.556079
PE    6.554649
PI    6.483235
PR    6.571731
RJ    6.458164
RN    6.530404
RO    6.405598
RR    6.466639
RS    6.447631
SC    6.531069
SE    6.520465
SP    6.446105
TO    6.568517
Name: nota_matematica, dtype: float64

In [10]:
# agrupa por sexo e calcula médias de física e química
df.groupby("sexo")[["nota_fisica", "nota_quimica"]].mean()

Unnamed: 0_level_0,nota_fisica,nota_quimica
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
F,7.2144,6.511533
M,7.240814,6.484062


In [11]:
# ordena os alunos pela nota de matemática
df.sort_values("nota_matematica", ascending=False)

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
10390,10391,F,MA,1988-07-17 20:09:08.027266,10.000000,7.314368,7.045482,7.199648,5.077848,37
18203,18204,F,AL,1990-01-06 20:09:08.027266,10.000000,10.000000,5.168422,5.240195,6.451523,36
5078,5079,M,SC,1997-05-26 20:09:08.027266,10.000000,6.750254,5.955038,6.310790,8.540626,28
14715,14716,F,RS,2005-01-28 20:09:08.027266,10.000000,9.632524,5.893209,6.643384,5.372331,20
1260,1261,M,DF,2002-02-11 20:09:08.027266,10.000000,4.632468,7.702320,7.925740,4.161888,23
...,...,...,...,...,...,...,...,...,...,...
10780,10781,F,RJ,1986-12-11 20:09:08.027266,1.296625,9.084918,5.977501,5.912075,6.316310,39
12534,12535,F,ES,2004-09-29 20:09:08.027266,1.275847,7.943028,8.389810,4.540847,6.727801,21
19413,19414,M,SE,1999-12-10 20:09:08.027266,1.093406,6.836639,8.408188,6.787220,6.514450,26
6662,6663,F,AL,2000-05-28 20:09:08.027266,0.737111,5.174326,10.000000,5.953883,9.255369,25


In [12]:
# contabiliza valores nulos por coluna
df.isnull().sum()

id                 0
sexo               0
uf                 0
data_nascimento    0
nota_matematica    0
nota_fisica        0
nota_quimica       0
nota_ingles        0
nota_portugues     0
idade              0
dtype: int64

In [13]:
# substitui valores nulos por zero
df.fillna(0)

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
0,1,F,MG,1999-10-18 20:09:08.027266,4.319503,8.195804,8.393607,7.179562,8.212824,26
1,2,F,TO,1987-02-16 20:09:08.027266,4.991319,10.000000,6.645519,7.115570,9.332715,38
2,3,F,CE,1991-12-09 20:09:08.027266,8.338124,1.877807,8.809046,7.954536,7.564541,34
3,4,M,AC,1994-11-13 20:09:08.027266,5.716371,10.000000,6.003478,6.934793,6.156080,31
4,5,M,CE,2004-08-07 20:09:08.027266,7.472725,7.556392,6.120767,6.593623,8.568878,21
...,...,...,...,...,...,...,...,...,...,...
19995,19996,M,AM,1988-09-30 20:09:08.027266,3.672413,7.213874,6.959902,7.839001,7.920293,37
19996,19997,M,RJ,2007-01-01 20:09:08.027266,6.119708,4.745181,5.486606,6.302505,7.881138,19
19997,19998,F,AL,2001-05-09 20:09:08.027266,8.268505,5.093781,6.446561,6.794381,5.725462,24
19998,19999,M,MT,1998-04-14 20:09:08.027266,5.902699,8.181471,7.228378,6.018716,5.006354,27


In [14]:
# remove linhas com qualquer valor nulo
df.dropna()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
0,1,F,MG,1999-10-18 20:09:08.027266,4.319503,8.195804,8.393607,7.179562,8.212824,26
1,2,F,TO,1987-02-16 20:09:08.027266,4.991319,10.000000,6.645519,7.115570,9.332715,38
2,3,F,CE,1991-12-09 20:09:08.027266,8.338124,1.877807,8.809046,7.954536,7.564541,34
3,4,M,AC,1994-11-13 20:09:08.027266,5.716371,10.000000,6.003478,6.934793,6.156080,31
4,5,M,CE,2004-08-07 20:09:08.027266,7.472725,7.556392,6.120767,6.593623,8.568878,21
...,...,...,...,...,...,...,...,...,...,...
19995,19996,M,AM,1988-09-30 20:09:08.027266,3.672413,7.213874,6.959902,7.839001,7.920293,37
19996,19997,M,RJ,2007-01-01 20:09:08.027266,6.119708,4.745181,5.486606,6.302505,7.881138,19
19997,19998,F,AL,2001-05-09 20:09:08.027266,8.268505,5.093781,6.446561,6.794381,5.725462,24
19998,19999,M,MT,1998-04-14 20:09:08.027266,5.902699,8.181471,7.228378,6.018716,5.006354,27


In [15]:
df.to_parquet('df_fast_track.parquet')

# Comandos SQL (com duckdb)

In [16]:
# importa a biblioteca duckdb
import duckdb
# cria uma conexão em memória
con = duckdb.connect()
# registra o DataFrame como tabela SQL
con.register("alunos", df)

<_duckdb.DuckDBPyConnection at 0x1ce8e751eb0>

In [17]:
# executa um SELECT com filtro por idade
con.execute("SELECT * FROM alunos WHERE idade > 25").df()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
0,1,F,MG,1999-10-18 20:09:08.027266,4.319503,8.195804,8.393607,7.179562,8.212824,26
1,2,F,TO,1987-02-16 20:09:08.027266,4.991319,10.000000,6.645519,7.115570,9.332715,38
2,3,F,CE,1991-12-09 20:09:08.027266,8.338124,1.877807,8.809046,7.954536,7.564541,34
3,4,M,AC,1994-11-13 20:09:08.027266,5.716371,10.000000,6.003478,6.934793,6.156080,31
4,8,M,MG,1988-12-26 20:09:08.027266,8.456707,6.009883,6.340221,6.766094,10.000000,37
...,...,...,...,...,...,...,...,...,...,...
12734,19992,M,PE,1991-05-03 20:09:08.027266,7.003758,10.000000,6.451853,7.667586,5.839237,34
12735,19994,M,AC,1997-03-13 20:09:08.027266,5.865017,10.000000,6.214769,7.738497,5.714823,28
12736,19995,M,AP,1988-03-21 20:09:08.027266,4.934196,7.859707,8.547665,4.923109,7.023684,37
12737,19996,M,AM,1988-09-30 20:09:08.027266,3.672413,7.213874,6.959902,7.839001,7.920293,37


In [18]:
# executa agregação com GROUP BY e ORDER BY
con.execute("""
SELECT
    uf,
    COUNT(*) AS total_alunos,
    AVG(nota_matematica) AS media_matematica
FROM alunos
GROUP BY uf
ORDER BY media_matematica DESC
""").df()

Unnamed: 0,uf,total_alunos,media_matematica
0,MS,723,6.577173
1,PR,711,6.571731
2,TO,736,6.568517
3,BA,722,6.561655
4,PB,721,6.556079
5,PE,749,6.554649
6,GO,739,6.552246
7,AL,759,6.54137
8,SC,750,6.531069
9,RN,737,6.530404


In [19]:
# seleciona registros com valores nulos em nota_fisica
con.execute("SELECT * FROM alunos WHERE nota_fisica IS NULL").df()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade


In [20]:
# cria uma tabela física a partir do DataFrame
con.execute("CREATE TABLE alunos_sql AS SELECT * FROM alunos")

<_duckdb.DuckDBPyConnection at 0x1ce8e751eb0>

In [21]:
# insere um novo registro manualmente
con.execute("""
INSERT INTO alunos_sql
VALUES (999,'F','SP',DATE '2000-01-01',8.0,7.5,7.0,9.0,8.5,24)
""")

<_duckdb.DuckDBPyConnection at 0x1ce8e751eb0>

In [22]:
# remove registros com nota de física nula
con.execute("DELETE FROM alunos_sql WHERE nota_fisica IS NULL")

<_duckdb.DuckDBPyConnection at 0x1ce8e751eb0>