In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# define a função que gera o dataset sintético
def gerar_dataset_sintetico(n=200, seed=42):
    # fixa a semente para reprodutibilidade
    np.random.seed(seed)
    # lista completa de UFs brasileiras
    ufs = ["AC","AL","AP","AM","BA","CE","DF","ES","GO","MA","MT","MS","MG","PA","PB",
           "PR","PE","PI","RJ","RN","RS","RO","RR","SC","SP","SE","TO"]
    # define a data atual como referência
    hoje = datetime.today()
    # gera datas de nascimento aleatórias entre 18 e 40 anos
    datas_nascimento = [hoje - timedelta(days=int(365 * np.random.uniform(18, 40))) for _ in range(n)]
    # cria o DataFrame principal
    df = pd.DataFrame({
        # cria um identificador único incremental
        "id": range(1, n + 1),
        # gera sexo aleatório
        "sexo": np.random.choice(["M", "F"], size=n),
        # gera estados aleatórios
        "uf": np.random.choice(ufs, size=n),
        # atribui datas de nascimento
        "data_nascimento": datas_nascimento,
        # gera notas de matemática com distribuição normal truncada
        "nota_matematica": np.random.normal(6.5, 1.5, n).clip(0, 10),
        # gera notas de física com distribuição normal truncada
        "nota_fisica": np.random.normal(6.0, 1.7, n).clip(0, 10),
        # gera notas de química com distribuição normal truncada
        "nota_quimica": np.random.normal(6.2, 1.6, n).clip(0, 10),
        # gera notas de inglês com distribuição normal truncada
        "nota_ingles": np.random.normal(7.0, 1.2, n).clip(0, 10),
        # gera notas de português com distribuição normal truncada
        "nota_portugues": np.random.normal(6.8, 1.3, n).clip(0, 10),
    })
    # calcula a idade aproximada a partir da data de nascimento
    df["idade"] = df["data_nascimento"].apply(lambda x: (hoje - x).days // 365)
    # cria uma máscara aleatória para inserir valores nulos
    mask = np.random.rand(n) < 0.1
    # insere valores nulos propositalmente na nota de física
    df.loc[mask, "nota_fisica"] = np.nan
    # retorna o DataFrame final
    return df

# Gera o dataset sintético

In [2]:
# gera o dataset sintético
df = gerar_dataset_sintetico()

# Comandos Python

In [3]:
# exibe as primeiras linhas do dataset
df.head()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
0,1,F,MG,1999-10-18 19:02:36.313619,6.48163,7.085607,6.513352,6.333761,7.217764,26
1,2,F,RN,1987-02-16 19:02:36.313619,5.154118,3.175416,4.634604,9.257388,7.348497,38
2,3,M,PB,1991-12-09 19:02:36.313619,6.613707,5.887664,6.853204,5.262383,8.897825,34
3,4,M,AP,1994-11-13 19:02:36.313619,5.484257,,3.475866,4.361433,7.389595,31
4,5,F,RR,2004-08-07 19:02:36.313619,7.96268,4.891879,7.846649,7.528017,6.482596,21


In [4]:
# exibe as últimas linhas do dataset
df.tail()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
195,196,F,RS,2000-05-08 19:02:36.313619,3.792677,,3.762901,5.624386,4.231893,25
196,197,M,RR,1992-01-26 19:02:36.313619,4.058686,6.031338,5.305725,7.363163,5.578864,33
197,198,M,PR,1988-04-22 19:02:36.313619,6.572127,6.590889,6.803539,6.094869,6.612686,37
198,199,F,SP,1988-07-11 19:02:36.313619,6.889584,5.082409,8.704838,6.923034,5.227397,37
199,200,F,DF,1990-11-19 19:02:36.313619,5.143525,4.676882,6.0948,7.394515,7.579907,35


In [5]:
# mostra tipos, memória e valores nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   id               200 non-null    int64         
 1   sexo             200 non-null    object        
 2   uf               200 non-null    object        
 3   data_nascimento  200 non-null    datetime64[ns]
 4   nota_matematica  200 non-null    float64       
 5   nota_fisica      176 non-null    float64       
 6   nota_quimica     200 non-null    float64       
 7   nota_ingles      200 non-null    float64       
 8   nota_portugues   200 non-null    float64       
 9   idade            200 non-null    int64         
dtypes: datetime64[ns](1), float64(5), int64(2), object(2)
memory usage: 15.8+ KB


In [6]:
# apresenta estatísticas descritivas das colunas numéricas
df.describe()

Unnamed: 0,id,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
count,200.0,200.0,176.0,200.0,200.0,200.0,200.0
mean,100.5,6.410908,5.951173,6.462127,7.124295,6.824989,28.155
std,57.879185,1.466861,1.714325,1.491127,1.20123,1.304828,6.449726
min,1.0,3.047118,1.415293,3.254601,3.524494,3.550773,18.0
25%,50.75,5.333037,5.023402,5.341914,6.387581,5.879131,23.0
50%,100.5,6.41133,5.906602,6.497156,7.208164,6.840472,28.0
75%,150.25,7.347315,7.013758,7.347804,7.8875,7.574041,34.0
max,200.0,10.0,10.0,10.0,9.884099,10.0,39.0


In [7]:
# seleciona uma única coluna
df["uf"]

0      MG
1      RN
2      PB
3      AP
4      RR
       ..
195    RS
196    RR
197    PR
198    SP
199    DF
Name: uf, Length: 200, dtype: object

In [8]:
# filtra registros com idade maior que 25
df[df["idade"] > 25]

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
0,1,F,MG,1999-10-18 19:02:36.313619,6.481630,7.085607,6.513352,6.333761,7.217764,26
1,2,F,RN,1987-02-16 19:02:36.313619,5.154118,3.175416,4.634604,9.257388,7.348497,38
2,3,M,PB,1991-12-09 19:02:36.313619,6.613707,5.887664,6.853204,5.262383,8.897825,34
3,4,M,AP,1994-11-13 19:02:36.313619,5.484257,,3.475866,4.361433,7.389595,31
7,8,F,PR,1988-12-26 19:02:36.313619,6.017921,5.346256,7.772306,7.850028,5.204110,37
...,...,...,...,...,...,...,...,...,...,...
193,194,F,RS,1994-02-10 19:02:36.313619,7.355898,,5.079807,5.628394,7.432452,31
196,197,M,RR,1992-01-26 19:02:36.313619,4.058686,6.031338,5.305725,7.363163,5.578864,33
197,198,M,PR,1988-04-22 19:02:36.313619,6.572127,6.590889,6.803539,6.094869,6.612686,37
198,199,F,SP,1988-07-11 19:02:36.313619,6.889584,5.082409,8.704838,6.923034,5.227397,37


In [9]:
# agrupa por estado e calcula média de matemática
df.groupby("uf")["nota_matematica"].mean()

uf
AC    6.775365
AL    6.355227
AM    6.615454
AP    7.200355
BA    5.874761
DF    5.670095
ES    7.290884
GO    6.218551
MA    4.968713
MG    6.737342
MS    6.642622
MT    5.163669
PA    5.657756
PB    5.804768
PE    6.390869
PI    7.288825
PR    6.260923
RJ    6.094742
RN    6.504673
RO    6.424234
RR    6.630149
RS    7.222718
SC    6.615551
SE    6.221988
SP    6.132062
TO    7.509447
Name: nota_matematica, dtype: float64

In [10]:
# agrupa por sexo e calcula médias de física e química
df.groupby("sexo")[["nota_fisica", "nota_quimica"]].mean()

Unnamed: 0_level_0,nota_fisica,nota_quimica
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
F,6.082225,6.414284
M,5.79391,6.521796


In [11]:
# ordena os alunos pela nota de matemática
df.sort_values("nota_matematica", ascending=False)

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
148,149,F,AM,2006-11-24 19:02:36.313619,10.000000,7.590653,6.173723,8.800912,7.049664,19
48,49,M,BA,1996-01-04 19:02:36.313619,9.784704,3.486403,6.080907,5.099317,5.514832,30
44,45,F,MS,2002-05-04 19:02:36.313619,9.729774,,7.194896,6.464580,5.819846,23
90,91,F,PE,2005-05-26 19:02:36.313619,9.591122,,5.372338,7.627403,5.256122,20
130,131,M,RS,1998-11-08 19:02:36.313619,9.447088,5.024775,6.524677,7.926038,7.525825,27
...,...,...,...,...,...,...,...,...,...,...
195,196,F,RS,2000-05-08 19:02:36.313619,3.792677,,3.762901,5.624386,4.231893,25
101,102,M,BA,1994-01-14 19:02:36.313619,3.441152,,4.730157,4.997699,5.019256,32
112,113,M,PA,1987-08-04 19:02:36.313619,3.398837,5.558695,4.403645,8.294417,6.043815,38
52,53,F,BA,1987-05-17 19:02:36.313619,3.314156,7.075729,6.808317,5.839629,7.993812,38


In [12]:
# contabiliza valores nulos por coluna
df.isnull().sum()

id                  0
sexo                0
uf                  0
data_nascimento     0
nota_matematica     0
nota_fisica        24
nota_quimica        0
nota_ingles         0
nota_portugues      0
idade               0
dtype: int64

In [13]:
# substitui valores nulos por zero
df.fillna(0)

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
0,1,F,MG,1999-10-18 19:02:36.313619,6.481630,7.085607,6.513352,6.333761,7.217764,26
1,2,F,RN,1987-02-16 19:02:36.313619,5.154118,3.175416,4.634604,9.257388,7.348497,38
2,3,M,PB,1991-12-09 19:02:36.313619,6.613707,5.887664,6.853204,5.262383,8.897825,34
3,4,M,AP,1994-11-13 19:02:36.313619,5.484257,0.000000,3.475866,4.361433,7.389595,31
4,5,F,RR,2004-08-07 19:02:36.313619,7.962680,4.891879,7.846649,7.528017,6.482596,21
...,...,...,...,...,...,...,...,...,...,...
195,196,F,RS,2000-05-08 19:02:36.313619,3.792677,0.000000,3.762901,5.624386,4.231893,25
196,197,M,RR,1992-01-26 19:02:36.313619,4.058686,6.031338,5.305725,7.363163,5.578864,33
197,198,M,PR,1988-04-22 19:02:36.313619,6.572127,6.590889,6.803539,6.094869,6.612686,37
198,199,F,SP,1988-07-11 19:02:36.313619,6.889584,5.082409,8.704838,6.923034,5.227397,37


In [14]:
# remove linhas com qualquer valor nulo
df.dropna()

Unnamed: 0,id,sexo,uf,data_nascimento,nota_matematica,nota_fisica,nota_quimica,nota_ingles,nota_portugues,idade
0,1,F,MG,1999-10-18 19:02:36.313619,6.481630,7.085607,6.513352,6.333761,7.217764,26
1,2,F,RN,1987-02-16 19:02:36.313619,5.154118,3.175416,4.634604,9.257388,7.348497,38
2,3,M,PB,1991-12-09 19:02:36.313619,6.613707,5.887664,6.853204,5.262383,8.897825,34
4,5,F,RR,2004-08-07 19:02:36.313619,7.962680,4.891879,7.846649,7.528017,6.482596,21
5,6,F,ES,2004-08-07 19:02:36.313619,6.279414,6.080578,6.956156,6.397535,8.053313,21
...,...,...,...,...,...,...,...,...,...,...
194,195,F,AM,2000-07-29 19:02:36.313619,5.355111,6.290471,8.112075,8.960118,6.883817,25
196,197,M,RR,1992-01-26 19:02:36.313619,4.058686,6.031338,5.305725,7.363163,5.578864,33
197,198,M,PR,1988-04-22 19:02:36.313619,6.572127,6.590889,6.803539,6.094869,6.612686,37
198,199,F,SP,1988-07-11 19:02:36.313619,6.889584,5.082409,8.704838,6.923034,5.227397,37


# Comandos SQL (com duckdb)

In [15]:
# importa a biblioteca duckdb
import duckdb
# cria uma conexão em memória
con = duckdb.connect()
# registra o DataFrame como tabela SQL
con.register("alunos", df)

ModuleNotFoundError: No module named 'duckdb'

In [None]:
# executa um SELECT com filtro por idade
con.execute("SELECT * FROM alunos WHERE idade > 25").df()

In [None]:
# executa agregação com GROUP BY e ORDER BY
con.execute("""
SELECT
    uf,
    COUNT(*) AS total_alunos,
    AVG(nota_matematica) AS media_matematica
FROM alunos
GROUP BY uf
ORDER BY media_matematica DESC
""").df()

In [None]:
# seleciona registros com valores nulos em nota_fisica
con.execute("SELECT * FROM alunos WHERE nota_fisica IS NULL").df()

In [None]:
# cria uma tabela física a partir do DataFrame
con.execute("CREATE TABLE alunos_sql AS SELECT * FROM alunos")

In [None]:
# insere um novo registro manualmente
con.execute("""
INSERT INTO alunos_sql
VALUES (999,'F','SP',DATE '2000-01-01',8.0,7.5,7.0,9.0,8.5,24)
""")

In [None]:
# remove registros com nota de física nula
con.execute("DELETE FROM alunos_sql WHERE nota_fisica IS NULL")