<a href="https://colab.research.google.com/github/bernardooduarte/gestao-projetos-fundamentos-dados-ia/blob/main/C%C3%B3pia_de_02_Manipulac%CC%A7a%CC%83o_de_Dados_com_SQL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Manipulação de Dados com Python

## Trabalhando com SQL

Para além de tudo o que pode ser feito com a biblioteca Pandas, podemos também utilizar SQL: Structured Query Language.

SQL é uma linguagem de manipulação de dados utilizado em bancos de dados. Podemos utilizá-la para tratar dados assim como fizemos com o Pandas.

Aqui, iremos primeiro carregar uma base de dados em um dataframe do Pandas e utilizar a biblioteca `duckdb` para executarmos queries SQL diretamente no dataframe do Pandas.

## Montando o drive

In [None]:
from google.colab import drive

# Permite acesso aos arquivos
drive.mount('/content/drive', force_remount=True)

# Caminho da pasta que contém as bases de dados.
# É necessário que o arquivo esteja em seu drive, ou crie um atalho da parta compartilhada no seu drive
drive_path = "/content/drive/MyDrive/Curso Fronteira/bases/"

Mounted at /content/drive


## Exemplo prático

In [None]:
# importanto o pandas
import pandas as pd

# Lendo o arquivo CSV e armazenando na variável df
df = pd.read_csv(drive_path + "treino.csv")

Para executarmos SQL, vamos utilizar uma biblioteca chamada `duckdb`. Para isso, vamos primeiro importá-la:

In [None]:
import duckdb

duckdb.sql("""
SELECT * FROM df LIMIT 10
""")

┌──────────────┬──────────────────────┬───────┬───┬──────────────────────┬──────────────────────┬──────────────────────┐
│ inadimplente │ util_linhas_insegu…  │ idade │ … │ numero_emprestimos…  │ numero_de_vezes_qu…  │ numero_de_dependen…  │
│    int64     │        double        │ int64 │   │        int64         │        int64         │        double        │
├──────────────┼──────────────────────┼───────┼───┼──────────────────────┼──────────────────────┼──────────────────────┤
│            1 │   0.7661266090000001 │    45 │ … │                    6 │                    0 │                  2.0 │
│            0 │          0.957151019 │    40 │ … │                    0 │                    0 │                  1.0 │
│            0 │           0.65818014 │    38 │ … │                    0 │                    0 │                  0.0 │
│            0 │          0.233809776 │    30 │ … │                    0 │                    0 │                  0.0 │
│            0 │            0.90

Na query SQL acima retornamos as 5 primeiras linhas, resultado similar ao `df.head()` do Pandas.

Podemos pedir para que o output seja uma tabela do pandas:

In [None]:
duckdb.sql("""
SELECT * FROM df LIMIT 5
""").to_df()

Unnamed: 0,inadimplente,util_linhas_inseguras,idade,vezes_passou_de_30_59_dias,razao_debito,salario_mensal,numero_linhas_crdto_aberto,numero_vezes_passou_90_dias,numero_emprestimos_imobiliarios,numero_de_vezes_que_passou_60_89_dias,numero_de_dependentes
0,1,0.766127,45,2,0.802982,9120.0,13,0,6,0,2.0
1,0,0.957151,40,0,0.121876,2600.0,4,0,0,0,1.0
2,0,0.65818,38,1,0.085113,3042.0,2,1,0,0,0.0
3,0,0.23381,30,0,0.03605,3300.0,5,0,0,0,0.0
4,0,0.907239,49,1,0.024926,63588.0,7,0,1,0,0.0


In [None]:
# df.shape[0]
duckdb.sql("""
SELECT COUNT(*) FROM df
""").to_df()

Unnamed: 0,count_star()
0,110000


In [None]:
# Calculando a idade média
# df['idade'].mean()

duckdb.sql("""
SELECT MEAN(idade) FROM df
"""
).to_df()

Unnamed: 0,mean(idade)
0,52.255636


In [None]:
# Observe que você pode manipular mais de uma coluna, basta adicionar um par de colchetes extras
# df[['idade', 'numero_emprestimos_imobiliarios']].mean()

duckdb.sql("""
SELECT MEAN(idade),
        MEAN(numero_emprestimos_imobiliarios)
FROM df
"""
)

┌───────────────────┬───────────────────────────────────────┐
│    mean(idade)    │ mean(numero_emprestimos_imobiliarios) │
│      double       │                double                 │
├───────────────────┼───────────────────────────────────────┤
│ 52.25563636363636 │                    1.0198909090909092 │
└───────────────────┴───────────────────────────────────────┘

In [None]:
# Filtrando por algum valor específico
#df[df['idade'] > 60].head()

duckdb.sql("""
SELECT *
FROM df
WHERE idade > 60
"""
).to_df()

Unnamed: 0,inadimplente,util_linhas_inseguras,idade,vezes_passou_de_30_59_dias,razao_debito,salario_mensal,numero_linhas_crdto_aberto,numero_vezes_passou_90_dias,numero_emprestimos_imobiliarios,numero_de_vezes_que_passou_60_89_dias,numero_de_dependentes
0,0,0.213179,74,0,0.375607,3500.0,3,0,1,0,1.0
1,0,0.019657,76,0,477.000000,0.0,6,0,1,0,0.0
2,0,0.548458,64,0,0.209892,11362.0,7,0,1,0,2.0
3,0,0.061086,78,0,2058.000000,,10,0,2,0,0.0
4,0,0.034421,69,0,0.042383,2500.0,17,0,0,0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
32954,0,1.000000,67,0,0.729708,2500.0,6,0,1,0,0.0
32955,0,0.938906,84,0,5734.000000,,5,0,1,0,0.0
32956,0,0.020804,68,1,0.325946,6000.0,14,0,4,0,1.0
32957,0,0.006491,61,0,0.004570,3500.0,8,0,0,0,0.0


In [None]:
# Observe que o filtro acima é temporário e não afeta o seu dataframe.
# Podemos salvar o resultado da query em uma nova tabela:
df_filtrado = duckdb.sql("""
SELECT *
FROM df
WHERE idade > 60
"""
).to_df()

In [None]:
df_filtrado.head()

Unnamed: 0,inadimplente,util_linhas_inseguras,idade,vezes_passou_de_30_59_dias,razao_debito,salario_mensal,numero_linhas_crdto_aberto,numero_vezes_passou_90_dias,numero_emprestimos_imobiliarios,numero_de_vezes_que_passou_60_89_dias,numero_de_dependentes
0,0,0.213179,74,0,0.375607,3500.0,3,0,1,0,1.0
1,0,0.019657,76,0,477.0,0.0,6,0,1,0,0.0
2,0,0.548458,64,0,0.209892,11362.0,7,0,1,0,2.0
3,0,0.061086,78,0,2058.0,,10,0,2,0,0.0
4,0,0.034421,69,0,0.042383,2500.0,17,0,0,0,1.0


In [None]:
# Agrupa pela idade e calcula a média de inadimplência de cada idade
# df.groupby("idade")["inadimplente"].mean()
duckdb.sql("""
SELECT idade, MEAN(inadimplente)
FROM df
GROUP BY idade
ORDER BY idade
LIMIT 10
"""
).to_df()

Unnamed: 0,idade,mean(inadimplente)
0,0,0.0
1,21,0.06338
2,22,0.07716
3,23,0.132196
4,24,0.128247
5,25,0.132102
6,26,0.130435
7,27,0.127967
8,28,0.130208
9,29,0.103395


In [None]:
# Algo bem útil em modelagem é a criação de novas variáveis. Você pode criar de maneira bem simples
# Observe que somamos 1 para considerar  salário da pessoa mais a quantidade de dependentes
# df['salario_por_pessoa'] = df['salario_mensal'] / (df['numero_de_dependentes'] + 1)

df = duckdb.sql("""
SELECT *,
        (salario_mensal / (numero_de_dependentes + 1)) AS salario_por_pessoa
FROM df
"""
).to_df()

In [None]:
df[['salario_mensal', 'numero_de_dependentes', 'salario_por_pessoa']]

Unnamed: 0,salario_mensal,numero_de_dependentes,salario_por_pessoa
0,9120.0,2.0,3040.0
1,2600.0,1.0,1300.0
2,3042.0,0.0,3042.0
3,3300.0,0.0,3300.0
4,63588.0,0.0,63588.0
...,...,...,...
109995,9600.0,0.0,9600.0
109996,12224.0,4.0,2444.8
109997,12000.0,2.0,4000.0
109998,7000.0,1.0,3500.0


In [None]:
# Criando categorias
# Você também pode criar categorias no seu dataframe
# df['intervalo'] = pd.cut(df['idade'], bins=5)

df = duckdb.sql("""
SELECT *,
        NTILE(5) OVER (ORDER BY idade) as intervalo
FROM df
"""
).to_df()

In [None]:
df[['idade', 'intervalo']]

Unnamed: 0,idade,intervalo
0,0,1
1,21,1
2,21,1
3,21,1
4,21,1
...,...,...
109995,103,5
109996,103,5
109997,105,5
109998,107,5


In [None]:
# calculando os limites dos intervalos criados

duckdb.sql("""
SELECT
    intervalo,
    MIN(idade),
    MAX(idade)
FROM df
GROUP BY intervalo
ORDER BY intervalo
"""
)

┌───────────┬────────────┬────────────┐
│ intervalo │ min(idade) │ max(idade) │
│   int64   │   int64    │   int64    │
├───────────┼────────────┼────────────┤
│         1 │          0 │         39 │
│         2 │         39 │         48 │
│         3 │         48 │         56 │
│         4 │         56 │         65 │
│         5 │         65 │        109 │
└───────────┴────────────┴────────────┘

In [None]:
# df['categoria_idade'] = pd.cut(df['idade'], bins=5, labels=['jovem', 'adulto jovem', 'adulto', 'adulto mais velho', 'idoso'])

df = duckdb.sql("""
SELECT *,
        CASE WHEN intervalo = 1 THEN 'jovem'
             WHEN intervalo = 2 THEN 'adulto jovem'
             WHEN intervalo = 3 THEN 'adulto'
             WHEN intervalo = 4 THEN 'adulto mais velho'
             WHEN intervalo = 5 THEN 'idoso'
        END AS categoria_idade
FROM df
"""
).to_df()

In [None]:
df.head()

Unnamed: 0,inadimplente,util_linhas_inseguras,idade,vezes_passou_de_30_59_dias,razao_debito,salario_mensal,numero_linhas_crdto_aberto,numero_vezes_passou_90_dias,numero_emprestimos_imobiliarios,numero_de_vezes_que_passou_60_89_dias,numero_de_dependentes,salario_por_pessoa,intervalo,categoria_idade
0,0,1.0,0,1,0.436927,6000.0,6,0,2,0,2.0,2000.0,1,jovem
1,1,0.778443,21,0,0.010989,1000.0,1,0,0,0,0.0,1000.0,1,jovem
2,0,0.292707,21,0,8.0,0.0,2,0,0,0,0.0,0.0,1,jovem
3,0,1.0,21,0,193.0,,2,0,0,0,0.0,,1,jovem
4,0,1.0,21,0,0.085566,2500.0,1,0,0,0,0.0,2500.0,1,jovem


In [None]:
df[['idade', 'intervalo', 'categoria_idade']].head()

Unnamed: 0,idade,intervalo,categoria_idade
0,0,1,jovem
1,21,1,jovem
2,21,1,jovem
3,21,1,jovem
4,21,1,jovem


In [None]:
# Localizando idosos na base
# df.loc[df['categoria_idade'] == 'idoso'].head()

duckdb.sql("""
SELECT *
FROM df
WHERE categoria_idade = 'idoso'
""").to_df()

Unnamed: 0,inadimplente,util_linhas_inseguras,idade,vezes_passou_de_30_59_dias,razao_debito,salario_mensal,numero_linhas_crdto_aberto,numero_vezes_passou_90_dias,numero_emprestimos_imobiliarios,numero_de_vezes_que_passou_60_89_dias,numero_de_dependentes,salario_por_pessoa,intervalo,categoria_idade
0,0,0.191073,65,0,0.186841,7583.0,13,0,0,0,0.0,7583.0,5,idoso
1,0,1.000000,65,98,0.125475,525.0,0,98,0,98,0.0,525.0,5,idoso
2,0,0.455360,65,0,0.804507,5457.0,15,0,2,0,0.0,5457.0,5,idoso
3,0,0.141669,65,0,0.330623,7500.0,13,0,2,0,0.0,7500.0,5,idoso
4,0,0.058259,65,0,0.108723,4000.0,9,0,0,0,0.0,4000.0,5,idoso
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21995,0,1.000000,103,0,0.000000,1600.0,3,0,0,0,0.0,1600.0,5,idoso
21996,0,0.001397,103,0,1798.500000,1.0,11,0,2,0,0.0,1.0,5,idoso
21997,0,0.003469,105,0,2.000000,,4,0,0,0,,,5,idoso
21998,0,0.064748,107,0,939.000000,,9,0,1,0,0.0,,5,idoso


In [None]:
# Vamos agora calcular a média de inadimplência para cada uma
# das categorias de idade criada

duckdb.sql("""
SELECT categoria_idade,
        MEAN(inadimplente) AS taxa_inadimplencia
FROM df
GROUP BY categoria_idade
ORDER BY taxa_inadimplencia DESC
"""
).to_df()

Unnamed: 0,categoria_idade,taxa_inadimplencia
0,jovem,0.105
1,adulto jovem,0.085091
2,adulto,0.072
3,adulto mais velho,0.0465
4,idoso,0.024636


In [None]:
# Podemos utilizar a mesma query acima e acrescentar mais métricas
# para cada categoria de idade

duckdb.sql("""
SELECT categoria_idade,
        MEAN(inadimplente) AS taxa_inadimplencia,
        MEAN(salario_mensal) as salario_medio,
        MEAN(numero_linhas_crdto_aberto) as numero_linhas_crdto_aberto_media
FROM df
GROUP BY categoria_idade
ORDER BY taxa_inadimplencia DESC
"""
).to_df()

Unnamed: 0,categoria_idade,taxa_inadimplencia,salario_medio,numero_linhas_crdto_aberto_media
0,jovem,0.105,4731.624524,6.344955
1,adulto jovem,0.085091,7007.108389,8.347091
2,adulto,0.072,7781.584693,9.365409
3,adulto mais velho,0.0465,7560.517491,9.677682
4,idoso,0.024636,6170.072491,8.492727
