In [None]:
import os
from dotenv import load_dotenv
import pandas as pd
from sqlalchemy import create_engine
from IPython.display import display


In [2]:

load_dotenv()

DB_HOST = os.getenv("DB_HOST")
DB_PORT = os.getenv("DB_PORT")
DB_ENTRADA = os.getenv("DB_ENTRADA")
DB_SAI = os.getenv("DB_SAI")
DB_USER = os.getenv("DB_USER")
DB_PASSWORD = os.getenv("DB_PASSWORD")

ENTRADA = f"postgresql://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_ENTRADA}"
SAIDA = f'postgresql://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_SAI}'

engine_entrada = create_engine(ENTRADA)
engine_saida = create_engine(SAIDA)


query = "SELECT * FROM endereco"
dados_originais_df = pd.read_sql(query, engine_entrada)
df_anonimizado = dados_originais_df.copy()


In [None]:
def generalizar_rua(rua):
    if not isinstance(rua, str):
        return "Rua desconhecida"
    tipo = rua.split()[0]  
    return f"{tipo} X"

df_anonimizado["rua"] = df_anonimizado["rua"].map(generalizar_rua)
print("==== Dados anonimizados ====")
display(df_anonimizado[["rua"]])

==== Dados anonimizados ====


Unnamed: 0,rua
0,Avenida X
1,Rua X
2,Rua X
3,Rua X
4,Avenida X


In [6]:
def generalizar_cidade(cidade):
    if not isinstance(cidade, str):
        return "Cidade desconhecida"
    tipo = cidade.split()[0]  
    return f"Cidade X"

df_anonimizado["cidade"] = df_anonimizado["cidade"].map(generalizar_cidade)
print("==== Dados anonimizados ====")
display(df_anonimizado[["cidade"]])

==== Dados anonimizados ====


Unnamed: 0,cidade
0,Cidade X
1,Cidade X
2,Cidade X
3,Cidade X
4,Cidade X


In [7]:
def anonimizar_numero(numero, chave):
    numero = str(numero)
    chave = str(chave).lower()
    i = 0
    for l in numero:
        return "*****"

chave = 5

df_anonimizado["numero"] = df_anonimizado["numero"].apply(lambda x: anonimizar_numero(x, chave))

print("==== Dados anonimizados ====")
display(df_anonimizado[["numero"]])



==== Dados anonimizados ====


Unnamed: 0,numero
0,*****
1,*****
2,*****
3,*****
4,*****


In [8]:
def abstracao_pais(pais):
    
    pais= pais.strip()

    uf = pais[:2].upper()
    return f"{uf}"

df_anonimizado["pais"] = df_anonimizado["pais"].apply(abstracao_pais)

print("==== Dados anonimizados ====")
display(df_anonimizado[["pais"]])



==== Dados anonimizados ====


Unnamed: 0,pais
0,BR
1,BR
2,BR
3,BR
4,BR


In [9]:
bairro_para_regiao = {
    "Bela Vista": "Centro",
    "Vila Mariana": "Zona Sul",
    "Pinheiros": "Zona Oeste",
    "Vila Carrão": "Zona Leste",
    "Mooca": "Zona Leste"
}


df_anonimizado["bairro"] = df_anonimizado["bairro"].map(bairro_para_regiao)

df_anonimizado["bairro"] = df_anonimizado["bairro"].fillna("Região desconhecida")

print("==== Dados anonimizados ====")
display(df_anonimizado[["bairro"]])


==== Dados anonimizados ====


Unnamed: 0,bairro
0,Centro
1,Zona Sul
2,Zona Leste
3,Zona Leste
4,Zona Oeste


In [10]:
def anonimizar_digitos(valor):
    valor_str = str(valor)
    valor_anonimizado = ''.join('*' if caractere.isdigit() else caractere for caractere in valor_str)
    return valor_anonimizado

df_anonimizado["cep"] = df_anonimizado["cep"].map(anonimizar_digitos)

print("==== Dados anonimizados ====")
display(df_anonimizado[["cep"]])

==== Dados anonimizados ====


Unnamed: 0,cep
0,********
1,********
2,********
3,********
4,********


In [11]:
display(df_anonimizado)

Unnamed: 0,id,cep,rua,numero,bairro,cidade,estado,pais
0,1,********,Avenida X,*****,Centro,Cidade X,SP,BR
1,2,********,Rua X,*****,Zona Sul,Cidade X,SP,BR
2,4,********,Rua X,*****,Zona Leste,Cidade X,SP,BR
3,5,********,Rua X,*****,Zona Leste,Cidade X,SP,BR
4,3,********,Avenida X,*****,Zona Oeste,Cidade X,RJ,BR


In [12]:
from sqlalchemy import text

with engine_saida.begin() as conn:
    # por depender de outras tabelas, limpa a tabela sem quebrar FK e reinicia o ID
    conn.execute(text("TRUNCATE TABLE endereco RESTART IDENTITY CASCADE"))

df_anonimizado.to_sql(name='endereco', con=engine_saida, if_exists='append', index=False)



5

In [13]:
#mandar para o csv
dados_originais_df.to_csv('original_endereco.csv')
df_anonimizado.to_csv('pseudo_endereco.csv')