#TIM AI Academy

## Demonstração N2 - A partir de datasets fictícios, explanação a respeito da verificação da qualidade de dados, segurança e privacidade, rastreabilidade e documentação.

### Prof. Dr. Ahirton Lopes (https://github.com/ahirtonlopes)

# 1. Anonimização de Dados com Pseudonimização

Neste exemplo, usaremos uma técnica de pseudonimização, que substitui dados identificáveis por pseudônimos, mantendo a utilidade dos dados para análise, mas reduzindo o risco de identificação de indivíduos.

In [3]:
import pandas as pd

# Criando um DataFrame de exemplo com dados pessoais
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Email': ['alice@example.com', 'bob@example.com', 'charlie@example.com'],
    'Idade': [25, 30, 35]
}

df = pd.DataFrame(data)

# Exibindo os dados originais
print("Dados Originais:")
print(df)

# Função para pseudonimização
def pseudonimizar(df):
    df['Nome'] = df['Nome'].apply(lambda x: f'User_{hash(x)}')  # Substitui o nome por um hash
    df['Email'] = df['Email'].apply(lambda x: f'user{x[-5:]}@example.com')  # Mantém o domínio, mas muda a parte local
    return df

# Aplicando a pseudonimização
df_pseudonimizado = pseudonimizar(df)

# Exibindo os dados pseudonimizados
print("\nDados Pseudonimizados:")
print(df_pseudonimizado)

Dados Originais:
      Nome                Email  Idade
0    Alice    alice@example.com     25
1      Bob      bob@example.com     30
2  Charlie  charlie@example.com     35

Dados Pseudonimizados:
                        Nome                  Email  Idade
0   User_9141758061224313528  usere.com@example.com     25
1  User_-7405335073746501944  usere.com@example.com     30
2   User_2385428207780303392  usere.com@example.com     35


# 2. Mascaramento de Dados

Neste exemplo, aplicamos uma técnica de mascaramento, onde ocultamos parcialmente os dados sensíveis, como os endereços de e-mail.

In [4]:
# Criando um DataFrame com dados pessoais
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Email': ['alice@example.com', 'bob@example.com', 'charlie@example.com']
}

df = pd.DataFrame(data)

# Exibindo os dados originais
print("Dados Originais:")
print(df)

# Função para mascaramento de dados
def mascarar_email(email):
    usuario, dominio = email.split('@')
    usuario_mascarado = usuario[:2] + '*' * (len(usuario) - 2)  # Mantém os dois primeiros caracteres visíveis
    return f'{usuario_mascarado}@{dominio}'

# Aplicando o mascaramento de dados
df['Email'] = df['Email'].apply(mascarar_email)

# Exibindo os dados mascarados
print("\nDados Mascarados:")
print(df)

Dados Originais:
      Nome                Email
0    Alice    alice@example.com
1      Bob      bob@example.com
2  Charlie  charlie@example.com

Dados Mascarados:
      Nome                Email
0    Alice    al***@example.com
1      Bob      bo*@example.com
2  Charlie  ch*****@example.com


# 3. Tokenização

A tokenização substitui dados sensíveis por tokens que podem ser utilizados em lugar dos dados originais.

In [5]:
import random
import string

# Função para gerar um token
def gerar_token(tamanho=8):
    return ''.join(random.choices(string.ascii_letters + string.digits, k=tamanho))

# Criando um DataFrame com dados pessoais
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Cartão': ['1234-5678-9876-5432', '2345-6789-8765-4321', '3456-7890-7654-3210']
}

df = pd.DataFrame(data)

# Exibindo os dados originais
print("Dados Originais:")
print(df)

# Aplicando tokenização ao número do cartão
df['Cartão Tokenizado'] = df['Cartão'].apply(lambda x: gerar_token(16))

# Exibindo os dados com cartões tokenizados
print("\nDados com Cartões Tokenizados:")
print(df)

Dados Originais:
      Nome               Cartão
0    Alice  1234-5678-9876-5432
1      Bob  2345-6789-8765-4321
2  Charlie  3456-7890-7654-3210

Dados com Cartões Tokenizados:
      Nome               Cartão Cartão Tokenizado
0    Alice  1234-5678-9876-5432  jSnzP1Fe6RwkDTwY
1      Bob  2345-6789-8765-4321  o6QtDPT0vWe89g8x
2  Charlie  3456-7890-7654-3210  UdBbCwtvw8ckh3HJ
