#TIM AI Academy

## Demonstração N1 - A partir de datasets fictícios, explanação a respeito da verificação da qualidade de dados, segurança e privacidade, rastreabilidade e documentação.

### Prof. Dr. Ahirton Lopes (https://github.com/ahirtonlopes)

# 1. Verificação da Qualidade dos Dados

Vamos começar com uma função que verifica a qualidade dos dados, identificando valores ausentes e duplicatas em um DataFrame do Pandas.

In [1]:
import pandas as pd

# Exemplo de DataFrame
data = {
    'id': [1, 2, 2, 3, None],
    'name': ['Alice', 'Bob', 'Bob', 'Charlie', 'David'],
    'age': [25, 30, None, 35, 40]
}

df = pd.DataFrame(data)

def check_data_quality(df):
    print("Verificação de Duplicatas:")
    print(df.duplicated().sum(), "duplicatas encontradas\n")

    print("Verificação de Valores Ausentes:")
    print(df.isnull().sum(), "valores ausentes em cada coluna\n")

    # Exemplos de ações corretivas
    df.drop_duplicates(inplace=True)

    # Preenchendo valores ausentes apenas nas colunas numéricas
    for column in df.select_dtypes(include=['float64', 'int64']).columns:
        df[column].fillna(df[column].mean(), inplace=True)  # Preenchendo valores ausentes com a média

    return df

# Verificação de qualidade
df_cleaned = check_data_quality(df)
print("DataFrame limpo:")
print(df_cleaned)

Verificação de Duplicatas:
0 duplicatas encontradas

Verificação de Valores Ausentes:
id      1
name    0
age     1
dtype: int64 valores ausentes em cada coluna

DataFrame limpo:
    id     name   age
0  1.0    Alice  25.0
1  2.0      Bob  30.0
2  2.0      Bob  32.5
3  3.0  Charlie  35.0
4  2.0    David  40.0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[column].fillna(df[column].mean(), inplace=True)  # Preenchendo valores ausentes com a média


# 2. Segurança e Privacidade

Aqui está um exemplo simples de como anonimizar dados sensíveis. Neste caso, vamos usar a biblioteca FPE para fazer a criptografia de nomes.

In [2]:
from cryptography.fernet import Fernet

# Gerando uma chave para criptografia
key = Fernet.generate_key()
cipher_suite = Fernet(key)

# Função para criptografar dados sensíveis
def encrypt_data(df, column):
    df[column] = df[column].apply(lambda x: cipher_suite.encrypt(x.encode()).decode() if pd.notnull(x) else x)
    return df

In [3]:
# Exemplo de uso
df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie']})
df = encrypt_data(df, 'name')
print("DataFrame com nomes criptografados:")
print(df)

DataFrame com nomes criptografados:
                                                name
0  gAAAAABnI4ZEO5UgbMvdfTm3gX5yXRPqe9hV2B1uUAIt_h...
1  gAAAAABnI4ZE0GjLgK7qHQisFs8QseQ_K5cSvUe-n2zE2T...
2  gAAAAABnI4ZEkRCoHg1Edv6JFuDu4mflU_1X1rguPfKoSE...


# 3. Rastreabilidade dos Dados

Um exemplo de como rastrear a origem dos dados e registrar alterações pode ser feito utilizando um dicionário para armazenar informações sobre a modificação dos dados.

In [4]:
import datetime

# Dicionário para rastrear alterações
data_audit = []

def track_changes(old_value, new_value, column):
    if old_value != new_value:
        data_audit.append({
            'column': column,
            'old_value': old_value,
            'new_value': new_value,
            'timestamp': datetime.datetime.now()
        })

# Exemplo de atualização de dados
def update_age(df, index, new_age):
    old_age = df.at[index, 'age']
    df.at[index, 'age'] = new_age
    track_changes(old_age, new_age, 'age')

In [5]:
# Criando um DataFrame e atualizando um valor
df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35]})
update_age(df, 1, 31)

# Exibindo a auditoria de dados
print("Auditoria de alterações:")
print(data_audit)

Auditoria de alterações:
[{'column': 'age', 'old_value': 30, 'new_value': 31, 'timestamp': datetime.datetime(2024, 10, 31, 13, 29, 40, 716326)}]


# 4. Documentação dos Dados

A documentação dos dados é fundamental para a governança. Um exemplo simples de como documentar a estrutura de um DataFrame pode ser feito com um dicionário.

In [6]:
# Documentação do DataFrame
data_documentation = {
    'columns': {
        'name': 'Nome da pessoa',
        'age': 'Idade da pessoa',
    },
    'description': 'Este DataFrame contém informações básicas sobre pessoas.'
}

print("Documentação dos dados:")
print(data_documentation)

Documentação dos dados:
{'columns': {'name': 'Nome da pessoa', 'age': 'Idade da pessoa'}, 'description': 'Este DataFrame contém informações básicas sobre pessoas.'}
