## Instalando as bibliotecas

In [4]:
!pip install DataProfiler[ml]



## Importando as bibliotecas que serão usadas

In [8]:
from dataprofiler import Data, Profiler
import pandas as pd
import json

## Importando os dados

In [9]:
dados = pd.read_csv('/content/autoridades_navais.csv', encoding='windows-1252')

## Conhecendo os dados

In [10]:
dados.shape

(9, 8)

In [12]:
dados.head()

Unnamed: 0,CARGO,NOME,OM,ATRIBUIÇÕES DA OM,ENDEREÇO,TELEFONE,ASSISTENTE,E-MAIL
0,Comandante da Marinha,Almirante de Esquadra Marcos Sampaio OLSEN,GABINETE DO COMANDANTE DA MARINHA (GCM),O GCM tem o propósito de assistir ao Comandant...,"Esplanada dos Ministérios, Bloco ""N"", 2º, 3º e...",(61) 3429-1001,,
1,Chefe do Estado-Maior da Armada,Almirante de Esquadra André Luiz SILVA LIMA de...,ESTADO-MAIOR DA ARMADA (EMA),O EMA tem o propósito de assessorar o Comandan...,"Esplanada dos Ministérios, Bloco “N”. 5º andar...",(61) 3429–1045,CC (AA) Alessandra,alessandra.hypolito@marinha.mil.br
2,Diretor-Geral de Desenvolvimento Nuclear e Tec...,Almirante de Esquadra PETRONIO Augusto Siqueir...,DIRETORIA-GERAL DE DESENVOLVIMENTO NUCLEAR E T...,"A DGDNTM, como um Órgão de Direção Setorial, t...",Rua da Ponte - Ilha das Cobras S/Nº - Ed. 23 -...,(21) 2197-7561,CC (AA) Peixoto,ricardo.peixoto@marinha.mil.br
3,Comandante de Operações Navais,Almirante de Esquadra Wladmilson BORGES de Agu...,COMANDO DE OPERAÇÕES NAVAIS (ComOpNav),O ComOpNav tem o propósito de aprestar as Forç...,"Endereço: Praça Barão de Ladário, s/nº , Ed. A...",(21) 2104-6037,CF (T) Mendes,mendes.oliveira@marinha.mil.br
4,Diretor-Geral de Navegação,Almirante de Esquadra Wladmilson BORGES de Agu...,DIRETORIA-GERAL DE NAVEGAÇÃO (DGN),A DGN tem o propósito de contribuir para o pre...,"Praça Barão de Ladário, s/nº , Edifício Almira...",(21) 2104-7292,CF (T) Mendes,mendes.oliveira@marinha.mil.br


## Criando um Profile a partir dos dados

In [13]:
profile = Profiler(dados)

INFO:DataProfiler.profilers.profile_builder: Finding the Null values in the columns... 


INFO:DataProfiler.profilers.profile_builder:Finding the Null values in the columns... 
100%|██████████| 8/8 [00:00<00:00, 339.88it/s]

INFO:DataProfiler.profilers.profile_builder: Calculating the statistics... 



INFO:DataProfiler.profilers.profile_builder:Calculating the statistics... 
100%|██████████| 8/8 [00:01<00:00,  6.02it/s]


In [15]:
report = profile.report(
    report_options={"output_format":"compact"}
)

In [16]:
report

{'global_stats': {'samples_used': 9,
  'column_count': 8,
  'row_count': 9,
  'row_has_null_ratio': 0.1111,
  'row_is_null_ratio': 0.0,
  'unique_row_ratio': 1.0,
  'duplicate_row_count': 0,
  'file_type': "<class 'pandas.core.frame.DataFrame'>",
  'encoding': None,
  'correlation_matrix': None,
  'chi2_matrix': '[[1.        , 0.32389696, 0.38884088, 0.38884088, 0.38884088, 0.38884088,\n  0.31886441, 0.31886441], ... , [0.31886441, 0.25617786, 0.31886441, 0.31886441, 0.31886441, 0.31886441,\n  0.24912985, 1.        ]]',
  'profile_schema': {'CARGO': [0],
   'NOME': [1],
   'OM': [2],
   'ATRIBUIÇÕES DA OM': [3],
   'ENDEREÇO': [4],
   'TELEFONE': [5],
   'ASSISTENTE': [6],
   'E-MAIL                                                                                                                                                                                                                                                                                                                    

## Analisando resultados do profile

# Usando a biblioteca Data Profiler para encontrar registros pessoais

## Extraindo apenas a classificação de um report

In [17]:
def verifica_dados_pessoais(results):
    colunas = []
    predicao = []
    exemplos = []

    for col in results['data_stats']:
        colunas.append(col['column_name'])
        predicao.append(col['data_label'])
        exemplos.append(col['samples'])

    df_results = pd.DataFrame({
        'Coluna': colunas,
        'Predicao': predicao,
        'Exemplos': exemplos
    })

    return df_results

## Avaliando os resultados

In [18]:
results = verifica_dados_pessoais(report)

In [19]:
results

Unnamed: 0,Coluna,Predicao,Exemplos
0,CARGO,UNKNOWN,"['Chefe do Estado-Maior da Armada',\n 'Diretor..."
1,NOME,UNKNOWN,['Almirante de Esquadra Wladmilson BORGES de A...
2,OM,UNKNOWN,"['ESTADO-MAIOR DA ARMADA (EMA)', 'COMANDO DE O..."
3,ATRIBUIÇÕES DA OM,UNKNOWN,['O GCM tem o propósito de assistir ao Comanda...
4,ENDEREÇO,UNKNOWN,"['Ilha das Cobras, s/nº, Centro, Rio de Janeir..."
5,TELEFONE,PHONE_NUMBER,"['(21) 2126-5015', '(61) 3429-1127', '(21) 219..."
6,ASSISTENTE,UNKNOWN,"['CC (AA) Peixoto ', 'CC Maforte ', 'CF (T) Me..."
7,E-MAIL ...,EMAIL_ADDRESS,"['ricardo.peixoto@marinha.mil.br', 'mendes.oli..."


# Criando uma Função para encontrar nomes de pessoas

## Importando os nomes e sobrenomes mais comuns

In [100]:
with open('nomes_comuns.txt', 'r') as arquivo:
    nomes_comuns = arquivo.readlines()

with open('sobrenomes_comuns.txt', 'r') as arquivo:
    sobrenomes_comuns = arquivo.readlines()

In [103]:
nomes = (sobrenomes_comuns[0] + nomes_comuns[0]).split(' ')

In [105]:
nomes[-10:]

['PATRICIO',
 'ROGERIA',
 'ZILMA',
 'JOZE',
 'LAURO',
 'NICOLY',
 'JAMIL',
 'IRENI',
 'MARLEI',
 'DOMINGO']

## Criando função que retira partículas (stopwords)

In [None]:
def remove_stopwords(texto):
    stop_words = set([
        'a', 'o', 'e', 'é', 'ao', 'aos', 'à', 'às', 'de', 'do', 'da', 'dos', 'das',
        'em', 'no', 'na', 'nos', 'nas', 'para', 'por', 'com', 'um', 'uma', 'uns', 'umas',
        'que', 'eu', 'tu', 'ele', 'ela', 'nós', 'vós', 'eles', 'elas', 'me', 'te',
        'se', 'nos', 'vos', 'lhe', 'lhes', 'meu', 'teu', 'seu', 'nosso', 'vosso',
        'minha', 'tua', 'sua', 'nossa', 'vossa', 'meus', 'teus', 'seus', 'nossos',
        'vossos', 'minhas', 'tuas', 'suas', 'nossas', 'vossas', 'este', 'esse', 'aquele',
        'esta', 'essa', 'aquela', 'estes', 'esses', 'aqueles', 'estas', 'essas',
        'aquelas', 'isto', 'isso', 'aquilo', 'ou'
    ])


    # Tokenizar o texto e remover as stopwords
    palavras_filtradas = [palavra for palavra in texto.split() if palavra.lower() not in stop_words]


    # Juntar as palavras filtradas de volta em uma string
    texto_filtrado = ' '.join(palavras_filtradas)


    return texto_filtrado

## Importando classes improtantes

In [106]:
from collections import Counter

## Criando a função que busca os nomes

In [107]:
def busca_nomes(df, nomes_comuns):
    resultados  = []
    colunas_string = df.select_dtypes(include=['object']).columns

    for coluna in colunas_string:
        valores_a_comparar = df[coluna].str.cat(sep=' ')
        valores_a_comparar = remove_stopwords(valores_a_comparar)
        valores_a_comparar = valores_a_comparar.upper()
        valores_a_comparar = valores_a_comparar.split()

        contagem_nomes = Counter((nome) for nome in valores_a_comparar)
        contagem_nomes_comuns = sum(contagem for nome, contagem in contagem_nomes.items() if nome in nomes_comuns)

        resultado = {
                'Coluna': coluna,
                'Contagem_Nomes_Comuns': contagem_nomes_comuns,
                'Percentual_ocorrencias_' : round(contagem_nomes_comuns / len(valores_a_comparar) * 100, 2)

            }

        resultados.append(resultado)

    return pd.DataFrame.from_dict(resultados)

## Avaliando resultados

In [108]:
busca_nomes(dados, nomes)

Unnamed: 0,Coluna,Contagem_Nomes_Comuns,Percentual_ocorrencias_
0,CARGO,0,0.0
1,NOME,27,50.94
2,OM,0,0.0
3,ATRIBUIÇÕES DA OM,4,0.43
4,ENDEREÇO,3,2.46
5,TELEFONE,0,0.0
6,ASSISTENTE,8,36.36
7,E-MAIL ...,0,0.0
