# Plano de Projeto: Análise Estrutural da Política de Privacidade do Idec
### 1. Objetivo Final do Projeto:

Ao final deste projeto, teremos um arquivo CSV (politica_idec.csv) que pode ser aberto no Excel ou Google Sheets. Este arquivo conterá uma tabela com duas colunas: "Topico" e "Conteudo". A coluna "Topico" terá os subtítulos da página da política de privacidade, e a coluna "Conteudo" terá o texto completo associado a cada um desses tópicos.

### 2. Passo a Passo do Projeto (Guiado pelo KDD):

Fase 1: Seleção (Etapa Conceitual)
1.1. Definir Objetivo: Entender e estruturar o conteúdo da Política de Privacidade do Idec. ✅ (Feito)

1.2. Selecionar Fonte de Dados: A URL https://idec.org.br/politica-de-privacidade. ✅ (Feito)

Fase 2: Pré-processamento (Coleta e Limpeza dos Dados)
2.1. Obter Dados Brutos: Fazer a requisição HTTP para a URL usando requests. ✅ (Feito no código)

2.2. Validar a Coleta: Verificar se a requisição retornou o status code 200. ✅ (Feito no código)

2.3. Fazer o Parsing do HTML: Usar o BeautifulSoup para transformar o texto HTML bruto em um objeto organizado e navegável (a nossa "sopa").

2.4. Extrair os Tópicos:

Identificar a tag HTML que define os tópicos (sabemos que é a '<h2>').

Criar um script que encontre todas essas tags e extraia seu conteúdo de texto.

#### 2.5. Extrair o Conteúdo de cada Tópico:

Identificar o padrão das tags que contêm o texto explicativo de cada tópico (provavelmente as tags <p> que vêm logo após cada <h2>).

Criar um script para capturar esse conteúdo de forma vinculada a cada tópico.

#### 2.6. Limpar os Dados (Data Cleaning):

Remover espaços em branco desnecessários do início e do fim dos textos.

Remover caracteres especiais ou "sujeiras" que possam ter vindo junto com o texto.

### Fase 3: Transformação (Estruturação dos Dados)
3.1. Criar um DataFrame: Usar a biblioteca pandas para criar uma tabela (um DataFrame) a partir dos dados limpos (tópicos e conteúdos).

3.2. Estruturar o DataFrame: Nomear as colunas como "Topico" e "Conteudo".

3.3. Verificar a Qualidade: Conferir se o DataFrame foi montado corretamente, sem dados faltantes ou desalinhados.

### Fase 4: Mineração de Dados (Análise Simples)
4.1. Análise Descritiva: Para este projeto, nossa "mineração" será uma análise simples. Vamos calcular o número de palavras ou caracteres de cada "Conteudo" para identificar qual tópico é o mais extenso.

### Fase 5: Interpretação e Apresentação (Entrega do Resultado)
5.1. Exportar os Dados: Salvar o DataFrame final no arquivo politica_idec.csv. Esta é a entrega principal do nosso objetivo.

5.2. Sumarizar os Achados: Apresentar a conclusão da nossa análise da Fase 4. (Ex: "O tópico 'X' é o mais detalhado, com Y palavras, indicando ser um ponto central da política de privacidade.").

### Célula 1: Preparando as Ferramentas e Definindo o Alvo

In [2]:
# Importar bibliotecas
import requests
from bs4 import BeautifulSoup

In [6]:
# 1.2. Selecionar Fonte de Dados: A URL https://idec.org.br/politica-de-privacidade. ✅ (Feito)
url = 'https://idec.org.br/politica-de-privacidade'

# Definindo um User-Agent para me identificar
headers = {'User-Agent': 'Projeto de Estudo de Ciência de Dados - Paulo'}
print("Etapa de SELEÇÃO concluída: alvo e ferramentas definidos")

Etapa de SELEÇÃO concluída: alvo e ferramentas definidos


### KDD - Etapa 2: PRÉ-PROCESSAMENTO (Início) - Termo Técnico: Requisição HTTP

In [8]:
# Fase 2: Pré-processamento (Coleta e Limpeza dos Dados) 2.1. Obter Dados Brutos: Fazer a requisição HTTP para a URL usando requests. ✅ (Feito no código)
response = requests.get(url, headers=headers)
print("Requisição HTTP enviada. Aguardando resposta...")

# 2.2. Validar a Coleta: Verificar se a requisição retornou o status code 200. ✅ (Feito no código)
# Verificando o 'status_code' da resposta.
# Este é um passo de validação fundamental no pré-processamento.
status_da_resposta = response.status_code
print(f"O código de status da resposta foi: {status_da_resposta}")

if status_da_resposta == 200:
    print("Sucesso! Os dados brutos foram recebidos corretamente.")
else:
    print(f"Atenção! Houve um problema na requisição. Código: {status_da_resposta}")

Requisição HTTP enviada. Aguardando resposta...
O código de status da resposta foi: 200
Sucesso! Os dados brutos foram recebidos corretamente.


### KDD - Passo 2.3: Fazer o Parsing do HTML

In [10]:
# 2.3. Fazer o Parsing do HTML: Usar o BeautifulSoup para transformar o texto HTML bruto em um objeto organizado e navegável (a nossa "sopa").
# 'response.content' acessa o conteúdo bruto que o servidor nos enviou.
# Entregamos esse conteúdo ao BeautifulSoup para que ele o organize.
# 'html.parser' é o "motor" padrão que ele usa para fazer essa organização.
soup = BeautifulSoup(response.content, 'html.parser')

# Para confirmar que o parsing funcionou, vamos fazer um teste simples:
    # Pedir ao 'soup' para nos mostrar o título da página.
    # Se ele conseguir, significa que ele entendeu a estrutura do HTML.
print("HTML 'parseado' com sucesso! O título da página é:")
print(soup.title.text)

HTML 'parseado' com sucesso! O título da página é:
Política de Privacidade | Idec - Instituto Brasileiro de Defesa do Consumidor


### 2.4. Extrair os Tópicos:

In [12]:
# Célula 5: Encontrando e Listando os Tópicos
# Identificar a tag HTML que define os tópicos (sabemos que é a '<h2>').
# Criar um script que encontre todas essas tags e extraia seu conteúdo de texto.
# Usamos o método .find_all('h2') no nosso objeto soup.
# Isso vai procurar no HTML inteiro e nos retornar uma LISTA com todas as tags <h2> que encontrar.
lista_de_topicos_html = soup.find_all('h2')

# Vamos ver o que ele encontrou.
# Primeiro, vamos ver o tipo de objeto que foi criado.
print("O tipo de objeto retornado é:")
print(type(lista_de_topicos_html))

# Agora, vamos ver quantos tópicos foram encontrados usando a função len().
print("\nNúmero de tópicos encontrados:")
print(len(lista_de_topicos_html))

O tipo de objeto retornado é:
<class 'bs4.element.ResultSet'>

Número de tópicos encontrados:
14


### KDD - Passo 2.6 (Parte 1): Limpando os Tópicos

In [14]:
# Célula 6: Limpando e Estruturando os Tópicos
# --- Passo 2.6 (Parte 1): Limpando os dados dos Tópicos ---
# 1. Primeiro, criamos uma lista vazia. É aqui que vamos guardar apenas os textos limpos
topicos_filtrados = []

# 2. Agora, usamos um loop 'for' para "visitar" cada elemento HTML na nossa lista.
print("--- Tópicos Extraídos e Limpos ---")

for topico_html in lista_de_topicos_html:
    texto_do_topico = topico_html.text.strip() #strip remove espaços em branco extras
    # 3. AQUI ESTÁ A NOSSA LÓGICA DE FILTRO!
    # Vamos checar se o texto começa com um número de 1 a 20 seguido de ponto.
    e_um_topico_real = False
    for i in range(1, 21): #cria uma sequencia de 1 a 20
        if texto_do_topico.startswith(f'{i}.'):
            e_um_topico_real = True
            break
    if e_um_topico_real:
        topicos_filtrados.append(texto_do_topico)
        print(texto_do_topico)

print("\n--- Verificação: Nossa nova lista de tópicos FILTRADOS ---")
print(topicos_filtrados)

print(f"\nNúmero de tópicos antes do filtro: {len(lista_de_topicos_html)}")
print(f"\nNúmero de tópicos após o filtro: {len(topicos_filtrados)}")

--- Tópicos Extraídos e Limpos ---
1. QUAIS DADOS PODEMOS COLETAR?
2. COMO COLETAMOS E UTILIZAMOS SEUS DADOS:
3. DADOS DE CRIANÇAS E ADOLESCENTES
4. COMO UTILIZAMOS OS DADOS SENSÍVEIS?
5. COMO PROTEGEMOS SEUS DADOS?
6. COM QUEM COMPARTILHAMOS SEUS DADOS ?
7. ARMAZENAMENTO
8. QUAIS OS SEUS DIREITOS?
9. COMO VOCÊ PODERÁ NOS CONTATAR?
10. MUDANÇAS E ATUALIZAÇÕES DA POLÍTICA DE PRIVACIDADE
11. ALGUMAS DEFINIÇÕES DE TERMOS TÉCNICOS IMPORTANTES PARA QUE VOCÊ COMPREENDA ESSA POLÍTICA:

--- Verificação: Nossa nova lista de tópicos FILTRADOS ---
['1. QUAIS DADOS PODEMOS COLETAR?', '2. COMO COLETAMOS E UTILIZAMOS SEUS DADOS:', '3. DADOS DE CRIANÇAS E ADOLESCENTES', '4. COMO UTILIZAMOS OS DADOS SENSÍVEIS?', '5. COMO PROTEGEMOS SEUS DADOS?', '6. COM QUEM COMPARTILHAMOS SEUS DADOS ?', '7. ARMAZENAMENTO', '8. QUAIS OS SEUS DIREITOS?', '9. COMO VOCÊ PODERÁ NOS CONTATAR?', '10. MUDANÇAS E ATUALIZAÇÕES DA POLÍTICA DE PRIVACIDADE', '11. ALGUMAS DEFINIÇÕES DE TERMOS TÉCNICOS IMPORTANTES PARA QUE VOCÊ COM

### KDD - Passo 2.5 (Parte 2): Capturando TODO o Conteúdo


In [16]:
# Célula 8: Capturando o Conteúdo (Versão Robusta)
# --- Passo 2.5 (Parte 2): Extraindo TODO o conteúdo de cada tópico ---

# Vamos criar listas finais para guardar nosso resultado definitivo
topicos_finais = []
conteudos_finais = []

print("--- Extraindo todo o conteúdo (versão robusta) ---\n")

for topico_html in lista_de_topicos_html:
    texto_do_topico = topico_html.text.strip()
    
    if texto_do_topico in topicos_filtrados:
        
        # 1. Adicionamos o tópico real à nossa lista final de tópicos.
        topicos_finais.append(texto_do_topico)
        
        # 2. Criamos uma "sacola" de texto vazia para este tópico específico.
        #    É aqui que vamos juntar todos os parágrafos que encontrarmos.
        paragrafos_concatenados = ""
        
        # 3. AQUI ESTÁ A MÁGICA: Iteramos sobre TODOS os irmãos que vêm depois do nosso h2.
        for irmao in topico_html.find_next_siblings():
            
            # 4. CRITÉRIO DE PARADA: Se o irmão que estamos olhando for um h2,
            #    significa que chegamos no próximo tópico. Então, paramos a busca.
            if irmao.name == 'h2':
                break
            
            # 5. CRITÉRIO DE COLETA: Se o irmão for um parágrafo ('p'), 
            #    nós coletamos seu texto e o adicionamos à nossa "sacola".
            if irmao.name == 'p':
                paragrafos_concatenados += irmao.text.strip() + "\n\n" # O "\n\n" adiciona uma linha em branco para separar os parágrafos.
        
        # 6. Adicionamos o conteúdo completo (todos os parágrafos juntos) à nossa lista final.
        conteudos_finais.append(paragrafos_concatenados)
        
        # Impressão para verificação do resultado
        print(f"TÓPICO: {texto_do_topico}")
        print(f"CONTEÚDO COMPLETO:\n{paragrafos_concatenados}---")
        

--- Extraindo todo o conteúdo (versão robusta) ---

TÓPICO: 1. QUAIS DADOS PODEMOS COLETAR?
CONTEÚDO COMPLETO:
Os dados coletados com mais frequência, por meio do site, de cadastro ou para viabilizar a participação em campanhas e eventos do Idec são: Nome completo, endereço físico e eletrônico, CPF, RG, telefone. Com menor frequência dados bancários,gênero, filiação(pai/mãe), o IP, e, especificamente no aplicativo “Movecidade” há a coleta de dado de raça.

Isso depende do contato que você estabelece ou estabeleceu com o Idec, veja:



---
TÓPICO: 2. COMO COLETAMOS E UTILIZAMOS SEUS DADOS:
CONTEÚDO COMPLETO:
Basicamente, utilizamos os dados fornecidos para (1) entender quais as preferências dos usuários de nossas redes sociais, tornando-as mais adequadas às expectativas de quem as utiliza; (2) nos comunicar com você; (3) manter nossos cadastros atualizados; (4) viabilizar a utilização de nossos aplicativos; (5) promover a associação e/ou doação para a instituição, caso você tenha demons

### KDD - Fase 3: Transformação (Estruturando os Dados)


In [21]:
# --- Fase 3: Transformação ---
# Passo 3.1 e 3.2: Criar e Estruturar um DataFrame com o pandas

# 1. Importar a biblioteca pandas. A convenção mundial é dar a ela o "apelido" de 'pd'.
import pandas as pd

# 2. Criar um dicionário Python. As chaves do dicionário serão os nomes das nossas colunas
#    e os valores serão as nossas listas de dados.
dados_para_coluna = {
    'Topico': topicos_finais,
    'Conteudo': conteudos_finais}
# 3. Usar o pandas para criar o DataFrame a partir do nosso dicionário.
#    A variável 'df' (de DataFrame) é a convenção para guardar nossa tabela

df = pd.DataFrame(dados_para_coluna)
# 4. Exibir o DataFrame. No Jupyter, basta colocar o nome da variável na última linha da célula
#    para que ele a exiba de forma bonita e organizada.
df


Unnamed: 0,Topico,Conteudo
0,1. QUAIS DADOS PODEMOS COLETAR?,"Os dados coletados com mais frequência, por me..."
1,2. COMO COLETAMOS E UTILIZAMOS SEUS DADOS:,"Basicamente, utilizamos os dados fornecidos pa..."
2,3. DADOS DE CRIANÇAS E ADOLESCENTES,Apesar de não serem o alvo das campanhas do Id...
3,4. COMO UTILIZAMOS OS DADOS SENSÍVEIS?,"Em geral, a instituição não coleta dados sensí..."
4,5. COMO PROTEGEMOS SEUS DADOS?,"O Idec utiliza sistemas de criptografia, tanto..."
5,6. COM QUEM COMPARTILHAMOS SEUS DADOS ?,Nós só compartilhamos os seus dados nas hipóte...
6,7. ARMAZENAMENTO,Os dados fornecidos ao Idec serão mantidos som...
7,8. QUAIS OS SEUS DIREITOS?,De acordo com a Lei Geral de Proteção de Dados...
8,9. COMO VOCÊ PODERÁ NOS CONTATAR?,Os contatos do Idec são: encarregadolgpd@idec....
9,10. MUDANÇAS E ATUALIZAÇÕES DA POLÍTICA DE PRI...,O Idec se reserva o direito de atualizar esta ...


### Nosso Objetivo de Análise:

Descobrir: Qual tópico da Política de Privacidade tem o conteúdo mais extenso (ou seja, mais palavras)?

## --- Fase 4: Mineração de Dados (Análise Descritiva) ---


In [28]:
# 1. Criando uma nova coluna chamada 'Contagem_Palavras'.
#    O valor de cada linha nessa coluna será o resultado de uma função que vamos aplicar.
#    A função pega o texto da coluna 'Conteudo', o quebra em uma lista de palavras (.split()),
#    e conta o tamanho dessa lista (len()).
#    A sintaxe 'lambda texto:' é uma forma rápida de criar uma "mini-função" em uma linha só.
df['Contagem_Palavras']= df['Conteudo'].apply(lambda texto: len(texto.split()))

# 2. Vamos exibir o DataFrame com a nova coluna para ver como ficou.
#    A função display() é uma forma explícita de pedir ao Jupyter para renderizar a tabela.
print("---Tabela com a nova coluna de contagem de palavras---")
display(df)

---Tabela com a nova coluna de contagem de palavras---


Unnamed: 0,Topico,Conteudo,Contagem_Palavras
0,1. QUAIS DADOS PODEMOS COLETAR?,"Os dados coletados com mais frequência, por me...",66
1,2. COMO COLETAMOS E UTILIZAMOS SEUS DADOS:,"Basicamente, utilizamos os dados fornecidos pa...",1305
2,3. DADOS DE CRIANÇAS E ADOLESCENTES,Apesar de não serem o alvo das campanhas do Id...,137
3,4. COMO UTILIZAMOS OS DADOS SENSÍVEIS?,"Em geral, a instituição não coleta dados sensí...",219
4,5. COMO PROTEGEMOS SEUS DADOS?,"O Idec utiliza sistemas de criptografia, tanto...",288
5,6. COM QUEM COMPARTILHAMOS SEUS DADOS ?,Nós só compartilhamos os seus dados nas hipóte...,204
6,7. ARMAZENAMENTO,Os dados fornecidos ao Idec serão mantidos som...,230
7,8. QUAIS OS SEUS DIREITOS?,De acordo com a Lei Geral de Proteção de Dados...,335
8,9. COMO VOCÊ PODERÁ NOS CONTATAR?,Os contatos do Idec são: encarregadolgpd@idec....,118
9,10. MUDANÇAS E ATUALIZAÇÕES DA POLÍTICA DE PRI...,O Idec se reserva o direito de atualizar esta ...,194


In [30]:
# 3. Agora, vamos ordenar a tabela pela coluna 'Contagem_Palavras'.
#    'ascending=False' significa que queremos em ordem decrescente (do maior para o menor).
df_ordenado = df.sort_values(by= 'Contagem_Palavras', ascending=False)

# 4. Finalmente, exibimos a tabela ordenada para ver o resultado da nossa análise.
print("\n--- Tabela ordenada por contagem de palavras (do maior para o menor) ---")
display(df_ordenado)


--- Tabela ordenada por contagem de palavras (do maior para o menor) ---


Unnamed: 0,Topico,Conteudo,Contagem_Palavras
1,2. COMO COLETAMOS E UTILIZAMOS SEUS DADOS:,"Basicamente, utilizamos os dados fornecidos pa...",1305
10,11. ALGUMAS DEFINIÇÕES DE TERMOS TÉCNICOS IMPO...,"A Lei Geral de Proteção de Dados, e outras leg...",992
7,8. QUAIS OS SEUS DIREITOS?,De acordo com a Lei Geral de Proteção de Dados...,335
4,5. COMO PROTEGEMOS SEUS DADOS?,"O Idec utiliza sistemas de criptografia, tanto...",288
6,7. ARMAZENAMENTO,Os dados fornecidos ao Idec serão mantidos som...,230
3,4. COMO UTILIZAMOS OS DADOS SENSÍVEIS?,"Em geral, a instituição não coleta dados sensí...",219
5,6. COM QUEM COMPARTILHAMOS SEUS DADOS ?,Nós só compartilhamos os seus dados nas hipóte...,204
9,10. MUDANÇAS E ATUALIZAÇÕES DA POLÍTICA DE PRI...,O Idec se reserva o direito de atualizar esta ...,194
2,3. DADOS DE CRIANÇAS E ADOLESCENTES,Apesar de não serem o alvo das campanhas do Id...,137
8,9. COMO VOCÊ PODERÁ NOS CONTATAR?,Os contatos do Idec são: encarregadolgpd@idec....,118


# Fase 5: Interpretação e Apresentação.
### Célula 11: Salvando o Resultado Final

In [36]:
# 1. Vamos usar o nosso DataFrame ordenado ('df_ordenado').
# 2. Usaremos o método .to_csv() para salvá-lo em um arquivo.
#    - 'politica_idec.csv' será o nome do nosso arquivo.
#    - 'index=False' é MUITO importante. Ele diz ao pandas para NÃO salvar o índice 
#      do DataFrame (aquela coluna de números 0, 1, 2...) como uma coluna no arquivo.
#    - 'encoding='utf-8-sig'' garante que caracteres especiais do português (ç, ã, é)
#      sejam salvos e abertos corretamente, principalmente no Excel.

df_ordenado.to_csv('politica_idec-csv', index=False, encoding='utf-8-sig')
print("Projeto concluído com sucesso!")
print("O arquivo 'politica_idec.csv' foi salvo na mesma pasta onde está este notebook.")

Projeto concluído com sucesso!
O arquivo 'politica_idec.csv' foi salvo na mesma pasta onde está este notebook.
