# CK0223 - Minera√ß√£o de Dados

## Lista 01 - Tratamento de Dados

### Dados do discente:
**Nome**: Luiza Esther Martins Pessoa
**Matr√≠cula**: 555516

### V√≠deo Youtube:
[Minera√ß√£o de Dados: Lista 01 - Tratamento de Dados (Explicando o c√≥digo)]( https://youtu.be/39lvoBmO9us)

---

### Informa√ß√µes inicias:
Esta tarefa busca exercitar os conceitos refrentes √† manipula√ß√£o, tratamento e limpeza de dados. Com isso, al√©m de criar scripts que resolvam √†s solicita√ß√µes de cada item da atividade, este notebook armazenar√° coment√°rios adicionais referentes ao processo de desenvolvimento de ideias e fontes que foram consultadas.

Como estamos seguindo um processo de tratamento de dados estruturado, n√£o irei adicionar mais um script de importa√ß√£o de bibliotecas, apenas em casos em que ser√° necess√°rio importar uma biblioteca diferente das que j√° utilizamos em itens anteriores.

### **(a)** Ler o dataset *fakeTelegram.BR_2022.csv*

Como estamos trabalhando com uma grande quantidade de dados, utilizar uma lista n√£o √© t√£o visualmente intuitivo e um dataframe consegue ser mais f√°cil de manipular dados, pois √© como se estivessemos visualizando uma planilha.

Al√©m disso, vamos utilizar a biblioteca *pandas* para ler o arquivo `.csv` utilizando a chamada `read_csv`. Por√©m, antes de fazer isso, √© importante analisar a origem da nossa base de dados, ou seja, onde essa base est√° armazenada. No caso da *fakeTelegram.BR_2022.csv* podemos fazer de duas formas, visto que sua origem vem do Google Drive:

1. Usando apenas a biblioteca *pandas* -- Se o arquivo for p√∫blico ou compartilhado com o link, voc√™ pode gerar uma URL direta de download. 
2. Usando a biblioteca *request* para transformar o link de compartilhamento em um link de download e depois utilizar *pandas* para ler o dataframe gerado. -- Basicamente, usamos o requests para baixar o conte√∫do do arquivo primeiro como um bin√°rio (.content), e depois passa o conte√∫do como um buffer para o pandas ler.

Contudo, antes de fazer isso, como o arquivo √© muito grande, foi necess√°rio extrair o arquivo para a m√°quina local e para fazer isso, utiizei a biblioteca `gdown` que simula o comportamento de um navegador e lida automaticamente com o redirecionamento e o bot√£o de "Download mesmo assim" que aparece para arquivos grandes no Google Drive.

#### **Passo 01**
Importando bibliotecas necess√°rias para leitura do dataset.

In [29]:
# IMPORTA√á√ÉO DE BIBLIOTECAS
import gdown
import pandas as pd
import requests
from io import StringIO

#### **Passo 02**
Fazendo o download da base de dados para local.

In [None]:
origem_url = 'https://drive.google.com/file/d/1c_hLzk85pYw-huHSnFYZM_gn-dUsYRDm/view'

# O ID do arquivo (necess√°rio para fazer o download direto) est√° entre os √∫ltimos elementos da URL.
# Fazemos um split na URL usando '/' como separador e pegamos o pen√∫ltimo elemento da lista.
# Isso funciona porque a estrutura da URL √©:
# https://drive.google.com/file/d/ID_DO_ARQUIVO/view
# E ao aplicar url.split('/'), o resultado ser√°:
# ['https:', '', 'drive.google.com', 'file', 'd', 'ID_DO_ARQUIVO', 'view?...']
# Portanto, o ID est√° na posi√ß√£o -2 (pen√∫ltima).

file_id = origem_url.split('/')[-2]

# URL do arquivo no formato aceito pelo gdown
url = f'https://drive.google.com/uc?id={file_id}'

# Nome local do arquivo que ser√° baixado
output = 'fakeTelegram.BR_2022.csv'

# Baixando o arquivo com gdown
gdown.download(url, output, quiet=False)

#### **Passo 03**
Lendo utilizando apenas pandas.

In [31]:
df_inicial = pd.read_csv("fakeTelegram.BR_2022.csv")

#### **Passo 04**
Conferindo informa√ß√µes iniciais ap√≥s leitura da base de dados.

In [32]:
# PARA MELHOR VISUALIZA√á√ÉO
print("N√∫mero de linhas:", df_inicial.shape[0])
print("N√∫mero de colunas:", df_inicial.shape[1])
print("Nome das colunas:", df_inicial.columns)

N√∫mero de linhas: 557586
N√∫mero de colunas: 19
Nome das colunas: Index(['date_message', 'id_member_anonymous', 'id_group_anonymous', 'media',
       'media_type', 'media_url', 'has_media', 'has_media_url', 'trava_zap',
       'text_content_anonymous', 'dataset_info_id', 'date_system',
       'score_sentiment', 'score_misinformation', 'id_message', 'message_type',
       'messenger', 'media_name', 'media_md5'],
      dtype='object')


In [33]:
print("Primeiras 5 linhas do dataset:")
print(df_inicial.head())

print("√öltimas 5 linhas do dataset:")
print(df_inicial.tail())

Primeiras 5 linhas do dataset:
          date_message               id_member_anonymous  \
0  2022-10-05 06:25:04  1078cc958f0febe28f4d03207660715f   
1  2022-10-05 06:25:08                               NaN   
2  2022-10-05 06:26:28  92a2d8fd7144074f659d1d29dc3751da   
3  2022-10-05 06:27:28  d60aa38f62b4977426b70944af4aff72   
4  2022-10-05 06:27:44  cd6979b0b5265f08468fa1689b6300ce   

                 id_group_anonymous                                 media  \
0  12283e08a2eb5789201e105b34489ee7                                   NaN   
1  12283e08a2eb5789201e105b34489ee7                                   NaN   
2  9f2d7394334eb224c061c9740b5748fc                                   NaN   
3  c8f2de56550ed0bf85249608b7ead93d  94dca4cda503100ebfda7ce2bcc060eb.jpg   
4  e56ec342fc599ebb4ed89655eb6f03aa  5ad5c8bbe9da93a37fecf3e5aa5b0637.jpg   

  media_type media_url  has_media  has_media_url  trava_zap  \
0        NaN       NaN      False          False      False   
1        NaN       

---

### **(b)** Identificar e listar as posi√ß√µes (c√©lulas) contendo valores faltantes

A biblioteca *pandas* ser√° utilizada novamente neste item e, como j√° importamos no **item a**, n√£o ser√° necess√°rio realizar um novo script de `import`.

Como vimos em sala de aula, √© impresc√≠ndivel realizar a identifica√ß√£o e listagem das c√©lulas que cont√©m valores faltantes, pois esses dados podem impactar diretamente nossas estimativas futuras. Portanto, n√£o estou removendo nenhuma c√©lula da base de dados, apenas analisando os dados `NaN`.

In [34]:
# VISUALIZANDO NOVAMENTE O NOSSO DATAFRAME
print(df_inicial)
df_inicial.describe()

               date_message               id_member_anonymous  \
0       2022-10-05 06:25:04  1078cc958f0febe28f4d03207660715f   
1       2022-10-05 06:25:08                               NaN   
2       2022-10-05 06:26:28  92a2d8fd7144074f659d1d29dc3751da   
3       2022-10-05 06:27:28  d60aa38f62b4977426b70944af4aff72   
4       2022-10-05 06:27:44  cd6979b0b5265f08468fa1689b6300ce   
...                     ...                               ...   
557581  2022-11-11 12:06:15  333e9869f23dbd4682d1be382d9c1e59   
557582  2022-11-11 12:09:08                               NaN   
557583  2022-11-11 12:09:47                               NaN   
557584  2022-11-11 12:09:46                               NaN   
557585  2022-11-11 12:09:48                               NaN   

                      id_group_anonymous  \
0       12283e08a2eb5789201e105b34489ee7   
1       12283e08a2eb5789201e105b34489ee7   
2       9f2d7394334eb224c061c9740b5748fc   
3       c8f2de56550ed0bf85249608b7ead93d   

Unnamed: 0,dataset_info_id,score_sentiment,score_misinformation,id_message
count,557586.0,444157.0,167238.0,557586.0
mean,5.0,0.01733,0.312245,445061.7
std,0.0,0.464165,0.293699,486021.1
min,5.0,-1.0,3e-06,2.0
25%,5.0,-0.1779,0.078454,21275.0
50%,5.0,0.0,0.197577,121093.5
75%,5.0,0.3182,0.490351,972604.5
max,5.0,0.9992,1.0,1516436.0


In [35]:
print(df_inicial.isnull())

        date_message  id_member_anonymous  id_group_anonymous  media  \
0              False                False               False   True   
1              False                 True               False   True   
2              False                False               False   True   
3              False                False               False  False   
4              False                False               False  False   
...              ...                  ...                 ...    ...   
557581         False                False               False  False   
557582         False                 True               False  False   
557583         False                 True               False  False   
557584         False                 True               False  False   
557585         False                 True               False  False   

        media_type  media_url  has_media  has_media_url  trava_zap  \
0             True       True      False          False      Fals

O script abaixo √© considerado um pouco "pesado" visto que est√° iterando sobre as linhas da base de dados e realizando um print todas as vezes que encontrar um valor NaN.

In [36]:
# EXIBINDO OS RESULTADOS
# Identifica as posi√ß√µes (√≠ndices e colunas) onde h√° valores faltantes
missing_positions = [(row_idx, col_name)
                     for row_idx, row in df_inicial.iterrows()
                     for col_name, value in row.items()
                     if pd.isnull(value)]

# Exibe as posi√ß√µes encontradas
for pos in missing_positions:
    print(f"Valor faltante na linha {pos[0]}, coluna '{pos[1]}'")

  0%|          | 524k/224M [05:51<41:32:07, 1.49kB/s]


KeyboardInterrupt: 

---

### **(c)** Contar quantas linhas possuem valores faltantes. 

Neste item, resolvi calcular n√£o s√≥ quantas linhas possuem valores `NaN`, mas tamb√©m exibir a quantidade total de c√©lulas faltantes.

Este trecho de c√≥digo identifica valores faltantes utilizando o m√©todo `.isnull()`, que retorna um DataFrame booleano, onde `True` indica a presen√ßa de um valor faltante. Em seguida, o m√©todo `.stack()` √© utilizado para transformar as colunas em uma s√©rie com um √≠ndice multi-n√≠vel, facilitando a visualiza√ß√£o das posi√ß√µes dos valores faltantes. 

A vari√°vel `missing_positions` filtra apenas as c√©lulas com valor `True` (ou seja, com valor faltante).

In [37]:
# Identifica os valores faltantes com .isnull() e empilha o DataFrame (stack transforma colunas em uma s√©rie multi-index)
missing = df_inicial.isnull().stack()

# Filtra apenas as c√©lulas com valor faltante (True)
missing_positions = missing[missing]

# Exibe as 10 primeiras posi√ß√µes com valores faltantes
print("As 10 primeiras posi√ß√µes com valores faltantes:")
print(missing_positions.head(10))

# Exibe o total de c√©lulas faltantes
print(f"\nTotal de c√©lulas com valores faltantes: {missing_positions.shape[0]}")

# Conta quantas linhas possuem pelo menos um valor faltante
linhas_com_nulos = df_inicial.isnull().any(axis=1).sum()
print(f"\nN√∫mero de linhas com pelo menos um valor faltante: {linhas_com_nulos}")

As 10 primeiras posi√ß√µes com valores faltantes:
0  media                   True
   media_type              True
   media_url               True
   score_misinformation    True
   media_name              True
   media_md5               True
1  id_member_anonymous     True
   media                   True
   media_type              True
   media_url               True
dtype: bool

Total de c√©lulas com valores faltantes: 2544186

N√∫mero de linhas com pelo menos um valor faltante: 557561


**IMPORTANTE SABER!!**

Em um DataFrame, o n√∫mero total de c√©lulas √© o produto entre o n√∫mero de linhas e colunas, o que significa que o total de c√©lulas sempre ser√° maior que o n√∫mero de linhas. 
Quando falamos sobre c√©lulas faltantes, estamos nos referindo a quantas dessas c√©lulas n√£o possuem valor, e esse n√∫mero pode ser muito maior que o n√∫mero de linhas, especialmente se v√°rias colunas tiverem muitos valores ausentes em v√°rias linhas. Portanto, mesmo que o dataset tenha 557.586 registros (linhas), o total de c√©lulas faltantes pode ser muito maior, dependendo de quantas colunas possuem dados ausentes em suas respectivas linhas.

---

### **(d)** Para cada coluna (feature), contar quantas linhas possuem valores faltantes. 

A quest√£o pede para contar quantas linhas possuem valores faltantes para cada coluna, o que est√° sendo solicitado √© a quantidade de linhas (ou registros) em que cada coluna possui pelo menos um valor faltante. O proesso adotado para identificar isso foi realizado da seguinte forma:

- df_inicial.isnull(): Cria um DataFrame booleano onde True indica um valor faltante e False indica um valor presente.
- .sum(axis=0): Conta quantos True existem em cada coluna (ou seja, quantas linhas t√™m valores faltantes para aquela coluna espec√≠fica).
- missing_lines_per_column.items(): Itera sobre as colunas e o n√∫mero de valores faltantes em cada uma delas, imprimindo a quantidade de linhas com dados faltantes.

In [38]:
# Conta quantas linhas possuem pelo menos um valor faltante para cada coluna
missing_lines_per_column = df_inicial.isnull().sum(axis=0)

# Exibe o n√∫mero de linhas com valores faltantes por coluna
print("\nN√∫mero de linhas com pelo menos um valor faltante por coluna:")
for column, missing_count in missing_lines_per_column.items():
    print(f"Coluna '{column}': {missing_count:,} linha(s) com valor(es) faltante(s)")


N√∫mero de linhas com pelo menos um valor faltante por coluna:
Coluna 'date_message': 0 linha(s) com valor(es) faltante(s)
Coluna 'id_member_anonymous': 323,341 linha(s) com valor(es) faltante(s)
Coluna 'id_group_anonymous': 0 linha(s) com valor(es) faltante(s)
Coluna 'media': 224,981 linha(s) com valor(es) faltante(s)
Coluna 'media_type': 224,981 linha(s) com valor(es) faltante(s)
Coluna 'media_url': 400,141 linha(s) com valor(es) faltante(s)
Coluna 'has_media': 0 linha(s) com valor(es) faltante(s)
Coluna 'has_media_url': 0 linha(s) com valor(es) faltante(s)
Coluna 'trava_zap': 0 linha(s) com valor(es) faltante(s)
Coluna 'text_content_anonymous': 113,385 linha(s) com valor(es) faltante(s)
Coluna 'dataset_info_id': 0 linha(s) com valor(es) faltante(s)
Coluna 'date_system': 0 linha(s) com valor(es) faltante(s)
Coluna 'score_sentiment': 113,429 linha(s) com valor(es) faltante(s)
Coluna 'score_misinformation': 390,348 linha(s) com valor(es) faltante(s)
Coluna 'id_message': 0 linha(s) com

### **(e)** Identificar e listar as linhas repetidas (duplicadas). 

Da mesma forma que usamos `pandas`para identificar e listar valores NaN, podemos utiliz√°-lo para identificar e tratar dados duplicados utilizando um procedimento chamado `.duplicated()`. Esse m√©todo verifica se uma linha √© id√™ntica a uma linha anterior e retorna um Dataframe com valores `True` quando h√° linhas duplicadas.

Al√©m disso, se quisermos considerar uma √∫nica coluna para identificar duplicatas, podemos apenas passar o n√∫mero da coluna durante a chamada do m√©todo.

In [39]:
# Identifica as linhas duplicadas
duplicatas = df_inicial[df_inicial.duplicated()]

# Exibe as 10 primeiras linhas duplicadas
print("As 10 primeiras linhas duplicadas:")
print(duplicatas.head(10))

# Exibe o n√∫mero total de linhas duplicadas
print(f"\nTotal de linhas duplicadas: {duplicatas.shape[0]}")

# Exibe as duplicatas completas (incluindo a primeira ocorr√™ncia)
duplicatas_completas = df_inicial[df_inicial.duplicated(keep=False)]

# Exibe as duplicatas completas
print("\nLinhas duplicadas (incluindo a primeira ocorr√™ncia):")
print(duplicatas_completas.head(10))

As 10 primeiras linhas duplicadas:
Empty DataFrame
Columns: [date_message, id_member_anonymous, id_group_anonymous, media, media_type, media_url, has_media, has_media_url, trava_zap, text_content_anonymous, dataset_info_id, date_system, score_sentiment, score_misinformation, id_message, message_type, messenger, media_name, media_md5]
Index: []

Total de linhas duplicadas: 0

Linhas duplicadas (incluindo a primeira ocorr√™ncia):
Empty DataFrame
Columns: [date_message, id_member_anonymous, id_group_anonymous, media, media_type, media_url, has_media, has_media_url, trava_zap, text_content_anonymous, dataset_info_id, date_system, score_sentiment, score_misinformation, id_message, message_type, messenger, media_name, media_md5]
Index: []


J√° que nenhuma linha inteira est√° duplicada, eu resolvi criar um script para identificar duplicatas por features da seguinte forma:

In [40]:
# Para cada coluna, identifica e exibe os valores duplicados e sua contagem
for coluna in df_inicial.columns:
    duplicados = df_inicial[coluna][df_inicial[coluna].duplicated(keep=False)]
    if not duplicados.empty:
        print(f"\nColuna '{coluna}' - Total de valores duplicados (incluindo repeti√ß√µes): {duplicados.shape[0]}")
        print("Valores mais comuns duplicados:")
        print(duplicados.value_counts().head(5))  # Mostra os 5 valores duplicados mais comuns
    else:
        print(f"\nColuna '{coluna}' - Nenhum valor duplicado encontrado.")


Coluna 'date_message' - Total de valores duplicados (incluindo repeti√ß√µes): 201714
Valores mais comuns duplicados:
date_message
2022-10-12 16:55:36    62
2022-10-30 13:52:37    59
2022-10-12 16:55:34    58
2022-10-06 12:38:50    53
2022-10-06 14:22:13    53
Name: count, dtype: int64

Coluna 'id_member_anonymous' - Total de valores duplicados (incluindo repeti√ß√µes): 551247
Valores mais comuns duplicados:
id_member_anonymous
abe534d581ec6d552243d6955d3c3cd8    12289
1665e22b0f564cd46d343f7677014821     5452
1ac091b8ed5c4e42383f1b4ff4cc9b2d     5060
c743967449a387ad2c1c7e03b2c45b36     3019
e7998863ac2a40086657fab4a6b463c9     1928
Name: count, dtype: int64

Coluna 'id_group_anonymous' - Total de valores duplicados (incluindo repeti√ß√µes): 557584
Valores mais comuns duplicados:
id_group_anonymous
5b10d7739171149be6d9961e3350c071    112228
857cd5311da1bdc15eb9e6918a47c6c6     76912
b8a8737812c7fd7d3e0bdbb65ef6306f     35983
e56ec342fc599ebb4ed89655eb6f03aa     35713
959f13e0079883060

Para fins de compreens√£o da an√°lise, √© poss√≠vel tirar as seguintes conclus√µes:
- Coluna `data_message`:
    - Duplicados: 201.714 datas repetidas.
    - Indica que muitas mensagens foram enviadas no mesmo segundo, ent√£o faz sentido dado que nosso dataset trabalha com grupos de mensagem com muitos membros.
- Coluna `id_member_anonymous`:
    - Duplicados: 551.247 ocorr√™ncias repetidas.
    - Mostra que um mesmo us√°rio enviou v√°rias mensagens.
    - Por exemplo, teve um √∫nico usu√°rio que enviou aproximadamente 12 mil mensagens.
- Coluna `id_group_anonymous`:
    - Duplicados: 557.584 repeti√ß√µes
    - Indica que muitas mensagens vieram dos mesmos grupos.

---

### **(f)** Identificar e listar as posi√ß√µes (c√©lulas) contendo valores que n√£o pertencem ao dom√≠nio (tipo de dados) esperado.

Para realizar essa identifica√ß√£o, vamos seguir um conjunto de passos para tornar a an√°lise mais organizada.

#### **Passo 01**
Inspe√ß√£o dos tipos das colunas

In [41]:
print("Tipos de dados das colunas:")
print(df_inicial.dtypes)

Tipos de dados das colunas:
date_message               object
id_member_anonymous        object
id_group_anonymous         object
media                      object
media_type                 object
media_url                  object
has_media                    bool
has_media_url                bool
trava_zap                    bool
text_content_anonymous     object
dataset_info_id             int64
date_system                object
score_sentiment           float64
score_misinformation      float64
id_message                  int64
message_type               object
messenger                  object
media_name                 object
media_md5                  object
dtype: object


#### **Passo 02**
Agora, vamos analisar as estat√≠sticas gerais.

In [42]:
print("\nEstat√≠sticas descritivas (colunas num√©ricas):")
print(df_inicial.describe())

print("\nEstat√≠sticas descritivas (colunas categ√≥ricas):")
print(df_inicial.describe(include='object'))


Estat√≠sticas descritivas (colunas num√©ricas):
       dataset_info_id  score_sentiment  score_misinformation    id_message
count         557586.0    444157.000000         167238.000000  5.575860e+05
mean               5.0         0.017330              0.312245  4.450617e+05
std                0.0         0.464165              0.293699  4.860211e+05
min                5.0        -1.000000              0.000003  2.000000e+00
25%                5.0        -0.177900              0.078454  2.127500e+04
50%                5.0         0.000000              0.197577  1.210935e+05
75%                5.0         0.318200              0.490351  9.726045e+05
max                5.0         0.999200              1.000000  1.516436e+06

Estat√≠sticas descritivas (colunas categ√≥ricas):
               date_message               id_member_anonymous  \
count                557586                            234245   
unique               430133                             14809   
top     2022-10-12 16

#### **Passo 03**
Elaborando as regras de dom√≠nio esperadas, visto que precisamos definir o que √© esperado para cada coluna, com base nos tipos e contexto dos dados.


Usando a biblioteca `numpy` porque ela fornece tipos de dados eficientes e fun√ß√µes robustas para verifica√ß√£o de valores, como distinguir corretamente entre inteiros, floats e booleanos, mesmo quando os dados v√™m de fontes amb√≠guas (como arquivos CSV, onde tudo pode ser lido como string). 

Verificar se os valores est√£o dentro do dom√≠nio esperado √© fundamental para garantir a integridade dos dados: valores fora do intervalo v√°lido ou com tipo incorreto podem comprometer an√°lises estat√≠sticas, modelos de machine learning ou a pr√≥pria compreens√£o do fen√¥meno estudado. Esse passo assegura que os dados sejam consistentes e confi√°veis para as etapas seguintes da an√°lise.

In [43]:
import numpy as np

In [44]:
# An√°lise explorat√≥ria dos valores nas colunas categ√≥ricas
for col in ['media_type', 'message_type', 'messenger']:
    print(f"Valores √∫nicos na coluna {col}:")
    print(df_inicial[col].unique())
    print(f"Contagem de valores na coluna {col}:")
    print(df_inicial[col].value_counts())
    print("\n")

Valores √∫nicos na coluna media_type:
[nan 'image/jpg' 'video/mp4' 'url' 'image/mp4' 'audio/opus' 'image/pdf'
 'application/pdf' 'video/webm' 'image/webm' 'image/apk'
 'application/vnd.android.package-archive' 'application/octet-stream'
 'video/quicktime' 'application/zip' 'video/mpeg'
 'image/59da33c80babcbb29455fccb21329cae' 'text/x-vcard' 'video/3gpp'
 'image/mpv' 'video/x-matroska' 'image/mpeg' 'image/mov'
 'application/vnd.openxmlformats-officedocument.wordprocessingml.document'
 'audio/aac' 'image/7f9d809d82c2545a2dc8160d5015c8ad' 'audio/mpeg'
 'application/vnd.openxmlformats-officedocument.spreadsheetml.sheet'
 'image/wma' 'audio/x-ms-wma' 'image/mp3' 'text/html' 'video/x-ms-wmv'
 'application/vnd.ms-xpsdocument' 'image/xps' 'application/json'
 'application/gzip' 'audio/ogg' 'image/gif'
 'application/x-partial-download' 'image/jpeg' 'image/heic'
 'application/x-ms-dos-executable' 'image/oga'
 'image/f733407db79a2b74eff03a89529e5d57'
 'image/b39768873845aaea0f8ab41b2e9c0061' 'ima

In [None]:
# Convers√£o de datas
df_inicial['date_message'] = pd.to_datetime(df_inicial['date_message'], errors='coerce')
df_inicial['date_system'] = pd.to_datetime(df_inicial['date_system'], errors='coerce')

# Normaliza√ß√£o de colunas categ√≥ricas
colunas_categoricas = ['media_type', 'message_type', 'messenger']
for col in colunas_categoricas:
    df_inicial[col] = df_inicial[col].astype(str).str.lower().str.strip().replace({'nan': np.nan})

# Lista para armazenar viola√ß√µes
violacoes = []

# Loop de valida√ß√£o
for idx, row in df_inicial.iterrows():
    # score_sentiment: deve estar entre -1 e 1
    s = row['score_sentiment']
    if pd.notnull(s) and (s < -1 or s > 1):
        violacoes.append((idx, 'score_sentiment', s))

    # score_misinformation: deve estar entre 0 e 1
    m = row['score_misinformation']
    if pd.notnull(m) and (m < 0 or m > 1):
        violacoes.append((idx, 'score_misinformation', m))

    # dataset_info_id: deve ser exatamente 5
    d = row['dataset_info_id']
    if d != 5:
        violacoes.append((idx, 'dataset_info_id', d))

    # id_message: deve ser inteiro positivo
    im = row['id_message']
    if not isinstance(im, (int, np.integer)) or im < 0:
        violacoes.append((idx, 'id_message', im))

    # Datas v√°lidas
    if pd.isnull(row['date_message']):
        violacoes.append((idx, 'date_message', 'data inv√°lida'))
    if pd.isnull(row['date_system']):
        violacoes.append((idx, 'date_system', 'data inv√°lida'))

    # Colunas booleanas
    for col in ['has_media', 'has_media_url', 'trava_zap']:
        if not isinstance(row[col], (bool, np.bool_)):
            violacoes.append((idx, col, row[col]))

    # Verifica√ß√£o se as colunas categ√≥ricas s√£o do tipo string (objeto v√°lido)
    for col in colunas_categoricas:
        val = row[col]
        if pd.notnull(val) and not isinstance(val, str):
            violacoes.append((idx, col, val))

# Resultado
print(f"Total de viola√ß√µes de tipo categ√≥rico: {len(violacoes)}")
for v in violacoes[:10]:
    print(f"Viola√ß√£o na linha {v[0]}, coluna '{v[1]}': valor '{v[2]}'")


A forma como definimos o dom√≠nio de uma feature, baseando-se em an√°lise anteriores dos dados, pode ocasionar ou n√£o em viola√ß√µes. No c√≥difo em quest√£o, ele foi editado v√°rias vezes com o objetivo de entender as viola√ß√µes que estavam sendo consideradas e se elas realmente faziam sentido dado a feature estudada.

Lembrando que, realizar a valida√ß√£o dessa forma foi uma escolha minha, mesmo sabendo que existem outras formas mais f√°ceis de validar, sem precisar necessariamente de um conjunto pr√©-definido. Essa escolhafoi feita apenas para ter certeza de que as features object n√£o estavam com dados diferentes do esperado e eu poderia fazer um .unique() para capturar todos os valores existentes nessas colunas em espec√≠fico.

Este c√≥digo garante que dados como datas, valores booleanos e pontua√ß√µes estejam consistentes com suas defini√ß√µes, ajudando a identificar erros que poderiam comprometer a an√°lise posterior.

---

### **(g)** Crie uma coluna chamada ‚Äúcaracteres‚Äù contendo a quantidade de caracteres da coluna ‚Äútext‚Äù

In [None]:
# LISTANDO NOVAMENTE AS COLUNAS DO DATABASE APENAS PARA FICAR MAIS F√ÅCIL DE VISUALIZAR
list(df_inicial.columns)

Para resolver este item, podemos seguir alguns passos importantes. Mesmo sabendo que a coluna `text_content_anonymous` existe, √© importante fazer uma verifica√ß√£o inicial de que ela faz parte do nosso database.

Depois disso, √© necess√°rio dar uma aten√ß√£o especial aos valores faltantes, isto √©, verificar se faz sentido converter valores `NaN`para string vazia ou deix√°-los dessa forma. Depois, podemos apenas criar a coluna `caracteres` utilizando o que aprendemos em sala de aula.

In [46]:
# Cria√ß√£o da coluna 'caracteres' com a quantidade de caracteres da coluna 'text_content_anonymous'
df_inicial['caracteres'] = df_inicial['text_content_anonymous'].apply(
    lambda x: len(str(x)) if pd.notnull(x) else 0
)

# Exibi√ß√£o de uma amostra aleat√≥ria para confer√™ncia
print(df_inicial[['text_content_anonymous', 'caracteres']].sample(5, random_state=42))

                                   text_content_anonymous  caracteres
442837                                                NaN           0
495617        https://www.youtube.com/watch?v=wzJ5cV69OsA          43
504220  A INACREDIT√ÅVEL CENSURA √ÄS FALAS DE CARLA CECA...         299
251559  No "apagar das luzes", Daniel Silveira dispara...          66
520667                                                NaN           0


---

### **(h)** Crie uma coluna chamada ‚Äúwords‚Äù contendo a quantidade de palavras da coluna ‚Äútext‚Äù. 

Mesma coisa do item anterior, mas vamos utilizar o `.split()` que separa a string em uma lista de palavras com base em espa√ßos.

In [47]:
df_inicial['words'] = df_inicial['text_content_anonymous'].apply(
    lambda x: len(str(x).split()) if pd.notnull(x) else 0
)

print(df_inicial[['text_content_anonymous', 'words']].sample(5, random_state=42))

                                   text_content_anonymous  words
442837                                                NaN      0
495617        https://www.youtube.com/watch?v=wzJ5cV69OsA      1
504220  A INACREDIT√ÅVEL CENSURA √ÄS FALAS DE CARLA CECA...     25
251559  No "apagar das luzes", Daniel Silveira dispara...     12
520667                                                NaN      0


---

### **(i)**  Crie uma coluna chamada ‚Äúviral‚Äù contendo o valor 0 se o texto da mensagem (valor do campo ‚Äútext‚Äù) n√£o for encontrado em outras linhas e 1, caso contr√°rio. 


Basicamente, vamos utilizar os mesmos conhecimentos aplicados para identificar e listar duplicatas. Para isso, utilizei o m√©todo `duplicated(keep=False)`, que marca como `True` todas as ocorr√™ncias de valores repetidos (n√£o apenas as subsequentes). Em seguida, converti o resultado para inteiro (`1` para mensagens virais, `0` para √∫nicas). Tamb√©m tratei os valores ausentes da coluna `text_content_anonymous` como **n√£o virais**.

In [48]:
df_inicial['viral'] = df_inicial['text_content_anonymous'].duplicated(keep=False)
df_inicial['viral'] = df_inicial['viral'].where(df_inicial['text_content_anonymous'].notna(), 0).astype(int)

print(df_inicial[['text_content_anonymous', 'viral']].sample(5, random_state=42))

                                   text_content_anonymous  viral
442837                                                NaN      0
495617        https://www.youtube.com/watch?v=wzJ5cV69OsA      0
504220  A INACREDIT√ÅVEL CENSURA √ÄS FALAS DE CARLA CECA...      1
251559  No "apagar das luzes", Daniel Silveira dispara...      0
520667                                                NaN      0


---

### **(j)** Crie uma coluna chamada ‚Äúsharings‚Äù contendo a quantidade de vezes que o texto armazenado no atributo ‚Äútext‚Äù aparece no dataset. 

Para criar a coluna `sharings`, utilizei a fun√ß√£o `groupby().transform('count')` sobre a vari√°vel `text_content_anonymous`. Essa abordagem permite contar quantas vezes cada texto aparece no dataset, atribuindo esse n√∫mero √† nova coluna para todas as linhas com o mesmo conte√∫do. Tamb√©m tratei os valores ausentes (`NaN`), substituindo seus compartilhamentos por 0, j√° que n√£o representam mensagens v√°lidas a serem compartilhadas.

In [None]:
df_inicial['sharings'] = df_inicial.groupby('text_content_anonymous')['text_content_anonymous'].transform('count')

# textos ausentes (NaN) tratados como 0 compartilhamentos
df_inicial['sharings'] = df_inicial['sharings'].where(df_inicial['text_content_anonymous'].notna(), 0)

print(df_inicial[['text_content_anonymous', 'sharings']].sample(5, random_state=42))

### **(k)**  Crie uma coluna chamada ‚Äúsentiment‚Äù contendo os valores: -1 para textos negativos, 0 para textos neutros e 1 para textos positivos. 

Para criar a coluna sentiment, utilizei uma coluna j√° existente no database: `score_sentiment` onde o sentimento j√° foi pr√©-computado e muito provavelmente representa a polaridade de cada texto.

In [49]:
# ANALISANDO AS PRIMEIRAS 15 LINHAS PARA VER COMO OS DADOS EST√ÉO VINDO
print(df_inicial[['text_content_anonymous', 'score_sentiment']].head(15))

                               text_content_anonymous  score_sentiment
0   Ent√£o √© Fato Renato o √°udio que eu ouvi no wha...           0.0000
1   Saiu no YouTube do presidente a 8 horas atr√°s,...           0.0644
2   √â isso, nossa parte j√° foi quase toda feita. N...          -0.3551
3            GENTE ACHEI ELES EM UMA SEITA MA√áON√ÅRICA           0.0000
4                                                 NaN              NaN
5   Kƒ∑kkkkk to rindo at√© agora....Quem disse q ia ...           0.7003
6   *SE ALGU√âM TE PERGUNTAR O QUE FOI QUE BOLSONAR...           0.9716
7                                                 NaN              NaN
8                                                 NaN              NaN
9   O Deputado Federal pelo NOVO e que foi candida...          -0.8779
10  Saiam desse grupo amigos bolsonaristas, urgent...          -0.9423
11  Gazprom da R√∫ssia: Retomamos o fornecimento de...          -0.1531
12  Saiam desse grupo amigos bolsonaristas, urgent...          -0

In [50]:
# FUN√á√ÉO PARA CLASSIFICAR POLARIDADES
def classificar_sentimento(score):
    if pd.isna(score):
        return None 
    elif score >= 0.05:
        return 1
    elif score <= -0.05:
        return -1
    else:
        return 0

# Aplica a fun√ß√£o
df_inicial['sentiment'] = df_inicial['score_sentiment'].apply(classificar_sentimento)

# Arredonda a coluna score_sentiment para 3 casas decimais (apenas para visualiza√ß√£o)
df_inicial['score_sentiment'] = df_inicial['score_sentiment'].round(3)

# Mostra 10 exemplos com texto, score e sentimento
print(df_inicial[['text_content_anonymous', 'score_sentiment', 'sentiment']].dropna().head(10))

                               text_content_anonymous  score_sentiment  \
0   Ent√£o √© Fato Renato o √°udio que eu ouvi no wha...            0.000   
1   Saiu no YouTube do presidente a 8 horas atr√°s,...            0.064   
2   √â isso, nossa parte j√° foi quase toda feita. N...           -0.355   
3            GENTE ACHEI ELES EM UMA SEITA MA√áON√ÅRICA            0.000   
5   Kƒ∑kkkkk to rindo at√© agora....Quem disse q ia ...            0.700   
6   *SE ALGU√âM TE PERGUNTAR O QUE FOI QUE BOLSONAR...            0.972   
9   O Deputado Federal pelo NOVO e que foi candida...           -0.878   
10  Saiam desse grupo amigos bolsonaristas, urgent...           -0.942   
11  Gazprom da R√∫ssia: Retomamos o fornecimento de...           -0.153   
12  Saiam desse grupo amigos bolsonaristas, urgent...           -0.960   

    sentiment  
0         0.0  
1         1.0  
2        -1.0  
3         0.0  
5         1.0  
6         1.0  
9        -1.0  
10       -1.0  
11       -1.0  
12       -1.0

### **(l)** Eliminar as linhas cujo valor da coluna ‚Äútext‚Äù contenham ‚Äútrava-zaps‚Äù.

Criei um novo DataFrame chamado `df_final` a partir do df_inicial para garantir que a exclus√£o das linhas contendo o termo "trava-zaps" na coluna "text_content_anonymous" seja feita de forma controlada, sem afetar os dados originais. 

Dessa forma, consigo preservar a integridade do df_inicial para futuras an√°lises ou verifica√ß√µes, ao mesmo tempo em que manipulo o df_final para as etapas seguintes do processo. Essa abordagem tamb√©m ajuda a evitar problemas no caso de precisar reverter ou comparar as transforma√ß√µes feitas, proporcionando maior flexibilidade e seguran√ßa no tratamento dos dados.

Como j√° analisado, existe uma coluna chamada `trava-zap` no database e, para entender se ela ser√° √∫til ou n√£o para remo√ß√£o dessas linhas, realizei um print nas 10 primeiras linhas dessa colunas, mas eu tamb√©m poderia apenas fazer um `.dtype` e analisar como essa coluna se comporta.

In [51]:
print(df_inicial['trava_zap'].head(10))

# Verifica os valores √∫nicos da coluna 'trava_zap'
valores_unicos = df_inicial['trava_zap'].unique()

# Exibe os valores √∫nicos
print(valores_unicos)


0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8    False
9    False
Name: trava_zap, dtype: bool
[False  True]


In [52]:
# Verifica o n√∫mero de linhas antes da remo√ß√£o
num_linhas_antes = len(df_inicial)

# Identifica as linhas que ser√£o removidas
linhas_removidas = df_inicial[df_inicial['trava_zap'] == True]

# Filtra apenas as linhas onde 'trava_zap' √© False
df_inicial = df_inicial[df_inicial['trava_zap'] == False]

# Verifica o n√∫mero de linhas ap√≥s a remo√ß√£o
num_linhas_depois = len(df_inicial)

# Mostra quantas linhas foram removidas
print(f'N√∫mero de linhas removidas: {num_linhas_antes - num_linhas_depois}')

# Exibe as linhas removidas
print("Linhas removidas:")
print(linhas_removidas)

N√∫mero de linhas removidas: 16
Linhas removidas:
              date_message               id_member_anonymous  \
21944  2022-10-07 07:46:52                               NaN   
89109  2022-10-16 00:45:02  8a30ac374bc4b5930eaf0667a178546a   
294541 2022-10-04 14:22:47  39ee10516124280a22f1798f2a41f9a7   
324567 2022-10-25 14:55:55  e003fbb6ffedb1838e42360d41cab314   
389164 2022-10-30 20:19:52                               NaN   
423083 2022-11-03 00:40:23                               NaN   
466735 2022-11-07 20:47:35  4a498818da925377eff2606a260cfa45   
467297 2022-11-08 10:07:14  4a498818da925377eff2606a260cfa45   
471273 2022-11-08 20:37:52  4a498818da925377eff2606a260cfa45   
478270 2022-11-09 19:50:12  4a498818da925377eff2606a260cfa45   
483425 2022-11-10 02:28:43  4a498818da925377eff2606a260cfa45   
489757 2022-11-10 20:55:00  4a498818da925377eff2606a260cfa45   
489758 2022-11-10 20:55:01  4a498818da925377eff2606a260cfa45   
492781 2022-11-11 09:50:37  4a498818da925377eff2606a26

In [53]:
# PARA MELHOR VISUALIZA√á√ÉO
print("N√∫mero de linhas:", df_inicial.shape[0])
print("N√∫mero de colunas:", df_inicial.shape[1])
print("Nome das colunas:", df_inicial.columns)

N√∫mero de linhas: 557570
N√∫mero de colunas: 23
Nome das colunas: Index(['date_message', 'id_member_anonymous', 'id_group_anonymous', 'media',
       'media_type', 'media_url', 'has_media', 'has_media_url', 'trava_zap',
       'text_content_anonymous', 'dataset_info_id', 'date_system',
       'score_sentiment', 'score_misinformation', 'id_message', 'message_type',
       'messenger', 'media_name', 'media_md5', 'caracteres', 'words', 'viral',
       'sentiment'],
      dtype='object')


### **(m)** Identificar inconsist√™ncias entre os atributos (features). 

Durante a an√°lise do dataset, √© fundamental identificar e corrigir poss√≠veis inconsist√™ncias entre os atributos, considerando as depend√™ncias entre as features. 

Primeiro, √© necess√°rio verificar valores nulos nas colunas, decidindo se vamos preencher com valores padr√µes ou remover as linhas/colunas. Em seguida, devemos identificar duplicatas, garantindo que cada entrada seja √∫nica. 

A verifica√ß√£o de tipos de dados j√° foi feita em itens anteriores, mas √© sempre importante garantir que os tipos estejam corretos, como no caso das colunas de data ou booleanas. Outra an√°lise essencial √© a consist√™ncia entre colunas relacionadas, como por exemplo, se `has_media` for `True`, as colunas `media` e `media_url` n√£o podem estar vazias. Al√©m disso, as datas precisam estar em conformidade, com `date_message` n√£o sendo posterior a `date_system`. Tamb√©m √© importante identificar valores fora de contexto, como scores fora do intervalo esperado, e garantir que eles estejam dentro dos par√¢metros l√≥gicos. Essas verifica√ß√µes ajudam a aprimorar a qualidade e confiabilidade dos dados, possibilitando an√°lises mais precisas.

In [54]:
# APENAS PARA DEIXAR MAIS F√ÅCIL DE ACESSAR
print("Tipos de dados das colunas:")
print(df_inicial.dtypes)

Tipos de dados das colunas:
date_message              datetime64[ns]
id_member_anonymous               object
id_group_anonymous                object
media                             object
media_type                        object
media_url                         object
has_media                           bool
has_media_url                       bool
trava_zap                           bool
text_content_anonymous            object
dataset_info_id                    int64
date_system               datetime64[ns]
score_sentiment                  float64
score_misinformation             float64
id_message                         int64
message_type                      object
messenger                         object
media_name                        object
media_md5                         object
caracteres                         int64
words                              int64
viral                              int32
sentiment                        float64
dtype: object


In [55]:
# Inicializar o contador de inconsist√™ncias
contador_inconsistencias = 0

# Criar uma coluna auxiliar para marcar as linhas j√° verificadas como inconsistentes
df_inicial['inconsistencia_verificada'] = False

# Verifica√ß√£o de inconsist√™ncias de m√≠dia: has_media = True e todas as colunas relacionadas a m√≠dia s√£o NaN
colunas_midia = ['media', 'media_type', 'media_url', 'media_name', 'media_md5']
inconsistencias_midia = df_inicial[
    (df_inicial['has_media'] == True) &
    (df_inicial[colunas_midia].isna().all(axis=1))
]
contador_inconsistencias += len(inconsistencias_midia)
df_inicial.loc[inconsistencias_midia.index, 'inconsistencia_verificada'] = True
print(f"Inconsist√™ncias de m√≠dia encontradas: {len(inconsistencias_midia)} linhas")
print(inconsistencias_midia[['id_message', 'has_media'] + colunas_midia])

# Verifica√ß√£o de inconsist√™ncias de data (onde 'date_message' √© maior que 'date_system')
inconsistencias_data = df_inicial[(df_inicial['date_message'] > df_inicial['date_system']) & (~df_inicial['inconsistencia_verificada'])]
contador_inconsistencias += len(inconsistencias_data)
df_inicial.loc[inconsistencias_data.index, 'inconsistencia_verificada'] = True
print(f"Inconsist√™ncias de data encontradas: {contador_inconsistencias} linhas")
print(inconsistencias_data[['id_message', 'date_message', 'date_system']])

# Verifica√ß√£o de inconsist√™ncias no 'score_misinformation' (fora da faixa [-1, 1])
inconsistencias_misinformation = df_inicial[((df_inicial['score_misinformation'] < -1) | (df_inicial['score_misinformation'] > 1)) & (~df_inicial['inconsistencia_verificada'])]
contador_inconsistencias += len(inconsistencias_misinformation)
df_inicial.loc[inconsistencias_misinformation.index, 'inconsistencia_verificada'] = True
print(f"Inconsist√™ncias no 'score_misinformation' encontradas: {contador_inconsistencias} linhas")
print(inconsistencias_misinformation[['id_message', 'score_misinformation']])

# Verifica√ß√£o de inconsist√™ncias no 'caracteres' (n√£o corresponde ao tamanho de 'text_content_anonymous')
inconsistencias_caracteres = df_inicial[
    (df_inicial['caracteres'] != df_inicial['text_content_anonymous'].fillna('').str.len()) &
    (~df_inicial['inconsistencia_verificada'])
]

contador_inconsistencias += len(inconsistencias_caracteres)
df_inicial.loc[inconsistencias_caracteres.index, 'inconsistencia_verificada'] = True

print(f"Inconsist√™ncias no 'caracteres' encontradas: {len(inconsistencias_caracteres)} linhas")
print(inconsistencias_caracteres[['id_message', 'text_content_anonymous', 'caracteres']].head(10))
print("\nCompara√ß√£o real entre 'caracteres' informado e comprimento real:")
for idx, row in inconsistencias_caracteres.head(10).iterrows():
    print(f"ID {row['id_message']}: caracteres={row['caracteres']} | real={len(row['text_content_anonymous'] or '')}")
    

# Exibir o total de inconsist√™ncias encontradas
print(f"\nTotal de inconsist√™ncias encontradas: {contador_inconsistencias}")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_inicial['inconsistencia_verificada'] = False


Inconsist√™ncias de m√≠dia encontradas: 0 linhas
Empty DataFrame
Columns: [id_message, has_media, media, media_type, media_url, media_name, media_md5]
Index: []
Inconsist√™ncias de data encontradas: 0 linhas
Empty DataFrame
Columns: [id_message, date_message, date_system]
Index: []
Inconsist√™ncias no 'score_misinformation' encontradas: 0 linhas
Empty DataFrame
Columns: [id_message, score_misinformation]
Index: []
Inconsist√™ncias no 'caracteres' encontradas: 0 linhas
Empty DataFrame
Columns: [id_message, text_content_anonymous, caracteres]
Index: []

Compara√ß√£o real entre 'caracteres' informado e comprimento real:

Total de inconsist√™ncias encontradas: 0


#### **Visualizando os dataframes finais**

In [56]:
# DF_FINAL COM AS LINHAS TRAVA-ZAPS REMOVIDAS
print(df_inicial)

              date_message               id_member_anonymous  \
0      2022-10-05 06:25:04  1078cc958f0febe28f4d03207660715f   
1      2022-10-05 06:25:08                               NaN   
2      2022-10-05 06:26:28  92a2d8fd7144074f659d1d29dc3751da   
3      2022-10-05 06:27:28  d60aa38f62b4977426b70944af4aff72   
4      2022-10-05 06:27:44  cd6979b0b5265f08468fa1689b6300ce   
...                    ...                               ...   
557581 2022-11-11 12:06:15  333e9869f23dbd4682d1be382d9c1e59   
557582 2022-11-11 12:09:08                               NaN   
557583 2022-11-11 12:09:47                               NaN   
557584 2022-11-11 12:09:46                               NaN   
557585 2022-11-11 12:09:48                               NaN   

                      id_group_anonymous  \
0       12283e08a2eb5789201e105b34489ee7   
1       12283e08a2eb5789201e105b34489ee7   
2       9f2d7394334eb224c061c9740b5748fc   
3       c8f2de56550ed0bf85249608b7ead93d   
4       e56

## Fontes
- [StackOverflow - How to read CSV file from google drive public](https://stackoverflow.com/questions/56611698/pandas-how-to-read-csv-file-from-google-drive-public)
- [Pandas: find rows/columns with NaN (missing values)](https://note.nkmk.me/en/python-pandas-nan-extract/)