# CK0223 - Mineração de Dados

## Lista 01 - Tratamento de Dados

### Dados do discente:
**Nome**: Luiza Esther Martins Pessoa
**Matrícula**: 555516

---

### Informações inicias:
Esta tarefa busca exercitar os conceitos refrentes à manipulação, tratamento e limpeza de dados. Com isso, além de criar scripts que resolvam às solicitações de cada item da atividade, este notebook armazenará comentários adicionais referentes ao processo de desenvolvimento de ideias e fontes que foram consultadas.

### **(a)** Ler o dataset *fakeTelegram.BR_2022.csv*

Como estamos trabalhando com uma grande quantidade de dados, utilizar uma lista não é tão visualmente intuitivo e um dataframe consegue ser mais fácil de manipular dados, pois é como se estivessemos visualizando uma planilha.

Além disso, vamos utilizar a biblioteca *pandas* para ler o arquivo `.csv` utilizando a chamada `read_csv`. Porém, antes de fazer isso, é importante analisar a origem da nossa base de dados, ou seja, onde essa base está armazenada. No caso da *fakeTelegram.BR_2022.csv* podemos fazer de duas formas, visto que sua origem vem do Google Drive:

1. Usando apenas a biblioteca *pandas* -- Se o arquivo for público ou compartilhado com o link, você pode gerar uma URL direta de download. 
2. Usando a biblioteca *request* para transformar o link de compartilhamento em um link de download e depois utilizar *pandas* para ler o dataframe gerado. -- Basicamente, usamos o requests para baixar o conteúdo do arquivo primeiro como um binário (.content), e depois passa o conteúdo como um buffer para o pandas ler.

Contudo, antes de fazer isso, como o arquivo é muito grande, foi necessário extrair o arquivo para a máquina local e para fazer isso, utiizei a biblioteca `gdown` que simula o comportamento de um navegador e lida automaticamente com o redirecionamento e o botão de "Download mesmo assim" que aparece para arquivos grandes no Google Drive.

#### **Passo 01**
Importando bibliotecas necessárias para leitura do dataset.

In [None]:
# IMPORTAÇÃO DE BIBLIOTECAS
import gdown
import pandas as pd
import requests
from io import StringIO

#### **Passo 02**
Fazendo o download da base de dados para local.

In [None]:
origem_url = 'https://drive.google.com/file/d/1c_hLzk85pYw-huHSnFYZM_gn-dUsYRDm/view'

# O ID do arquivo (necessário para fazer o download direto) está entre os últimos elementos da URL.
# Fazemos um split na URL usando '/' como separador e pegamos o penúltimo elemento da lista.
# Isso funciona porque a estrutura da URL é:
# https://drive.google.com/file/d/ID_DO_ARQUIVO/view
# E ao aplicar url.split('/'), o resultado será:
# ['https:', '', 'drive.google.com', 'file', 'd', 'ID_DO_ARQUIVO', 'view?...']
# Portanto, o ID está na posição -2 (penúltima).

file_id = origem_url.split('/')[-2]

# URL do arquivo no formato aceito pelo gdown
url = f'https://drive.google.com/uc?id={file_id}'

# Nome local do arquivo que será baixado
output = 'fakeTelegram.BR_2022.csv'

# Baixando o arquivo com gdown
gdown.download(url, output, quiet=False)

#### **Passo 02**
Lendo utilizando apenas pandas.

In [17]:
df_inicial = pd.read_csv(output)

#### **Passo 03**
Conferindo informações iniciais após leitura da base de dados.

In [19]:
# PARA MELHOR VISUALIZAÇÃO
print("Número de linhas:", df_inicial.shape[0])
print("Número de colunas:", df_inicial.shape[1])

Número de linhas: 557586
Número de colunas: 19


In [None]:
print("Primeiras 5 linhas do dataset:")
print(df_inicial.head())

print("Últimas 5 linhas do dataset:")
print(df_inicial.tail())

---

### **(b)** Identificar e listar as posições (células) contendo valores faltantes

## Fontes
- [StackOverflow - How to read CSV file from google drive public](https://stackoverflow.com/questions/56611698/pandas-how-to-read-csv-file-from-google-drive-public)