<a href="https://colab.research.google.com/github/luhonunes/Pipeline_ETL/blob/main/Pipeline_ETL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## <font color = bluegreen> **Preparação** </font>

Para a elaboração do projeto, foi utilizado o Google Colaboratory

- **Passo 1: Criar um arquivo de API no Kaggle**

  + Acesse o site do Kaggle (https://www.kaggle.com/) e faça login na sua conta.

  + Clique no ícone do seu perfil no canto superior direito e selecione "Settings" no menu suspenso.![Settings](https://github.com/luhonunes/Criptomoedas_Resilia/blob/main/Imagens_Instru%C3%A7%C3%B5es/Settings%20Kaggle.png?raw=true)
  +  Role para baixo até na seção "Account" e encontre a opção "API".

  + Clique em "Create New Token". Isso gerará um arquivo de API chamado kaggle.json que você usará para autenticar no Kaggle.![API](https://github.com/luhonunes/Criptomoedas_Resilia/blob/main/Imagens_Instru%C3%A7%C3%B5es/Nova%20API.png?raw=true)
  + Baixe o arquivo kaggle.json gerado e salve-o no seu computador.


---


- **Passo 2: Upload do arquivo de configuração Kaggle (kaggle.json)**

  + Execute a célula de código a seguir para carregar o arquivo kaggle.json:
  + Clique no botão "Escolher arquivo" e selecione o arquivo kaggle.json previamente baixado no seu computador. Observe que o nome deve estar exatamente como descrito para que os passos a seguir funcionem. ![upload kaggle.json](https://github.com/luhonunes/Criptomoedas_Resilia/blob/main/Imagens_Instru%C3%A7%C3%B5es/upload%20kaggle.json.png?raw=true)

  + Encontre o arquivo em sua maquina e selecione "Abrir". ![Import APi](https://github.com/luhonunes/Criptomoedas_Resilia/blob/main/Imagens_Instru%C3%A7%C3%B5es/import%20API.png?raw=true)



In [1]:
from google.colab import files

# Faça o upload do arquivo kaggle.json
files.upload()

Saving kaggle.json to kaggle.json


{'kaggle.json': b'{"username":"lucianaotvionunes","key":"0ec46dac0904b5cde6fc3f0d5a6027de"}'}

*Isso moverá o arquivo kaggle.json para a pasta raiz do ambiente do Google Colab, onde você pode acessá-lo facilmente ao seguir o restante dos passos no ambiente do Colab. Certifique-se de que o arquivo foi movido com sucesso antes de prosseguir com o Passo 3.*

![Salvo Json](https://github.com/luhonunes/Criptomoedas_Resilia/blob/main/Imagens_Instru%C3%A7%C3%B5es/Salvo%20json.png?raw=true)

___

- **Passo 3: Mover o arquivo kaggle.json para o diretório correto**

  + Execute a célula de código a seguir para mover o arquivo kaggle.json para o diretório correto:

In [2]:
import os

# Mova o arquivo kaggle.json para o diretório correto
os.makedirs("/root/.kaggle", exist_ok=True)
os.rename("kaggle.json", "/root/.kaggle/kaggle.json")

---


- **Passo 4: Instalar a biblioteca Kaggle**

  + Execute a seguinte célula de código para instalar a biblioteca Kaggle: ![Instalar Kaggle](https://github.com/luhonunes/Criptomoedas_Resilia/blob/main/Imagens_Instru%C3%A7%C3%B5es/Instalar%20Kaggle.png?raw=true)

In [None]:
!pip install kaggle




---

- **Passo 5: Configurar permissões para o arquivo de configuração Kaggle**

  + Execute a célula de código abaixo para garantir que o arquivo de configuração kaggle.json tenha as permissões corretas:

In [3]:
!chmod 600 /root/.kaggle/kaggle.json


---

- **Passo 6: Escolher um conjunto de dados no Kaggle e fazer o download**

  + Foi escolhido o seguinte conjunto de dados no Kaggle contendo O maior e mais completo mapeamento do mercado brasileiro de dados.

  + Execute a célula de código para fazer o download do conjunto de dados:
  + Um novo arquivo será exibido:

In [4]:
# Nome do conjunto de dados no Kaggle
dataset_name = "datahackers/state-of-data-2021"

# Pasta de destino para os arquivos CSV baixados
download_folder = "/content/DataBrazil"  # Substitua pelo caminho desejado

# Baixe os arquivos do conjunto de dados
!kaggle datasets download -d {dataset_name} -p {download_folder}


Downloading state-of-data-2021.zip to /content/DataBrazil
  0% 0.00/539k [00:00<?, ?B/s]
100% 539k/539k [00:00<00:00, 90.7MB/s]


---

- **Passo 7: Descompactar o arquivo ZIP do conjunto de dados**

  + Execute a célula de código para descompactar o arquivo ZIP do conjunto de dados: ![Descompactado](https://github.com/luhonunes/Criptomoedas_Resilia/blob/main/Imagens_Instru%C3%A7%C3%B5es/Descompactado.png?raw=true)

  + Observe que uma subpasta foi criada contendo todos os arquivos do dataset escolhido.

In [5]:
import zipfile

# Caminho para o arquivo ZIP
zip_file_path = "/content/DataBrazil/state-of-data-2021.zip"  # Substitua pelo caminho correto

# Pasta de destino para descompactar os arquivos
extracted_folder = "/content/DataBrazil/extracao"  # Substitua pelo caminho desejado

# Descompacte o arquivo ZIP
with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
    zip_ref.extractall(extracted_folder)

print("Arquivo ZIP descompactado com sucesso.")

Arquivo ZIP descompactado com sucesso.


---

- **Passo 8: Carregar e manipular os arquivos CSV**

  + Execute a célula de código para listar todos os arquivos CSV na pasta descompactada e criar o DataFrame:

In [73]:
import pandas as pd

data_brazil = pd.read_csv('/content/DataBrazil/extracao/State of Data 2021 - Dataset - Pgina1.csv', low_memory=False)


*O DataFrame será armazenado. Você pode realizar operações de edição ou análise nos DataFrames conforme necessário.*

---

- **Passo 9: Pré-processamento, manipulação e limpeza dos dados**

  + Execute este bloco de código para preparar os dados de criptomoedas para análises subsequentes, tornando-os consistentes, organizados e prontos para serem usados em tarefas analíticas ou de visualização de dados.

In [74]:
data_brazil = data_brazil.drop(data_brazil.columns[[0, 4, 7, 8] + list(range(10, 356))], axis=1)

In [75]:
# Crie um dicionário com os novos nomes das colunas baseados em seus índices
novos_nomes ={}

In [76]:
# Remova os parênteses e as aspas dos nomes das colunas
data_brazil.columns = data_brazil.columns.str.replace(r"['()\s]", "", regex=True)
data_brazil.columns = data_brazil.columns.str.split(',').str[1]

# Verifique novamente os nomes das colunas após a limpeza
print(data_brazil.columns)

# Verifique se os nomes das colunas no dicionário correspondem exatamente
print(set(data_brazil.columns) == set(novos_nomes.values()))

# Se os nomes das colunas correspondem, faça a renomeação
if set(data_brazil.columns) == set(novos_nomes.values()):
    data_brazil = data_brazil.rename(columns=novos_nomes)



Index(['Idade', 'Faixaidade', 'Genero', 'ufondemora', 'Regiaoondemora',
       'NiveldeEnsino'],
      dtype='object')
False


In [77]:
# Criando uma cópia dos dados
dados = data_brazil.copy()

In [78]:
dados

Unnamed: 0,Idade,Faixaidade,Genero,ufondemora,Regiaoondemora,NiveldeEnsino
0,38.0,35-39,Masculino,CE,Nordeste,Pós-graduação
1,39.0,35-39,Masculino,BA,Nordeste,Pós-graduação
2,30.0,30-34,Masculino,SC,Sul,Pós-graduação
3,38.0,35-39,Feminino,SP,Sudeste,Pós-graduação
4,36.0,35-39,Masculino,SC,Sul,Pós-graduação
...,...,...,...,...,...,...
2640,40.0,40-44,Masculino,SP,Sudeste,Não tenho graduação formal
2641,27.0,25-29,Masculino,SC,Sul,Graduação/Bacharelado
2642,24.0,22-24,Masculino,SC,Sul,Graduação/Bacharelado
2643,38.0,35-39,Masculino,RJ,Sudeste,Graduação/Bacharelado


---


- **Passo 10: Salvar o DataFrame resultante como um arquivo CSV**

  + Execute este bloco de código para concluir o processo de manipulação e pré-processamento de dados, salvando o DataFrame resultante em um arquivo CSV para que possa usá-lo posteriormente em análises.

In [79]:
# Nome do arquivo CSV de saída
nome_arquivo_csv = "dados.csv"

# Caminho onde você deseja salvar o arquivo CSV
caminho_saida_csv = "/content/"

# Caminho completo do arquivo de saída
caminho_completo_csv = os.path.join(caminho_saida_csv, nome_arquivo_csv)

# Salvar o DataFrame "dados" como um arquivo CSV
dados.to_csv(caminho_completo_csv, index=False)

print(f'Arquivo CSV "{nome_arquivo_csv}" criado com sucesso em {caminho_completo_csv}.')

Arquivo CSV "dados.csv" criado com sucesso em /content/dados.csv.


O arquivo CSV criado conterá os dados organizados das criptomoedas e estará localizado no diretório especificado. Baixe-o para a sua maquina local seguindo os proximos passos:

+ Observe que um novo arquivo foi criado;
+ Clique nos 3 pontos a direita do arquivo "dados.csv" e escolha a opção "Fazer Download".

O arquivo está pronto para ser carregado nas próximas etapas do projeto.

---

## <font color = bluegreen> **Pontos Positivos de Realizar Tudo no Ambiente do Google Colab** </font>

- **Facilidade de Gerenciamento:** Ao realizar todas as operações no ambiente do Google Colab, você evita a necessidade de gerenciar arquivos em sua máquina local. Isso simplifica o processo, especialmente ao lidar com vários arquivos.

- **Automação:** Você pode criar um notebook no Google Colab com todas as etapas necessárias para baixar, processar e analisar seus dados. Isso permite que você automatize tarefas repetitivas e as execute de maneira consistente sempre que necessário.

- **Recursos da Nuvem:** O Google Colab é executado em servidores na nuvem, o que significa que você pode aproveitar os recursos de computação poderosos sem depender da capacidade de processamento do seu próprio computador. Isso é especialmente útil ao lidar com grandes conjuntos de dados.

- **Colaboração:** O Google Colab facilita a colaboração em projetos de ciência de dados, pois você pode compartilhar seu notebook com outras pessoas, permitindo que elas executem e modifiquem o código sem precisar baixar e enviar arquivos manualmente.

- **Versionamento:** Você pode usar ferramentas de controle de versão, como o Git, diretamente no ambiente do Google Colab para rastrear e gerenciar alterações no seu código e nos dados.

- **Ambiente Isolado:** O ambiente do Google Colab é isolado e pré-configurado, o que significa que você não precisa se preocupar com a instalação de pacotes, dependências ou configurações complexas. Isso economiza tempo e evita conflitos de versões.

Em resumo, realizar todas as etapas no ambiente do Google Colab oferece maior conveniência, automação e flexibilidade, tornando o processo de análise de dados mais eficiente e colaborativo. Além disso, você pode aproveitar os recursos de computação da nuvem para lidar com tarefas de processamento intensivo.

## <font color = bluegreen> **Instruções para Jupyter Notebook ou Visual Studio Code** </font>


Se você estiver utilizando o Jupyter Notebook ou o Visual Studio Code (VS Code) em vez do Google Colab, a maneira de mover o arquivo kaggle.json para a pasta correta pode ser um pouco diferente. Aqui estão as instruções adicionais para esses ambientes:

- **Para Jupyter Notebook:**

  + Certifique-se de que o arquivo kaggle.json está carregado no Jupyter Notebook.

  + Você pode usar a biblioteca shutil para mover o arquivo. Execute o seguinte código na célula do Jupyter Notebook:



In [None]:
import shutil

# Substitua o caminho abaixo pelo caminho correto onde o arquivo kaggle.json está carregado no Jupyter Notebook.
source_path = '/caminho/completo/para/o/kaggle.json'

# Substitua o caminho abaixo pelo diretório onde você deseja mover o arquivo.
destination_path = '/caminho/para/o/diretorio/de/configuracao'

shutil.move(source_path, destination_path)


*Certifique-se de que o arquivo kaggle.json foi movido com sucesso para a pasta de configuração.*

- **Para o Visual Studio Code (VS Code):**

   + Certifique-se de que o arquivo kaggle.json está carregado no VS Code.

  + Você pode usar a biblioteca shutil da mesma maneira que no Jupyter Notebook para mover o arquivo. Execute o código relevante no ambiente de script Python no VS Code.

In [None]:
import shutil

# Substitua o caminho abaixo pelo caminho correto onde o arquivo kaggle.json está carregado no Jupyter Notebook.
source_path = '/caminho/completo/para/o/kaggle.json'

# Substitua o caminho abaixo pelo diretório onde você deseja mover o arquivo.
destination_path = '/caminho/para/o/diretorio/de/configuracao'

shutil.move(source_path, destination_path)

*Certifique-se de ajustar os caminhos source_path e destination_path para refletir as localizações corretas do arquivo kaggle.json e da pasta de configuração no seu ambiente específico. Depois de mover o arquivo, você pode prosseguir com os passos mencionados no manual anterior para o Google Colab ou realizar as tarefas que deseja no seu ambiente preferido (Jupyter Notebook ou VS Code).*

---