In [None]:

import json
import os

file_count = 0

def split_large_json(input_file, output_dir, max_size_mb=100):
  """Splits a large JSON file into smaller JSON files.

  Args:
    input_file: Path to the input JSON file.
    output_dir: Path to the directory where the split files will be saved.
    max_size_mb: Maximum size of each output file in MB.
  """

  global file_count # Declare file_count as global within the function

  if not os.path.exists(output_dir):
    os.makedirs(output_dir)

  with open(input_file, 'r') as f:
    data = json.load(f)

  current_file_data = []
  current_file_size = 0

  for item in data:
    item_size = len(json.dumps(item))
    if current_file_size + item_size > max_size_mb * 1024 * 1024:
      output_file = os.path.join(output_dir, f'split_{file_count}.json')
      with open(output_file, 'w') as outfile:
        json.dump(current_file_data, outfile, indent=2)
      file_count += 1
      current_file_data = []
      current_file_size = 0

    current_file_data.append(item)
    current_file_size += item_size

  if current_file_data:
    output_file = os.path.join(output_dir, f'split_{file_count}.json')
    with open(output_file, 'w') as outfile:
      json.dump(current_file_data, outfile, indent=2)

# Example usage:

output_dir = '/content/drive/MyDrive/Colab Notebooks/Twibot22 - Dataset completo/split_files'
input_file_template = '/content/drive/MyDrive/Colab Notebooks/Twibot22 - Dataset completo/parsed_tweets_{}.json'

for i in range(0, 9):
    print(f"\nProcessando arquivo {i}...")
    input_file_path = input_file_template.format(i)
    split_large_json(input_file_path, output_dir)
    print(f"Arquivo {i} processado com sucesso!")


Processando arquivo 0...
Arquivo 0 processado com sucesso!

Processando arquivo 1...
Arquivo 1 processado com sucesso!

Processando arquivo 2...
Arquivo 2 processado com sucesso!

Processando arquivo 3...
Arquivo 3 processado com sucesso!

Processando arquivo 4...
Arquivo 4 processado com sucesso!

Processando arquivo 5...
Arquivo 5 processado com sucesso!

Processando arquivo 6...
Arquivo 6 processado com sucesso!

Processando arquivo 7...
Arquivo 7 processado com sucesso!

Processando arquivo 8...
Arquivo 8 processado com sucesso!
