In [1]:
import pandas as pd
import json
import zipfile
from tqdm import tqdm
from textblob import TextBlob
import os
import glob

In [2]:
# Correct relative path from your notebook
zip_path = 'data/raw/Full_HotelRec.zip'

# List files inside the zip
with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    print(zip_ref.namelist())

['HotelRec.txt']


In [3]:
# --- Settings ---
txt_inside_zip = 'HotelRec.txt'                     # file inside ZIP
output_folder = 'data/raw2/'                        # where to save
partial_folder = 'data/raw2/partial/'               # For the parts
chunk_size = 1_000_000                              # how many lines per part
final_csv_path = 'data/raw2/hotelrec_full_combined.csv'  # <-- new final file path

In [4]:
# --- Prepare output folder ---
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

if not os.path.exists(partial_folder):
    os.makedirs(partial_folder)

In [None]:
# --- Count total lines ---
with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    with zip_ref.open(txt_inside_zip) as file:
        total_lines = sum(1 for _ in file)

print(f"Total lines in dataset: {total_lines}") #3m 48.4s

Total lines in dataset: 50264531


In [6]:
def parse_hotel_url(url):
    try:
        parts = url.split('-')
        hotel_id = parts[2]  # dXXXXX
        if hotel_id.startswith('d'):
            hotel_id = hotel_id[1:]  # remove leading 'd'
        
        hotel_name = parts[4].replace('_', ' ') if len(parts) > 4 else None
        hotel_location = parts[5].replace('_', ' ') if len(parts) > 5 else None
        
        # Remove '.html' if it's stuck at the end
        if hotel_location and hotel_location.endswith('.html'):
            hotel_location = hotel_location.replace('.html', '')
        
        return hotel_id, hotel_name, hotel_location
    except:
        return None, None, None

In [7]:
# --- Initialize ---
batch = []
file_counter = 1

In [8]:
starting_row = 0  # Set this to the row number you want to start from

In [None]:
# --- Start processing ---
with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    with zip_ref.open(txt_inside_zip) as file:
        for i, line in enumerate(tqdm(file, total=total_lines, desc="Processing chunks", mininterval=1)):

            if i < starting_row:
                continue  # Skip lines until starting_row
            
            record = json.loads(line.decode('utf-8'))

            # Combine title and text
            title = record.get('title', '')
            text = record.get('text', '')
            combined_text = f"{title}. {text}"

            sentiment = TextBlob(combined_text).sentiment.polarity

            # Format date (keep only YYYY-MM)
            raw_date = record.get('date', None)
            if raw_date:
                formatted_date = raw_date.split('T')[0][:7]  # Take only 'YYYY-MM'
            else:
                formatted_date = None

            # Parse hotel_url
            hotel_id, hotel_name, hotel_location = parse_hotel_url(record.get('hotel_url', ''))

            # Create the record
            new_record = {
                'hotel_id': hotel_id,
                'hotel_name': hotel_name,
                'hotel_location': hotel_location,
                'date': formatted_date,
                'rating': record.get('rating'),
                'sentiment_score': sentiment,
            }

            # Flatten property_dict
            prop = record.get('property_dict', {})
            if prop:
                for key in ['sleep quality', 'value', 'rooms', 'service', 'cleanliness', 'location']:
                    new_record[key] = prop.get(key)

            batch.append(new_record)

            # Save every chunk_size lines
            if (i + 1) % chunk_size == 0:
                temp_df = pd.DataFrame(batch)
                part_filename = os.path.join(partial_folder, f'hotelrec_part{file_counter}.csv')
                temp_df.to_csv(part_filename, index=False)
                print(f"Saved part: {part_filename}")
                file_counter += 1
                batch = []

        # Save remaining at the end
        if batch:
            temp_df = pd.DataFrame(batch)
            part_filename = os.path.join(partial_folder, f'hotelrec_part{file_counter}.csv')
            temp_df.to_csv(part_filename, index=False)
            print(f"Saved final part: {part_filename}")

print("All parts saved!") #256m 39.1s

Processing chunks:   2%|████▌                                                                                                                                                                                                                                | 1000070/50264531 [05:08<8:39:19, 1581.05it/s]

Saved part: data/raw2/partial/hotelrec_part1.csv


Processing chunks:   4%|█████████                                                                                                                                                                                                                            | 1999377/50264531 [10:21<4:25:43, 3027.22it/s]

Saved part: data/raw2/partial/hotelrec_part2.csv


Processing chunks:   6%|█████████████▋                                                                                                                                                                                                                       | 2997519/50264531 [15:16<3:48:08, 3453.08it/s]

Saved part: data/raw2/partial/hotelrec_part3.csv


Processing chunks:   8%|██████████████████▏                                                                                                                                                                                                                  | 4000745/50264531 [20:12<8:01:06, 1602.66it/s]

Saved part: data/raw2/partial/hotelrec_part4.csv


Processing chunks:  10%|██████████████████████▊                                                                                                                                                                                                              | 4997599/50264531 [24:59<3:32:23, 3552.20it/s]

Saved part: data/raw2/partial/hotelrec_part5.csv


Processing chunks:  12%|███████████████████████████▎                                                                                                                                                                                                         | 5998397/50264531 [29:48<3:33:41, 3452.55it/s]

Saved part: data/raw2/partial/hotelrec_part6.csv


Processing chunks:  14%|███████████████████████████████▉                                                                                                                                                                                                     | 6997598/50264531 [34:37<3:27:41, 3472.18it/s]

Saved part: data/raw2/partial/hotelrec_part7.csv


Processing chunks:  16%|████████████████████████████████████▍                                                                                                                                                                                                | 7997529/50264531 [39:28<3:18:48, 3543.31it/s]

Saved part: data/raw2/partial/hotelrec_part8.csv


Processing chunks:  18%|████████████████████████████████████████▉                                                                                                                                                                                            | 8997938/50264531 [44:17<3:12:55, 3565.08it/s]

Saved part: data/raw2/partial/hotelrec_part9.csv


Processing chunks:  20%|█████████████████████████████████████████████▎                                                                                                                                                                                      | 10000034/50264531 [49:12<7:31:33, 1486.11it/s]

Saved part: data/raw2/partial/hotelrec_part10.csv


Processing chunks:  22%|█████████████████████████████████████████████████▉                                                                                                                                                                                  | 10997664/50264531 [53:57<3:08:17, 3475.57it/s]

Saved part: data/raw2/partial/hotelrec_part11.csv


Processing chunks:  24%|██████████████████████████████████████████████████████▍                                                                                                                                                                             | 11998943/50264531 [58:46<2:55:05, 3642.52it/s]

Saved part: data/raw2/partial/hotelrec_part12.csv


Processing chunks:  26%|██████████████████████████████████████████████████████████▍                                                                                                                                                                       | 13000451/50264531 [1:03:57<7:17:02, 1421.08it/s]

Saved part: data/raw2/partial/hotelrec_part13.csv


Processing chunks:  28%|██████████████████████████████████████████████████████████████▉                                                                                                                                                                   | 13998139/50264531 [1:09:40<3:57:19, 2546.92it/s]

Saved part: data/raw2/partial/hotelrec_part14.csv


Processing chunks:  30%|███████████████████████████████████████████████████████████████████▍                                                                                                                                                              | 14999062/50264531 [1:16:09<4:09:37, 2354.53it/s]

Saved part: data/raw2/partial/hotelrec_part15.csv


Processing chunks:  32%|███████████████████████████████████████████████████████████████████████▉                                                                                                                                                          | 16000726/50264531 [1:21:30<6:25:31, 1481.28it/s]

Saved part: data/raw2/partial/hotelrec_part16.csv


Processing chunks:  34%|████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                     | 16998319/50264531 [1:26:42<3:20:44, 2761.91it/s]

Saved part: data/raw2/partial/hotelrec_part17.csv


Processing chunks:  36%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                                 | 17999685/50264531 [1:31:39<2:35:37, 3455.56it/s]

Saved part: data/raw2/partial/hotelrec_part18.csv


Processing chunks:  38%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                            | 18998417/50264531 [1:36:28<2:27:02, 3543.74it/s]

Saved part: data/raw2/partial/hotelrec_part19.csv


Processing chunks:  40%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                        | 19998118/50264531 [1:41:17<2:25:57, 3455.98it/s]

Saved part: data/raw2/partial/hotelrec_part20.csv


Processing chunks:  42%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                   | 20998085/50264531 [1:46:07<2:16:26, 3574.94it/s]

Saved part: data/raw2/partial/hotelrec_part21.csv


Processing chunks:  44%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                               | 21998932/50264531 [1:50:57<2:16:08, 3460.13it/s]

Saved part: data/raw2/partial/hotelrec_part22.csv


Processing chunks:  46%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                          | 23000506/50264531 [1:55:49<4:51:05, 1560.98it/s]

Saved part: data/raw2/partial/hotelrec_part23.csv


Processing chunks:  48%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                      | 23999864/50264531 [2:00:33<2:00:46, 3624.32it/s]

Saved part: data/raw2/partial/hotelrec_part24.csv


Processing chunks:  50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                 | 24999271/50264531 [2:05:22<1:55:07, 3657.57it/s]

Saved part: data/raw2/partial/hotelrec_part25.csv


Processing chunks:  52%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                             | 25999062/50264531 [2:10:08<1:55:30, 3501.48it/s]

Saved part: data/raw2/partial/hotelrec_part26.csv


Processing chunks:  54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 26997340/50264531 [2:14:54<1:47:41, 3600.82it/s]

Saved part: data/raw2/partial/hotelrec_part27.csv


Processing chunks:  56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                    | 28000461/50264531 [2:19:50<4:10:02, 1483.98it/s]

Saved part: data/raw2/partial/hotelrec_part28.csv


Processing chunks:  58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 29000558/50264531 [2:24:39<3:52:30, 1524.25it/s]

Saved part: data/raw2/partial/hotelrec_part29.csv


Processing chunks:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                           | 29999010/50264531 [2:29:23<1:35:25, 3539.48it/s]

Saved part: data/raw2/partial/hotelrec_part30.csv


Processing chunks:  62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 30998094/50264531 [2:34:11<1:31:09, 3522.21it/s]

Saved part: data/raw2/partial/hotelrec_part31.csv


Processing chunks:  64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 31999796/50264531 [2:38:55<1:25:11, 3573.35it/s]

Saved part: data/raw2/partial/hotelrec_part32.csv


Processing chunks:  66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 32998331/50264531 [2:43:49<1:20:29, 3575.45it/s]

Saved part: data/raw2/partial/hotelrec_part33.csv


Processing chunks:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                         | 33999253/50264531 [2:48:40<1:19:18, 3418.29it/s]

Saved part: data/raw2/partial/hotelrec_part34.csv


Processing chunks:  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 35000062/50264531 [2:53:37<2:48:17, 1511.78it/s]

Saved part: data/raw2/partial/hotelrec_part35.csv


Processing chunks:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 35999785/50264531 [2:58:22<1:09:48, 3405.78it/s]

Saved part: data/raw2/partial/hotelrec_part36.csv


Processing chunks:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 36999586/50264531 [3:03:12<1:05:11, 3391.29it/s]

Saved part: data/raw2/partial/hotelrec_part37.csv


Processing chunks:  76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 38000453/50264531 [3:08:06<2:08:51, 1586.35it/s]

Saved part: data/raw2/partial/hotelrec_part38.csv


Processing chunks:  78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 38998858/50264531 [3:12:49<53:49, 3488.07it/s]

Saved part: data/raw2/partial/hotelrec_part39.csv


Processing chunks:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 40000000/50264531 [3:17:43<1:44:54, 1630.66it/s]

Saved part: data/raw2/partial/hotelrec_part40.csv


Processing chunks:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 40998034/50264531 [3:22:27<42:25, 3640.94it/s]

Saved part: data/raw2/partial/hotelrec_part41.csv


Processing chunks:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 41999827/50264531 [3:27:48<46:47, 2943.91it/s]

Saved part: data/raw2/partial/hotelrec_part42.csv


Processing chunks:  86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 42999043/50264531 [3:33:27<39:47, 3043.41it/s]

Saved part: data/raw2/partial/hotelrec_part43.csv


Processing chunks:  88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 43999209/50264531 [3:39:32<30:54, 3377.98it/s]

Saved part: data/raw2/partial/hotelrec_part44.csv


Processing chunks:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 44999004/50264531 [3:45:37<31:42, 2767.01it/s]

Saved part: data/raw2/partial/hotelrec_part45.csv


Processing chunks:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 46000147/50264531 [3:52:00<1:02:00, 1146.05it/s]

Saved part: data/raw2/partial/hotelrec_part46.csv


Processing chunks:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 46999050/50264531 [3:57:58<22:22, 2432.65it/s]

Saved part: data/raw2/partial/hotelrec_part47.csv


Processing chunks:  95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 48000147/50264531 [4:04:05<29:33, 1276.86it/s]

Saved part: data/raw2/partial/hotelrec_part48.csv


Processing chunks:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 49000257/50264531 [4:10:06<15:09, 1389.60it/s]

Saved part: data/raw2/partial/hotelrec_part49.csv


Processing chunks:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 50000748/50264531 [4:15:18<02:52, 1529.13it/s]

Saved part: data/raw2/partial/hotelrec_part50.csv


Processing chunks: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50264531/50264531 [4:16:37<00:00, 3264.56it/s]


Saved final part: data/raw2/partial/hotelrec_part51.csv
All parts saved!


In [10]:
# Step 1: Find all parts
all_parts = sorted(glob.glob(os.path.join(partial_folder, 'hotelrec_part*.csv')))
print(f"Found {len(all_parts)} parts to combine.")

# Step 2: Read and combine
full_df = pd.concat((pd.read_csv(part) for part in all_parts), ignore_index=True)
full_df.to_csv(final_csv_path, index=False)

print(f"Successfully combined into: {final_csv_path}")
print(f"Final combined dataset shape: {full_df.shape}") # 2m 43.3s

Found 51 parts to combine.
Successfully combined into: data/raw2/hotelrec_full_combined.csv
Final combined dataset shape: (50264531, 12)


In [None]:

full_df.to_csv(final_csv_path.replace('.csv', '.csv.gz'), index=False, compression='gzip') #5m 55.1s