In [1]:
import json
from collections import Counter
from pathlib import Path
from typing import Dict, Iterator, List

import pandas as pd # type: ignore

In [2]:
ASSETS = Path("../assets/").resolve()
Phrases = Dict[str, List[str]]
Matches = Dict[str, Dict[str, List[Dict[str, str]]]]

In [3]:
def read_jsonl(p: Path) -> Iterator[Matches]:
    with p.open("r", encoding="utf-8") as lines:
        for line in lines:
            yield json.loads(line)

In [4]:
def extract_phrases(lines: Iterator[Matches]) -> Phrases:
    results = {}
    for line in lines:
        for document_id, matches in line.items():
            for pattern, tokens in matches.items():
                for token in tokens:
                    if pattern not in results:
                        results[pattern] = []
                    results[pattern].append(" ".join(t for t in token.values()))
    return results

In [5]:
lines = read_jsonl(ASSETS / "output_multiple_patterns.jsonl")
phrases = extract_phrases(lines)

In [6]:
phrases

{'patterns-влияние': ['влияние существенное',
  'влияние серьезное',
  'влияние непосредственное',
  'влияние негативное',
  'влияние большое',
  'влияния иностранного',
  'влияние огромное',
  'влияние своё',
  'влияния политического',
  'влияние сирийское',
  'влияние негативное',
  'влияния региональном',
  'влияния критического',
  'влияние позитивное',
  'влияние определенное',
  'влияния экономического',
  'влияния политического',
  'влияние ключевое',
  'влияние ключевое',
  'влияние ключевое',
  'влиянием негативным',
  'влияние негативное',
  'влияние экономическое',
  'влияния экономического',
  'влияние экономическое',
  'влияние позитивное',
  'влияние негативное',
  'влияние однозначное',
  'влияния взаимные',
  'влияние существенное',
  'влияние огромное',
  'влияние сильное',
  'влияние сильное',
  'влияния чужеродного',
  'влияния идеологические',
  'влияние социальное',
  'влиянию турецкому',
  'влиянию турецкому',
  'влияния турецкого',
  'влияние турецкое',
  'влияни

In [7]:
df = pd.DataFrame(Counter(phrases).most_common())
df.columns = ["phrase", "frequency"]

In [8]:
df = pd.concat([
    pd.DataFrame(Counter(ph).most_common()).assign(pattern=pattern) 
    for pattern, ph in phrases.items()
], ignore_index=True)
df.columns = ["phrase", "frequency", "pattern"]
df.head(5)

Unnamed: 0,phrase,frequency,pattern
0,влияние негативное,7,patterns-влияние
1,влияние ключевое,3,patterns-влияние
2,влияние существенное,2,patterns-влияние
3,влияние серьезное,2,patterns-влияние
4,влияния иностранного,2,patterns-влияние
