## Заголовки новин

### 1. Форматування

[The Associated Press Stylebook](https://www.amazon.com/Associated-Press-Stylebook-2017-Briefing/dp/0465093043/) - це посібник зі стилю, яким часто послуговуються журналісти по всьому світу. Він рекомендує такі правила форматування заголовків:
1. З великої літери потрібно писати іменники, займенники, дієслова, прикметники, прислівники та підрядні сполучники. Якщо слово написане через дефіс, велику літеру потрібно додати для кожної частинки слова (наприклад, правильно "Self-Reflection", а не "Self-reflection").
2. З великої літери потрібно писати перше і останнє слово заголовку, незалежно від частини мови.
3. З маленької літери потрібно писати всі інші частини мови: артиклі/визначники, сурядні сполучники, прийменники, частки, вигуки.

**Завдання:**
1. напишіть програму, яка форматує заголовки за вказаними правилами
2. проженіть вашу програму на [корпусі заголовків з The Examiner](examiner-headlines.txt)
3. збережіть програму та файл із відформатованими заголовками у директорії з вашим іменем
4. скільки заголовків у корпусі було відформатовано правильно? (скільки заголовків залишились незмінними?)

Зверніть увагу, що ваша програма повинна правильно розрізняти прийменники та підрядні сполучники. Наприклад, `Do as you want` => `Do As You Want` (бо "as" тут є сполучником), but `How to use a Macbook as a table` => `How to Use a Macbook as a Table` (бо "as" тут є прийменником).

In [4]:
import spacy


IN_FILE1 = '../../../tasks/02-structural-linguistics/examiner-headlines.txt'
OUT_FILE1 = 'examiner-headlines_processed.txt'

        
def ap_capitalize(text, model) -> str:
    """Associated Press Word Capitalizer"""
    
    # Tokenize & tag headline
    doc = model(text)

    processed_tokens = []
    capitalized_headline = ""
    text_len = len(doc)
    
    """1. З великої літери потрібно писати іменники, займенники, дієслова, прикметники, 
    прислівники та підрядні сполучники. 
    
    1.1. Якщо слово написане через дефіс, велику літеру 
    потрібно додати для кожної частинки слова (наприклад, правильно "Self-Reflection", 
    а не "Self-reflection")."""
    capitalize_pos = ['NOUN', 'PRON', 'VERB', 'ADJ', 'ADV', 'SCONJ']

    
    """2. З великої літери потрібно писати перше і останнє слово заголовку, незалежно 
    від частини мови."""    
    
    """З маленької літери потрібно писати всі інші частини мови: артиклі/визначники, 
    сурядні сполучники, прийменники, частки, вигуки."""
    decapitalize_pos = ['DET', 'CCONJ', 'ADP', 'PART', 'INTJ']
    
    
    """Зверніть увагу, що ваша програма повинна правильно розрізняти прийменники та 
    підрядні сполучники. Наприклад, `Do as you want` => `Do As You Want` (бо "as" тут 
    є сполучником), but `How to use a Macbook as a table` => `How to Use a Macbook as 
    a Table` (бо "as" тут є прийменником)."""
    capitalize_dep = ['mark']
    
    # Capitalize
    for i in range(0, text_len):
        # Apply rule 2
        if i == 0 or i == text_len-1:
            processed_tokens.append(doc[i].text_with_ws.capitalize())
        # Apply rules 1 & 4
        elif doc[i].pos_ in capitalize_pos or doc[i].dep_ in capitalize_dep:
            processed_tokens.append(doc[i].text_with_ws.capitalize())
        # Apply rule 3
        elif doc[i].pos_ in decapitalize_pos:
            processed_tokens.append(doc[i].text_with_ws)
        # All exceptions logically fall under Rule 3 as well
        else:
            processed_tokens.append(doc[i].text_with_ws)
    
    # Return reassembled headline
    return ''.join([w for w in processed_tokens])


def main(in_file, out_file):
    
    nlp = spacy.load('en_core_web_md')
    i = open(in_file, 'r')
    o = open(out_file, 'w+')
    
    changed_counter = 0
    total_counter = 0
    
    for raw_headline in i.readlines():
        processed_headline = ap_capitalize(raw_headline, nlp)
        o.write(processed_headline)
        
        total_counter += 1
        if processed_headline != raw_headline:
            changed_counter += 1
        
        # Debug before launching on full list :) 
        # if changed_counter >= 50:
        #     break
            
    print("Headlines capitalized differently: {0}/{1}: {2}%".format(
                                        changed_counter,
                                        total_counter,
                                        changed_counter / total_counter * 100))
    
    i.close()
    o.close()
        
main(IN_FILE1, OUT_FILE1)

Headlines capitalized differently: 4264/5000: 85.28%


### 2. Вірусні новини

У статті [Automatic Extraction of News Values from Headline Text](http://www.aclweb.org/anthology/E17-4007) описано основні ознаки заголовків, які кидаються в очі і змушують читача таки прочитати новину:
1. наявність імен людей, назв компаній тощо
2. емоційне забарвлення
3. ступені порівняння
4. близькість
5. елемент несподіванки
6. унікальність

**Завдання:**
1. Напишіть програму, яка аналізує заголовок за першими трьома ознаками (у спрощеній формі)
   * Чи є в заголовку іменовані стуності?
   * Чи є заголовок позитивно чи негативно забарвлений?
   * Чи є в заголовку прикметники та прислівники вищого і найвищого ступенів порівняння?
2. Проженіть вашу програму на [корпусі заголовків з The Examiner](examiner-headlines.txt). Для кожної з трьох ознак, визначте відсоток заголовків у корпусі, які її мають.
3. Збережіть програму та пораховану статистику в директорії з вашим іменем.

Додаткова інформація:
- Типи сутностей, які впливають на "вірусність" заголовка, виберіть самостійно.
- Для визначення емоційного забарвлення, використайте [SentiWordNet](http://sentiwordnet.isti.cnr.it/). Наприклад, можна перевірити, що середнє значення позитивності/негативності слова у заголовку перевищує 0.5. Для визначення середнього значення можна брати до п'яти перших значень слова з такою частиною мови. Будьте креативними та експериментуйте.

### Джерела

Ви можете використати будь-яку мову програмування та будь-яку NLP-бібліотеку.

Набір заголовків взятий із https://www.kaggle.com/therohk/examine-the-examiner.""

In [6]:
import spacy
from nltk.corpus import sentiwordnet as swn


IN_FILE2 = '../../../tasks/02-structural-linguistics/examiner-headlines.txt'
OUT_FILE2 = 'examiner-headlines_virality_scores.csv'


def virality_score(text, model) -> tuple:
    """Програма, яка аналізує заголовок такими ознаками:
    
    returns: tuple: (bool: contains_ne,
                     bool: contains_st,
                     bool: contains_cs)"""
    
    # Tokenize & tag headline
    doc = model(text)
    
    contains_ne = False
    contains_st = False
    contains_cs = False
    
    for token in doc:
        """Чи є в заголовку іменовані стуності?"""
        # Contains PROPN (TB: NP)
        if token.tag_ in ['NNP']:
            contains_ne = True
    
        """Чи є заголовок позитивно чи негативно забарвлений?"""
        # Map parts of speech processed by SentiWordNet
        pos_map = {
            'NOUN' : 'n',
            'VERB' : 'v',
            'ADJ' : 'a',
            'ADV' : 'r'
        }
        
        # and only work with eligible tokens
        # specifically ignore proper nouns becuase they aren't in SWN
        if token.pos_ in pos_map and token.tag_ not in ['NNP']:
            
            # Build request to SentiWordNet
            swn_request = token.lemma_ + '.' + pos_map[token.pos_] + '.' + '01'
            
            try:
                s = swn.senti_synset(swn_request)
                if max(s.pos_score(), s.neg_score()) > 0.5:
                    contains_st = True
            except:
                print("Word not found in SWN: {0}: {1}".format(token.lemma_, token.pos_))

            

        """Чи є в заголовку прикметники та прислівники вищого і 
        найвищого ступенів порівняння?"""
        # Contains TB: RBR, RBS, JJR, JJS
        if token.tag_ in ['RBR', 'RBS', 'JJR', 'JJS']:
            contains_cs = True
    
    return (contains_ne, contains_st, contains_cs)
        
    
def main(in_file, out_file):
    
    nlp = spacy.load('en_core_web_md')
    i = open(in_file, 'r')
    o = open(out_file, 'w+')
    
    total_counter = 0
    
    for headline in i.readlines():
        flags = virality_score(headline, nlp)
        o.write('"' + headline.rstrip() + '",' 
                + str(int(flags[0])) + ','
                + str(int(flags[1])) + ','
                + str(int(flags[2])) + '\n'
               )
        
        total_counter += 1
        
        # if total_counter >= 10:
        #    break
            
    print("Headlines processed: {0}".format(total_counter))
    
    i.close()
    o.close()
        
main(IN_FILE2, OUT_FILE2)

Word not found in SWN: could: VERB
Word not found in SWN: what: NOUN
Word not found in SWN: -PRON-: ADJ
Word not found in SWN: repurpos: VERB
Word not found in SWN: where: ADV
Word not found in SWN: -PRON-: ADJ
Word not found in SWN: how: ADV
Word not found in SWN: sf: ADJ
Word not found in SWN: -PRON-: ADJ
Word not found in SWN: fiancée: NOUN
Word not found in SWN: -PRON-: ADJ
Word not found in SWN: how: ADV
Word not found in SWN: psych: NOUN
Word not found in SWN: psych: NOUN
Word not found in SWN: what: NOUN
Word not found in SWN: must: VERB
Word not found in SWN: fi: NOUN
Word not found in SWN: vegetarian: ADJ
Word not found in SWN: what: NOUN
Word not found in SWN: what: ADJ
Word not found in SWN: athletic: NOUN
Word not found in SWN: recruiting: NOUN
Word not found in SWN: what: NOUN
Word not found in SWN: how: ADV
Word not found in SWN: diy: NOUN
Word not found in SWN: what: NOUN
Word not found in SWN: focaccia: NOUN
Word not found in SWN: %: NOUN
Word not found in SWN: uva: NOU

In [7]:
"""6C приземляється на плече, перекочуючись, пролітає метрів п’ятдесят 
і витягується на снігу за кілька кроків від забризканої палаючими 
уламками посадкової смуги."""

h1 = "The plane lands on its shoulder, rolling, flies fifty meters forward and stretches itself on the snow near the runway peppered with burning fragments"

# adp in mark = cap

nlp = spacy.load('en_core_web_md')
doc = nlp(h1)

for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
          token.shape_, token.is_alpha, token.is_stop, token.sentiment)

The the DET DT det Xxx True False 0.0
plane plane NOUN NN nsubj xxxx True False 0.0
lands land VERB VBZ ROOT xxxx True False 0.0
on on ADP IN prep xx True False 0.0
its -PRON- ADJ PRP$ poss xxx True False 0.0
shoulder shoulder NOUN NN pobj xxxx True False 0.0
, , PUNCT , punct , False False 0.0
rolling rolling NOUN NN advcl xxxx True False 0.0
, , PUNCT , punct , False False 0.0
flies fly VERB VBZ conj xxxx True False 0.0
fifty fifty NUM CD nummod xxxx True False 0.0
meters meter NOUN NNS npadvmod xxxx True False 0.0
forward forward ADV RB advmod xxxx True False 0.0
and and CCONJ CC cc xxx True False 0.0
stretches stretch VERB VBZ conj xxxx True False 0.0
itself -PRON- PRON PRP dobj xxxx True False 0.0
on on ADP IN prep xx True False 0.0
the the DET DT det xxx True False 0.0
snow snow NOUN NN pobj xxxx True False 0.0
near near ADP IN prep xxxx True False 0.0
the the DET DT det xxx True False 0.0
runway runway NOUN NN pobj xxxx True False 0.0
peppered pepper VERB VBN acl xxxx True False

In [None]:
# adp in prep = decap

nlp = spacy.load('en_core_web_sm')
doc = nlp(h6)

for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
          token.shape_, token.is_alpha, token.is_stop)

In [None]:
# Code rendered unnecessary

import string




def ccap(s):
    """Custom capitalizer"""
    
    # Init empty output string. Strings are immutable 
    # so we can't capitalize in place
    o = ""
    # Include different dashes - just in case
    dashes = "-–—"
    
    for i in range(0, len(s)):
        # Capitalize first char
        if i == 0:
            o += s[i].upper()
        # For all other values, excluding first char
        else:
            # Calitalize after a dash
            if s[i-1] in dashes:
                o += s[i].upper()
            # Keep other letters as they are
            else:
                o += s[i]
    
    return o