## Regex pattern to match declarations of age or year or birth

In [2]:
import re
import random
import pandas as pd

In [62]:

AGE_CHAR = [
    'novantanove',
    'novantotto',
    'novantasette',
    'novantasei',
    'novantacinque',
    'novantaquattro',
    'novantatre',
    'novantadue',
    'novantuno',
    'novanta',
    'ottantanove',
    'ottantotto',
    'ottantasette',
    'ottantasei',
    'ottantacinque',
    'ottantaquattro',
    'ottantatre',
    'ottantadue',
    'ottantuno',
    'ottanta',
    'settantanove',
    'settantotto',
    'settantasette',
    'settantasei',
    'settantacinque',
    'settantaquattro',
    'settantatre',
    'settantadue',
    'settantuno',
    'settanta',
    'sessantanove',
    'sessantotto',
    'sessantasette',
    'sessantasei',
    'sessantacinque',
    'sessantaquattro',
    'sessantatre',
    'sessantadue',
    'sessantuno',
    'sessanta',
    'cinquantanove',
    'cinquantotto',
    'cinquantasette',
    'cinquantasei',
    'cinquantacinque',
    'cinquantaquattro',
    'cinquantatre',
    'cinquantadue',
    'cinquantuno',
    'cinquanta',
    'quarantanove',
    'quarantotto',
    'quarantasette',
    'quarantasei',
    'quarantacinque',
    'quarantaquattro',
    'quarantatre',
    'quarantadue',
    'quarantuno',
    'quaranta',
    'trentanove',
    'trentotto',
    'trentasette',
    'trentasei',
    'trentacinque',
    'trentaquattro',
    'trentatre',
    'trentadue',
    'trentuno',
    'trenta',
    'ventinove',
    'ventotto',
    'ventisette',
    'ventisei',
    'venticinque',
    'ventiquattro',
    'ventitre',
    'ventidue',
    'ventuno',
    'venti',
    'diciannove',
    'diciotto',
    'diciassette',
    'sedici',
    'quindici',
    'quattordici',
    'tredici'
 ]

# remove last letter of each years_in_words entry, in order to match both
# the noun ("ventiquattro") and the adjective ("ventiquattrenne")
AGE_CHAR_SUFFIX_LONG = [year[:-1] for year in AGE_CHAR]

# keep only the shortest form as a first filter
AGE_CHAR_SUFFIX_SHORT = [
    "tredic",
    "quattordic",
    "quindic",
    "sedic",
    "diciasset",
    "diciott",
    "diciannov",
    "vent",
    "trent",
    "quarant",
    "cinquant",
    "sessant",
    "settant",
    "ottant",
    "novant",
]

AGE_DIGIT = list(range(99,12,-1))

# List of regex patterns for matching Twitter posts mentioning the age of the user
# The patterns are built using the age expressed in digits (e.g. "22" for 22)
AGE_DIGIT_PATTERNS = [
    # Matches phrases like "ho compiuto 22 anni" (I just turned 22)
    # but not "quando ho compiuto 22 anni" (when I turned 22)
    # nor "ho compiuto 22 anni di/de" (I have 22 years of)
    r"(?<!quando\s)(?<!quando)ho\s*compiuto\s*(\d{2})\s*anni(?! de)(?! di)(?!de)(?!di)(?! in più)(?! in meno)",
    r"\bcompio\s*(\d{2})\s*anni(?! de)(?! di)(?!de)(?!di)",
    # Matches phrases like "ho 22 anni" (I am 22 years old)
    # but not "da quando/non ho 22 anni" (since I am / I am not 22 years old)
    # nor "ho 22 anni di/de" (I have 22 years of)
    # nor "se ho 22 anni" (if I am 22 years old)
    r"(?<!quando\s)(?<!quando)(?<!non\s)(?<!non)(?<!se\s)(?<!se)ho\s*(\d{2})\s*anni(?! de)(?!de)(?! di)(?!di)(?! in più)(?! in meno)",
    # Matches phrases like "faccio 22 anni" (I am turning 22 years old)
    # but not "faccio 22 anni di/de" (I have 22 years of)
    r"\bfaccio\s*(\d{2})\s*anni(?! de)(?! di)(?!de)(?!di)",
    # Matches phrases like "spengo 22 candeline" (I am blowing 22 candles)
    r"\bspengo\s*(\d{2})\s*candeline",
    # Matches phrases like "il mio 22^ compleanno" (my 22nd birthday)
    r"il\s*mio\s*(\d{2})\^\s*comple(?:anno)?",
    # Matches phrases like "sono un 22enne" (I am a 22-year-old...)
    r"\bsono\s*una?\s*(\d{2})\s*enne",
    # Matches phrases like "i miei 22 anni" (my 22 years)
    # r"\bmiei\s*(\d{2})\s*anni",
]

def return_full_age_char_pattern(age_char):
    """
    Returns a list of regex patterns for matching Twitter posts mentioning the age of the user.
    The patterns are built using the age_char parameter, which is a string containing the
    Italian word for the age of the user (e.g. "ventidue" for 22).
    """
    age_char_patterns = [
            # Matches phrases like "ho compiuto ventidue anni" (I just turned twenty-two)
            # but not "quando ho compiuto ventidue anni" (when I turned twenty-two)
            # nor "ho compiuto ventidue anni di/de" (I have twenty-two years of)
            r"(?<!quando\s)(?<!quando)ho\s*compiuto\s*({}).*\s*anni(?! de)(?!de)(?! di)(?!di)(?! in più)(?! in meno)".format(age_char),
            r"\bcompio\s*({}).*\s*anni(?! de)(?! di)(?!de)(?!di)".format(age_char),
            # Matches phrases like "ho ventidue anni" (I am twenty-two years old),
            # but not "a quando/non ho ventidue anni" (since I am / I am not twenty-two years old)
            # nor "ho ventidue anni di/de" (I have twenty-two years of)
            # nor "se ho ventidue anni" (if I am twenty-two years old)
            r"(?<!quando\s)(?<!quando)(?<!non\s)(?<!non)(?<!se\s)(?<!se)ho\s*({}).*\s*anni(?! de)(?! di)(?!de)(?!di)(?! in più)(?! in meno)".format(age_char),
            # Matches phrases like "faccio ventidue anni" (I am turning twenty-two years old)
            r"\bfaccio\s*({}).*\s*anni(?! de)(?! di)(?!de)(?!di)".format(age_char),
            # Matches phrases like "spengo ventidue candeline" (I am blowing twenty-two candles)
            r"\bspengo\s*({})\s*candeline".format(age_char),
            # Matches phrases like "mio ventiduesimo comple/compleanno" (my twenty-second birthday)
            r"il\s*mio\s*{}e?simo\s*comple(?:anno)?".format(age_char),
            # Matches phrases like "sono un ventiduenne" (I am twenty-two-years-old...)
            r"\bsono\s*una?\s*({})\s*e?nne".format(age_char),
            # Matches phrases like "i miei ventidue anni" (my twenty-two years)
            # r"\bmiei\s*({}).*\s*anni".format(age_char),
        ]
    return age_char_patterns

def tweet_user_age(tweet):
    """
    Returns the age of the user who posted the tweet, if the tweet contains a mention of the user's age.
    TODO: the age returned by this function should be compared with the creation date of the tweet.
    """
    if len(tweet) > 0:
        # check if the tweet contains a double digit number, but not in a quoted text
        if re.search(r"\d{2}", tweet):
            if not re.search(r"\".*\d{2}.*\"", tweet) \
                and not re.search(r"\“.*\d{2}.*\”", tweet) \
                and not re.search(r"\«.*\d{2}.*\»", tweet):
                # search for age patterns
                for i, pattern in enumerate(AGE_DIGIT_PATTERNS):
                    matches = re.findall(pattern, tweet, flags=re.IGNORECASE)
                    if matches:
                        return {"tweet": tweet, "age": int(matches[0]), "regex_idx": i}

        # check if the tweet contains an age expressed in characters
        if re.search(r"{}".format("|".join(AGE_CHAR_SUFFIX_SHORT)), tweet, flags=re.IGNORECASE):
            # check what age is expressed in the tweet and retrieve its index
            matching_age_char = re.findall(r"{}".format("|".join(AGE_CHAR_SUFFIX_LONG)), tweet, flags=re.IGNORECASE)[0].lower()
            matching_age_char_index = AGE_CHAR_SUFFIX_LONG.index(matching_age_char)
            # check if the age is not in a quoted text
            if not re.search(r"\".*{}.*\"".format(matching_age_char), tweet, flags=re.IGNORECASE) \
                and not re.search(r"\“.*{}.*\”".format(matching_age_char), tweet, flags=re.IGNORECASE) \
                and not re.search(r"\«.*{}.*\»".format(matching_age_char), tweet, flags=re.IGNORECASE):
                # check if also the full form of the age is present in the tweet
                if re.search(r"{}".format(AGE_CHAR[matching_age_char_index]), tweet, flags=re.IGNORECASE):
                    patterns = return_full_age_char_pattern(AGE_CHAR[matching_age_char_index])
                else:
                    patterns = return_full_age_char_pattern(AGE_CHAR_SUFFIX_LONG[matching_age_char_index])
                # search for age statements and retrieve age
                for i, pattern in enumerate(patterns):
                    matches = re.findall(pattern, tweet, flags=re.IGNORECASE)
                    if matches:
                        return {"tweet": tweet, "age": int(AGE_DIGIT[matching_age_char_index]), "regex_idx": i}

    return {"tweet": tweet, "age": None, "regex_idx": None}

# Example tweets
tweets_should_match = [
    "ho compiuto 50 anni e non mi importa più niente.",
    "Ieri ho compiuto 60 anni e mi sento freschissimo.",
    "Tra un mese compio 25 anni e non vedo l'ora.",
    "Ormai ho 30 anni, damn...",
    "Finalmente faccio 18 anni!!!",
    "Cosa vuoi che ne sappia di vecchiaia, sono una 28enne...",
    "Spengo 40 candeline domani, che emozione.",
    "Grande fiesta per il mio 22^ comple.",
    "Grande fiesta per il mio 22^ compleanno.",
    "--------------------------------------------------------",
    "Ieri ho compiuto sessanta anni e mi sento freschissimo.",
    "Ieri ho compiuto sessant'anni e mi sento freschissimo.",
    "Tra un mese compio venticinque anni e non vedo l'ora.",
    "Ormai ho trent'anni, damn...",
    "Finalmente faccio diciotto anni!!!",
    "Cosa vuoi che ne sappia di vecchiaia, sono una ventottenne...",
    "Spengo quaranta candeline domani, che emozione.",
    "Grande fiesta per il mio ventiduesimo comple.",
    "Grande fiesta per il mio trentunesimo comple.",
    'Mi sento in diritto di dirlo in quanto sono un ventiduenne.',
    "HO VENTICINQUE ANNI gioventù",
]

tweets_should_not_match = [
    "Ma che ne so della vita se ho 22 anni?",
    "Quando ho 60 anni vado a vivere alle bahamas.",
    "Lo sapro' meglio io che ho 30 anni in più di te.",
    '@officialsslazio me faccio 30 anni de galera ma te vengo ammazza co le mani mie VERME BAVOSO',
    'Io ho 42 anni di contributi versati, ma "solo" 61 anni di età!',
    'Per il lavoro ho 30 anni di industria sulle spalle.',
    'Le nuove estetiste cinesi sotto casa mi hanno chiesto se ho 24 anni.',
    'Jovanotti: «Ho 50 anni, per me  è un’età assurda»',
    'cara non ho 13 anni, e vedo che vi viene molto difficile tenere una discussione in maniera pacata',
    '“Ho 17 anni e faccio sesso a pagamento: voglio avere tanti soldi e fare shopping”… https://t.co/9NbPpmqRnG',
    "Da quando ho compiuto 50 anni non mi importa più niente.",
    "Guarda sinceramente vedere un ragazzo ridursi a fare questi commenti da 50enne scapola è triste.",
    'l signor "meno male che ho 49 anni".... Lo schifo.',
    "ricordo ancora i miei 22 anni",
    "Porto i miei 77 anni come un giovincello.",
    "Praticamente ho 80 anni", # impossible to detect without semantinc analysis
    "--------------------------------------------------------",
    "Ma che ne so della vita se ho ventidue anni?",
    "Quando ho sessant'anni vado a vivere alle bahamas.",
    "Lo sapro' meglio io che ho trent'anni in più di te.",
    "@beatriceletre Fisico da ventenne.\nStai un bijoux🌹😘",
    "Da quando ho cinquant'anni non mi importa più niente.",
    'Perché è il mio compleanno e al mio diciottesimo compleanno è mancato mio papà. Al mio compleanno!',
    '“Ho venti anni e faccio sesso a pagamento: voglio avere tanti soldi e fare shopping”… https://t.co/9NbPpmqRnG',
    "Porto i miei settantasette anni come un giovincello.",
    "ricordo ancora i miei ventidue anni",
]

print("######################## Tweets that should match:")
print()
for tweet in tweets_should_match:
    print(tweet_user_age(tweet))

print("\n######################## Tweets that should not match:")
print()
for tweet in tweets_should_not_match:
    print(tweet_user_age(tweet))



######################## Tweets that should match:

{'tweet': 'ho compiuto 50 anni e non mi importa più niente.', 'age': 50, 'regex_idx': 0}
{'tweet': 'Ieri ho compiuto 60 anni e mi sento freschissimo.', 'age': 60, 'regex_idx': 0}
{'tweet': "Tra un mese compio 25 anni e non vedo l'ora.", 'age': 25, 'regex_idx': 1}
{'tweet': 'Ormai ho 30 anni, damn...', 'age': 30, 'regex_idx': 2}
{'tweet': 'Finalmente faccio 18 anni!!!', 'age': 18, 'regex_idx': 3}
{'tweet': 'Cosa vuoi che ne sappia di vecchiaia, sono una 28enne...', 'age': 28, 'regex_idx': 6}
{'tweet': 'Spengo 40 candeline domani, che emozione.', 'age': 40, 'regex_idx': 4}
{'tweet': 'Grande fiesta per il mio 22^ comple.', 'age': 22, 'regex_idx': 5}
{'tweet': 'Grande fiesta per il mio 22^ compleanno.', 'age': 22, 'regex_idx': 5}
{'tweet': '--------------------------------------------------------', 'age': None, 'regex_idx': None}
{'tweet': 'Ieri ho compiuto sessanta anni e mi sento freschissimo.', 'age': 60, 'regex_idx': 0}
{'tweet': "Ier

## Test on 52k tweets

In [29]:
# read json file
path = "../data/age_classification/users_age_matched_tweets.json"
df = pd.read_json(path)
matches = df.transpose()['matches']
texts = [match[key]['text'] for match in matches for key in match.keys()]
texts

['@giuliaselvaggi2 Ho 32 anni, saranno 17 anni che tra amici ci si racconta chi fa/facesse cosa, chi fosse questo e quello, di chi fosse quel negozio. Personalmente a me non serviva Gratteri per sapere che il 99% delle persone indagate fosse collusa. È arrivato il momento di ribellarsi',
 '@iSim86S Guarda sinceramente vedere un ragazzo ridursi a fare questi commenti da 50enne scapola è triste. Il twitt mi è arrivato come consigliato, non sono  venuto a cercarti.\nSo che forse ho sbagliato ma non ce la faccio a stare zitto di fronte a cotanta ridicolezza, mi scuso ugualmente',
 '@fe_desanctis...se potessi esprimere un desiderio oggi x il mio 37esimo compleanno...sarebbe una foto autografata da te 🤗😍... Buona Pasqua😘',
 '@pasqlaragione Cose se non ti sta bene Cambia squadra ma non rompere le scatole ogni giorno sempre le stesse cose sono pesanti Pasquale sono pesanti Io non sono un ragazzo Io ho 57 anni bisogna Aver rispetto per le persone che sono più grandi di loro Loro sono ragazzi no

In [30]:
# apply the function for age retrieval
tweets = [tweet_user_age(text) for text in texts]
tweets = [tweet for tweet in tweets if tweet['age'] is not None]
random.shuffle(tweets)
tweets[:100]

[{'tweet': '@Leos715 @Andr34_82 @sole202022 Onlyche? Ho 38 anni ma ste cose non capisco proprio.',
  'age': 38,
  'regex_idx': 2},
 {'tweet': '@Sara64301177 Ciao tesoro come va io ho 52 anni',
  'age': 52,
  'regex_idx': 2},
 {'tweet': 'É ufficiale! Ho 25 anni, ma sono un catorcio..',
  'age': 25,
  'regex_idx': 2},
 {'tweet': '@LaurettaTr sono john ho 24 anni vivo a milano tu?',
  'age': 24,
  'regex_idx': 2},
 {'tweet': '@CucchiRiccardo Ho 40 anni, la Repubblica 74.\r\nHo sempre assisistito ad un elettorato preso in giro in Italia. Quale novità?',
  'age': 40,
  'regex_idx': 2},
 {'tweet': '@Manucasy Guarda ho 67 anni, forse sono troppo giovane🤣',
  'age': 67,
  'regex_idx': 2},
 {'tweet': '@funaija Ho 81 anni , mai più guardato Sanremo da almeno 40. Figuriamoci questo carrozzone',
  'age': 81,
  'regex_idx': 2},
 {'tweet': '@Linkiesta Eh no caro @luigidimaio &amp; Co. io ho 40 anni e mi serve un lavoro che non si trova!! sono aitante e preparato: vi conviene mettermi a reddito così 

# Retrieve year of birth

In [85]:
df = pd.read_csv('../data/age_classification/first_1M_tweets.csv',sep=';',quoting=2)['text'].to_list()

In [3]:



AGE_CHAR = [
    'novantanove',
    'novantotto',
    'novantasette',
    'novantasei',
    'novantacinque',
    'novantaquattro',
    'novantatre',
    'novantadue',
    'novantuno',
    'novanta',
    'ottantanove',
    'ottantotto',
    'ottantasette',
    'ottantasei',
    'ottantacinque',
    'ottantaquattro',
    'ottantatre',
    'ottantadue',
    'ottantuno',
    'ottanta',
    'settantanove',
    'settantotto',
    'settantasette',
    'settantasei',
    'settantacinque',
    'settantaquattro',
    'settantatre',
    'settantadue',
    'settantuno',
    'settanta',
    'sessantanove',
    'sessantotto',
    'sessantasette',
    'sessantasei',
    'sessantacinque',
    'sessantaquattro',
    'sessantatre',
    'sessantadue',
    'sessantuno',
    'sessanta',
    'cinquantanove',
    'cinquantotto',
    'cinquantasette',
    'cinquantasei',
    'cinquantacinque',
    'cinquantaquattro',
    'cinquantatre',
    'cinquantadue',
    'cinquantuno',
    'cinquanta',
    'quarantanove',
    'quarantotto',
    'quarantasette',
    'quarantasei',
    'quarantacinque',
    'quarantaquattro',
    'quarantatre',
    'quarantadue',
    'quarantuno',
    'quaranta',
    'trentanove',
    'trentotto',
    'trentasette',
    'trentasei',
    'trentacinque',
    'trentaquattro',
    'trentatre',
    'trentadue',
    'trentuno',
    'trenta',
    'ventinove',
    'ventotto',
    'ventisette',
    'ventisei',
    'venticinque',
    'ventiquattro',
    'ventitre',
    'ventidue',
    'ventuno',
    'venti',
    'diciannove',
    'diciotto',
    'diciassette',
    'sedici',
    'quindici',
    'quattordici',
    'tredici'
 ]

# remove last letter of each years_in_words entry, in order to match both
# the noun ("ventiquattro") and the adjective ("ventiquattrenne")
AGE_CHAR_SUFFIX_LONG = [year[:-1] for year in AGE_CHAR]

# keep only the shortest form as a first filter
AGE_CHAR_SUFFIX_SHORT = [
    "tredic",
    "quattordic",
    "quindic",
    "sedic",
    "diciasset",
    "diciott",
    "diciannov",
    "vent",
    "trent",
    "quarant",
    "cinquant",
    "sessant",
    "settant",
    "ottant",
    "novant",
]

AGE_DIGIT = list(range(99,12,-1))

# List of regex patterns for matching Twitter posts mentioning the age of the user
# The patterns are built using the age expressed in digits (e.g. "22" for 22)
AGE_DIGIT_PATTERNS = [
    # Matches phrases like "ho compiuto 22 anni" (I just turned 22)
    # but not "quando ho compiuto 22 anni" (when I turned 22)
    # nor "ho compiuto 22 anni di/de" (I have 22 years of)
    r"(?<!quando\s)(?<!quando)ho\s*compiuto\s*(\d{2})\s*anni(?! de)(?! di)(?!de)(?!di)(?! in più)(?! in meno)",
    r"\bcompio\s*(\d{2})\s*anni(?! de)(?! di)(?!de)(?!di)",
    # Matches phrases like "ho 22 anni" (I am 22 years old)
    # but not "da quando/non ho 22 anni" (since I am / I am not 22 years old)
    # nor "ho 22 anni di/de" (I have 22 years of)
    # nor "se ho 22 anni" (if I am 22 years old)
    r"(?<!quando\s)(?<!quando)(?<!non\s)(?<!non)(?<!se\s)(?<!se)ho\s*(\d{2})\s*anni(?! de)(?!de)(?! di)(?!di)(?! in più)(?! in meno)",
    # Matches phrases like "faccio 22 anni" (I am turning 22 years old)
    # but not "faccio 22 anni di/de" (I have 22 years of)
    r"\bfaccio\s*(\d{2})\s*anni(?! de)(?! di)(?!de)(?!di)",
    # Matches phrases like "spengo 22 candeline" (I am blowing 22 candles)
    r"\bspengo\s*(\d{2})\s*candeline",
    # Matches phrases like "il mio 22^ compleanno" (my 22nd birthday)
    r"il\s*mio\s*(\d{2})\^\s*comple(?:anno)?",
    # Matches phrases like "sono un 22enne" (I am a 22-year-old...)
    r"\bsono\s*una?\s*(\d{2})\s*enne",
    # Matches phrases like "i miei 22 anni" (my 22 years)
    # r"\bmiei\s*(\d{2})\s*anni",
]

def return_full_age_char_pattern(age_char):
    """
    Returns a list of regex patterns for matching Twitter posts mentioning the age of the user.
    The patterns are built using the age_char parameter, which is a string containing the
    Italian word for the age of the user (e.g. "ventidue" for 22).
    """
    age_char_patterns = [
            # Matches phrases like "ho compiuto ventidue anni" (I just turned twenty-two)
            # but not "quando ho compiuto ventidue anni" (when I turned twenty-two)
            # nor "ho compiuto ventidue anni di/de" (I have twenty-two years of)
            r"(?<!quando\s)(?<!quando)ho\s*compiuto\s*({}).*\s*anni(?! de)(?!de)(?! di)(?!di)(?! in più)(?! in meno)".format(age_char),
            r"\bcompio\s*({}).*\s*anni(?! de)(?! di)(?!de)(?!di)".format(age_char),
            # Matches phrases like "ho ventidue anni" (I am twenty-two years old),
            # but not "a quando/non ho ventidue anni" (since I am / I am not twenty-two years old)
            # nor "ho ventidue anni di/de" (I have twenty-two years of)
            # nor "se ho ventidue anni" (if I am twenty-two years old)
            r"(?<!quando\s)(?<!quando)(?<!non\s)(?<!non)(?<!se\s)(?<!se)ho\s*({}).*\s*anni(?! de)(?! di)(?!de)(?!di)(?! in più)(?! in meno)".format(age_char),
            # Matches phrases like "faccio ventidue anni" (I am turning twenty-two years old)
            r"\bfaccio\s*({}).*\s*anni(?! de)(?! di)(?!de)(?!di)".format(age_char),
            # Matches phrases like "spengo ventidue candeline" (I am blowing twenty-two candles)
            r"\bspengo\s*({})\s*candeline".format(age_char),
            # Matches phrases like "mio ventiduesimo comple/compleanno" (my twenty-second birthday)
            r"il\s*mio\s*{}e?simo\s*comple(?:anno)?".format(age_char),
            # Matches phrases like "sono un ventiduenne" (I am twenty-two-years-old...)
            r"\bsono\s*una?\s*({})\s*e?nne".format(age_char),
            # Matches phrases like "i miei ventidue anni" (my twenty-two years)
            # r"\bmiei\s*({}).*\s*anni".format(age_char),
        ]
    return age_char_patterns

def tweet_user_age(tweet):
    """
    Returns the age of the user who posted the tweet, if the tweet contains a mention of the user's age.
    TODO: the age returned by this function should be compared with the creation date of the tweet.
    """
    if len(tweet) > 0:
        # check if the tweet contains a double digit number, but not in a quoted text
        if re.search(r"\d{2}", tweet):
            if not re.search(r"\".*\d{2}.*\"", tweet) \
                and not re.search(r"\“.*\d{2}.*\”", tweet) \
                and not re.search(r"\«.*\d{2}.*\»", tweet):

                # search for age patterns
                for i, pattern in enumerate(AGE_DIGIT_PATTERNS):
                    matches = re.findall(pattern, tweet, flags=re.IGNORECASE)
                    if matches:
                        return {"tweet": tweet, "regex_type": "age_digit", "regex_idx": i, "age": int(matches[0])}

                # search for year of birth patterns
                for i, pattern in enumerate(YEAR_OF_BIRTH_PATTERNS):
                    matches = re.findall(pattern, tweet, flags=re.IGNORECASE)
                    if matches:
                        birth_year = re.sub('[^0-9]','', matches[0])
                        # if only a double digit year is retrieved, then attach 19 or 20 to it
                        if len(birth_year) == 2:
                            if int(birth_year) < 20:
                                birth_year = "20" + birth_year
                            else:
                                birth_year = "19" + birth_year
                        return {"tweet": tweet, "regex_type": "birth_year", "regex_idx": i, "age": int(birth_year)}

        # check if the tweet contains an age expressed in characters
        if re.search(r"{}".format("|".join(AGE_CHAR_SUFFIX_SHORT)), tweet, flags=re.IGNORECASE):
            # check what age is expressed in the tweet and retrieve its index
            matching_age_char = re.findall(r"{}".format("|".join(AGE_CHAR_SUFFIX_LONG)), tweet, flags=re.IGNORECASE)[0].lower()
            matching_age_char_index = AGE_CHAR_SUFFIX_LONG.index(matching_age_char)
            # check if the age is not in a quoted text
            if not re.search(r"\".*{}.*\"".format(matching_age_char), tweet, flags=re.IGNORECASE) \
                and not re.search(r"\“.*{}.*\”".format(matching_age_char), tweet, flags=re.IGNORECASE) \
                and not re.search(r"\«.*{}.*\»".format(matching_age_char), tweet, flags=re.IGNORECASE):
                # check if also the full form of the age is present in the tweet
                if re.search(r"{}".format(AGE_CHAR[matching_age_char_index]), tweet, flags=re.IGNORECASE):
                    patterns = return_full_age_char_pattern(AGE_CHAR[matching_age_char_index])
                else:
                    patterns = return_full_age_char_pattern(AGE_CHAR_SUFFIX_LONG[matching_age_char_index])
                # search for age statements and retrieve age
                for i, pattern in enumerate(patterns):
                    matches = re.findall(pattern, tweet, flags=re.IGNORECASE)
                    if matches:
                        return {"tweet": tweet, "regex_type": "age_chars", "regex_idx": i, "age": int(AGE_DIGIT[matching_age_char_index])}

    return {"tweet": tweet, "regex_type": None, "regex_idx": None, "age": None}


YEAR_OF_BIRTH_PATTERNS = [
    # Matches sentences like "sono nato nel 1993/93/'93" (I was born in 1993)
    r"\bsono\s*nato\s*nel\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
    # Matches sentences like "sono del 1993/93/'93" (I am from 1993)
    r"sono\s*del\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
    # Matches sentences like "sono un 1993/93/'93" (I am a 1993)
    r"sono\s*un\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
    # Matches sentences like "sono della generazione 1993/93/'93" (I am generation 1993)
    r"sono\s*della\s*generazione\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
    # Matches sentences like "sono classe 1993/93/'93" (I am class 1993)
    r"sono\s*classe\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
    r"sono\s*un\s*classe\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
]

YEAR_OF_BIRTH_PATTERNS_BIO = [
    # Matches sentences like "sono nato nel 1993/93/'93" (I was born in 1993)
    r"\bsono\s*nato\s*nel\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
    r"\bnato\s*nel\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
    r"\bborn\s*in\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
    # Matches sentences like "sono del 1993/93/'93" (I am from 1993)
    r"sono\s*del\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
    # Matches sentences like "sono un 1993/93/'93" (I am a 1993)
    r"sono\s*un\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
    # Matches sentences like "sono della generazione 1993/93/'93" (I am generation 1993)
    r"sono\s*della\s*generazione\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
    r"\bgenerazione\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
    # Matches sentences like "sono classe 1993/93/'93" (I am class 1993)
    r"sono\s*classe\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
    r"sono\s*un\s*classe\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
    r"\bclasse\s*(20[0-1][0-9]|19[0-9][0-9]|\D\d{2}\s|\D\d{2}$)",
]

# Example tweets
tweets_should_match = [
    "Sono nato nel '52 sai?",
    "Sono nato nel 52 sai?",
    "Sono nato nel 1952 sai?",
    "Sono nato nel 2013 sai?",
    "Sono del '93",
    "Sono del 1966 sai?",
    "Sono del 2000 sai?",
    "Sono un 93",
    "Sono un 2001",
    "Sono un 93 sai?",
    "Sono un '93 sai?",
    "Sono classe '93 sai?",
    "Sono un classe 2000",
    "Ho 20 anni",
    "Ho vent'anni",
]

tweets_should_not_match = [
    "Sono nato nel 1352 sai?",
    "Sono del 1352 sai?",
    "Sono del 2020 sai?",

]

print("######################## Tweets that should match:")
print()
for tweet in tweets_should_match:
    print(tweet_user_age(tweet))

print("\n######################## Tweets that should not match:")
print()
for tweet in tweets_should_not_match:
    print(tweet_user_age(tweet))

######################## Tweets that should match:

{'tweet': "Sono nato nel '52 sai?", 'regex_type': 'birth_year', 'regex_idx': 0, 'age': 1952}
{'tweet': 'Sono nato nel 52 sai?', 'regex_type': 'birth_year', 'regex_idx': 0, 'age': 1952}
{'tweet': 'Sono nato nel 1952 sai?', 'regex_type': 'birth_year', 'regex_idx': 0, 'age': 1952}
{'tweet': 'Sono nato nel 2013 sai?', 'regex_type': 'birth_year', 'regex_idx': 0, 'age': 2013}
{'tweet': "Sono del '93", 'regex_type': 'birth_year', 'regex_idx': 1, 'age': 1993}
{'tweet': 'Sono del 1966 sai?', 'regex_type': 'birth_year', 'regex_idx': 1, 'age': 1966}
{'tweet': 'Sono del 2000 sai?', 'regex_type': 'birth_year', 'regex_idx': 1, 'age': 2000}
{'tweet': 'Sono un 93', 'regex_type': 'birth_year', 'regex_idx': 2, 'age': 1993}
{'tweet': 'Sono un 2001', 'regex_type': 'birth_year', 'regex_idx': 2, 'age': 2001}
{'tweet': 'Sono un 93 sai?', 'regex_type': 'birth_year', 'regex_idx': 2, 'age': 1993}
{'tweet': "Sono un '93 sai?", 'regex_type': 'birth_year', 'regex

In [101]:
# test on the first 1M tweets
tweets = [tweet_user_age(text) for text in df]
tweets = [tweet for tweet in tweets if tweet['age'] is not None]
random.shuffle(tweets)

In [102]:
year_tweets = [tweet for tweet in tweets if tweet['regex_type']=='birth_year']

In [103]:
year_tweets

[{'tweet': "@Droghiere sono del 2001 e se Bieber prova ad infangare un altro titolo lo ammazzo con l'acido muriatico",
  'regex_type': 'birth_year',
  'regex_idx': 1,
  'age': 2001},
 {'tweet': "@croccoppini Perché ho vent'anni e sono del 2000",
  'regex_type': 'birth_year',
  'regex_idx': 1,
  'age': 2000},
 {'tweet': "RT @GAffinito: Le raccomandazioni per l'uso dei #SocialMedia nella PA sono del 2011, ma sono ancora attualissime. Cosa ne pensate? https://…",
  'regex_type': 'birth_year',
  'regex_idx': 1,
  'age': 2011}]