In [2]:
# Science words

# These are the most common words for science and adjacent areas (such as math and some medical terms).
# They also include terms that I would expect in popular science publications, such as paleonthologist or egiptologist.
# I tried keeping a balance in the grammatical gender of the words here and tried to remove adjectives and adverbs.
# Also tried to keep the nouns to singular.
sci_normalish = ["antropólogo", "antropóloga", "geógrafa", "geógrafo", "psicólogo", "psicóloga", "sicólgo", "sicóloga",
                 "científica", "científico", "astrónomo", "astrónoma", "químico", "química", "geólogo", "geóloga",
                 "paleontóloga", "paleontólogo", "bioquímico", "bioquímica", "egiptólogo", "egiptóloga", "tecnológico",
                 "tecnológica","geoquímica", "geoquímico", "matemático", "matemática", "zoóloga", "zoólogo", "cosmólogo",
                 "cosmóloga", "físico-matemático", "físico-matemática", "físicomatemático", "físicomatemática", "oncólogo",
                 "oncóloga", "socióloga", "sociólogo", "radióloga", "fisiólogo", "fisióloga", "astrofísica", "astrofísico",
                 "físico", "física", "cognitiva", "cognitivo", "arqueóloga", "arqueólogo"]

# These are terms that could be more relevant depending on the data that we used to train. For example, virologist and
# epidemiologist would probably appear much more in recent tweets than in... well, any year before this one.
sci_issues = ['inorgánico', 'inorgánica', 'cognitivo', 'epidemióloga', 'fisiológica', 'virólogo', 'sismólogo']

# These are words that I would expect to appear more often in wikipedia and news, but not necessarily on twitter
sci_uncommon = ['toxicológico', 'neurocientífico', 'ornitóloga', 'termoquímica', 'neuropsicológico', 'oceanógrafo',
                'musculo-esquelético', 'físico-química', 'radioquímica', 'microbiológico', 'oceanógrafa', 'agroquímica',
                'embriólogo', 'ecóloga', 'aracnólogo', 'bacteriológico', 'vulcanólogo', 'biofísica', 'microbióloga',
                'microbiólogo', 'psico-emocional', 'neuropsicológica', 'petroquímico', 'taxónoma']

# These are words that either:
# 1) I had no idea what they meant.
# 2) Are glaring typos / not translated.
# 3) I would expect to appear in a single news article so the author feels smart.
#    Most words with hyphens would fall in this category.
# 4) Words that I would expect to appear sparsely even in wikipedia and news sources.
#    (as a gendered word - enzyme I would expect to appear, but it is *always* female.
#    Enzymatic can be either male or female, but I don't think it is really used in day to day speech.)
sci_rare = ['enzimático', 'indólogo', 'cosmógrafo', 'eco-innovación', 'científica-tecnológica', 'psicofisiológico',
            'psicofisiológica', 'tecnocientífica', 'semiólogo', 'químico-farmacéutica', 'primatóloga', 'algólogo',
            'propioceptivo', 'tecnociencia', 'técnico-científico', 'brióloga', 'micóloga', 'astrofotógrafo',
            'científico-tecnológica', 'tecnologización', 'etóloga', 'histoquímica', 'fotoquímica', 'científico-tecnológico',
            'psicofísico', 'científico-tecnológicos', 'tísica', 'biogeoquímico', 'entomólogo', 'psico-físico', 'fitoquímico',
            'biogeoquímica', 'mastozoólogo', 'científico-técnico', 'etólogo', 'astrobiólogo', 'médico-científico',
            'agroquímico', 'etnóloga', 'estereoquímica', 'tocólogo', 'ecólogo', 'científico-cultural', 'malacólogo',
            'ecoinnovación', 'algóloga', 'científico-técnica', 'briólogo', 'psicofísica', 'tísico', 'psico-física',
            'neuroquímica', 'fotoquímico', 'astrobiólogos', 'neuroquímico', 'científico-académico', 'tecnocientífico',
            'científico-profesional', 'micólogo', 'técnico-científica', 'químico-farmacéutico']

# Non-science related words, such as alchemist, ufologist, and gastronomer
not_sci = ['gastrónoma', 'humanístico', 'alquímica', 'científico-humanista', 'mercadológico', 'mental', 'psíquica',
           'psíquico', 'pseudocientífica', 'alquímico', 'productivo', 'innovación', 'acientífica', 'innovativo', 'ufólogo',
           'físico-deportiva', 'humanística', 'ufológica', 'innovativa', 'físico-mental', 'mitólogo',]

In [None]:
# Art words

# These are profession words in singular with variations for gender and different regions
art_words = ["arquitecto", "arquitecta", "arqui", "escultor", "escultora", "pintor", "pintora", "escritor", "escritora", 
             "autor", "autora", "redactor", "redactora", "poeta", "poetisa", "bailador", "bailadora", "bailarín",
             "bailarina", "bailaor", "bailaora", "actor", "actora", "actriz", "fotógrafo", "fotógrafa", "restaurador",
             "restauradora", "musicóloga", "musicólogo", "coreógrafo", "coreógrafa", "editor", "editora", "traductor",
             "traductora", "camarógrafo", "camarógrafa", "ceramista", "orfebre", "músico", "música", "cineasta", "narrador",
             "narradora", "literato", "literata", "cantante", "danzarín", "danzarina", "danzante", "cantautor", "cantautora",
             "retratista", "museólogo", "museóloga", "trovador", "trovadora", "cantate", "cantor", "cantora", "cantadora",
             "diseñador", "diseñadora", "escenógrafo", "escenógrafa", "novelista", "dramaturgo", "dramaturga", "paisajista",
             "guionista", "muralista", "animador", "animadora", "ilustrador", "ilustradora"]

# Add plurals?

# These words are prefect examples of register variation and I liked them because of that. However, some of them are
# relatively obscure (typographer) or one of those that you see in a museum dedicated to a specific topic (the word for
# those cartoonists that publish the three panel comic strips on the newspapers). Others are of an activity (mostly refering
# to music and/or dancing), but have only one gramatical gender because of that. Finally, "vedette" is a kind of burlesque
# dancer from the 70's or 80's, but it is a word in increasing disuse (I only know it because of my parents and doubt that
# my cousins' children even know it exists) and as far as I know is only used to refer to women, so it is always of female
# grammatical gender.
not_sure = ['viñetista', "galerista", "vedette", "bailón", "bailongo", 'libretista', 'ebanista', 'tipógrafo', "batucada"]
