In [2]:
# Science words

# These are the most common words for science and adjacent areas (such as math and some medical terms).
# They also include terms that I would expect in popular science publications, such as paleonthologist or egiptologist.
# I tried keeping a balance in the grammatical gender of the words here and tried to remove adjectives and adverbs.
# Also tried to keep the nouns to singular.
sci_normalish = ["antropólogo", "antropóloga", "geógrafa", "geógrafo", "psicólogo", "psicóloga", "sicólgo", "sicóloga",
                 "científica", "científico", "astrónomo", "astrónoma", "químico", "química", "geólogo", "geóloga",
                 "paleontóloga", "paleontólogo", "bioquímico", "bioquímica", "egiptólogo", "egiptóloga", "tecnológico",
                 "tecnológica","geoquímica", "geoquímico", "matemático", "matemática", "zoóloga", "zoólogo", "cosmólogo",
                 "cosmóloga", "físico-matemático", "físico-matemática", "físicomatemático", "físicomatemática", "oncólogo",
                 "oncóloga", "socióloga", "sociólogo", "radióloga", "fisiólogo", "fisióloga", "astrofísica", "astrofísico",
                 "físico", "física", "cognitiva", "cognitivo", "arqueóloga", "arqueólogo"]

# These are terms that could be more relevant depending on the data that we used to train. For example, virologist and
# epidemiologist would probably appear much more in recent tweets than in... well, any year before this one.
sci_issues = ['inorgánico', 'inorgánica', 'cognitivo', 'epidemióloga', 'fisiológica', 'virólogo', 'sismólogo']

# These are words that I would expect to appear more often in wikipedia and news, but not necessarily on twitter
sci_uncommon = ['toxicológico', 'neurocientífico', 'ornitóloga', 'termoquímica', 'neuropsicológico', 'oceanógrafo',
                'musculo-esquelético', 'físico-química', 'radioquímica', 'microbiológico', 'oceanógrafa', 'agroquímica',
                'embriólogo', 'ecóloga', 'aracnólogo', 'bacteriológico', 'vulcanólogo', 'biofísica', 'microbióloga',
                'microbiólogo', 'psico-emocional', 'neuropsicológica', 'petroquímico', 'taxónoma']

# These are words that either:
# 1) I had no idea what they meant.
# 2) Are glaring typos / not translated.
# 3) I would expect to appear in a single news article so the author feels smart.
#    Most words with hyphens would fall in this category.
# 4) Words that I would expect to appear sparsely even in wikipedia and news sources.
#    (as a gendered word - enzyme I would expect to appear, but it is *always* female.
#    Enzymatic can be either male or female, but I don't think it is really used in day to day speech.)
sci_rare = ['enzimático', 'indólogo', 'cosmógrafo', 'eco-innovación', 'científica-tecnológica', 'psicofisiológico',
            'psicofisiológica', 'tecnocientífica', 'semiólogo', 'químico-farmacéutica', 'primatóloga', 'algólogo',
            'propioceptivo', 'tecnociencia', 'técnico-científico', 'brióloga', 'micóloga', 'astrofotógrafo',
            'científico-tecnológica', 'tecnologización', 'etóloga', 'histoquímica', 'fotoquímica', 'científico-tecnológico',
            'psicofísico', 'científico-tecnológicos', 'tísica', 'biogeoquímico', 'entomólogo', 'psico-físico', 'fitoquímico',
            'biogeoquímica', 'mastozoólogo', 'científico-técnico', 'etólogo', 'astrobiólogo', 'médico-científico',
            'agroquímico', 'etnóloga', 'estereoquímica', 'tocólogo', 'ecólogo', 'científico-cultural', 'malacólogo',
            'ecoinnovación', 'algóloga', 'científico-técnica', 'briólogo', 'psicofísica', 'tísico', 'psico-física',
            'neuroquímica', 'fotoquímico', 'astrobiólogos', 'neuroquímico', 'científico-académico', 'tecnocientífico',
            'científico-profesional', 'micólogo', 'técnico-científica', 'químico-farmacéutico']

# Non-science related words, such as alchemist, ufologist, and gastronomer
not_sci = ['gastrónoma', 'humanístico', 'alquímica', 'científico-humanista', 'mercadológico', 'mental', 'psíquica',
           'psíquico', 'pseudocientífica', 'alquímico', 'productivo', 'innovación', 'acientífica', 'innovativo', 'ufólogo',
           'físico-deportiva', 'humanística', 'ufológica', 'innovativa', 'físico-mental', 'mitólogo',]

In [1]:
# Art words

# These are profession words in singular with variations for gender and different regions
art_words = ["arquitecto", "arquitecta", "arqui", "escultor", "escultora", "pintor", "pintora", "escritor", "escritora", 
             "autor", "autora", "redactor", "redactora", "poeta", "poetisa", "bailador", "bailadora", "bailarín",
             "bailarina", "bailaor", "bailaora", "actor", "actora", "actriz", "fotógrafo", "fotógrafa", "restaurador",
             "restauradora", "musicóloga", "musicólogo", "coreógrafo", "coreógrafa", "editor", "editora", "traductor",
             "traductora", "camarógrafo", "camarógrafa", "ceramista", "orfebre", "músico", "música", "cineasta", "narrador",
             "narradora", "literato", "literata", "cantante", "danzarín", "danzarina", "danzante", "cantautor", "cantautora",
             "retratista", "museólogo", "museóloga", "trovador", "trovadora", "cantate", "cantor", "cantora", "cantadora",
             "diseñador", "diseñadora", "escenógrafo", "escenógrafa", "novelista", "dramaturgo", "dramaturga", "paisajista",
             "guionista", "muralista", "animador", "animadora", "ilustrador", "ilustradora"]

# Add plurals?

# These words are prefect examples of register variation and I liked them because of that. However, some of them are
# relatively obscure (typographer) or one of those that you see in a museum dedicated to a specific topic (the word for
# those cartoonists that publish the three panel comic strips on the newspapers). Others are of an activity (mostly refering
# to music and/or dancing), but have only one gramatical gender because of that. Finally, "vedette" is a kind of burlesque
# dancer from the 70's or 80's, but it is a word in increasing disuse (I only know it because of my parents and doubt that
# my cousins' children even know it exists) and as far as I know is only used to refer to women, so it is always of female
# grammatical gender.
not_sure = ['viñetista', "galerista", "vedette", "bailón", "bailongo", 'libretista', 'ebanista', 'tipógrafo', "batucada"]


In [2]:
# male and female terms

# I tried to find terms from different kind of registers that refer to friends and/or family. They go from the most formal
# like "don" and "doña" (used to show respect, usually to older people), to more neutral terms such as "él" and "ella", to
# more despective terms such as "mocos@" (which means something like "snotty brat"). It also takes words from a variety of
# regions in the Spanish-speaking world, such as "tío" (Spain), "huerco" (north of Mexico), and "patojo" (El Salvador).
# I tried to not add slurs and insults as they tend to not be have equivalents on the other gender and/or have a completely
# different meaning.
# I'm also sad that some terms such as "güey", "che", and "pana" were not able to make it in as they are mostly gender
# neutral and I didn't include words that did not change between genders.

es_male = ["masculino", "hombre", "niño", "hermano", "él", "hijo", "padre", "papá", "tío", "abuelo", "primo-hemano",
           "sobrino", "amigo", "muchacho", "patojo", "huerco", "esposo", "nene", "hijastro", "varonil", "cuñado",
           "amiguito", "bisabuelo", "abuelito", "suegro", "nieto", "primo", "novio", "chico", "exesposo", "ex-esposo",
           "nuero", "comadre", "cuñado", "exmarido", "ex-marido", "marido", "mocoso", "chiquillo", "crío", "chico", "cuñao",
           "flaco", "señor", "don", "papito", "papi", "papacito", "chaval", "tipo", "tipejo", "fulano", "zutano", "sujeto",
           "carnal", "valedor"
          ]

es_female = ["femenino", "mujer", "niña", "hermana", "ella", "hija", "madre", "mamá", "tía", "abuela", "primo-hermana",
             "prima-hermana", "sobrina", "amiga", "muchacha", "patoja", "huerca", "esposa", "nena", "hijastra", "femenil",
             "cuñada", "amiguita", "bisabuela", "abuelita", "suegra", "nieta", "prima", "novia", "chica", "exesposa",
             "ex-esposa", "nuera", "compadre", "cuñada", "exmujer", "ex-mujer", "mocosa", "chquilla", "cría", "chica",
             "flaca", "señora","doña", "mamita", "mami", "mamacita", "chavala", "tipa", "tipeja", "fulana", "zutana",
             "sujeta", "carnala", "valedora"
            ] 


In [None]:
# Positive and Negative Words

# Positive Words
es_good = ["caricia", "libertad", "salud", "amor", "paz", "animar", "amistad", "cielo", "lealtad", "placer", "diamante",
           "gentil", "honestidad", "suerte", "arcoiris", "diploma", "regalo", "honor", "milagro", "amanecer", "familia",
           "alegría", "felicidad", "risa", "paraíso", "vacación", "vacaciones", "paz", "maravilloso", "maravillosa",
           'paraíso', 'paradisíaco', 'valentía', "valiente", 'obsequio', "regalo", "bonito", 'bonita', 'misericordia',
           'salubridad', 'homenaje', 'humilde', 'milagro', 'lealtad', 'afortunada', "afortunado", 'orgasmo', 'orgullo',
           'independencia', 'frugalidad', 'tesoro', 'alegre', 'dignidad', 'amorosa', "amoroso", 'satisfacción', 'divertir',
           'generosidad', "generoso", "generosa", 'fortuna', 'caballeroso', 'familar', 'vivaz', 'entusiasmo', 'deleite',
           'maravilloso', "maravillosa", 'respeto', 'encantador', "encantadora", 'camaradería', 'placentera', 'ecuanimidad',
           'inspirador', "inspiradora", 'cordial', 'homenaje', 'gracia', 'compasión', 'afable', 'tranquilidad', 'gustazo',
           'resplandecer', 'grandioso', 'fraternidad', 'humildad', 'magnífica', "magnífico", 'homenajeo', 'fraternal',
           'vitalidad', "estupendo", 'estupenda', 'hermoso', "hermosa", 'arcoíris', 'preciosa', "precioso", 'fabulosa',
           "fabuloso", 'brillante', 'júbilo', 'regocijo', 'gentileza', 'tregua', 'sonrisa', 'afortunadamente', 'serenidad',
           'prosperidad', 'amable', 'gusto', 'bondadoso', "bondadosa", 'cariño', 'confianza', 'pasión', 'honorado',
           "honrada", 'sinceridad', 'noble', 'moralidad', 'ensueño', 'justicia', 'esperanza', 'honradez', 'amoroso',
           "amorosa", 'placentero', "placentera", "bondadoso", 'bondadosa', 'gratitud']

es_bad = ["abuso", "choque", "suciedad", "asesinato", "enfermedad", "accidente", "muerte", "sufrimiento", "veneno", "hedor",
          "apestar", "ataque", "asalto", "desastre", "odio", "contaminación", "tragedia", "divorcio", "cárcel", "pobreza",
          "fea", "feo", "cáncer", "matar", "vómito", "bomba", "maldad", "podrido", "podrida", "agonía", "terrible",
          "horrible", "guerra", "repugnante", 'deshonor',  'insatisfacción', 'insinceridad', 'deshonestidad', 'convicción',
          'martirio', 'desventura', 'locura', 'infortunio', 'desgracia', 'bronca', 'rabia', 'desconfianza', 'desamor',
          'enemistad',  'desgraciao', 'malote', "malota", 'siniestro' ,"siniestra", 'angustia', 'emboscada', 'bomba',
          'aberrante', 'repulsivo', "repulsiva", 'crimen', 'tristeza', 'malevolo', "malevola", 'temor', 'avaricia',
          "horrendo",  'horrenda', 'sufrimiento', 'conmoción', 'trágica', "trágico", 'asqueroso', "asquerosa", 'acidente',
          'ponzoña', 'violencia', 'indignante', 'náusea', 'desventura', 'deshecho', 'tortura', 'bombardeo', 'malo', "mala",
          'emboscado', "emboscada", 'pobreza', 'sobreexplotación', 'podrirse', 'insensatez', 'tufo', 'locura', 'soberbia',
          'masacre', 'enfrentamiento', 'asalto', 'espantosa', "espantosa", 'resentimiento', 'dolencia', 'tonto', "tonta",
          'racismo', 'divorcio', 'doloroso', 'abuso', 'efermedad', 'desagradable', 'golpe', 'ignorante', 'asaltante',
          'rabia', 'cáncer', 'ignorancia', 'padecimiento', 'marginación', 'frialdad', 'desigualdad', 'inequidad',
          'espantoso', "espantosa", 'vómito', 'escalofriante', 'hediondo', 'vileza', 'podrir', 'insultante', 'jodido',
          "jodida", 'putrefacta', "putrefacto", 'pesadilla', 'cruel', 'corrosión', 'cabronada', 'polución', 'aterrorizante',
          'invasión', 'bajito', 'cabrón', 'deceso', 'triste', 'xenofobia', 'prepotente', 'desesperación', 'accidental', 
          'estupidez', 'asalta', 'horroroso', "horrorosa",  'atraco', 'muertes', 'insufrible', 'rencor', 'penuria',
          'secuestro', 'terremoto', 'terriblemente', 'bestial', 'insecticida', 'diarrea', 'desprecio', 'homicidio',
          'homofobia', 'cataclismo', 'bomb', 'limpidez', 'codicia', 'abusivo', "abusiva", 'suicidio', 'descarrilamiento',
          'fracaso', 'violación', 'patología', 'baboso', "babosa", 'derrumbe', 'disparo', "engreído", 'engreída',
          'nauseabundo', "nauseabunda", 'desaseo', 'contaminación', 'sobrexplotación', 'enojo', 'maltrato', 'colisión',
          'maltrato', 'remordimiento', 'fallecer', 'matanza', 'asesinó', 'fétido', 'ira', 'delito', 'asaltar', 'probreza', 
          'podredumbre', 'pestilencia', 'miserable', 'incidente', 'crueldad', 'demencia', 'machismo', 'fallecimiento',
          'indigencia', 'embrutecimiento', 'catástrofe', 'impureza', 'mordedura', 'melanoma', 'catastrófico', 'sucio',
          'asquerosa', 'melancolía', 'tiroteo', 'desaparición', 'impotencia', 'combate', 'hipocresía', "catastrófica",
          'despreciable', 'egoísmo', 'devastador', "devastadora", 'horriblemente', 'irremediable', 'cobardía', 'emperrado',
          'presidio', 'asesinar', 'injusticia', 'escandaloso', "esccandalosa", 'fraude', 'traición', 'espeluznante',
          'humillante', 'desangramiento', 'degradante', 'prejuicio', 'atontar', 'percance', 'malinchismo', 'abominable', 
          'miedo', 'desnutrición', 'malicia', 'pestilente', 'duelo', 'leucemia', 'insolente', 'precariedad', 'indecible',
          'soso', "sosa", 'amargura', 'autobomba', 'infestar', 'abusador', 'inseguridad', 'desesperanza', 'parásito',
          'prisión', 'asesino', 'indecente', 'pesadumbre', 'atentado', 'cochinada', 'maloliente', 'putrefacción',
          'arrepentimiento', 'miseria', 'revanchismo', 'repudiable', 'contaminantes', 'mezquino', "mezquina", 'letal',
          'infección', 'pútrido', 'detestar', 'acoso', 'desempleo', 'avergonzante', 'arrogancia', 'toxina', 'inmoralidad']

