In [None]:
import pandas as pd
import nltk
# We don't need all of the columns, let's leave out a lot of them
columns = ['text']

df = pd.read_csv("20211.csv", encoding='latin-1')
df.sample(5)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,text,Unnamed: 9
11896,11897,6596,1/17/2021 14:43,IlFriuli,1.35e+18,coronavirus nuovi casi e decessi in fvg scendo...,False,True,coronavirus nuovi casi e decessi in fvg scendo...,True
49893,49894,44959,3/21/2021 17:31,solops,1.37e+18,coronavirus italia il bollettino di domenica m...,False,True,coronavirus italia il bollettino di domenica m...,True
56359,56360,51490,4/4/2021 15:20,100x100Napoli,1.38e+18,il bollettino relativo alla,False,True,il bollettino relativo alla,True
57815,57816,52949,4/11/2021 6:34,valsxda,1.38e+18,san giovanni di sinis cabras or spero di poter...,False,True,san giovanni di sinis cabras or spero di potei...,True
14334,14335,9049,1/24/2021 5:49,Notiziedi_it,1.35e+18,roma coronavirus positivi el shaarawy e due de...,False,True,roma coronavirus positivi el shaarawy e due de...,True


In [None]:
df.shape

(64999, 10)

In [74]:
# We're only using single words (no "green new deal") because the
# stemmer won't work with multiple words


categories = {
    'symptoms': [
          'alterazione',
          'anosmia', 
          'ansia', 
          'appetito', 
          'aritmi',
          'articolari', 
          'articolaridepressione', 
          'articolazioni',
          'attenzione', 
          'capelli',
          'capogiri',
          'cardiovascul', 
          'cognitive', 
          'concentrazione', 
          'confusione',
          'costrizione',
          'cuore',
          'cutanea', 
          'deficit',
          'depressione',
          'diarrea',  
          'disfunzione', 
          'disordine', 
          'dispnea',
          'dolore',
          'eruzione', 
          'fatica', 
          'febbre',
          'febbricola', 
          'gusto',  
          'ictus',
          'inappetenza', 
          'infarto',
          'insomnia', 
          'linguaggio',
          'malattia', 
          'malessere', 
          'mancanza', 
          'memoria', 
          'nebbia', 
          'neurologica', 
          'olfatto', 
          'orecchie', 
          'otalgia', 
          'palpitazioni', 
          'panico',
          'perdita', 
          'pericardite',
          'psichiatrica', 
          'respir', 
          'sforzo'
          'sonno', 
          'stanchezza',
          'stomaco', 
          'tachycardia',
          'tinnito', 
          'toracico', 
          'tosse', 
          'trombosi',
          'umore'
          'ventricolo',
          'vomito']
}
categories

{'symptoms': ['alterazione',
  'anosmia',
  'ansia',
  'appetito',
  'aritmi',
  'articolari',
  'articolaridepressione',
  'articolazioni',
  'attenzione',
  'capelli',
  'capogiri',
  'cardiovascul',
  'cognitive',
  'concentrazione',
  'confusione',
  'costrizione',
  'cuore',
  'cutanea',
  'deficit',
  'depressione',
  'diarrea',
  'disfunzione',
  'disordine',
  'dispnea',
  'dolore',
  'eruzione',
  'fatica',
  'febbre',
  'febbricola',
  'gusto',
  'ictus',
  'inappetenza',
  'infarto',
  'insomnia',
  'linguaggio',
  'malattia',
  'malessere',
  'mancanza',
  'memoria',
  'nebbia',
  'neurologica',
  'olfatto',
  'orecchie',
  'otalgia',
  'palpitazioni',
  'panico',
  'perdita',
  'pericardite',
  'psichiatrica',
  'respir',
  'sforzosonno',
  'stanchezza',
  'stomaco',
  'tachycardia',
  'tinnito',
  'toracico',
  'tosse',
  'trombosi',
  'umoreventricolo',
  'vomito']}

In [75]:
!pip install Cython
!pip install pyStemmer

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [76]:
!pip install pyStemmer
!pip install nltk
import nltk.stem as stemmer
stemmer = Stemmer.Stemmer('it')

dfs = []
for key,values in categories.items():
    words = pd.DataFrame({'category': key, 'term': stemmer.stemWords(values)})
    dfs.append(words)

terms_df = pd.concat(dfs)

terms_df

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Unnamed: 0,category,term
0,symptoms,alter
1,symptoms,anosm
2,symptoms,ansi
3,symptoms,appet
4,symptoms,aritm
5,symptoms,articolar
6,symptoms,articolaridepression
7,symptoms,articol
8,symptoms,attenzion
9,symptoms,capell


In [77]:
from sklearn.feature_extraction.text import CountVectorizer
import Stemmer

# Using pyStemmer because it's way faster than NLTK
stemmer = Stemmer.Stemmer('it')

# Based on CountVectorizer
class StemmedCountVectorizer(CountVectorizer):
    def build_analyzer(self):
        analyzer = super(StemmedCountVectorizer, self).build_analyzer()
        return lambda doc: stemmer.stemWords([w for w in analyzer(doc)])

In [78]:
# Take the 'term' column from our list of terms
term_list = list(terms_df.term)
term_list

['alter',
 'anosm',
 'ansi',
 'appet',
 'aritm',
 'articolar',
 'articolaridepression',
 'articol',
 'attenzion',
 'capell',
 'capogir',
 'cardiovascul',
 'cognit',
 'concentr',
 'confusion',
 'costrizion',
 'cuor',
 'cutane',
 'deficit',
 'depression',
 'diarre',
 'disfunzion',
 'disordin',
 'dispne',
 'dolor',
 'eruzion',
 'fatic',
 'febbr',
 'febbricol',
 'gust',
 'ictus',
 'inappetent',
 'infart',
 'insomn',
 'linguagg',
 'malatt',
 'maless',
 'mancanz',
 'memor',
 'nebb',
 'neurolog',
 'olfatt',
 'orecc',
 'otalg',
 'palpit',
 'panic',
 'perd',
 'pericard',
 'psichiatr',
 'resp',
 'sforzosonn',
 'stanchezz',
 'stomac',
 'tachycard',
 'tinn',
 'torac',
 'toss',
 'trombos',
 'umoreventricol',
 'vom']

In [81]:
# Take the 'term' column from our list of terms
term_list = list(terms_df.term)

# binary=True only does 0/1
# vocabulary= is the list of words we're interested in tracking
vectorizer = StemmedCountVectorizer(binary=True, vocabulary=term_list)
matrix = vectorizer.fit_transform(df.text)
words_df = pd.DataFrame(matrix.toarray(),
                        columns=vectorizer.get_feature_names())
words_df.head()
words_df.to_csv("tweets-categorized.csv", index=False)



In [83]:
df.to_csv("tweets-categorized2.csv", index=False)