# Data Preprocessing

The goal of this lab is to introduce you to data preprocessing techniques in order to make your data suitable for applying a learning algorithm.

## 1. Handling Missing Values

A common (and very unfortunate) data property is the ocurrence of missing and erroneous values in multiple features in datasets. For this exercise we will be using a data set about abalone snails.
The data set is contained in the Zip file you downloaded from Moodle (abalone.csv).

To determine the age of a abalone snail you have to kill the snail and count the annual
rings. You are told to estimate the age of a snail on the basis of the following attributes:
1. type: male (0), female (1) and infant (2)
2. length in mm
3. width in mm
4. height in mm
5. total weight in grams
6. weight of the meat in grams
7. drained weight in grams
8. weight of the shell in grams
9. number of annual rings (number of rings +1, 5 yields age)

However, the data is incomplete. Missing values are marked with −1.

In [1]:
import pandas as pd
# load data 
df = pd.read_csv("http://www.cs.uni-potsdam.de/ml/teaching/ss15/ida/uebung02/abalone.csv") #Should this not work please use the csv that was part of the zip file.
df.columns=['type','length','width','height','total_weight','meat_weight','drained_weight','shell_weight','num_rings']
df.head()

Unnamed: 0,type,length,width,height,total_weight,meat_weight,drained_weight,shell_weight,num_rings
0,0,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,-1
1,1,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,9
2,0,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,10
3,2,-1.0,0.255,0.08,0.205,0.0895,0.0395,0.055,7
4,2,0.425,0.3,0.095,0.3515,0.141,0.0775,0.12,8


### Exercise 1.1

Compute the mean of of each numeric column and the counts of each categorical column, excluding the missing values.

In [2]:
# 결측치를 제외하고 평균을 추출하라

#df.replace(-1, pd.NA, inplace=True)  # -1을 NA로 변경, inplace=True로 원본을 변경

df_nomv = df.replace(-1, pd.NA) # missing value -1 to NA, to exclude missing value out of mean calculation

df_mean = [df[colname].mean() for colname in df.columns] # calculate mean of each column

#df_nomv.head()
df_mean = pd.DataFrame([df_mean], columns=df.columns) # convert data in list to dataframe

df_mean.head()
df_mean.round(2) # decimal point 2



Unnamed: 0,type,length,width,height,total_weight,meat_weight,drained_weight,shell_weight,num_rings
0,0.91,0.48,0.37,0.11,0.78,0.32,0.15,0.21,9.66


### Exercise 1.2

Compute the median of each numeric column,  excluding the missing values.

In [3]:
# 결측치를 제외하고 중앙값을 추출하라

df_median = [df[colname].median() for colname in df.columns] # calculate median of each column
df_median = pd.DataFrame([df_median], columns=df.columns) # convert data in list to dataframe

df_median.head()
df_median.round(2) # decimal point 2


Unnamed: 0,type,length,width,height,total_weight,meat_weight,drained_weight,shell_weight,num_rings
0,1.0,0.54,0.42,0.14,0.78,0.33,0.17,0.22,9.0


### Exercise 1.3

Handle the missing values in a way that you find suitable. Think about different ways. Discuss dis-/advantages of your approach. Argue your choices.


Missing values를 처리하는 많은 방법이 있다. 각 방법의 장단점을 고려하여 적절한 방법을 찾아보도록 하자.

개수가 적은 경우에는 인스턴스 자체를 삭제해버릴 수도 있다. 아니면 새로운 binary attribute를 넣어서 결측 유무를 표시할수도 있다.


평균 또는 중간값으로 해당 값을 대체할수도 있고, Regression이나 예측 모델을 사용할수도 있다.

해당 데이터를 삭제해버리는 것은 너무 brutal하니, numerical 밸류는 평균으로, categorical은 median으로 대체해보도록 하자


In [4]:
df_nomv.head()   

Unnamed: 0,type,length,width,height,total_weight,meat_weight,drained_weight,shell_weight,num_rings
0,0,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,
1,1,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,9.0
2,0,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,10.0
3,2,,0.255,0.08,0.205,0.0895,0.0395,0.055,7.0
4,2,0.425,0.3,0.095,0.3515,0.141,0.0775,0.12,8.0


In [5]:
# df_new = df_nomv는 df_nomv의 주소를 참조하므로 df_nomv를 변경하면 df_new도 변경된다.
# df_new = df_nomv is reference of df_nomv, so if df_nomv is changed, df_new is also changed.
df_new  = df_nomv.copy() # copy dataframe to new dataframe

df_new['type'] = df_new['type'].replace(pd.NA, df_median['type'][0]) # replace missing value in 'type' column with median value

df_new['num_rings'] = df_new['num_rings'].replace(pd.NA, df_median['num_rings'][0])# same for ring column
#df_new['num_rings'] = df_new['num_rings'].fillna(df_median['num_rings'][0])  # from chatGPT, it's supposed to execute same as above

# fill missing value with mean value from corresponding column
for col in df_new.columns:
    df_new[col] = df_new[col].replace(pd.NA, df_mean[col][0])

df_new.head()
df_new.round(2)



  df_new['type'] = df_new['type'].replace(pd.NA, df_median['type'][0]) # replace missing value in 'type' column with median value
  df_new['num_rings'] = df_new['num_rings'].replace(pd.NA, df_median['num_rings'][0])# same for ring column
  df_new[col] = df_new[col].replace(pd.NA, df_mean[col][0])


Unnamed: 0,type,length,width,height,total_weight,meat_weight,drained_weight,shell_weight,num_rings
0,0.0,0.35,0.26,0.09,0.23,0.10,0.05,0.07,9.0
1,1.0,0.53,0.42,0.14,0.68,0.26,0.14,0.21,9.0
2,0.0,0.44,0.36,0.12,0.52,0.22,0.11,0.16,10.0
3,2.0,0.48,0.26,0.08,0.20,0.09,0.04,0.06,7.0
4,2.0,0.42,0.30,0.10,0.35,0.14,0.08,0.12,8.0
...,...,...,...,...,...,...,...,...,...
4171,1.0,0.56,0.45,0.16,0.89,0.37,0.24,0.25,11.0
4172,0.0,0.59,0.44,0.14,0.97,0.44,0.21,0.26,10.0
4173,0.0,0.60,0.48,0.20,1.18,0.53,0.29,0.31,9.0
4174,1.0,0.62,0.48,0.15,0.78,0.53,0.26,0.30,10.0


### Exercise 1.4

Perform Z-score normalization on every column (except the type of course!)

In [6]:
z_df = df_new - df_new.mean() / df_new.std() # z-score normalization
z_df = z_df.round(2)
z_df.head()


Unnamed: 0,type,length,width,height,total_weight,meat_weight,drained_weight,shell_weight,num_rings
0,-1.17,-4.05,-3.88,-3.25,-1.49,-1.53,-1.61,-1.66,5.9
1,-0.17,-3.87,-3.73,-3.2,-1.03,-1.38,-1.52,-1.52,5.9
2,-1.17,-3.96,-3.78,-3.21,-1.2,-1.42,-1.55,-1.57,6.9
3,0.83,-3.92,-3.89,-3.26,-1.51,-1.54,-1.62,-1.67,3.9
4,0.83,-3.97,-3.85,-3.24,-1.36,-1.49,-1.58,-1.61,4.9


## 2. Preprocessing text (Optional)

One possible way to transform text documents into vectors of numeric attributes is to use the TF-IDF representation. We will experiment with this representation using the 20 Newsgroup data set. The data set contains postings on 20 different topics. The classification problem is to decide which of the topics a posting falls into. Here, we will only consider postings about medicine and space.

In [7]:
from sklearn.datasets import fetch_20newsgroups


categories = ['sci.med', 'sci.space'] # train은 트레이닝 데이터 서브셋
raw_data = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, random_state=42) # random_state는 난수 생성할때 쓰이는 시드값. 같은 시드값을 주면 같은 난수가 생성된다.
# raw_data는 dictionary 형태로 저장되어 있음. keys()로 확인 가능.
print(f'The index of each category is: {[(i,target) for i,target in enumerate(raw_data.target_names)]}') # target_names는 카테고리 이름을 저장하고 있음.

The index of each category is: [(0, 'sci.med'), (1, 'sci.space')]


Check out some of the postings, might find some funny ones!

In [8]:
import numpy as np
idx = np.random.randint(0, len(raw_data.data)) #
print(raw_data.target[idx]) # target은 카테고리 인덱스를 나타냄. idx는 랜덤으로 추출한 이메일의 인덱스. 즉 그 이메일이 어떤 카테고리에 속하는지 나타냄.
print(idx)
print (f'This is a {raw_data.target_names[raw_data.target[idx]]} email.\n') #raw_data.target[idx]는 해당 이메일의 카테고리 인덱스를 나타냄.
print (f'There are {len(raw_data.data)} emails.\n') # 전체 이메일 수
print(raw_data.data[idx]) # 전체 이메일 중 idx번째 이메일을 출력.

0
943
This is a sci.med email.

There are 1187 emails.

From: geb@cs.pitt.edu (Gordon Banks)
Subject: Re: Could this be a migraine?
Reply-To: geb@cs.pitt.edu (Gordon Banks)
Organization: Univ. of Pittsburgh Computer Science
Lines: 34


In article <20773.3049.uupcb@factory.com> jim.zisfein@factory.com (Jim Zisfein) writes:

>Headaches that seriously interfere with activities of daily living
>affect about 15% of the population.  Doesn't that sound like
>something a "primary care" physician should know something about?  I
>tend to agree with HMO administrators - family physicians should
>learn the basics of headache management.
>
Absolutely.  Unfortunately, most of them have had 3 weeks of neurology
in medical school and 1 month (maybe) in their residency.  Most
of that is done in the hospital where migraines rarely are seen.
Where are they supposed to learn?  Those who are diligent and
read do learn, but most don't, unfortunately.

>Sometimes I wonder what tension-type headaches have to 

Lets pick the first 10 postings from each category

In [9]:
idxs_med = np.flatnonzero(raw_data.target == 0) # 각 카테고리에 맞는 해당 변수의 인덱스를 추출해서 새 변수에 저장
# print(idxs_med)
idxs_space = np.flatnonzero(raw_data.target == 1)
# flatnonzero 함수는 0이 아닌 요소의 인덱스를 반환하는 함수. 여기서는 target이 0인 인덱스를 추출.
# 이 함수는 다차원 배열을 1차원으로 평평하게 만든 후, 0이 아닌 요소의 인덱스를 반환.

idxs = np.concatenate([idxs_med[:10],idxs_space[:10]]) # 각 카테고리에서 맨 앞 10개의 인덱스를 추출해서 idx에 저장. 
# concatenate 함수는 두 배열을 합치는 함수. 여기서는 0~9번째까지의 med와 0~9번째까지의 space를 합쳐서 20개를 추출.

data = np.array(raw_data.data) # 인덱스에 해당하는 데이터를 추출하기 위해 numpy array로 변환
data = data[idxs] # 인덱스에 해당하는 데이터만 추출

<a href="http://www.nltk.org/">NLTK</a> is a toolkit for natural language processing. Take some time to install it and go through this <a href="http://www.slideshare.net/japerk/nltk-in-20-minutes">short tutorial/presentation</a>. (or use e.g. Google colab where the package is prepared already)

The downloaded package below is a tokenizer that divides a text into a list of sentences, by using an unsupervised algorithm to build a model for abbreviation words, collocations, and words that start sentences.

In [10]:
import nltk
import itertools
nltk.download('punkt')

# Tokenize the sentences into words
tokenized_sentences = [nltk.word_tokenize(sent) for sent in data]
vocabulary_size = 1000
unknown_token = 'unknown'

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\exima\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


토큰화(tokenization)는 텍스트를 작은 단위로 나누는 과정을 말합니다. 이 작은 단위는 주로 단어, 문장 또는 문단이 될 수 있습니다. 일반적으로 자연어 처리에서는 문장을 단어로 분할하는 것이 일반적입니다. 예를 들어, "Hello, how are you?"라는 문장을 토큰화하면 다음과 같이 단어로 분할됩니다:

원본 문장: "Hello, how are you?"

토큰화 결과: ["Hello", ",", "how", "are", "you", "?"]

이렇게 텍스트를 단어 단위로 나누는 과정을 토큰화라고 합니다. 토큰화는 자연어 처리 작업에서 매우 중요한 전처리 단계 중 하나입니다. 이를 통해 텍스트 데이터를 모델에 입력으로 사용할 수 있도록 준비할 수 있습니다.

위 코드는 NLTK에서 제공하는 문장 토크나이저인 punkt를 다운로드하고, 이를 사용하여 문장을 단어로 토큰화하는 작업을 수행합니다.

1. `nltk.download('punkt')`: NLTK에서 제공하는 punkt 토크나이저를 다운로드하는 명령입니다. 이 토크나이저는 문장을 단어로 토큰화하는 데 사용됩니다.
2. `tokenized_sentences` = [nltk.word_tokenize(sent) for sent in data]: 각 문장을 단어로 토큰화하여 리스트에 저장합니다. data는 토큰화할 문장의 리스트입니다.
3. `vocabulary_size = 1000`: 단어 집합의 크기를 지정합니다. 이는 모델이 학습할 최대 단어의 개수를 결정합니다.
4. `unknown_token = 'unknown'`: 알려지지 않은 단어(unknown word)를 나타내는 특별한 토큰을 정의합니다. 모델이 학습되지 않은 단어는 이 토큰으로 대체됩니다.

이제 tokenized_sentences에는 각 문장이 단어로 토큰화된 리스트가 저장되어 있습니다. 이를 사용하여 자연어 처리 작업을 수행할 수 있습니다.

In [11]:
# Count the word frequencies
word_freq = nltk.FreqDist(itertools.chain(*tokenized_sentences))
print (f"Found {len(word_freq.items())} unique words tokens.")

Found 1636 unique words tokens.


위 코드는 NLTK의 `FreqDist`를 사용하여 토큰화된 문장에서 고유한 단어 토큰의 빈도를 계산하는 작업을 수행합니다.

- `itertools.chain(*tokenized_sentences)`는 `tokenized_sentences` 리스트에 있는 각 문장의 단어 토큰 리스트를 하나의 이터레이터로 결합합니다. 이는 여러 리스트를 하나의 단일 리스트로 만듭니다.

- `nltk.FreqDist()`는 주어진 리스트의 요소의 빈도를 계산합니다. 여기서는 모든 문장의 단어 토큰을 하나의 리스트로 결합한 이터레이터를 입력으로 사용합니다.

- `word_freq.items()`는 빈도 분포 객체에서 각 단어와 해당 빈도를 포함하는 (단어, 빈도) 튜플의 리스트를 반환합니다. 이 리스트의 길이를 계산하여 총 고유한 단어 토큰의 수를 출력합니다.

여기서 '이터레이터(iterator)'란 파이썬에서 반복 가능한(iterable) 객체에서 원소를 하나씩 순서대로 꺼내올 수 있는 객체를 말합니다. 이터레이터는 주로 for 루프를 사용하여 순회하거나 next() 함수를 사용하여 원소를 하나씩 가져오는 데 사용됩니다.

예를 들어, 리스트, 튜플, 세트 등의 컬렉션은 이터레이터입니다. 즉, 이들은 반복 가능하며 for 루프를 사용하여 순회할 수 있습니다. 하지만 이터레이터는 전체 요소를 한 번에 메모리에 저장하지 않고 필요한 만큼 요소를 생성하므로 메모리를 효율적으로 사용할 수 있습니다.

In [12]:
# Get the most common words and build index_to_word and word_to_index vectors
vocab = word_freq.most_common(vocabulary_size-1)
index_to_word = [x[0] for x in vocab]
index_to_word.append(unknown_token)
word_to_index = dict([(w,i) for i,w in enumerate(index_to_word)])
 
print (f"Using vocabulary size {vocabulary_size}." )
print (f"The least frequent word in our vocabulary is '{vocab[-1][0]}' and appeared {vocab[-1][1]} times.")
print(f"index to word is {index_to_word[5][2]}")
print(vocab[1][1])

total = [x[1] for x in vocab]
print(vocab)
print(vocab[2][0])
print(total)
total = sum(total)
print(f"total number of words: {total}")

Using vocabulary size 1000.
The least frequent word in our vocabulary is 'AN' and appeared 1 times.
index to word is e
152
[(':', 158), ('.', 152), (',', 142), ('--', 139), ('>', 136), ('the', 124), (')', 88), ('to', 86), ('(', 83), ('of', 74), ('@', 73), ('a', 63), ('and', 63), ('I', 58), ('that', 54), ('is', 53), ('in', 42), ('it', 37), ('be', 36), ('?', 36), ('for', 35), ('!', 32), ('this', 31), ("n't", 30), ('*', 26), ('are', 24), ("'s", 23), ('From', 21), ('do', 21), ('Subject', 20), ('Organization', 20), ('Lines', 20), ("''", 20), ('on', 19), ('have', 18), ('as', 17), ('not', 17), ('``', 16), ('you', 16), ('In', 15), ('an', 15), ('was', 15), ('we', 14), ('Re', 13), ('The', 13), ('-', 13), ('<', 12), ('would', 12), ('if', 12), ('o', 12), ('writes', 11), ('will', 11), ('It', 11), ('but', 11), ('or', 11), ('they', 11), ('Space', 11), ('article', 10), ('may', 10), ('with', 10), ('food', 10), ('by', 10), ('what', 10), ('...', 10), ('see', 10), ('like', 9), ('should', 9), ('can', 9), (

위 코드는 주어진 단어 빈도 데이터를 사용하여 단어 집합(vocabulary)을 만드는 작업을 수행합니다.

- `word_freq.most_common(vocabulary_size-1)`: `word_freq` 객체에 저장된 단어 빈도 데이터 중에서 가장 빈도가 높은 단어부터 `vocabulary_size-1`개를 선택합니다. 여기서 -1은 빈도가 가장 낮은 단어를 위해 하나의 위치를 남겨두는 것을 의미합니다.

- `index_to_word = [x[0] for x in vocab]`: 빈도가 높은 순으로 선택된 단어들을 담은 리스트를 만듭니다. 각 요소는 (단어, 빈도) 튜플에서 단어만 추출합니다.

- `index_to_word.append(unknown_token)`: 알려지지 않은 단어를 나타내는 특별한 토큰인 `unknown_token`을 단어 집합에 추가합니다.

- `word_to_index = dict([(w,i) for i,w in enumerate(index_to_word)])`: 단어와 해당 인덱스를 매핑하는 딕셔너리인 `word_to_index`를 생성합니다. `enumerate(index_to_word)`를 사용하여 각 단어와 해당 인덱스를 순회하고, 이를 딕셔너리로 변환합니다.

### Exercise 2.1

Code your own TF-IDF representation function and use it on this dataset. (Don't use code from libraries. Build your own function with Numpy/Pandas). Use the formular TFIDF = TF * (IDF+1). The effect of adding “1” to the idf in the equation above is that terms with zero idf, i.e., terms that occur in all documents in a training set, will not be entirely ignored. The term frequency is the raw count of a term in a document. The inverse document frequency is the natural logarithm of the inverse fraction of the documents that contain the word.

In [13]:
from sklearn.feature_extraction.text import CountVectorizer
countvec = CountVectorizer()
df = pd.DataFrame(countvec.fit_transform(data).toarray(), columns=countvec.get_feature_names_out())

def tfidf(df):
    # TFIDF = TF * (IDF + 1)
    # idf에 1을 더하는 이유는 모든 단어가 적어도 한 번은 나타나야 하기 때문. idf가 0이 되는 것을 방지.
    # TF(d, w) = (특정 단어 w의 문서 d 내 등장 횟수) / (해당 문서 d 내 총 단어 수)
    # IDF(w) = log_e(총 문서 수 / w를 포함한 문서 수)
    pass
    '''
    ## tokenizing words
    tokenized_sentences = [nltk.word_tokenize(sent) for sent in df]
    print(tokenized_sentences)
    #unknown_token = 'unknown'
    word_freq = nltk.FreqDist(itertools.chain(*tokenized_sentences)) # word frequency in tokenized sentences
    print (f"Found {len(word_freq.items())} unique words tokens.")
    
    vocabulary_size = len(word_freq.items())
    vocab = word_freq.most_common(vocabulary_size-1)
    
    # calculate term frequency ---
    ## total number of words
    #total = sum(word_freq.values()) # total number of words in all documents
    
    total = [x[1] for x in vocab]
    total = sum(total)
    print(f"total number of words: {total}")
    
    
    word_tf = [x[0] for x in vocab]
    freq_tf = [x[1]/total for x in vocab]# term frequency
    tf = dict(zip(word_tf, freq_tf))
    
    # calculate inverse document frequency ---
    ## 문서 내에 단어가 있는지 여부를 나타내는 딕셔너리 생성
    ## create dictionary to indicate whether word is in document
    
    document_contains_word = {}
     for column in df.columns:
      for doc in df[column]:  # 'column_name'을 실제 텍스트가 있는 열 이름으로 바꿔주세요.
        for word in set(nltk.word_tokenize(doc)):   # 문서를 단어로 분할하고 중복 제거
          if word in document_contains_word:  # 만약 단어가 이미 딕셔너리에 있으면
            document_contains_word[word] += 1 # 해당 단어가 포함된 문서 수를 1 증가
          else:                 # 없으면
            document_contains_word[word] = 1  # 새로운 단어로 추가

    
    # IDF 계산
    idf = {}
    num_documents = len(df)
    for word, doc_count in document_contains_word.items():
        idf[word] = np.log(num_documents / doc_count)        # 전체 문서 수
        
    tfidf = {}
    for doc_index, doc in enumerate(df):
        tfidf[doc_index] = {}
        for word in doc:
            tfidf[doc_index][word] = tf[word] * (idf[word] + 1)  # TF * (IDF + 1)
    
    return tfidf
    '''
    # at least i tried
    
    return None

tfidf(df)
    
    
rep = tfidf(df)

# Check if your implementation is correct
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(norm=None, smooth_idf=False, use_idf=True)
X_train = pd.DataFrame(vectorizer.fit_transform(data).toarray(), columns=countvec.get_feature_names_out())
answer=['No','Yes']
epsilon = 0.0001
if rep is None: 
  print (f'Is this implementation correct?\nAnswer: {answer[0]}')
if rep is not None:
  print (f'Is this implementation correct?\nAnswer: {answer[1*np.all((X_train - rep) < epsilon)]}')
  
print(df)

Is this implementation correct?
Answer: No
    02  041300  07  0815  10  101  10511  11  115397  12  ...  yellow  \
0    0       0   0     0   0    0      0   0       0   0  ...       0   
1    0       0   0     0   0    0      0   0       0   0  ...       0   
2    0       0   0     0   0    0      0   1       0   0  ...       0   
3    0       0   0     0   0    0      0   0       0   0  ...       0   
4    0       0   0     0   0    0      0   0       0   0  ...       0   
5    0       0   0     0   0    0      0   0       0   0  ...       0   
6    0       0   0     0   0    0      0   0       0   0  ...       0   
7    0       0   0     0   1    0      0   0       0   0  ...       0   
8    0       0   0     0   0    0      0   0       0   0  ...       3   
9    0       0   0     0   0    0      0   0       0   0  ...       0   
10   0       0   0     0   0    0      0   0       0   1  ...       0   
11   0       0   0     0   0    0      0   1       0   0  ...       0   
12   0  

In [14]:
# an example of what to do with these similarities:


# analysis with tf-idf
from sklearn.metrics.pairwise import cosine_similarity

similiarities = cosine_similarity(rep, rep) # measure of the similarity of the direction of two vectors

InvalidParameterError: The 'X' parameter of cosine_similarity must be an array-like or a sparse matrix. Got None instead.

In [None]:
np.fill_diagonal(similiarities, 0)
max_ind = np.unravel_index(similiarities.argmax(), similiarities.shape)
similiarities[max_ind] # highest similarity of two documents

NameError: name 'similiarities' is not defined