# 맞춤법 검사와 빈도 확인

In [65]:
from textblob import TextBlob

In [66]:
text = "I went to the store to buy some apples and bananas. But, when I got there, all of their apples were sold out."

In [67]:
# 가장 먼저 해야하는 bolb만들기
blob = TextBlob(text)
blob, type(blob)

(TextBlob("I went to the store to buy some apples and bananas. But, when I got there, all of their apples were sold out."),
 textblob.blob.TextBlob)

In [68]:
# 단어 리스트 만들기
blob.words

WordList(['I', 'went', 'to', 'the', 'store', 'to', 'buy', 'some', 'apples', 'and', 'bananas', 'But', 'when', 'I', 'got', 'there', 'all', 'of', 'their', 'apples', 'were', 'sold', 'out'])

In [69]:
# 단어 개수 세기
len(blob.words)

23

In [70]:
# 단어 리스트 내부에 특정 단어가 몇개 있는가
blob.words.count("apples")

2

In [71]:
# 단어 리스트 내부에 특정 단어가 몇개 있는가
blob.words.count("Apples", case_sensitive = True)

0

In [72]:
# blob 만들기
blob_2 = TextBlob("dog dogs running")
blob_2

TextBlob("dog dogs running")

In [73]:
# 앞에서는 여러가지 귀찮게 사전작업을 해야만 아래 작업들이 가능하지만
# textblob에서는 한번에 가능하다
for word in blob_2.words:
    print("WORD : ",word)
    print("SIGN : ",word.singularize()) # 복수를 단수로 만들어줌
    print("STEM : ",word.stem())
    print("-----------------")

WORD :  dog
SIGN :  dog
STEM :  dog
-----------------
WORD :  dogs
SIGN :  dog
STEM :  dog
-----------------
WORD :  running
SIGN :  running
STEM :  run
-----------------


In [74]:
blob_3 = TextBlob("I was studying Python in th library")

In [75]:
# result_list = list()
result_list = []

In [76]:
for word in blob_3.words:
    result_list.append(word.stem())

In [77]:
print(result_list)

['i', 'wa', 'studi', 'python', 'in', 'th', 'librari']


In [78]:
# 리스트 요소 이어주기
result_string = " ".join(result_list)

In [79]:
print(result_string)

i wa studi python in th librari


In [80]:
# blob 만들어 주기
#blob_4 = TextBlob("I am suuck at spelling")
blob_4 = TextBlob("I suuck at spelling")

# **구문:** TextBlob.correct() 
# **반환:** 철자 오류 없이 올바른 문장을 반환합니다. 

In [81]:
# 맞춤법 검사기
blob_5 = blob_4.correct()
print(blob_5)

I stuck at spelling


In [82]:
blob_6 = TextBlob("What should we eat tonight?")

### 3.5N-그램

여러 단어의 조합을 N-Grams라고 합니다. N 그램(N > 1)은 일반적으로 단어에 비해 더 많은 정보를 제공하며 언어 모델링의 기능으로 사용할 수 있습니다. N-gram 은 n개의 연속 단어의 튜플을 반환하는 ***ngrams\*** 함수를 사용하여 ***TextBlob\*** 에서 쉽게 액세스할 수 있습니다 .

In [83]:
result = blob_6.ngrams(n=2)
print(result)

[WordList(['What', 'should']), WordList(['should', 'we']), WordList(['we', 'eat']), WordList(['eat', 'tonight'])]


In [84]:
result = blob_6.ngrams(n=3)
print(result)

[WordList(['What', 'should', 'we']), WordList(['should', 'we', 'eat']), WordList(['we', 'eat', 'tonight'])]


In [85]:
word_list_1 = result[0]
word_list_1

WordList(['What', 'should', 'we'])

In [86]:
print(type(word_list_1))

<class 'textblob.blob.WordList'>


In [87]:
blob_text_gen = TextBlob("I took my dog for a walk in the park when it started raining. Thankfully, I brought my umbrella, but my dog got wet")

In [88]:
# ngrams로 두개씩 묶어주기
n_grams = blob_text_gen.ngrams(n=2)
print(n_grams)

[WordList(['I', 'took']), WordList(['took', 'my']), WordList(['my', 'dog']), WordList(['dog', 'for']), WordList(['for', 'a']), WordList(['a', 'walk']), WordList(['walk', 'in']), WordList(['in', 'the']), WordList(['the', 'park']), WordList(['park', 'when']), WordList(['when', 'it']), WordList(['it', 'started']), WordList(['started', 'raining']), WordList(['raining', 'Thankfully']), WordList(['Thankfully', 'I']), WordList(['I', 'brought']), WordList(['brought', 'my']), WordList(['my', 'umbrella']), WordList(['umbrella', 'but']), WordList(['but', 'my']), WordList(['my', 'dog']), WordList(['dog', 'got']), WordList(['got', 'wet'])]


In [89]:
# n_gram_dic = dict()
n_gram_dic = {}

In [90]:
# 빈도 찾는 알고리즘
for gram in n_grams:
    key = "-".join(gram)
    if key in n_gram_dic:
        n_gram_dic[key] += 1
    else:
        n_gram_dic[key] = 1

In [91]:
print(n_gram_dic)

{'I-took': 1, 'took-my': 1, 'my-dog': 2, 'dog-for': 1, 'for-a': 1, 'a-walk': 1, 'walk-in': 1, 'in-the': 1, 'the-park': 1, 'park-when': 1, 'when-it': 1, 'it-started': 1, 'started-raining': 1, 'raining-Thankfully': 1, 'Thankfully-I': 1, 'I-brought': 1, 'brought-my': 1, 'my-umbrella': 1, 'umbrella-but': 1, 'but-my': 1, 'dog-got': 1, 'got-wet': 1}


In [92]:
print("count: ")
print("my dog: ", n_gram_dic["my-dog"])
print("my umbrella", n_gram_dic["my-umbrella"])

count: 
my dog:  2
my umbrella 1


In [93]:
p_my_dog = n_gram_dic["my-dog"] / blob_text_gen.words.count("my")
p_my_umbrella = n_gram_dic["my-umbrella"] / blob_text_gen.words.count("my")

print(p_my_dog)
print(p_my_umbrella)

0.6666666666666666
0.3333333333333333


In [94]:
p_dog_for = n_gram_dic["dog-for"] / blob_text_gen.words.count("dog")
p_dog_got = n_gram_dic["dog-got"] / blob_text_gen.words.count("dog")

print(p_dog_for)
print(p_dog_got)

0.5
0.5


In [95]:
# 도전 과제!
# 1. 사용자 입력을 받습니다. 사용자 입력 => testt word test tesst apple fun
# 2. 맞춤법을 수정
# 3. 빈도가 가장 높은 단어를 찾기


In [58]:
# 내가 만든 과제 정답 알고리즘
#word = input()
#blob = TextBlob(word)
#blob_correct = blob.correct()
#frequency = blob_correct.word_counts
#freq_word = None
#most_freq = 0
#for key, value in frequency.items():
#    if value > most_freq:
#        most_freq = value
#        freq_word = key
#print(most_freq)
#print(freq_word)



3
test


In [None]:
# 또다른 알고리즘
user_input = input()
blob = TextBlob(user_input)
blob_corrected = blob.correct()

highest_word_string = ""
highest_count = 0

for word in blob_corrected.words:
    count = blob_corrected.words.count(word.string, case_sensitive=False)
    if count >= highest_count:
        highest_count = count
        highest_word_string = word.string

print(f"가장 많이 사용된 단어는 {highest_word_string}이고 그 숫자는 {highest_count}이다.")

In [59]:
blob = TextBlob("test apple test run")
dic = blob.word_counts

In [60]:
print(dic)

defaultdict(<class 'int'>, {'test': 2, 'apple': 1, 'run': 1})


In [63]:
max_key = max(dic, key = dic.get)
print(max_key)
print(dic[max_key])

test
2


In [62]:
print(dic[max_key])

2


In [None]:
# 라이브 러리 + max() 함수 이용해서 쉽게 만들 수 있음
# testt word test tesst apple fun 입력하셈


In [64]:
user_input = input()
blob = TextBlob(user_input)
blob_corrected = blob.correct()

dic = blob_corrected.word_counts
max_key = max(dic, key= dic.get)
max_value = dic[max_key]

print(f"가장 많이 사용된 단어는 {max_key}이고 그 숫자는 {max_value}이다.")

가장 많이 사용된 단어는 test이고 그 숫자는 3이다.
