# NLP(natural language processing)-자연어처리
### 자연어: 우리가 일상속에서 쓰는 언어
### 컴퓨터가 자연어를 분석하여 처리하는 과정
### ex) 텍스트분류, 감성분석, 문서요약, 번역, 질의응답

# 1. 자연어처리과정
## 문장이 들어오면
#
## 1. lexical analysis(어휘분석): 각 단어가 무슨 품사인지(noun, verb등)
### -형태소분석(의미를 가지는 가장 작은 단위)+품사태깅(같은 단어여도 의미가 다를경우 중의성 해결위해 부가적 정보 부착)
#
## 2. syntactic analysis(구분분석): 각 단어가 어떤 단어와 관계를 맺는지 트리형로
### -구구조 구문 분석(문법적인 구조를 분석)+의존구문분석(단어간의 의존관계를 분석)
#
## 3. semantic analysis(의미분석): 처리된 데이터를 토대로 의미분석+해석+더 나아가 예측
### -단어 의미 중의성 해소+의미역 분석(서술어가 수식하는 대상을 파악하고 의미를 분석)
![image.png](attachment:70b35fc5-22fb-41f9-84e0-8e65d6ddafdb.png)

In [None]:
!pip install konlpy

In [1]:
from konlpy.tag import Kkma, Hannanum, Komoran, Twitter, Okt, Mecab

In [2]:
#각각의 객체 만듬
kkma=Kkma()
okt=Okt()
komoran=Komoran()
hannanum=Hannanum()
twitter=Twitter()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


---
---
---

# 2. 토큰화(tokenization)
## : 텍스트를 더 작은 단위인 토큰(단어, 구두점, 숫자)으로 분활하는 과정
### 주의점-특수문자(의미를 가질수도있는) 처리나 특정 단어(united kingdom)토큰화에 주의가 필요


# 2-1. 단어 토큰화(두가지 방법)
## .split이나 nlkt사용

In [3]:
#그냥 split 내장 함수 사용
sentence='time is gold'
tokens=sentence.split(' ')
tokens

['time', 'is', 'gold']

In [None]:
# nltk의 tokenize모듈 사용: word_tokenize()
import nltk
nltk.download('punkt_tab')   #쓰일 패키지 다운
nltk.download('averaged_perceptron_tagger_eng')

In [5]:
from nltk.tokenize import word_tokenize
tokens=word_tokenize(sentence)
tokens

['time', 'is', 'gold']

## 한국어 토큰화
## 한국어는 공백으로 분리해도 조사(은/는), 접속사(그리고, 하지만)등이 남아 분석에 어려움
## 이를 위해 pos()함수 사용-태깅

In [6]:
sentence= '언제나 현재에 집중할 수 있다면 행복할것이다'
#위의 만들어준 konlpy객체에 .pos함수 사용, 여러 모델 종류들 사용 가능->태깅 결과들 같이 나옴
print('Kkma 형태소 분석:', kkma.pos(sentence))
print('Hannanum 형태소 분석:', hannanum.pos(sentence))
print('Komoran 형태소 분석:', komoran.pos(sentence))
print('Twitter 형태소 분석:', twitter.pos(sentence))
print('Okt 형태소 분석:', okt.pos(sentence))

Kkma 형태소 분석: [('언제나', 'MAG'), ('현재', 'NNG'), ('에', 'JKM'), ('집중', 'NNG'), ('하', 'XSV'), ('ㄹ', 'ETD'), ('수', 'NNB'), ('있', 'VA'), ('다면', 'ECE'), ('행복', 'NNG'), ('하', 'XSV'), ('ㄹ', 'ETD'), ('것', 'NNB'), ('이', 'VCP'), ('다', 'EFN')]
Hannanum 형태소 분석: [('언제나', 'M'), ('현재', 'N'), ('에', 'J'), ('집중', 'N'), ('하', 'X'), ('ㄹ', 'E'), ('수', 'N'), ('있', 'P'), ('다면', 'E'), ('행복', 'N'), ('하', 'X'), ('ㄹ', 'E'), ('것', 'N'), ('이', 'J'), ('다', 'E')]
Komoran 형태소 분석: [('언제나', 'MAG'), ('현재', 'NNG'), ('에', 'JKB'), ('집중', 'NNG'), ('하', 'XSV'), ('ㄹ', 'ETM'), ('수', 'NNB'), ('있', 'VV'), ('다면', 'EC'), ('행복', 'NNG'), ('하', 'XSV'), ('ㄹ', 'ETM'), ('것', 'NNB'), ('이', 'VCP'), ('다', 'EC')]
Twitter 형태소 분석: [('언제나', 'Adverb'), ('현재', 'Noun'), ('에', 'Josa'), ('집중', 'Noun'), ('할', 'Verb'), ('수', 'Noun'), ('있다면', 'Adjective'), ('행복할것이다', 'Adjective')]
Okt 형태소 분석: [('언제나', 'Adverb'), ('현재', 'Noun'), ('에', 'Josa'), ('집중', 'Noun'), ('할', 'Verb'), ('수', 'Noun'), ('있다면', 'Adjective'), ('행복할것이다', 'Adjective')]


## 토큰화만 실행 시 morphs()함수 사용

In [7]:
print('Kkma 형태소 분석:', kkma.morphs(sentence))
print('Hannanum 형태소 분석:', hannanum.morphs(sentence))
print('Komoran 형태소 분석:', komoran.morphs(sentence))
print('Twitter 형태소 분석:', twitter.morphs(sentence))
print('Okt 형태소 분석:', okt.morphs(sentence))

Kkma 형태소 분석: ['언제나', '현재', '에', '집중', '하', 'ㄹ', '수', '있', '다면', '행복', '하', 'ㄹ', '것', '이', '다']
Hannanum 형태소 분석: ['언제나', '현재', '에', '집중', '하', 'ㄹ', '수', '있', '다면', '행복', '하', 'ㄹ', '것', '이', '다']
Komoran 형태소 분석: ['언제나', '현재', '에', '집중', '하', 'ㄹ', '수', '있', '다면', '행복', '하', 'ㄹ', '것', '이', '다']
Twitter 형태소 분석: ['언제나', '현재', '에', '집중', '할', '수', '있다면', '행복할것이다']
Okt 형태소 분석: ['언제나', '현재', '에', '집중', '할', '수', '있다면', '행복할것이다']


## 형태소(의미를 가지는 가장 작은 언어 단위)만 사용시 nouns()함수 이용

In [8]:
print('Kkma 형태소 분석:', kkma.nouns(sentence))
print('Hannanum 형태소 분석:', hannanum.nouns(sentence))
print('Komoran 형태소 분석:', komoran.nouns(sentence))
print('Twitter 형태소 분석:', twitter.nouns(sentence))
print('Okt 형태소 분석:', okt.nouns(sentence))

Kkma 형태소 분석: ['현재', '집중', '수', '행복']
Hannanum 형태소 분석: ['현재', '집중', '수', '행복', '것']
Komoran 형태소 분석: ['현재', '집중', '수', '행복', '것']
Twitter 형태소 분석: ['현재', '집중', '수']
Okt 형태소 분석: ['현재', '집중', '수']


## 어절 추출: okt의 phrases만 가능
### 어절:  형태소와 단어 사이의 개념으로, 문장에서 의미 있는 단위로 분리되는 최소 단위(주로 공백으로 구분)

In [10]:
okt.phrases(sentence)

['현재', '집중', '집중할 수']

# 2-2. 문장 토큰화(sentence tokenization)
## 줄바꿈 문자 ('\n')를 기준으로 문장을 분리

In [11]:
sentences='The world is a beautiful book.\nBut of little use to him who cannot read it.'
print(sentences)
tokens=sentences.split('\n')
tokens

The world is a beautiful book.
But of little use to him who cannot read it.


['The world is a beautiful book.',
 'But of little use to him who cannot read it.']

## nltk에서는 sent_tokenize()함수 사용

In [12]:
from nltk.tokenize import sent_tokenize

tokens=sent_tokenize(sentences)
tokens

['The world is a beautiful book.',
 'But of little use to him who cannot read it.']

## 한글에서는 konlpy중 kkma만 문장분리기능 있음

In [13]:
text='진짜? 내일 뭐하지. 이렇게 애매모호한 문장도? 밥은 먹었어. 나는'
print(kkma.sentences(text))

['진짜? 내일 뭐하지. 이렇게 애매모호한 문장도? 밥은 먹었어.', '나는']


## 하지만 정확하지 않아 kss(korean sentence splite)라이브러리 이용

In [None]:
!pip install kss  #호환되지 않아 에러

import kss
kss.split_sentences(text)   #이 함수 사용

# 2-3. 정규표현식을 이용한 토큰화
## nltk의 RegexpTokenizer사용

In [14]:
from nltk.tokenize import RegexpTokenizer

sentences='Where there\'s a will. there\'s a way'
standard=RegexpTokenizer('\w+')     #안에 정규표현식 넣고 이걸 기준으로 한다->단어만 출력
tokens=standard.tokenize(sentences)   #안에 text넣음
tokens      # 특수문자 '는 제거

  standard=RegexpTokenizer('\w+')     #안에 정규표현식 넣고 이걸 기준으로 한다->단어만 출력


['Where', 'there', 's', 'a', 'will', 'there', 's', 'a', 'way']

In [15]:
#공백기준으로
standard=RegexpTokenizer('\s+', gaps=True)  #gaps=True에 의해 \s를 가져오게 하는것이 아닌 얘를 기준으로 분리하겠다는 것을 의미
tokens=standard.tokenize(sentences)   
tokens 

  standard=RegexpTokenizer('\s+', gaps=True)  #gaps=True에 의해 \s를 가져오게 하는것이 아닌 얘를 기준으로 분리하겠다는 것을 의미


['Where', "there's", 'a', 'will.', "there's", 'a', 'way']

## 한글에서도 regexptokenizer가능

In [16]:
sentence='안녕하세요 ㅋㅋ 저는 자연어 처리(natural language procession)를ㄹ!! 배우고 있습니다'

standard= RegexpTokenizer('[가-힣]+')
tokens=standard.tokenize(sentence)
tokens    # ㅋ나 ㄹ도 제거

['안녕하세요', '저는', '자연어', '처리', '를', '배우고', '있습니다']

# 2-4. TextBolb을 이용한 토큰화
## TextBlob.words

In [None]:
!pip install textblob

In [17]:
from textblob import TextBlob

eng='Where there\'s a will. where\'s a way '

blob=TextBlob(eng)
blob.words

WordList(['Where', 'there', "'s", 'a', 'will', 'where', "'s", 'a', 'way'])

## 한국어도 가능

In [18]:
kor='성공의 비결은 단 한 가지. 잘할 수 있는 일에 광적으로 집중하는 것이다.'

blob=TextBlob(kor)
blob.words

WordList(['성공의', '비결은', '단', '한', '가지', '잘할', '수', '있는', '일에', '광적으로', '집중하는', '것이다'])

# 2-5.텐서플로우-케라스(딥러닝)를 이용한 토큰화

In [None]:
pip install keras
pip install tensorflow

In [19]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

text_to_word_sequence(eng)

['where', "there's", 'a', 'will', "where's", 'a', 'way']

In [20]:
text_to_word_sequence(kor) #한국어도 가능

['성공의', '비결은', '단', '한', '가지', '잘할', '수', '있는', '일에', '광적으로', '집중하는', '것이다']

# 2-6. 이 외에도 여러 기타 토크나이저 존재
- MWETokenizer의 경우 united kingdom이나 republic of korea와 같은 나뉘면 안되는 애들 묶어서 토큰화
- TweetTokenizer는 트위터에서 사용되는 여러 감성 표현과 감정을 다룸

---
---
---

# 3. n-gram추출(기준으로 나눈것을 n개씩 묶음)
## -n개의 어절이나 음절을 연쇄적으로 분류해 그 빈도를 분석
## - n=1,2,3일때 각각 unigram, bigram, trigram이라 부름

In [21]:
from nltk import ngrams

In [22]:
sentence= 'There is no royal road to learning'
bigram=list(ngrams(sentence.split(),2))  #각각의 문장을 split해서 2개씩 묶어줘
print(sentence.split())   #안에 인자로 아무것도 않넣으면 공백 기준으로 나눔
bigram

['There', 'is', 'no', 'royal', 'road', 'to', 'learning']


[('There', 'is'),
 ('is', 'no'),
 ('no', 'royal'),
 ('royal', 'road'),
 ('road', 'to'),
 ('to', 'learning')]

In [23]:
trigram=list(ngrams(sentence.split(),3))  #3으로
trigram

[('There', 'is', 'no'),
 ('is', 'no', 'royal'),
 ('no', 'royal', 'road'),
 ('royal', 'road', 'to'),
 ('road', 'to', 'learning')]

In [24]:
# textblob으로도 가능
blob=TextBlob(sentence)
blob.ngrams(n=2)

[WordList(['There', 'is']),
 WordList(['is', 'no']),
 WordList(['no', 'royal']),
 WordList(['royal', 'road']),
 WordList(['road', 'to']),
 WordList(['to', 'learning'])]

# 4. PoS(parts-of-speech) 태깅
## - pos는 품사(명사,동사,형용사등)를 의미->각 단어의 해당하는 품사를 태깅
- NN:몀사, VBP: 현재동사, IN:전치사 등

In [25]:
sentence= 'Think like man of action and act like man of thought.'

tokens=word_tokenize(sentence)
pos_tag=nltk.pos_tag(tokens)
pos_tag   #어떤 품사들인지 태깅

[('Think', 'VBP'),
 ('like', 'IN'),
 ('man', 'NN'),
 ('of', 'IN'),
 ('action', 'NN'),
 ('and', 'CC'),
 ('act', 'NN'),
 ('like', 'IN'),
 ('man', 'NN'),
 ('of', 'IN'),
 ('thought', 'NN'),
 ('.', '.')]

# 5. 불용어(stopword)제거-분석에 덜필요한 애들 제거
## -불용어: 전치사(on,in), 조사(을/를), 길이가 짧거나 빈도수가 적은 단어
## 완벽하게 제거되지는 않아 사용자가 불용어 사전을 만들어 제거하는것이 좋음

In [26]:
#불용어 사전 정의
stop_words='on in the'   
stop_words=stop_words.split(' ')
stop_words

['on', 'in', 'the']

In [27]:
#내가 직접 불용어 제거
sentence='singer on the stage'.split(' ')  #리스트화
wanted_words=[]
for i in sentence:
    if i not in stop_words:
        wanted_words.append(i)
wanted_words

['singer', 'stage']

### nltk패키지의 이미 만들어진 불용어 리스트 사용

In [28]:
from nltk.corpus import stopwords

nltk.download('stopwords')   #다운 필요

In [29]:
stop_words=stopwords.words('english')  #영어종류의 불용어만 가져오기
len(stop_words)

198

In [30]:
#이를 기준으로 불용어 제거
s='If you do not walk today, you will have to run tommorow'
words=word_tokenize(s)    #토큰화
no_stopwords=[]    #불용어 제거버전
for i in words:
    if i not in stop_words:
        no_stopwords.append(i)
no_stopwords

['If', 'walk', 'today', ',', 'run', 'tommorow']

# 6. 철자 교정(spelling correction): 오타 처리
### autocorrect 라이브러리의 Speller

In [None]:
! pip install autocorrect

In [31]:
from autocorrect import Speller
spell=Speller('en')    #영어 수정을 설정
print(spell('poeplle'))
print(spell('peope'))
print(spell('peoplle'))

people
people
people


In [32]:
s=word_tokenize('Earlly biird catchess the womm')

ss=' '.join([spell(s)for s in s])  # 고친걸 리스트에 넣고 .join으로 문장화
ss

'Early bird catches the worm'

### textblob의 .correct이용

In [4]:
# textblob이용
from textblob import TextBlob

text = "I am realy hapy to lern NLP."
blob = TextBlob(text)
print(blob.correct())

I am really happy to learn NLP.


# 7. 언어 단수화(singularize)와 복수화(pluralize)
## textblob패키지 사용-but 기준없이 s붙이거나 s땜
## 반면 복수화 시 glass같은 경우 그냥 s만 붙이는게 아니라 es로 붙임 

In [33]:
from textblob import TextBlob

words='apples bananas oranges kiss'
tb=TextBlob(words)

print(tb.words)
print(tb.words.singularize())  #단수화

['apples', 'bananas', 'oranges', 'kiss']
['apple', 'banana', 'orange', 'kis']


In [34]:
words='car train airplane work hi glass'
tb=TextBlob(words)

print(tb.words)
print(tb.words.pluralize())   

['car', 'train', 'airplane', 'work', 'hi', 'glass']
['cars', 'trains', 'airplanes', 'works', 'his', 'glasses']


# 8. 어간(Stemming) 추출
## 어간: 단어의 의미를 가지는 부분으로 변하지 않는 부분
## -ex) 하다->하,   먹다->먹, 예쁘다->예쁘

In [35]:
stemmer=nltk.stem.PorterStemmer()
stemmer.stem('application')

'applic'

In [36]:
print(stemmer.stem('begining'))
print(stemmer.stem('catches'))
print(stemmer.stem('education'))

begin
catch
educ


## konlpy의 okt와 mecab도 가능

In [37]:
text = '나랏말이 중국과 달라 한자와 서로 통하지 아니하므로, \
    우매한 백성들이 말하고 싶은 것이 있어도 마침내 제 뜻을 잘 표현하지 못하는 사람이 많다.\
    내 이를 딱하게 여기어 새로 스물여덟 자를 만들었으니, \
    사람들로 하여금 쉬 익히어 날마다 쓰는 데 편하게 할 뿐이다.'
okt.morphs(text, stem= True)

['나랏말',
 '이',
 '중국',
 '과',
 '달라',
 '한자',
 '와',
 '서로',
 '통',
 '하다',
 '아니다',
 ',',
 '우매',
 '한',
 '백성',
 '들',
 '이',
 '말',
 '하고',
 '싶다',
 '것',
 '이',
 '있다',
 '마침내',
 '제',
 '뜻',
 '을',
 '자다',
 '표현',
 '하다',
 '못',
 '하다',
 '사람',
 '이',
 '많다',
 '.',
 '내',
 '이르다',
 '딱하다',
 '여기다',
 '새롭다',
 '스물',
 '여덟',
 '자르다',
 '만들다',
 ',',
 '사람',
 '들',
 '로',
 '하여금',
 '쉬',
 '익히다',
 '날',
 '마다',
 '쓰다',
 '데',
 '편하다',
 '하다',
 '뿐',
 '이다',
 '.']

# 9. 표제어(lemmatization) 추출
## 표제어: 단어의 기본 형태
## ex) runs, ran, running전부 표제어는 run
## ex) cats->cat  (복수형)
## ex) better와 best같은 형용사의 표제어는 good

In [38]:
from nltk.stem.wordnet import WordNetLemmatizer

nltk.download('wordnet')

In [39]:
lemmatizer=WordNetLemmatizer()  #객체생성

lemmatizer.lemmatize('application')

'application'

In [40]:
print(lemmatizer.lemmatize('beginning'))
print(lemmatizer.lemmatize('catches'))
print(lemmatizer.lemmatize('education'))
print(lemmatizer.lemmatize('best'))

beginning
catch
education
best


# 10. 개체명 인식(Named Entity Recognition)
## ex) 나라명

In [None]:
nltk.download('maxent_ne_chunker_tab')
nltk.download('words')

In [41]:
s='Rome was not built in a day'

tags=nltk.pos_tag(word_tokenize(s))
tags

[('Rome', 'NNP'),
 ('was', 'VBD'),
 ('not', 'RB'),
 ('built', 'VBN'),
 ('in', 'IN'),
 ('a', 'DT'),
 ('day', 'NN')]

In [42]:
entity=nltk.ne_chunk(tags,binary=True)
entity   #개체명일 경우 NE(named entity)라고 표시됨

ModuleNotFoundError: No module named 'svgling'

Tree('S', [Tree('NE', [('Rome', 'NNP')]), ('was', 'VBD'), ('not', 'RB'), ('built', 'VBN'), ('in', 'IN'), ('a', 'DT'), ('day', 'NN')])

# 11. 의존 구문 분석(dependency parsing)
## spacy라이브러리를 사용
## 각 토큰에 품사, 의존관계, 개체명정보등이 태깅
- token.text: token 문자열
- token.dep_: token과 token의 지배소 간의 의존관계 유형
- token.head: 지배소 token

In [None]:
! pip install spacy
!python -m spacy download en_core_web_sm

In [43]:
import spacy
from spacy import displacy

nlp=spacy.load('en_core_web_sm')  #english core web에 있는 걸로 load

doc=nlp('I am taking a natural language processing class at university.')
for i in doc:
    print(i.text, i.dep_, i.head.text)

I nsubj taking
am aux taking
taking ROOT taking
a det class
natural amod language
language compound class
processing compound class
class dobj taking
at prep taking
university pobj at
. punct taking


In [44]:
#해석하기 어려우니 그림으로 보여주기
#옵션: 스타일=의존관계, 주피터노트북에서
displacy.render(doc,style='dep', jupyter=True)  

# 12.단어 중의성 해결(lexical ambiguity)
## ex) i saw(보다,톱) bats(방망이, 박쥐)

In [45]:
from nltk.wsd import lesk

s='i saw bats'

print(word_tokenize(s))
print(lesk(word_tokenize(s),'saw'))   #토큰화 하고 지정한 단어에 대해 어떤 의미인지 예측->v.01은 보다, v.02는 톱으로자르다
print(lesk(word_tokenize(s),'bats'))   #라켓으로 보았다

['i', 'saw', 'bats']
Synset('saw.v.01')
Synset('squash_racket.n.01')


# 13. 문법 구조 분석

In [46]:
from nltk import CFG
from nltk.parse import ChartParser

# 간단한 문법 규칙 정의
grammar = CFG.fromstring("""
  S -> NP VP
  VP -> V NP
  V -> "saw"
  NP -> "John" | "Mary"
""")

parser = ChartParser(grammar)
sentence = "John saw Mary".split()
for tree in parser.parse(sentence):
    tree.pretty_print()

      S          
  ____|___        
 |        VP     
 |     ___|___    
 NP   V       NP 
 |    |       |   
John saw     Mary



# 14.단어간 유사도(word similarity)계산

In [47]:
from nltk.corpus import wordnet as wn

#nltk.download('wordnet')  # 다운로드 필요

syn1 = wn.synset('dog.n.01')
syn2 = wn.synset('cat.n.01')

print(syn1.wup_similarity(syn2))  # WordNet 유사도->1일수록 유사

0.8571428571428571


# 15. TF(Term Frequency)-IDF(Inverse Document Frequency): 각 단어의 중요도
## TF: 얼마나 자주 나타나는지
## IDF: 얼마나 흔하게 나타나는지->흔하게 나타나면 가중치를 낮춤

In [48]:
from sklearn.feature_extraction.text import TfidfVectorizer

# 예시 문서들
documents = [
    "I love programming in Python",
    "Python is a great programming language",
    "I enjoy learning new programming languages"
]

# TF-IDF 계산을 위한 TfidfVectorizer 객체 생성
vectorizer = TfidfVectorizer()

# 문서에 대해 TF-IDF 계산
tfidf_matrix = vectorizer.fit_transform(documents)

# 단어 목록 출력
print("단어 목록:", vectorizer.get_feature_names_out())

# TF-IDF 값 출력
print("\nTF-IDF 값:")
print(tfidf_matrix.toarray())  #결과: 높을수록 중요/ 각 행은 각 줄/ 각 컬럼은 단어목록들

단어 목록: ['enjoy' 'great' 'in' 'is' 'language' 'languages' 'learning' 'love' 'new'
 'programming' 'python']

TF-IDF 값:
[[0.         0.         0.5844829  0.         0.         0.
  0.         0.5844829  0.         0.34520502 0.44451431]
 [0.         0.50461134 0.         0.50461134 0.50461134 0.
  0.         0.         0.         0.29803159 0.38376993]
 [0.47952794 0.         0.         0.         0.         0.47952794
  0.47952794 0.         0.47952794 0.28321692 0.        ]]


# 16. 감정 분석

In [1]:
import nltk
nltk.download('vader_lexicon')

from nltk.sentiment import SentimentIntensityAnalyzer 

sia=SentimentIntensityAnalyzer()
text = "I love this product! It's absolutely amazing and wonderful."

score=sia.polarity_scores(text)
score  #neg=negative, neu=neutral, pos=postive, compound:종합 (1에 가까울수록 긍정, -1일수록 부정)

{'neg': 0.0, 'neu': 0.285, 'pos': 0.715, 'compound': 0.9267}


In [3]:
from textblob import TextBlob

blob = TextBlob(text)
blob.sentiment #polarity: -1(부정) ~ 1(긍정), subjectivity: 0(객관적) ~ 1(주관적)

Sentiment(polarity=0.7416666666666667, subjectivity=0.8333333333333334)

In [6]:
from textblob import TextBlob

blob = TextBlob("Bonjour, comment ça va?")
print(blob.detect_language())

AttributeError: 'TextBlob' object has no attribute 'detect_language'