### 不同的方法读取data.csv

In [4]:
!head -5 data.csv

1 december wereld aids dag voorlichting in zuidafrika over bieten taboes en optimisme,nl
1 millón de afectados ante las inundaciones en sri lanka unicef está distribuyendo ayuda de emergencia srilanka,es
1 millón de fans en facebook antes del 14 de febrero y paty miki dani y berta se tiran en paracaídas qué harías tú porunmillondefans,es
1 satellite galileo sottoposto ai test presso lesaestec nl galileo navigation space in inglese,it
10 der welt sind bei,de


In [5]:
import pandas as pd
import numpy as np

In [6]:
data = pd.read_csv('data.csv')
data.head()

Unnamed: 0,1 december wereld aids dag voorlichting in zuidafrika over bieten taboes en optimisme,nl
0,1 millón de afectados ante las inundaciones en...,es
1,1 millón de fans en facebook antes del 14 de f...,es
2,1 satellite galileo sottoposto ai test presso ...,it
3,10 der welt sind bei,de
4,10 jaar voor overval op juwelier bejaard echtp...,nl


In [7]:
c = np.loadtxt('data.csv', delimiter=',', dtype=str)
c

array([['1 december wereld aids dag voorlichting in zuidafrika over bieten taboes en optimisme',
        'nl'],
       ['1 millón de afectados ante las inundaciones en sri lanka unicef está distribuyendo ayuda de emergencia srilanka',
        'es'],
       ['1 millón de fans en facebook antes del 14 de febrero y paty miki dani y berta se tiran en paracaídas qué harías tú porunmillondefans',
        'es'],
       ...,
       ['évitons peutêtre les généralités', 'fr'],
       ['último capítulo de su aventura', 'es'],
       ['über twitter schwer zu diskutieren stell doch mal auf wpblogger page zur diskussion blog monetarisieren',
        'de']], dtype='<U139')

In [8]:
in_f = open('data.csv')
lines = in_f.readlines()
in_f.close()
dataset = [(line.strip()[:-3],line.strip()[-2:])for line in lines]

In [9]:
dataset[:5]

[('1 december wereld aids dag voorlichting in zuidafrika over bieten taboes en optimisme',
  'nl'),
 ('1 millón de afectados ante las inundaciones en sri lanka unicef está distribuyendo ayuda de emergencia srilanka',
  'es'),
 ('1 millón de fans en facebook antes del 14 de febrero y paty miki dani y berta se tiran en paracaídas qué harías tú porunmillondefans',
  'es'),
 ('1 satellite galileo sottoposto ai test presso lesaestec nl galileo navigation space in inglese',
  'it'),
 ('10 der welt sind bei', 'de')]

### 分训练集和测试集

In [10]:
from sklearn.model_selection import train_test_split
x,y = zip(*dataset)
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state=1)

In [11]:
len(x_train)

6799

In [12]:
#举例
#正则表达式去掉一些noise
import re

def remove_noise(document):
    noise_pattern = re.compile("|".join(["http\S+", "\@\w+", "\#\w+"]))
    clean_text = re.sub(noise_pattern, "", document)
    return clean_text.strip()

remove_noise("Trump images are now more popular than cat gifs. @trump #trends http://www.trumptrends.html")

'Trump images are now more popular than cat gifs.'

### 词频向量化

In [13]:
from sklearn.feature_extraction.text import CountVectorizer

vec = CountVectorizer(lowercase = True,
                      analyzer='char_wb', # 逐个字母解析
                      ngram_range=(1,3),  # 1=出现的字母以及每个字母出现的次数，2=出现的连续2个字母，和连续2个字母出现的频次
                      # trump images are now... => 1gram = t,r,u,m,p... 2gram = tr,ru,um,mp...
                      max_features=1000,  # keep the most common 1000 ngrams
                      preprocessor=remove_noise) #去除其他的noise
vec.fit(x_train)
def get_features(x):
    vec.transform(x)

In [19]:
#用z这个句子来试试我们的vec

z =["Trump images are now more popular than cat gifs"]
Y=vec.transform(z)

In [20]:
feature_name = vec.get_feature_names()

In [23]:
print(Y)

  (0, 0)	18
  (0, 5)	1
  (0, 14)	1
  (0, 27)	1
  (0, 28)	1
  (0, 59)	1
  (0, 62)	1
  (0, 70)	1
  (0, 72)	1
  (0, 90)	1
  (0, 94)	1
  (0, 96)	1
  (0, 100)	1
  (0, 107)	1
  (0, 112)	1
  (0, 131)	1
  (0, 134)	1
  (0, 175)	5
  (0, 193)	1
  (0, 195)	1
  (0, 214)	1
  (0, 215)	1
  (0, 228)	2
  (0, 229)	1
  (0, 232)	1
  :	:
  (0, 664)	3
  (0, 699)	1
  (0, 701)	1
  (0, 705)	1
  (0, 722)	1
  (0, 723)	1
  (0, 727)	3
  (0, 728)	1
  (0, 738)	1
  (0, 749)	1
  (0, 755)	4
  (0, 756)	1
  (0, 767)	2
  (0, 768)	2
  (0, 804)	1
  (0, 809)	2
  (0, 810)	2
  (0, 854)	2
  (0, 855)	1
  (0, 870)	1
  (0, 899)	2
  (0, 915)	1
  (0, 916)	1
  (0, 954)	1
  (0, 955)	1


In [24]:
print(feature_name) #查看词袋中文本的关键信息

[' ', ' 1', ' 2', ' 20', ' 3', ' a', ' a ', ' ab', ' ac', ' af', ' al', ' am', ' an', ' ap', ' ar', ' as', ' at', ' au', ' av', ' b', ' ba', ' be', ' bi', ' bl', ' bo', ' br', ' bu', ' c', ' ca', ' ce', ' ch', ' ci', ' cl', ' co', ' cr', ' d', ' da', ' de', ' di', ' do', ' du', ' dé', ' e', ' e ', ' ee', ' eg', ' ei', ' el', ' en', ' er', ' es', ' et', ' ex', ' f', ' fa', ' fe', ' fi', ' fo', ' fr', ' g', ' ga', ' ge', ' gi', ' go', ' gr', ' h', ' ha', ' he', ' hi', ' ho', ' i', ' il', ' im', ' in', ' is', ' it', ' j', ' ja', ' je', ' jo', ' ju', ' k', ' ka', ' ki', ' ko', ' l', ' la', ' le', ' li', ' lo', ' m', ' ma', ' me', ' mi', ' mo', ' mu', ' n', ' na', ' ne', ' ni', ' no', ' nu', ' o', ' of', ' on', ' op', ' ou', ' p', ' pa', ' pe', ' pi', ' pl', ' po', ' pr', ' pu', ' q', ' qu', ' r', ' ra', ' re', ' ri', ' ro', ' s', ' sa', ' sc', ' se', ' si', ' so', ' sp', ' st', ' su', ' t', ' ta', ' te', ' th', ' ti', ' to', ' tr', ' tu', ' tw', ' u', ' un', ' us', ' v', ' va', ' ve', ' vi

In [25]:
print(Y.toarray())

[[18  0  0  0  0  1  0  0  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0  0
   0  0  0  1  1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
   0  0  0  0  0  0  0  0  0  0  0  1  0  0  1  0  0  0  0  0  0  0  1  0
   1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  1  0  0  0  1  0
   1  0  0  0  1  0  0  0  0  0  0  1  0  0  0  0  1  0  0  0  0  0  0  0
   0  0  0  0  0  0  0  0  0  0  0  1  0  0  1  0  0  0  0  0  0  0  0  0
   0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
   0  0  0  0  0  0  0  5  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
   0  1  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  1  1
   0  0  0  0  0  0  0  0  0  0  0  0  2  1  0  0  1  0  0  0  0  0  0  0
   0  1  1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
   0  0  0  0  0  0  0  1  0  1  0  0  0  1  0  0  0  0  0  0  0  0  0  0
   0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
   0  0  0  0  0  0  0  0  0  0  0  0 

In [27]:
vec.vocabulary_ #查看词表

{' ': 0,
 'i': 463,
 'o': 664,
 ' i': 70,
 'io': 508,
 'o ': 665,
 'io ': 509,
 'n': 612,
 ' n': 96,
 'no': 646,
 'on': 687,
 'n ': 613,
 ' no': 100,
 'non': 648,
 'on ': 688,
 'h': 445,
 ' h': 65,
 'ho': 457,
 ' ho': 69,
 'p': 727,
 'a': 175,
 'd': 306,
 'ip': 511,
 'pa': 729,
 'ad': 188,
 'd ': 307,
 'ad ': 189,
 'm': 586,
 ' m': 90,
 'ma': 588,
 'a ': 176,
 ' ma': 91,
 'ma ': 589,
 'mi': 598,
 'i ': 464,
 ' mi': 93,
 's': 809,
 ' s': 122,
 'sa': 811,
 ' sa': 123,
 'sa ': 812,
 'c': 271,
 'e': 335,
 ' c': 27,
 'ch': 282,
 'he': 451,
 'e ': 336,
 ' ch': 30,
 'che': 285,
 'he ': 452,
 'è': 989,
 'è ': 990,
 'f': 412,
 't': 854,
 ' f': 53,
 'fa': 414,
 'at': 241,
 'tt': 889,
 'ta': 856,
 ' fa': 54,
 'att': 246,
 'ta ': 857,
 'u': 899,
 ' u': 140,
 'un': 918,
 ' un': 141,
 'un ': 919,
 ' p': 107,
 'po': 738,
 ' po': 112,
 'g': 425,
 'l': 548,
 'me': 593,
 'eg': 351,
 'gl': 436,
 'li': 562,
 ' me': 92,
 'gli': 437,
 'r': 755,
 'fr': 421,
 'ru': 804,
 'ut': 933,
 ' l': 85,
 'la': 550,
 ' l

### 构建模型训练
目前我们完成了文本表示（词的向量化）
接下来就是分类模型

In [30]:
#引入bayes分类器作为分类模型
from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vec.transform(x_train),y_train)

MultinomialNB()

In [31]:
classifier.score(vec.transform(x_test),y_test)

0.9902955447728276

### 词频向量化2
利用Tf—Idf

In [40]:
from sklearn.feature_extraction.text import TfidfVectorizer

ves = TfidfVectorizer(lowercase=True,
                     decode_error='ignore',
                     preprocessor=remove_noise)
ves.fit(x_train)

TfidfVectorizer(decode_error='ignore',
                preprocessor=<function remove_noise at 0x7feb980f6820>)

In [41]:
result = ves.transform(z)
print(result)

  (0, 19933)	0.3869665297349769
  (0, 15496)	0.4215974624727135
  (0, 14049)	0.3029427182109476
  (0, 13319)	0.319290888753636
  (0, 9953)	0.43597059819387757
  (0, 3555)	0.4562283952104501
  (0, 1627)	0.28386054896283774


In [42]:
ves.vocabulary_

{'io': 10451,
 'non': 13953,
 'ho': 9548,
 'ipad': 10454,
 'ma': 12318,
 'mi': 12942,
 'sa': 17566,
 'che': 3753,
 'fatta': 7458,
 'un': 20755,
 'po': 15381,
 'meglio': 12765,
 'sfrutta': 18288,
 'la': 11306,
 'superficie': 19426,
 'wp': 22367,
 'deutsche': 5573,
 'version': 21331,
 'auch': 1875,
 'schon': 17898,
 'da': 4986,
 'wordpress': 22339,
 '304': 325,
 'important': 9991,
 'security': 18059,
 'update': 20909,
 'vielleicht': 21478,
 'ist': 10523,
 'er': 6890,
 'ja': 10573,
 'vor': 21734,
 'weihnachten': 22051,
 'artig': 1716,
 'wunschliste': 22382,
 'por': 15499,
 'supuesto': 19454,
 'que': 16315,
 'los': 12152,
 'vemos': 21128,
 'una': 20756,
 'bella': 2435,
 'foto': 7953,
 'di': 5629,
 'venezia': 21140,
 'scattata': 17804,
 'dallo': 5054,
 'spazio': 18854,
 'ed': 6437,
 'inviata': 10425,
 'attraverso': 1866,
 'twitter': 20604,
 'entrevista': 6828,
 'triangulo': 20398,
 'de': 5214,
 'amor': 1260,
 'bizarro': 2779,
 'banda': 2182,
 'prometedora': 15954,
 'hurts': 9791,
 'siguen':

### 构建模型继续使用bayes

In [43]:
from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(ves.transform(x_train), y_train)

MultinomialNB()

In [44]:
classifier.score(ves.transform(x_test),y_test)

0.9964711071901191

## 规范化，写成一个class

In [47]:
import re
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from joblib import dump,load

In [48]:
class LanguageDetector():
    def __init__(self,classifier=MultinomialNB()):
        self.classifier = classifier
        self.vectorizer = CountVectorizer(lowercase = True,
                                          analyzer='char_wb',
                                          ngram_range=(1,3),
                                          max_features=1000,  
                                          preprocessor=remove_noise)
    
    def _remove_noise(self,document):
        noise_pattern = re.compile("|".join(["http\S+", "\@\w+", "\#\w+"]))
        clean_text = re.sub(noise_pattern, "", document)
        return clean_text
    
    def features(self,x):
        return self.vectorizer.transform(x)
    
    def fit(self,x,y):
        self.vectorizer.fit(x)
        self.classifier.fit(self.features(x),y)
        
    def predict(self,x):
        return self.classifier.predict(self.features([x]))
    
    def score(self,x,y):
        return self.classifier.score(self.features(x),y)
    
    def save_model(self,path):
        dump((self.classifier, self.vectorizer), path)
    
   
    def load_model(self, path):
        self.classifier, self.vectorizer = load(path)
    


In [49]:
in_f = open('data.csv')
lines = in_f.readlines()
in_f.close()
dataset = [(line.strip()[:-3], line.strip()[-2:]) for line in lines]
x, y = zip(*dataset)
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=2019)

language_detector = LanguageDetector()
language_detector.fit(x_train, y_train)
print(language_detector.predict('This is an English sentence'))
print(language_detector.score(x_test, y_test))

['en']
0.9880899867666519


In [50]:
# 模型存储
model_path = "model/language_detector.model_myself"
language_detector.save_model(model_path)

In [51]:
# 模型加载
new_language_detector = LanguageDetector()
new_language_detector.load_model(model_path)

In [52]:
# 使用加载的模型预测
new_language_detector.predict("10 der welt sind bei")

array(['de'], dtype='<U2')