# Bag of Words Meets Bags of Popcorn
####  Use Google's Word2Vec for movie reviews

# Part 1: 项目描述
在本教程比赛中，我们对情感分析进行了更深入的研究。Google的Word2Vec  是一种深度学习的启发式方法，专注于单词的含义。Word2Vec试图理解单词  之间的含义和语义关系。它的工作方式与深度方法类似，如递归神经网络或深度神经网络，但计算效率更高。**本教程重点介绍Word2Vec进行情感分析。**

情感分析是机器学习中一个具有挑战性的课题。人们用语言表达自己的情绪，语言往往被讽刺，模棱两可和言语所掩盖，所有这些对人类和计算机来说都是非常具有误导性的。还有另一个Kaggle  电影评论情感分析竞赛。在本教程中，我们将探讨Word2Vec如何应用于类似的问题。

在过去的几年里，深度学习一直是新闻报道，甚至成为纽约时报的头版。这些机器学习技术受到人类大脑结构的启发，并且最近在计算能力方面的进步使其成为可能，这些技术通过在图像识别，语音处理和自然语言任务方面的突破性成果引起了轰动。最近，深度学习方法赢得了几项Kaggle比赛，包括药物发现  任务  和猫狗图像识别。

## 教程概述
本教程将帮助您开始使用Word2Vec进行自然语言处理。它有两个目标： 

- 基本自然语言处理：  本教程的第1部分面向初学者，涵盖了本教程后面部分所需的基本自然语言处理技术。

- 深入学习文本理解：在  第2部分和第3部分中，我们将深入探讨如何使用Word2Vec来训练模型，以及如何使用生成的单词向量进行情感分析。

由于深度学习是一个快速发展的领域，大量的工作尚未发表，或仅作为学术论文存在。本教程的第3部分比规范性更具探索性 - 我们尝试了使用Word2Vec的几种方法，而不是为您提供使用输出的配方。

为了实现这些目标，我们依靠IMDB情绪分析数据集，该数据集有10万多段电影评论，既有积极的一面，也有消极的一面。

## 评估：
根据ROC曲线对提交内容进行判断。 

提交说明
您应该提交一个以25,000行加上标题行的逗号分隔文件。   
应该有2列：“ID”和“情绪”，其中包含您的二元预测：1为正面评论，0为负面评论。有关示例，请参阅数据页面上的“sampleSubmission.csv”。 
> ID，情绪   
123_45,0    
678_90,1   
12_34,0   
...   

# Part 2: NLP介绍
## 1. 什么是NLP?
NLP（自然语言处理）是一组解决文本问题的技术。  
此页面将帮助您开始加载和清理IMDB电影评论，然后应用简单的单词袋模型来获得令人惊讶的准确预测，即评论是否赞成或赞成。  

In [15]:
# KaggleWord2VecUtility.py
import re
import nltk
import pandas as pd
from bs4 import BeautifulSoup
from nltk.corpus import stopwords

class KaggleWord2VecUtility(object):
    '''
    KaggleWord2VecUtility is a utility class for processing raw HTML text 
    into segments for further learning.
    '''
    
    @staticmethod
    def review_to_wordlist(review, remove_stopwords=False):
        '''
        Function to convert a document to a sequence of words, optionally
        removing stop words. 
        Returns a list of words.
        '''
        # 1. Remove HTML
        review_text = BeautifulSoup(review).get_text()
        
        # 2. Remove non-letters
        review_text = re.sub('[^a-zA-Z]', ' ', review_text)
        
        # 3. Convert words to lower case and split them
        words = review_text.lower().split()
        
        # 4. Optionally remove stop words (false by default)
        if remove_stopwords:
            stops = set(stopwords.words('english'))
            words = [w for w in words if not w in stops]
         
        # 5. Return a  list of words
        return words
    


In [18]:
# 测试类是否可用，其中对HTML的处理不具备普遍性，需要针对不同wang
import requests
blog = requests.get('https://www.cnblogs.com/zoe233/p/8628566.html')
a = KaggleWord2VecUtility.review_to_wordlist(blog.text)
print(a)

['zoe', 'var', 'currentblogapp', 'zoe', 'cb', 'enable', 'mathjax', 'false', 'var', 'islogined', 'false', 'zoe', 'posts', 'comments', 'trackbacks', 'a', 'row', 'col', 'for', 'row', 'in', 'a', 'for', 'col', 'in', 'range', 'len', 'a', 'list', 'map', 'list', 'zip', 'a', 'a', 'len', 'a', 'a', 'row', 'col', 'i', 'j', 'j', 'i', 'zip', 'map', 'zip', 'map', 'python', 'python', 'zip', 'zip', 'tuple', 'zip', 'zip', 'a', 'a', 'a', 'a', 'a', 'b', 'c', 'd', 'zip', 'zip', 'a', 'a', 'a', 'print', 'zip', 'zip', 'object', 'at', 'x', 'f', 'a', 'c', 'for', 'i', 'in', 'zip', 'print', 'i', 'zip', 'zip', 'a', 'a', 'a', 'print', 'zip', 'zip', 'object', 'at', 'x', 'f', 'a', 'd', 'for', 'j', 'in', 'zip', 'print', 'j', 'a', 'b', 'c', 'zip', 'zip', 'a', 'print', 'zip', 'zip', 'object', 'at', 'x', 'f', 'a', 'd', 'for', 'i', 'in', 'zip', 'print', 'i', 'a', 'b', 'c', 'd', 'zip', 'zip', 'a', 'print', 'zip', 'zip', 'object', 'at', 'x', 'f', 'a', 'f', 'for', 'j', 'in', 'zip', 'print', 'j', 'a', 'b', 'c', 'd', 'a', 'b',



 BeautifulSoup(YOUR_MARKUP})

to this:

 BeautifulSoup(YOUR_MARKUP, "lxml")

  markup_type=markup_type))


In [7]:
import os
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
import numpy as np