# What is Jupyter notebook, web search, me?

![Jupyter Notebooks](images/jupyter_notebooks.png)

## 网络搜索
- 源于**信息检索(Information Retrieval)**
- 解决 **网络** 海量 **非结构化** **超文本** 数据的高效 **检索** 问题

![Information Retrieval](images/wiki_ir.png)

- 结构化数据
  - 如 Oracle、Lotus Notes 以及符合 ODBC 标准的内容，具有表、字段等结构化特性
- 半结构化数据
  - XML等，具有非统一的标记
- 非结构化数据
  - 通常指自由文本，以及诸如语音和视频的富媒体内容
![Unstructured Information](images/unstructured_info.png)

![Hyper Text](images/wiki_hyper_link.png)
![Hyper Text](images/hyper_text.png)

### AI·机器学习·深度学习
![AI vs. ML vs. DL](images/ai_ml_dl.png)

### 网络搜索与AI/机器学习/深度学习的关系
![AI vs. ML vs. DL vs. Web Search](images/ai_ml_dl_nlp.png)

### 网络搜索分类
- 检索（Retrieval）
  - 针对特定(具体)需求查找符合的结果
- 过滤（Filter）
  - 根据预设条件进行信息的获取、隔离或封堵
- 推荐（Recommendation）
  - 根据潜在（非具体）需求查找可能符合要求的结果

### “How Search Works”
By Matt Cutts
- Google资深的软件工程师；
- Google的Webspam团队的老大；
- Google的SafeSearch功能（过滤成人内容）就是Matt写的
- Blog：http://www.mattcutts.com/blog/

### 网络搜索引擎结构

![Search Engine](images/search_engine.png)

### 网络搜索关键技术
- 数据采集（爬虫系统Crawler / 网络蜘蛛Spider）
- 索引构建（Indexing）
- 相关排序（Ranking）
- 网络分析 (Network Analyzing)

### 排序：选择的艺术
![Ranking](images/ranking.png)

### 开源搜索引擎框架
![Open Sourced Search Engines](images/os_se.png)

### Elasticsearch
![ElasticSearch](images/es.png)

### 前沿技术跟踪来源
- ACM SIGIR（Special Interest Group on Information Retrieval）
- TREC（The Text REtrieval Conference）
- ACM RecSys (Recommender System)

### 学习建议
- 浅尝览全貌，读书生结构，
- 实践知关键，借鉴避浅滩，
- 细节慢琢磨，勤奋始得道

### 关于编程能力
![Learning Python](images/learning_python.png)

### 参考资料
![Reference Books](images/books.png)

#### 相关信息
- 陈光 chenguang@bupt.edu.cn
- 北邮模式识别与智能系统实验室(PRIS)
- 微博: **@爱可可-爱生活**
- 办公：教三-731 
- 课程平台(课堂派) www.ketangpai.com  邀请码:**897SRR**

### 本节实践目标：
- 1、建立Python语言的第一印象
- 2、简单实现网页采集和解析
- 3、熟悉搜索框架(索引)ElasticSearch

#### 环境配置：
- Python开发环境(包括jupyter notebooks)：
    - Python https://www.python.org/
    - Anaconda https://www.anaconda.com/
![Anaconda](images/anaconda.png)
- ElasticSearch https://www.elastic.co/products/elasticsearch

In [None]:
import requests

r = requests.get('http://www.bupt.edu.cn')
content = r.text
print content

In [None]:
from bs4 import BeautifulSoup
import jieba

soup = BeautifulSoup(content, 'lxml')
links = soup.find_all('a')
# for link in links:
#     if 'content.php' in str(link):
#         print link
section = soup.find('div', {'class': 'wrap_cont' })
links = section.find_all('a')
for link in links:
    title = link.get('title')
    link = link.get('href')
    print title, link

In [None]:
for link in links:
    title = link.get('title')
    link = link.get('href')
    print title, link
    seg_list = jieba.cut(title)
    print("/ ".join(seg_list))
    print("------")

In [None]:
texts = [
    "发展中国家兔养殖业",
]

In [None]:
res = requests.get('http://localhost:9200')
print(res.content)

In [None]:
from elasticsearch import Elasticsearch
es = Elasticsearch([{'host': 'localhost', 'port': 9200}])

In [None]:
es.indices.delete(index='bupt')
body = {
    "settings" : {
        "number_of_shards" : 1,
        "number_of_replicas" : 0

    },
    "mappings" : {
        "test" : {
            "_all" : { "enabled" : False },
            "properties" : {
                "name" : { 
                    "type" : "string", 
                    "analyzer" : "jieba_index", 
                    "search_analyzer" : "jieba_search" 
                }
            }
        }
    }
}
es.indices.create(index='bupt', body=body)

In [None]:
i = 1
for link in links:
    title = link.get('title')
    link = link.get('href')
    print title
    entry = {
        'title': title,
        'url': link,
    }
    es.index(index='bupt', doc_type='news', id=i, body=entry)
    print("------")
    i += 1

In [None]:
es.get(index='bupt', doc_type='news', id=5)

In [None]:
result = es.search(index="bupt", body={"query": {"match": {'title':'迎新'}}})
for item in result['hits']['hits']:
    print item['_source']['title'], item['_source']['url']