# R与Python手牵手：多格式文件导入与爬虫

在实际操作中，数据的收集与导入往往是整个过程的开始。如果大家用过其他软件处理文件，应该都有“转格式”的不良体验。所幸，R与Python已经有大量的工具能够帮助我们直接将不同类型的数据格式直接导入到工作环境中。这次我们将要介绍怎么把外部数据导入Python和R中，主要涉及csv/json/xml三种格式，最后将会简要介绍如何进行爬虫。部分数据可以在以下网页获得：https://github.com/dipanjanS/practical-machine-learning-with-python/tree/master/notebooks/Ch03_Processing_Wrangling_and_Visualizing_Data

## Python

### 简易读取

In [1]:
#读取csv

#加载pandas模块
import pandas as pd

#文件路径
prefix = "G:/Py/practical-machine-learning-with-python-master/notebooks/Ch03_Processing_Wrangling_and_Visualizing_Data/"
surfix = "sample_csv.csv"
file_name = prefix + surfix

df = pd.read_csv(file_name)

df


Unnamed: 0,"apple,"
0,"banana,"
1,"mango,"
2,"orange,"
3,"kiwi,"
4,"pineapple,"
5,guava


In [2]:
#读取json

#加载json模块
import json

surfix = "sample_json.json"
file_name = prefix + surfix

json_filedata = open(file_name).read()
json_data = json.loads(json_filedata)

json_data

{'outer_col_1': [{'nested_inner_col_1': 'val_1', 'nested_inner_col_2': 2},
  {'nested_inner_col_1': 'val_2', 'nested_inner_col_2': 2}],
 'outer_col_2': {'inner_col_1': 3},
 'outer_col_3': 4}

感兴趣的不妨看一下json_filedata里面放的是什么形式的数据

In [9]:
#读取xml

#import xml.etree.ElementTree as ET
import xmltodict

surfix = "sample_xml.xml"
file_name = prefix + surfix


xml_filedata = open(file_name).read()
ordered_dict = xmltodict.parse(xml_filedata)

ordered_dict

OrderedDict([('records',
              OrderedDict([('@attr', 'sample xml records'),
                           ('record',
                            [OrderedDict([('@name', 'rec_1'),
                                          ('sub_element',
                                           OrderedDict([('detail1',
                                                         'Attribute 1'),
                                                        ('detail2', '2')])),
                                          ('sub_element_with_attr',
                                           OrderedDict([('@attr', 'complex'),
                                                        ('#text',
                                                         'Sub_Element_Text')])),
                                          ('sub_element_only_attr',
                                           OrderedDict([('@attr_val',
                                                         'only_attr')]))]),
                             Ord

pd的read_csv,json的json.loads,xmltodict的parse.针对不同的数据类型，python不同的包可谓各显神通。尽管都是一键式傻瓜操作，我们可以观察到读出数据的形式各不相同，因此后续的处理也会大相径庭，不过我们这次内容只针对导入这一步。

### 爬虫初步

这里讲爬虫将会针对“爬”来讲，也就是如果给大家一个网址（URL），怎么把这个网页上的所有信息都载入到我们的软件里面呢？

In [16]:
#加载requests模块
import requests

#请求网页数据
response = requests.get("http://www.apress.com/in/blog/all-blog-posts/wannacry-how-to-prepare/12302194")
    

就现在而言，我们已经对http://www.apress.com/in/blog/all-blog-posts/wannacry-how-to-prepare/12302194
这个网页进行请求，并把内容放在了response里面。我们先看看请求是否成功：

In [20]:
response.status_code


200

In [22]:
#或者直接用
response


<Response [200]>

相信大家对“404”都非常熟悉，但是“200”就不常见，因为“200”代表我们已经请求成功，自动进入了网页。那么我们爬到了什么内容呢？看一下：

In [23]:
response.text

'<!DOCTYPE html>\n<!--[if lt IE 7]> <html lang="en" class="no-js ie6 lt-ie9 lt-ie8"> <![endif]-->\n<!--[if IE 7]> <html lang="en" class="no-js ie7 lt-ie9 lt-ie8"> <![endif]-->\n<!--[if IE 8]> <html lang="en" class="no-js ie8 lt-ie9"> <![endif]-->\n<!--[if IE 9]> <html lang="en" class="no-js ie9"> <![endif]-->\n<!--[if gt IE 9]><!--> <html lang="en" class="no-js"> <!--<![endif]-->\n<head><meta http-equiv="x-ua-compatible" content="IE=edge">\n<script type="text/javascript" src="//static.apress.com/spcom/js/vendor/googleapis/ajax/libs/jquery/1.9.1/jquery.min.js"></script>\n<script type="text/javascript" src="//cdn.optimizely.com/js/8200882355.js"></script>\n<script type="text/javascript" id="angular-script" src="//static.apress.com/spcom/js/vendor/googleapis/ajax/libs/angularjs/1.2.17/angular.min.js"></script>\n<script type="text/javascript" id="script-1474669854" src="//static.apress.com/spcom/min/prod.js?r=201802052258-126"></script>\n<link rel="stylesheet" type="text/css" href="//stati

爬到的是html，看起来有点像乱码，但是其实都具有一定的规则，只要按照规则进行提取，就能够得到我们的目标信息。