### Загрузка данных

In [1]:
import pandas as pd

#### 1 Загрузка файла CSV

In [2]:
# Создать URL-адрес
url = 'https://tinyurl.com/simulated-data'

In [3]:
# Загрузить набор данных 
dataframe = pd.read_csv(url)

In [4]:
dataframe

Unnamed: 0,integer,datetime,category
0,5,2015-01-01 00:00:00,0
1,5,2015-01-01 00:00:01,0
2,9,2015-01-01 00:00:02,0
3,6,2015-01-01 00:00:03,0
4,6,2015-01-01 00:00:04,0
...,...,...,...
95,9,2015-01-01 00:01:35,0
96,8,2015-01-01 00:01:36,0
97,6,2015-01-01 00:01:37,0
98,8,2015-01-01 00:01:38,0


In [5]:
# Взглянуть на первые пять строк
dataframe.head()

Unnamed: 0,integer,datetime,category
0,5,2015-01-01 00:00:00,0
1,5,2015-01-01 00:00:01,0
2,9,2015-01-01 00:00:02,0
3,6,2015-01-01 00:00:03,0
4,6,2015-01-01 00:00:04,0


In [6]:
dataframe.head(10)

Unnamed: 0,integer,datetime,category
0,5,2015-01-01 00:00:00,0
1,5,2015-01-01 00:00:01,0
2,9,2015-01-01 00:00:02,0
3,6,2015-01-01 00:00:03,0
4,6,2015-01-01 00:00:04,0
5,9,2015-01-01 00:00:05,0
6,7,2015-01-01 00:00:06,0
7,1,2015-01-01 00:00:07,0
8,6,2015-01-01 00:00:08,0
9,9,2015-01-01 00:00:09,0


Функция read_csv имеет более 30 параметров, и поэтому документация способна обескуражить. К счастью, эти параметры существуют в основном для того, чтобы дать возможность обрабатывать широкий спектр форматов CSV. Например, в файлах CSV значения разделены запятыми; однако в файлах CSV в качестве разделителей часто используются другие символы, например символ табуляции. Параметр sep библиотеки pandas позволяет задавать используемый в файле разделитель. Хотя это бывает нечасто, проблема форматирования файлов CSV заключается в том, что первая строка файла используется для определения заголовков столбцов (например, integer, datetime, category, как в нашем решении). Параметр header позволяет указывать, существует ли строка заголовка и где она находится. Если строка заголовка не существует, то устанавливаем header=None.

#### 2 Загрузка файла Excel

In [7]:
# Создать URL-адрес
url = 'https://tinyurl.com/simulated-excel'

In [9]:
# Загрузить данные
dataframe = pd.read_excel(url, sheet_name=0, header=1)

In [10]:
dataframe.head()

Unnamed: 0,5,2015-01-01 00:00:00,0
0,5,2015-01-01 00:00:01,0
1,9,2015-01-01 00:00:02,0
2,6,2015-01-01 00:00:03,0
3,6,2015-01-01 00:00:04,0
4,9,2015-01-01 00:00:05,0


#### 3 Загрузка файла JSON

In [11]:
# Создать URL-адрес
url = 'https://tinyurl.com/simulated-json'

In [17]:
# Загрузить данные
df = pd.read_json (url, orient='columns')

In [18]:
df.head()

Unnamed: 0,integer,datetime,category
0,5,2015-01-01 00:00:00,0
1,5,2015-01-01 00:00:01,0
2,9,2015-01-01 00:00:02,0
3,6,2015-01-01 00:00:03,0
4,6,2015-01-01 00:00:04,0


#### 4 Загрузка файла html

In [2]:
html_data = pd.read_html(
    'https://en.wikipedia.org/wiki/List_of_largest_cities_on_the_United_States_West_Coast')

In [3]:
html_data[0]

Unnamed: 0,0,1
0,,County seat


In [4]:
html_data[1]

Unnamed: 0,2017 Rank,city,state,County / borough,Population(2017 est.)[4],Metro,Notes
0,1,Los Angeles,California,Los Angeles,3999759,13131431,Largest city in California
1,2,San Diego,California,San Diego,1419516,3317749,
2,3,San Jose,California,Santa Clara,1035317,1998463,Located within the San Francisco Bay Area
3,4,San Francisco,California,San Francisco,884363,4727357,
4,5,Seattle,Washington,King,724745,3733580,Largest city in Washington
...,...,...,...,...,...,...,...
105,106,San Leandro,California,Alameda,90553,—,Located within San Francisco Bay Area
106,107,Livermore,California,Alameda,90295,—,Located within San Francisco Bay Area
107,108,Indio,California,Riverside,89793,—,
108,109,Bellingham,Washington,Whatcomb,89045,221404,


In [13]:
data = html_data[1].head(10)

In [8]:
data.to_csv('data.csv')

In [15]:
json_data = data.to_json()

In [16]:
json_data

'{"2017\\u00a0Rank":{"0":1,"1":2,"2":3,"3":4,"4":5,"5":6,"6":7,"7":8,"8":9,"9":10},"city":{"0":"Los Angeles","1":"San Diego","2":"San Jose","3":"San Francisco","4":"Seattle","5":"Portland","6":"Fresno","7":"Sacramento","8":"Long Beach","9":"Oakland"},"state":{"0":"California","1":"California","2":"California","3":"California","4":"Washington","5":"Oregon","6":"California","7":"California","8":"California","9":"California"},"County \\/ borough":{"0":"Los Angeles","1":"San Diego","2":"Santa Clara","3":"San Francisco","4":"King","5":"Multnomah","6":"Fresno","7":"Sacramento","8":"Los Angeles","9":"Alameda"},"Population(2017\\u00a0est.)[4]":{"0":3999759,"1":1419516,"2":1035317,"3":884363,"4":724745,"5":647805,"6":527438,"7":501901,"8":469450,"9":425195},"Metro":{"0":"13131431","1":"3317749","2":"1998463","3":"4727357","4":"3733580","5":"2389228","6":"972297","7":"2149127","8":"13131431","9":"\\u2014"},"Notes":{"0":"Largest city in California","1":null,"2":"Located within the San Francisco B