In [2]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd
# импоритруем библиотеку datatime для работы с датами
from datetime import datetime, date

# Задаем некоторые опции библиотеки pandas, которые настраивают вывод
# pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)  
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 80)

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt
    #%matplotlib inline

# Работа с CSV-файлами и тектстовыми/табличными данными

# 1) Исследование CSV-файла

In [3]:
# с помощью модуля csv взглянем на первые 5 строк CSV-файла
import csv
with open('C:/Python/Pandas/Notebooks/Data/msft.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for i, row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
['7/17/2014', '84.35', '84.63', '83.33', '83.63', '1974000']
['7/16/2014', '83.77', '84.91', '83.66', '84.91', '1755600']
['7/15/2014', '84.3', '84.38', '83.2', '83.58', '1874700']


# 2) Чтение CSV-файла в датафрейм

In [4]:
# считываем msft.csv в датафрейм
msft = pd.read_csv('C:/Python/Pandas/Notebooks/Data/msft.csv')
msft[:5]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800
2,7/17/2014,84.35,84.63,83.33,83.63,1974000
3,7/16/2014,83.77,84.91,83.66,84.91,1755600
4,7/15/2014,84.3,84.38,83.2,83.58,1874700


# 3) Указание индекса столбца при чтении CSV-файла

In [5]:
# используем столбец 0 в качестве индекса
msft = pd.read_csv('C:/Python/Pandas/Notebooks/Data/msft.csv', index_col=0)
msft[:5]

Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
7/21/2014,83.46,83.53,81.81,81.93,2359300
7/18/2014,83.3,83.4,82.52,83.35,4020800
7/17/2014,84.35,84.63,83.33,83.63,1974000
7/16/2014,83.77,84.91,83.66,84.91,1755600
7/15/2014,84.3,84.38,83.2,83.58,1874700


# 4) Вывод и спецификация типа данных

In [6]:
# исследуем типы столбцов в этом датафрейме
msft.dtypes 

Open      float64
High      float64
Low       float64
Close     float64
Volume      int64
dtype: object

In [7]:
# указываем, что столбец Volume должен иметь тип float64
msft = pd.read_csv('C:/Python/Pandas/Notebooks/Data/msft.csv', dtype = {'Volume' : np.float64})
msft.dtypes

Date       object
Open      float64
High      float64
Low       float64
Close     float64
Volume    float64
dtype: object

# 5)Указание имен столбцов 

In [8]:
# задаем новый набор имен для столбцов
# все имеют нижний регистр, header=0 задет строку заголовков
df = pd.read_csv('C:/Python/Pandas/Notebooks/Data/msft.csv', header=0, names=['date', 'open', 'high', 'low', 'close', 'volume'])
df[:5]

Unnamed: 0,date,open,high,low,close,volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800
2,7/17/2014,84.35,84.63,83.33,83.63,1974000
3,7/16/2014,83.77,84.91,83.66,84.91,1755600
4,7/15/2014,84.3,84.38,83.2,83.58,1874700


# 6) Указание конкретных столбцов для загрузки

In [9]:
# считываем в данных только столбцы Date и Close и индексируем по столбцу Date
df2 = pd.read_csv('C:/Python/Pandas/Notebooks/Data/msft.csv', usecols=['Date', 'Close'], index_col=['Date'])
df2[:5]

Unnamed: 0_level_0,Close
Date,Unnamed: 1_level_1
7/21/2014,81.93
7/18/2014,83.35
7/17/2014,83.63
7/16/2014,84.91
7/15/2014,83.58


#  7) Сохранение датафрейма в CSV-файл

In [10]:
# сохраняем датафрейм df2 в новый csv-файл
# задаем имя индекса как date
df2.to_csv('C:/Python/Pandas/Notebooks/Data/msft_modified.csv', index_label='date')


In [11]:
# с помощью модуля csv взгляем на первые 5 строк CSV-файла
with open('C:/Python/Pandas/Notebooks/Data/msft_modified.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for i, row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['date', 'Close']
['7/21/2014', '81.93']
['7/18/2014', '83.35']
['7/17/2014', '83.63']
['7/16/2014', '84.91']
['7/15/2014', '83.58']


# 8) Работа с данными, в которых используются разделители полей 

In [12]:
# используем функцию read_tablet с параметром sep=',' , чтобы прочитать CSV-файл
df = pd.read_table('C:/Python/Pandas/Notebooks/Data/msft.csv', sep=',')
df[:5]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800
2,7/17/2014,84.35,84.63,83.33,83.63,1974000
3,7/16/2014,83.77,84.91,83.66,84.91,1755600
4,7/15/2014,84.3,84.38,83.2,83.58,1874700


In [13]:
# сохраняем как данные, в которых разделителеем является вертикальная черта
df.to_csv('C:/Python/Pandas/Notebooks/Data/msft_piped.txt', sep='|')
# смотрим, как сработал программный код
with open('C:/Python/Pandas/Notebooks/Data/msft_piped.txt') as file:
    reader = csv.reader(file, delimiter=',')
    for i, row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['|Date|Open|High|Low|Close|Volume']
['0|7/21/2014|83.46|83.53|81.81|81.93|2359300']
['1|7/18/2014|83.3|83.4|82.52|83.35|4020800']
['2|7/17/2014|84.35|84.63|83.33|83.63|1974000']
['3|7/16/2014|83.77|84.91|83.66|84.91|1755600']
['4|7/15/2014|84.3|84.38|83.2|83.58|1874700']


# 9) Обработка загрязненных данных, в которых используются разделители полей 

In [14]:
# смотрим первые 6 наблюдений файла msft2.csv
with open('C:/Python/Pandas/Notebooks/Data/msft2.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if (i >= 5):
            break

['This is fun because the data does not start on the first line', '', '', '', '', '']
['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['', '', '', '', '', '']
['And there is space between the header row and data', '', '', '', '', '']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']


In [15]:
# считываем данные, пропустив строки 0, 2, 3
df = pd.read_csv('C:/Python/Pandas/Notebooks/Data/msft2.csv', skiprows=[0, 2, 3])
df[:5]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800
2,7/17/2014,84.35,84.63,83.33,83.63,1974000
3,7/16/2014,83.77,84.91,83.66,84.91,1755600
4,7/15/2014,84.3,84.38,83.2,83.58,1874700


In [16]:
with open('C:/Python/Pandas/Notebooks/Data/msft_with_footer.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for row in reader:
        print(row)

['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
[]
['Uh oh', ' there is stuff at the end.']


In [17]:
# считываем, пропустив две строки в конце файла
df = pd.read_csv('C:/Python/Pandas/Notebooks/Data/msft_with_footer.csv', skipfooter=2, engine='python')
df

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800


In [18]:
# считываем только первые три строки
pd.read_csv('C:/Python/Pandas/Notebooks/Data/msft.csv', nrows=3)

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800
2,7/17/2014,84.35,84.63,83.33,83.63,1974000


In [19]:
# пропускаем 100 строк, а затем сичтываем следующие 5 строк
pd.read_csv('C:/Python/Pandas/Notebooks/Data/msft.csv', skiprows=100, nrows=5,
            header=0,
            names=['date', 'open', 'high', 'low', 'close', 'volume'])

Unnamed: 0,date,open,high,low,close,volume
0,3/3/2014,80.35,81.31,79.91,79.97,5004100
1,2/28/2014,82.4,83.42,82.17,83.42,2853200
2,2/27/2014,84.06,84.63,81.63,82.0,3676800
3,2/26/2014,82.92,84.03,82.43,83.81,2623600
4,2/25/2014,83.8,83.8,81.72,83.08,3579100


# Чтение и запись данных в формате Excel

In [20]:
# считываем файл Excel
# считываем только данные первого рабочего листа
# (msft в данном случае)
df = pd.read_excel('C:/Python/Pandas/Notebooks/Data/stocks.xlsx') 
df[:5]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2014-07-21,83.46,83.53,81.81,81.93,2359300
1,2014-07-18,83.3,83.4,82.52,83.35,4020800
2,2014-07-17,84.35,84.63,83.33,83.63,1974000
3,2014-07-16,83.77,84.91,83.66,84.91,1755600
4,2014-07-15,84.3,84.38,83.2,83.58,1874700


In [21]:
# считываем данные рабочего листа aapl
aapl = pd.read_excel('C:/Python/Pandas/Notebooks/Data/stocks.xlsx', sheet_name='aapl')
aapl[:5]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2014-07-21,94.99,95.0,93.72,93.94,38887700
1,2014-07-18,93.62,94.74,93.02,94.43,49898600
2,2014-07-17,95.03,95.28,92.57,93.09,57152000
3,2014-07-16,96.97,97.1,94.74,94.78,53396300
4,2014-07-15,96.8,96.85,95.03,95.32,45477900


In [22]:
# сохраняем XLS-файл в рабочем листе 'Sheet1'
df.to_excel('C:/Python/Pandas/Notebooks/Data/stocks2.xlsx')

In [23]:
# записываем, задав имя рабочего листа MSFT
df.to_excel('C:/Python/Pandas/Notebooks/Data/stocks2.xlsx', sheet_name='MSFT')

In [24]:
# записываем несколько рабочих листов, требуется класс ExcelWriter
from pandas import ExcelWriter
with ExcelWriter('C:/Python/Pandas/Notebooks/Data/all_stocks.xlsx') as writer:
    aapl.to_excel(writer, sheet_name='AAPL')
    df.to_excel(writer, sheet_name='MSFT')

In [25]:
# записываем в xlsx
df.to_excel('C:/Python/Pandas/Notebooks/Data/msft2.xlsx')

# Чтение и запись JSON-файлов

In [26]:
# записываем данные Excel в JSON
df[:5].to_json('C:/Python/Pandas/Notebooks/Data/stocks.json')
# теперь взглянем на JSON-файл
import json
from pprint import pprint

with open('C:/Python/Pandas/Notebooks/Data/stocks.json') as data_file:
    data = json.load(data_file)
pprint(data)

{'Close': {'0': 81.93, '1': 83.35, '2': 83.63, '3': 84.91, '4': 83.58},
 'Date': {'0': 1405900800000,
          '1': 1405641600000,
          '2': 1405555200000,
          '3': 1405468800000,
          '4': 1405382400000},
 'High': {'0': 83.53, '1': 83.4, '2': 84.63, '3': 84.91, '4': 84.38},
 'Low': {'0': 81.81, '1': 82.52, '2': 83.33, '3': 83.66, '4': 83.2},
 'Open': {'0': 83.46, '1': 83.3, '2': 84.35, '3': 83.77, '4': 84.3},
 'Volume': {'0': 2359300,
            '1': 4020800,
            '2': 1974000,
            '3': 1755600,
            '4': 1874700}}


In [27]:
# считываем данные в формате JSON
df_from_json = pd.read_json('C:/Python/Pandas/Notebooks/Data/stocks.json')
df_from_json[:5]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2014-07-21,83.46,83.53,81.81,81.93,2359300
1,2014-07-18,83.3,83.4,82.52,83.35,4020800
2,2014-07-17,84.35,84.63,83.33,83.63,1974000
3,2014-07-16,83.77,84.91,83.66,84.91,1755600
4,2014-07-15,84.3,84.38,83.2,83.58,1874700


# Чтение HTML-файлов из Интернета

# Загрузка CSV-файлов из Интернета

In [29]:
# считываем csv непосредственно по URL-адресу
countries = pd.read_csv(
    "https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv")
countries[:5]

Unnamed: 0,Country,Region
0,Algeria,AFRICA
1,Angola,AFRICA
2,Benin,AFRICA
3,Botswana,AFRICA
4,Burkina,AFRICA


# Чтение из базы данных SQL и запись в базу данных SQL

In [31]:
# имепортируем библиотеку SQLite
import sqlite3

# считываем данные о котировках акций из CSV-файла
msft = pd.read_csv('C:/Python/Pandas/Notebooks/Data/msft.csv')
msft['Symbol'] = 'MSFT'
aapl = pd.read_csv('C:/Python/Pandas/Notebooks/Data/aapl.csv')
aapl['Symbol'] = 'AAPL'

# создаем подключение
connection = sqlite3.connect('C:/Python/Pandas/Notebooks/Data/stocks.sqlite')
# .to_sql() создаст бфзу SQL для хранения датафрейма в узказанной таблице
# if_exists задает действие, которое нужно выполнить в том случае, если таблица уже существует
msft.to_sql('STOCK_DATA', connection, if_exists='replace')
aapl.to_sql('STOCK_DATA', connection, if_exists='append')

# подтверждаем отправу данных в базу и закрываем подключение
connection.commit()
connection.close()

In [51]:
# подключаемся к файлу базы данных 
connection = sqlite3.connect('C:/Python/Pandas/Notebooks/Data/stocks.sqlite')

# запрос всех записей в STOCK_DATA возвращает датафрейм
# index_col задает столбец, который нудно сделать индексом датафрейма
stocks = pd.io.sql.read_sql('SELECT * FROM STOCK_DATA;', connection, index_col='index')

# закрываем подключение
connection.close()

#  выводим первые 5 наблюдений в извлечении данных
stocks[:5]

Unnamed: 0_level_0,Date,Open,High,Low,Close,Volume,Symbol
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,7/21/2014,83.46,83.53,81.81,81.93,2359300,MSFT
1,7/18/2014,83.3,83.4,82.52,83.35,4020800,MSFT
2,7/17/2014,84.35,84.63,83.33,83.63,1974000,MSFT
3,7/16/2014,83.77,84.91,83.66,84.91,1755600,MSFT
4,7/15/2014,84.3,84.38,83.2,83.58,1874700,MSFT


In [52]:
connection = sqlite3.connect('C:/Python/Pandas/Notebooks/Data/stocks.sqlite')
# создаем строку-запрос
query = "SELECT * FROM STOCK_DATA WHERE Volume>29200100 AND Symbol='MSFT'"
# выполняем и закрываем подключение
items = pd.io.sql.read_sql(query, connection, index_col='index')
connection.close()

items

Unnamed: 0_level_0,Date,Open,High,Low,Close,Volume,Symbol
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1081,5/21/2010,42.22,42.35,40.99,42.0,33610800,MSFT
1097,4/29/2010,46.8,46.95,44.65,45.92,47076200,MSFT
1826,6/15/2007,89.8,92.1,89.55,92.04,30656400,MSFT
3455,3/16/2001,47.0,47.8,46.1,45.33,40806400,MSFT
3712,3/17/2000,49.5,50.0,48.29,50.0,50860500,MSFT
