In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datatime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые настраивают вывод
# pd.set_option('display.notebook_repr_html', False)     # задаем вывод в виде текста, а не HTML
pd.set_option('display.max_columns', 8)                # устанавливаем отображение максимального количества стобцов
pd.set_option('display.max_rows', 10)                  # устанавливаем отображение максимального количества строк
pd.set_option('display.width', 80)                     # устанавливаеv максимальную ширину отображения в символах

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt 
%matplotlib inline

__Исследование CSV-файла__

In [2]:
# с помощью модуля csv посмотрим на первые пять строк CSV файла 
import csv
with open('./msft.csv') as file:
    reader = csv.reader(file, delimiter = ',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
['7/17/2014', '84.35', '84.63', '83.33', '83.63', '1974000']
['7/16/2014', '83.77', '84.91', '83.66', '84.91', '1755600']
['7/15/2014', '84.3', '84.38', '83.2', '83.58', '1874700']


__Чтение CSV файла в DataFrame__

In [3]:
# считываем csv в DataFrame
msft = pd.read_csv('./msft.csv')
msft.head(5)

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800
2,7/17/2014,84.35,84.63,83.33,83.63,1974000
3,7/16/2014,83.77,84.91,83.66,84.91,1755600
4,7/15/2014,84.3,84.38,83.2,83.58,1874700


__Указание индекса столбца при чтении CSV файла__

In [4]:
# используем столбец Date в качестве индекса
msft = pd.read_csv('./msft.csv', index_col=0)
msft.head(5)

Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
7/21/2014,83.46,83.53,81.81,81.93,2359300
7/18/2014,83.3,83.4,82.52,83.35,4020800
7/17/2014,84.35,84.63,83.33,83.63,1974000
7/16/2014,83.77,84.91,83.66,84.91,1755600
7/15/2014,84.3,84.38,83.2,83.58,1874700


__Вывод и спецификация типа данных__

In [5]:
# исследуем типы столбцов в нашем датафрейме
msft.dtypes 

Open      float64
High      float64
Low       float64
Close     float64
Volume      int64
dtype: object

In [6]:
# чтобы принудительно задать тип столбца, воспользуйтесь параметром dtype функции pd.read_csv(). Следующий программный код
# преобразует стобец Volume в тип float.64 
msft = pd.read_csv('./msft.csv',
                   dtype = {'Volume' : np.float64})
msft.dtypes 

Date       object
Open      float64
High      float64
Low       float64
Close     float64
Volume    float64
dtype: object

__Указание имен столбцов__

In [7]:
# Можно указать имена столбцов во время чтения данных, воспользовавшись параметром names 
# header = 0 задаёт строку заголовков, если этого не сделать pandas предположит, что первая строка является частью данных
# и это в дальнейшем вызовет некоторые проблемы при обработке информации
df = pd.read_csv('./msft.csv', 
                header = 0,
                names = ['date', 'open', 'high', 'low', 'close', 'volume'])
df.head(5)

Unnamed: 0,date,open,high,low,close,volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800
2,7/17/2014,84.35,84.63,83.33,83.63,1974000
3,7/16/2014,83.77,84.91,83.66,84.91,1755600
4,7/15/2014,84.3,84.38,83.2,83.58,1874700


__Указание конкретных столбцов для загрузки__

In [8]:
# можно указать какие столбцы нужно загружать при чтении файла с помощью параметра usecols
df2 = pd.read_csv('./msft.csv', usecols = ['Date', 'Close'], index_col = ['Date'])
df2[:5]

Unnamed: 0_level_0,Close
Date,Unnamed: 1_level_1
7/21/2014,81.93
7/18/2014,83.35
7/17/2014,83.63
7/16/2014,84.91
7/15/2014,83.58


__Сохранение датафрейма в CSV файл__

In [9]:
# с помощью метода .to_csv() объект DataFrame можно сохранить в CSV файл 
df2.to_csv('./msft_modified.csv', index_label = 'date')

In [10]:
with open('./msft_modified.csv') as file:
    reader = csv.reader(file, delimiter = ',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['date', 'Close']
['7/21/2014', '81.93']
['7/18/2014', '83.35']
['7/17/2014', '83.63']
['7/16/2014', '84.91']
['7/15/2014', '83.58']


__Работа с данными, в которых используются разделители полей__

In [11]:
# Библиотека Pandas предлагает функцию pd.read_table() для упрощения чтения данных с разделителями полей
df = pd.read_table('./msft.csv', sep = ',')
df[:5]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800
2,7/17/2014,84.35,84.63,83.33,83.63,1974000
3,7/16/2014,83.77,84.91,83.66,84.91,1755600
4,7/15/2014,84.3,84.38,83.2,83.58,1874700


In [12]:
# у библиотеки pandas нет метода .to_table() аналогично методу .to_csv(). Однако метод .to_csv() можно применить
# для записи данных с разделителями полей, в том числе и в тех случаях, когда в качестве разделителя вместо запятой
# используется другой символ
df.to_csv('./msft_piped.txt', sep = '|')

In [13]:
# смотрим как произошло сохранение
with open('./msft_piped.txt') as file:
    reader = csv.reader(file, delimiter = ',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['|Date|Open|High|Low|Close|Volume']
['0|7/21/2014|83.46|83.53|81.81|81.93|2359300']
['1|7/18/2014|83.3|83.4|82.52|83.35|4020800']
['2|7/17/2014|84.35|84.63|83.33|83.63|1974000']
['3|7/16/2014|83.77|84.91|83.66|84.91|1755600']
['4|7/15/2014|84.3|84.38|83.2|83.58|1874700']


__Обработка загрязненных данных, в которых используются разделители полей__

In [14]:
# смотрим первые 6 наблюдений файла msft2.csv
with open('./msft2.csv') as file:
    reader = csv.reader(file, delimiter = ',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 6):
            break

['This is fun because the data does not start on the first line', '', '', '', '', '']
['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['', '', '', '', '', '']
['And there is space between the header row and data', '', '', '', '', '']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
['7/17/2014', '84.35', '84.63', '83.33', '83.63', '1974000']


In [15]:
# эту ситуацию можно разрешить с помощью параметра skiprows 
# считываем данные пропуская строки 0,2,3
df = pd.read_csv('./msft2.csv', skiprows = [0, 2, 3])
df[:5]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800
2,7/17/2014,84.35,84.63,83.33,83.63,1974000
3,7/16/2014,83.77,84.91,83.66,84.91,1755600
4,7/15/2014,84.3,84.38,83.2,83.58,1874700


In [16]:
# смотрим файл msft_with_footer.csv
with open('./msft_with_footer.csv') as file:
    reader = csv.reader(file, delimiter = ',')
    for i,row in enumerate(reader):
        print(row)
        

['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
[]
['Uh oh', ' there is stuff at the end.']


In [17]:
# считываем пропустив две последние строки skip_footer
df = pd.read_csv('./msft_with_footer.csv',
                 skipfooter = 2,
                 engine = 'python')
df

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800


In [18]:
# чтобы не читать файл целиком и не занимать ресурсы, можно прочитать только несколько строк
# считаем только первые 3 строчки
pd.read_csv('./msft.csv', nrows = 3)

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800
2,7/17/2014,84.35,84.63,83.33,83.63,1974000


In [19]:
# кроме того можно пропустить некторое число строк, а затем прочитать лишь какую то часть данных
# пропускаем 100 строк, а затем считыыаем следующие 5 строк
pd.read_csv('./msft.csv',
            skiprows = 100,
            nrows = 5,
            header = 0,
            names = ['data', 'open', 'high', 'low', 'close', 'volume'])

Unnamed: 0,data,open,high,low,close,volume
0,3/3/2014,80.35,81.31,79.91,79.97,5004100
1,2/28/2014,82.4,83.42,82.17,83.42,2853200
2,2/27/2014,84.06,84.63,81.63,82.0,3676800
3,2/26/2014,82.92,84.03,82.43,83.81,2623600
4,2/25/2014,83.8,83.8,81.72,83.08,3579100


__Чтение и запись данных в формате Excel__

In [20]:
# считываем файл Excel 
# считываем только данные первого рабочего листа (mfst)
df = pd.read_excel('./stocks.xlsx')
df[:5]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2014-07-21,83.46,83.53,81.81,81.93,2359300
1,2014-07-18,83.3,83.4,82.52,83.35,4020800
2,2014-07-17,84.35,84.63,83.33,83.63,1974000
3,2014-07-16,83.77,84.91,83.66,84.91,1755600
4,2014-07-15,84.3,84.38,83.2,83.58,1874700


In [21]:
# считываем данные другого листа из этого же файла
df1 = pd.read_excel('./stocks.xlsx', sheet_name = 'aapl')
df[:5]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2014-07-21,83.46,83.53,81.81,81.93,2359300
1,2014-07-18,83.3,83.4,82.52,83.35,4020800
2,2014-07-17,84.35,84.63,83.33,83.63,1974000
3,2014-07-16,83.77,84.91,83.66,84.91,1755600
4,2014-07-15,84.3,84.38,83.2,83.58,1874700


In [22]:
# все параметры которые мы рассмотрели для pd.read_csv() так же применимы к функции pd.read_excel()


In [23]:
# Следующий программный код записывает только что полученные данные в файл tables2.xlsx
# по умолчанию выполняется сохранение датафрейма в рабочем листе Sheet1
df.to_excel('./tables2.xlsx')

In [24]:
# с помощью параметра sheet_name можно задать имя рабочего листа
df.to_excel('./stocks_msft.xlsx', sheet_name = 'MSFT')

In [25]:
# Чтобы записать несколько датафреймов в один и тот же файд Excel, по одному на каждый рабочий лист, воспользуйтесь объектом
# ExelWriter и ключевым словом with
from pandas import ExcelWriter
with ExcelWriter('./all_stocks.xlsx') as writer:
    df1.to_excel(writer, sheet_name = 'AAPL')
    df.to_excel(writer, sheet_name = 'MSFT')

__Чтение и запись JSON файлов__ 

In [26]:
# записываем данные Excel в JSON
df[:5].to_json('./stocks.json')
# теперь посмотрим на JSON файл 
import json
from pprint import pprint

with open('./stocks.json') as data_file:
    data = json.load(data_file)
    
pprint(data)

{'Close': {'0': 81.93, '1': 83.35, '2': 83.63, '3': 84.91, '4': 83.58},
 'Date': {'0': 1405900800000,
          '1': 1405641600000,
          '2': 1405555200000,
          '3': 1405468800000,
          '4': 1405382400000},
 'High': {'0': 83.53, '1': 83.4, '2': 84.63, '3': 84.91, '4': 84.38},
 'Low': {'0': 81.81, '1': 82.52, '2': 83.33, '3': 83.66, '4': 83.2},
 'Open': {'0': 83.46, '1': 83.3, '2': 84.35, '3': 83.77, '4': 84.3},
 'Volume': {'0': 2359300,
            '1': 4020800,
            '2': 1974000,
            '3': 1755600,
            '4': 1874700}}


In [27]:
# данные в формате JSON можно прочитать с помощью функции pd.read_json()
df_from_json = pd.read_json('./stocks.json')
df_from_json[:5]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2014-07-21,83.46,83.53,81.81,81.93,2359300
1,2014-07-18,83.3,83.4,82.52,83.35,4020800
2,2014-07-17,84.35,84.63,83.33,83.63,1974000
3,2014-07-16,83.77,84.91,83.66,84.91,1755600
4,2014-07-15,84.3,84.38,83.2,83.58,1874700


__Чтение HTML файлов из интернета__

__Загрузка CSV файлов из интернета__

In [39]:
# считываем csv непосредственно по URL 
banks = pd.read_csv('https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/banklist.csv', 
                     encoding = 'ISO-8859-1')
banks[:5]

Unnamed: 0,Bank Name,City,State,Cert,Acquiring Institution,Closing Date,Fund
0,Heartland Tri-State Bank,Elkhart,KS,25851,"Dream First Bank, N.A.",28-Jul-23,10544
1,First Republic Bank,San Francisco,CA,59017,"JPMorgan Chase Bank, N.A.",1-May-23,10543
2,Signature Bank,New York,NY,57053,"Flagstar Bank, N.A.",12-Mar-23,10540
3,Silicon Valley Bank,Santa Clara,CA,24735,FirstCitizens Bank & Trust Company,10-Mar-23,10539
4,Almena State Bank,Almena,KS,15426,Equity Bank,23-Oct-20,10538


__Чтение из базы данных SQL и запись в базу данных SQL__


In [41]:
# Библиотека Pandas может считать данные из любой базы данных SQL. Чтение выполняется с помощью функции 
# pandas.io.sql.read_sql(), а запись с помощью метода .to_sql() объекта DataFrame
# импортируем библиотеку SQLite
import sqlite3

# считываем данные о котировках акций из CSV файла 
msft = pd.read_csv('./msft.csv')
msft['Symbol'] = 'MSFT'
aapl = pd.read_csv('./aapl.csv')
aapl['Symbol'] = 'AAPL'

# создаем подключение
connection = sqlite3.connect('./stocks.sqlite')
# .to_sql() создаст базу SQL для хранения датафрейма в указанной таблице.
# if_exists задаёт действие, которое нужно выполнить в том случае, если таблица уже существует
msft.to_sql('STOCK_DATA', connection, if_exists = 'replace')
aapl.to_sql('STOCK_DATA', connection, if_exists = 'append')

# подтверждаем отправку данных в базу и закрываем подключение
connection.commit()
connection.close()

In [42]:
# подключаемся к файлу базы данных 
connection = sqlite3.connect('./stocks.sqlite')

# запрос всех записей в STOCK_DATA возвращает DataFrame
# index_col задает столбец, который нужно сделать индексом датафрейма
stocks = pd.io.sql.read_sql('SELECT * FROM STOCK_DATA;', connection, index_col = 'index')

# закрываем подключение
connection.close()

stocks[:5]

Unnamed: 0_level_0,Date,Open,High,Low,Close,Volume,Symbol
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,7/21/2014,83.46,83.53,81.81,81.93,2359300,MSFT
1,7/18/2014,83.3,83.4,82.52,83.35,4020800,MSFT
2,7/17/2014,84.35,84.63,83.33,83.63,1974000,MSFT
3,7/16/2014,83.77,84.91,83.66,84.91,1755600,MSFT
4,7/15/2014,84.3,84.38,83.2,83.58,1874700,MSFT


__Загрузка базы данных по экономической статистике Федерального резервного банка Сент-Луиса (FRED)__

In [None]:
# Данные FRED можно получить с помощью класса FreadReader, передав определенную метку временного ряда в качестве параметра name 
# Например, следующий код извлекает информацию о GPD (Gross Domestic Product) - ВВП

In [43]:
# импортируем пакет pandas_datareader
import pandas_datareader as pdr
pd.core.common.is_list_like = pd.api.types.is_list_like

In [50]:
# считываем данные по GDP из FRED 
gpd = pdr.data.FredReader('GDP', date(2022, 2, 23), date(2023, 2, 23))
gpd.read()[:5]

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2022-04-01,25248.476
2022-07-01,25723.941
2022-10-01,26137.992
2023-01-01,26529.774


In [53]:
# чтобы выбрать другой ряд, просто укажите идентификатор ряда в первом параметре
pdr.data.FredReader('TRESEGRUM052N', date(2022, 2, 23), date(2023, 2, 23)).read()[:5]

Unnamed: 0_level_0,TRESEGRUM052N
DATE,Unnamed: 1_level_1
2022-03-01,464318800000.0
2022-04-01,452047400000.0
2022-05-01,449255100000.0
2022-06-01,448189300000.0
2022-07-01,445690300000.0


__Загрузка данных Кеннета Френча__