In [None]:
# импортируем библиотеки numpy и pandas
import pandas as pd
import numpy as np

# импортируем библиотеку datetime для работы с датами
from datetime import datetime, date

# Задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 10) 
pd.set_option('display.max_rows', 15)
pd.set_option('display.width', 90)

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

#### Исследование CSV-файла

In [2]:
# с помощью модуля csv взглянем на первые 5 строк CSV-файла
import csv
with open('Notebooks/Data/msft.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for i, row in enumerate(reader): 
        print(row)
        if(i >= 5):
            break

['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
['7/17/2014', '84.35', '84.63', '83.33', '83.63', '1974000']
['7/16/2014', '83.77', '84.91', '83.66', '84.91', '1755600']
['7/15/2014', '84.3', '84.38', '83.2', '83.58', '1874700']


In [3]:
# считываеми msft.csv в датафрейм
msft = pd.read_csv('Notebooks/Data/msft.csv')
msft[:5]

        Date   Open   High    Low  Close   Volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000
3  7/16/2014  83.77  84.91  83.66  84.91  1755600
4  7/15/2014  84.30  84.38  83.20  83.58  1874700

In [4]:
# зададим индекс для наших данных. В нашем случае выберем 0 столбец (столбец с датой).
msft = pd.read_csv('Notebooks/Data/msft.csv', index_col=0)
msft[:5]

            Open   High    Low  Close   Volume
Date                                          
7/21/2014  83.46  83.53  81.81  81.93  2359300
7/18/2014  83.30  83.40  82.52  83.35  4020800
7/17/2014  84.35  84.63  83.33  83.63  1974000
7/16/2014  83.77  84.91  83.66  84.91  1755600
7/15/2014  84.30  84.38  83.20  83.58  1874700

In [5]:
# вывод и спецификаация типа данных (.dtypes)
msft.dtypes

Open      float64
High      float64
Low       float64
Close     float64
Volume      int64
dtype: object

Чтобы принудительно задать тип столбца, воспользуйтесь параметром **dtype**
функции pd.read_csv(). Следующий программный код преобразует столбец Volume
в тип float64:

In [6]:
# указываем, что столбец Volume должен иметь тип float64
msft = pd.read_csv('Notebooks/Data/msft.csv', dtype = {'Volume': np.float64})
msft.dtypes

Date       object
Open      float64
High      float64
Low       float64
Close     float64
Volume    float64
dtype: object

#### Указание имен столбцов

In [7]:
# задаем новый набор имен для столбцов
# все имеют нижний регистр, header=0 задает строку заголовков
df = pd.read_csv("Notebooks/Data/msft.csv",
                header=0,
                names=['date', 'open', 'high', 'low', 'close', 'volume'])
df[:5]

        date   open   high    low  close   volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000
3  7/16/2014  83.77  84.91  83.66  84.91  1755600
4  7/15/2014  84.30  84.38  83.20  83.58  1874700

#### Указание конкретных столбцов для загрузки (usecols)

In [8]:
df2 = pd.read_csv("Notebooks/Data/msft.csv",
                 usecols=['Date', 'Close'],
                index_col=['Date'])
df2[:5]

           Close
Date            
7/21/2014  81.93
7/18/2014  83.35
7/17/2014  83.63
7/16/2014  84.91
7/15/2014  83.58

#### Сохранение датафрейма в CSV-файл
С помощью метода <mark>.to_csv()</mark> объект DataFrame можно сохранить в CSV-файл.

С помощью параметра **index_label='date'** необходимо указать, что именем индекса будет имя столбца date. В противном случае индекс не получит имени, добавляемого в первую строку файла, и это затруднит правильное чтение данных. 
**на данный момнет, кажется, нет необходимости задавать поле index_label т.к pandas и так отсавляет индкесный столбец всести с его меткой**

In [9]:
# сохраняем датафрейм df2 в новый csv-файл
# задаем имя индекса как date
df2.to_csv('./msft_mofified.csv', index_label='date')

In [10]:
# с помощью модуля csv взглянем на первые 5 строк CSV-файла
with open('./msft_mofified.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['date', 'Close']
['7/21/2014', '81.93']
['7/18/2014', '83.35']
['7/17/2014', '83.63']
['7/16/2014', '84.91']
['7/15/2014', '83.58']


#### Работа с данными, в которых используются разделители полей
Библиотека pandas предлагает функцию <mark>pd.read_table()</mark> для упрощения чтения
данных с разделителями полей. В следующем примере эта функция используется
для чтения файла данных msft, задав запятую в качестве значения параметра sep

In [11]:
# используем функцию read_table с параметром sep=',', чтобы прочитать CSV-файл
df = pd.read_table("Notebooks/Data/msft.csv", sep=',')

df.to_csv('./msft_piped.txt', sep='|')
# смотрим, как сработал метод
with open('./msft_piped.txt') as f:
    reader = csv.reader(f, delimiter=',')
    for i, row in enumerate(reader):
        print(row)
        if (i >= 5):
            break


['|Date|Open|High|Low|Close|Volume']
['0|7/21/2014|83.46|83.53|81.81|81.93|2359300']
['1|7/18/2014|83.3|83.4|82.52|83.35|4020800']
['2|7/17/2014|84.35|84.63|83.33|83.63|1974000']
['3|7/16/2014|83.77|84.91|83.66|84.91|1755600']
['4|7/15/2014|84.3|84.38|83.2|83.58|1874700']


#### Обработка загрязненных данных
Данные с разделителями полей могут содержать посторонние строки в начале или
в конце файла. В качестве примеров можно привести служебную информацию,
размещаемую вверху, например номер счета, адреса, сводные данные, размещаемые внизу. Кроме того, бывают случаи, когда данные хранятся в нескольких строках. Эти ситуации могут вызвать ошибки при загрузке данных. Чтобы разрешить
такие ситуации, методы ос и <mark>pd.read_table()</mark> предлагают некоторые полезные параметры, которые выручат нас.

Опции <mark>skiprows и skipfooter</mark> 

In [12]:
# смотрим первые 6 строк в файле msft2.csv
with open('Notebooks/Data/msft2.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for i, row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

['This is fun because the data does not start on the first line', '', '', '', '', '']
['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['', '', '', '', '', '']
['And there is space between the header row and data', '', '', '', '', '']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']


In [13]:
# Считываем только нужные строки (убираем строки 0, 2, 3)
df = pd.read_csv('Notebooks/Data/msft2.csv', skiprows=[0,2,3])

# Для игнорирования последних строк файла есть опция skipfooter
df2 = pd.read_csv('Notebooks/Data/msft_with_footer.csv', skipfooter=2, engine='python')
df[:5], df2

(        Date   Open   High    Low  Close   Volume
 0  7/21/2014  83.46  83.53  81.81  81.93  2359300
 1  7/18/2014  83.30  83.40  82.52  83.35  4020800
 2  7/17/2014  84.35  84.63  83.33  83.63  1974000
 3  7/16/2014  83.77  84.91  83.66  84.91  1755600
 4  7/15/2014  84.30  84.38  83.20  83.58  1874700,
         Date   Open   High    Low  Close   Volume
 0  7/21/2014  83.46  83.53  81.81  81.93  2359300
 1  7/18/2014  83.30  83.40  82.52  83.35  4020800)

In [14]:
# Если файл очень большой, а нам нужно прочитать только первые несколько строк,
# то для этого есть опция nrows
pd.read_csv('Notebooks/Data/msft.csv', nrows=3)

        Date   Open   High    Low  Close   Volume
0  7/21/2014  83.46  83.53  81.81  81.93  2359300
1  7/18/2014  83.30  83.40  82.52  83.35  4020800
2  7/17/2014  84.35  84.63  83.33  83.63  1974000

In [15]:
# пропускаем 100 строк, а затем считываем следующие 5 строк.
# Т.к мы пропускаем строку с заголовком столбцщв, то необходимо сообщить pandas, чтобы она
# не искала заголовки и использовала указанные имена.
pd.read_csv("Notebooks/Data/msft.csv", 
            skiprows=100, 
            nrows=5,
            header=0, # эта опция скорее всего необязательна когда задаются names
            names=['date', 'open', 'high', 'low', 'close', 'vol'])

        date   open   high    low  close      vol
0   3/3/2014  80.35  81.31  79.91  79.97  5004100
1  2/28/2014  82.40  83.42  82.17  83.42  2853200
2  2/27/2014  84.06  84.63  81.63  82.00  3676800
3  2/26/2014  82.92  84.03  82.43  83.81  2623600
4  2/25/2014  83.80  83.80  81.72  83.08  3579100

#### Чтение и запись данных в формате excex

Библиотека pandas поддерживает чтение данных в формате Excel 2003 и более
поздних форматах с помощью функции pd.read_excel() или класса ExcelFile. Оба
способа используют либо пакет XLRD, либо пакет OpenPyXL, поэтому вам необходимо
убедиться в том, что один из них установлен в вашей среде Python.

In [16]:
# считываем файл excel
# считываем только данные первого рабочего листа
# (msft в данном случае)
df = pd.read_excel('Notebooks/Data/stocks.xlsx')
df[:5]

ImportError: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.