In [2]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datetime для работы с датами
import datetime
from datetime import datetime, date

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt

In [None]:
# с помощью модуля csv взглянем на первые 5 строк CSV-файла
import csv 
with open('Data/orders.csv') as file:
    reader = csv.reader(file)
    for i, row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

### Считывание CSV-файла в датафрейм

In [None]:
orders = pd.read_csv("Data/orders.csv")
orders.head()

### Указание индекса столбца при считывании CSV-файла 

In [None]:
# используем столбец 0 в качестве индекса
orders = pd.read_csv("Data/orders.csv", index_col=0)
orders.head()

### Вывод и спецификация типа данных

In [None]:
# исследуем типы столбцов в этом датафрейме
orders.dtypes

In [None]:
# если это не так!
# указываем, что столбец sales должен иметь тип float64
orders = pd.read_csv("Data/orders.csv", 
                   dtype={'sales': np.float64})
orders.dtypes

### Указание имен столбцов

In [None]:
# задаем новый набор имен для столбцов, все имеют нижний регистр, 
# header=0 задает строку заголовков
df = pd.read_csv("Data/orders.csv", 
                 header=0,
                 names=['1', '2', '3', '4', '5'])
df[:5]

### Указание конкретных столбцов для загрузки

In [None]:
# считываем в данных только столбцы Date и Close
# и индексируем по столбцу Date
df2 = pd.read_csv("Data/customers.csv", 
                  usecols=['id', 'name'], 
                  index_col=['id'])
df2[:5]

### Сохранение датафрейма в CSV-файл

In [None]:
# сохраняем датафрейм df2 в новый csv-файл
# задаем имя индекса как id
df2.to_csv("Data/customers_modified.csv", index_label='id') # index_label

In [None]:
# с помощью модуля csv взглянем
# на первые 5 строк CSV-файла
with open('Data/customers_modified.csv') as file:
    reader = csv.reader(file)
    for i,row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

### Работа с данными, в которых используются разделители полей

In [None]:
# используем функцию read_table с параметром sep=',' 
# чтобы прочитать CSV-файл
df = pd.read_table("Data/orders.csv", sep=',')
df[:5]

In [None]:
# сохраняем как данные, в которых разделителем является вертикальная черта
df.to_csv("Data/orders_piped.txt", sep='|')

# смотрим, как сработал программный код
with open('Data/orders_piped.txt') as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 5):
            break

### Обработка загрязненных данных, в которых используются разделители полей

In [None]:
# смотрим первые 6 наблюдений файла msft2.csv
with open('Data/msft2.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if(i >= 6):
            break

In [None]:
# считываем данные, пропустив строки 0, 2 и 3
df = pd.read_csv("Data/msft2.csv", skiprows=[0, 2, 3])
df[:5]

In [None]:
# смотрим файл msft_with_footer.csv
with open('Data/msft_with_footer.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for row in reader:
        print(row)

In [None]:
# считываем, пропустив две строки в конце файла
df = pd.read_csv("Data/msft_with_footer.csv", 
                 skipfooter=2,
                 engine='python')
df

In [None]:
# считаем только первые три строки
pd.read_csv("Data/orders.csv", nrows=3)

In [None]:
# пропускаем 100 строк, а затем считываем следующие 5 строк
pd.read_csv("Data/orders.csv", skiprows=100, nrows=5) 

### Чтение и запись данных в формате Excel

[Your Guide to Reading Excel (xlsx) Files in Python](https://www.marsja.se/your-guide-to-reading-excel-xlsx-files-in-python/)

In [None]:
# считываем файл Excel
# считываем только данные первого рабочего листа
# (msft в данном случае)
df = pd.read_excel("Data/stocks.xlsx")
df[:5]

In [None]:
# считываем данные рабочего листа aapl
aapl = pd.read_excel("Data/stocks.xlsx", sheet_name='aapl')
aapl[:5]

In [None]:
# сохраняем XLS-файл в рабочем листе 'Sheet1'
df.to_excel("Data/stocks2.xls")

In [None]:
# записываем, задав имя рабочего листа MSFT
df.to_excel("Data/stocks_msft.xls", sheet_name='MSFT')

In [None]:
# записываем несколько рабочих листов, требуется класс ExcelWriter
from pandas import ExcelWriter

with ExcelWriter("Data/all_stocks.xls") as writer:
    aapl.to_excel(writer, sheet_name='AAPL')
    df.to_excel(writer, sheet_name='MSFT')

In [None]:
# записываем в xlsx
df.to_excel("Data/msft2.xlsx")

### Чтение и запись JSON-файлов

In [None]:
# записываем данные Excel в JSON-файл
df[:5].to_json("Data/stocks.json")

# теперь взглянем на JSON-файл
import json
from pprint import pprint

with open('Data/stocks.json') as data_file:    
    data = json.load(data_file)

pprint(data)

In [None]:
# считываем данные в формате JSON
df_from_json = pd.read_json("Data/stocks.json")
df_from_json[:5]

### Чтение HTML-файлов из Интернета

In [3]:
# задаем URL-адрес HTML-файла
url = "http://rating.unecon.ru/index.php?&y=2019&k=1&f=1&up=12259&s=2&upp=all&sort=fio&ball=hide&g=12450"
# читаем его
students = pd.read_html(url, encoding='utf8')

In [4]:
# проверяем, как была прочитана
# часть первой таблицы
students[0][0:5].iloc[:,0:2]

Unnamed: 0_level_0,№,"Фамилия, имя, отчество"
Unnamed: 0_level_1,№,"Фамилия, имя, отчество"
0,1,Абзалов Никита Фаргатович
1,2,Архипова Анна Дмитриевна
2,3,Беляева Яна Сергеевна
3,4,Бондаренко Руслан Александрович
4,5,Гирфанова Камилла Рустемовна


In [None]:
# считываем данные о котировках акций
df = pd.read_excel("Data/stocks.xlsx")
# записываем первые две строки в HTML
df.head(2).to_html("Data/stocks.html")
# смотрим HTML-файл в браузере
import webbrowser
webbrowser.open("Data/stocks.html")

### Загрузка данных из Интернета и облака

In [None]:
df = pd.read_csv(
    "https://raw.githubusercontent.com/arthur-e/swc-workshop/master/data/ecology-plots.csv",
    encoding='utf8')
msft_hist[:5]

### Чтение из базы данных SQL и запись в базу данных SQL

.to_sql() создаст базу SQL для хранения датафрейма в указанной таблице.  

if_exists задает действие, которое нужно выполнить в том случае, если таблица уже существует
