<a href="https://colab.research.google.com/github/dm-fedorov/pandas_basic/blob/master/кейсы%20по%20анализу%20данных/Загрузка_данных.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory" target="_blank"></a>

In [1]:
import numpy as np
import pandas as pd

Датасеты для скачивания лежат [здесь](https://github.com/dm-fedorov/pandas_basic/tree/master/data).

С помощью модуля csv взглянем на первые 5 строк CSV-файла:

In [2]:
import csv 
with open('../data/orders.csv') as file:
    reader = csv.reader(file)
    for i, row in enumerate(reader):
        print(row)
        if i >= 5:
            break

['id', 'order_date', 'ship_mode', 'customer_id', 'sales']
['100006', '2014-09-07', 'Standard', 'DK-13375', '377.97']
['100090', '2014-07-08', 'Standard', 'EB-13705', '699.192']
['100293', '2014-03-14', 'Standard', 'NF-18475', '91.056']
['100328', '2014-01-28', 'Standard', 'JC-15340', '3.928']
['100363', '2014-04-08', 'Standard', 'JM-15655', '21.376']


### Считывание CSV-файла в датафрейм

In [3]:
orders = pd.read_csv('../data/orders.csv')
orders.head()

Unnamed: 0,id,order_date,ship_mode,customer_id,sales
0,100006,2014-09-07,Standard,DK-13375,377.97
1,100090,2014-07-08,Standard,EB-13705,699.192
2,100293,2014-03-14,Standard,NF-18475,91.056
3,100328,2014-01-28,Standard,JC-15340,3.928
4,100363,2014-04-08,Standard,JM-15655,21.376


### Указание индекса столбца при считывании CSV-файла 

Используем столбец 0 в качестве индекса:

In [4]:
orders = pd.read_csv('../data/orders.csv', index_col=0)
orders.head()

Unnamed: 0_level_0,order_date,ship_mode,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
100006,2014-09-07,Standard,DK-13375,377.97
100090,2014-07-08,Standard,EB-13705,699.192
100293,2014-03-14,Standard,NF-18475,91.056
100328,2014-01-28,Standard,JC-15340,3.928
100363,2014-04-08,Standard,JM-15655,21.376


### Вывод и спецификация типа данных

Исследуем типы столбцов в этом датафрейме:

In [5]:
orders.dtypes

order_date      object
ship_mode       object
customer_id     object
sales          float64
dtype: object

Можно преобразовывать типы данных, если требуется, в момент загрузки:

In [6]:
orders = pd.read_csv('../data/orders.csv', 
                      dtype={'sales': np.str})
orders.dtypes

id              int64
order_date     object
ship_mode      object
customer_id    object
sales          object
dtype: object

Указываем, что столбец order_date должен иметь тип datetime:

In [7]:
orders = pd.read_csv('../data/orders.csv', 
                      parse_dates=["order_date"])
orders.dtypes

id                      int64
order_date     datetime64[ns]
ship_mode              object
customer_id            object
sales                 float64
dtype: object

### Указание имен столбцов

Задаем новый набор имен для столбцов, все имеют нижний регистр, header=0 задает строку заголовков:

In [8]:
df = pd.read_csv('../data/orders.csv', 
                 header=0,
                 names=['1', '2', '3', '4', '5'])
df.head()

Unnamed: 0,1,2,3,4,5
0,100006,2014-09-07,Standard,DK-13375,377.97
1,100090,2014-07-08,Standard,EB-13705,699.192
2,100293,2014-03-14,Standard,NF-18475,91.056
3,100328,2014-01-28,Standard,JC-15340,3.928
4,100363,2014-04-08,Standard,JM-15655,21.376


### Указание конкретных столбцов для загрузки

Считываем в данных только столбцы Date и Close и индексируем по столбцу Date:

In [9]:
df2 = pd.read_csv("../data/customers.csv", 
                  usecols=['id', 'name'], 
                  index_col=['id'])
df2.head()

Unnamed: 0_level_0,name
id,Unnamed: 1_level_1
CG-12520,Claire Gute
DV-13045,Darrin Van Huff
SO-20335,Sean O'Donnell
BH-11710,Brosina Hoffman
AA-10480,Andrew Allen


### Сохранение датафрейма в CSV-файл

Сохраняем датафрейм df2 в новый csv-файл задаем имя индекса как id:

In [10]:
df2.to_csv("../data/customers_modified.csv", index_label='id') 

С помощью модуля csv взглянем на первые 5 строк CSV-файла:

In [11]:
with open('../data/customers_modified.csv') as file:
    reader = csv.reader(file)
    for i,row in enumerate(reader):
        print(row)
        if i >= 5:
            break

['id', 'name']
['CG-12520', 'Claire Gute']
['DV-13045', 'Darrin Van Huff']
['SO-20335', "Sean O'Donnell"]
['BH-11710', 'Brosina Hoffman']
['AA-10480', 'Andrew Allen']


### Работа с данными, в которых используются разделители полей

Используем функцию read_table с параметром sep=',', чтобы прочитать CSV-файл:

In [12]:
df = pd.read_table("../data/orders.csv", sep=',')
df.head()

Unnamed: 0,id,order_date,ship_mode,customer_id,sales
0,100006,2014-09-07,Standard,DK-13375,377.97
1,100090,2014-07-08,Standard,EB-13705,699.192
2,100293,2014-03-14,Standard,NF-18475,91.056
3,100328,2014-01-28,Standard,JC-15340,3.928
4,100363,2014-04-08,Standard,JM-15655,21.376


Сохраняем как данные, в которых разделителем является вертикальная черта:

In [13]:
df.to_csv("../data/orders_piped.txt", sep='|')

Смотрим, как сработал программный код:

In [14]:
with open('../data/orders_piped.txt') as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if i >= 5:
            break

['|id|order_date|ship_mode|customer_id|sales']
['0|100006|2014-09-07|Standard|DK-13375|377.97']
['1|100090|2014-07-08|Standard|EB-13705|699.192']
['2|100293|2014-03-14|Standard|NF-18475|91.056']
['3|100328|2014-01-28|Standard|JC-15340|3.928']
['4|100363|2014-04-08|Standard|JM-15655|21.375999999999998']


### Обработка загрязненных данных, в которых используются разделители полей

Смотрим первые 6 наблюдений файла [msft2.csv](https://github.com/dm-fedorov/pandas_basic/tree/master/data):

In [15]:
with open('../data/msft2.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for i,row in enumerate(reader):
        print(row)
        if i >= 6:
            break

['This is fun because the data does not start on the first line', '', '', '', '', '']
['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['', '', '', '', '', '']
['And there is space between the header row and data', '', '', '', '', '']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
['7/17/2014', '84.35', '84.63', '83.33', '83.63', '1974000']


Считываем данные, пропустив строки 0, 2 и 3:

In [16]:
df = pd.read_csv("../data/msft2.csv", skiprows=[0, 2, 3])
df[:5]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800
2,7/17/2014,84.35,84.63,83.33,83.63,1974000
3,7/16/2014,83.77,84.91,83.66,84.91,1755600
4,7/15/2014,84.3,84.38,83.2,83.58,1874700


Смотрим файл [msft_with_footer.csv](https://github.com/dm-fedorov/pandas_basic/tree/master/data):

In [17]:
with open('../data/msft_with_footer.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for row in reader:
        print(row)

['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
['7/21/2014', '83.46', '83.53', '81.81', '81.93', '2359300']
['7/18/2014', '83.3', '83.4', '82.52', '83.35', '4020800']
[]
['Uh oh', ' there is stuff at the end.']


Считываем, пропустив две строки в конце файла:

In [18]:
df = pd.read_csv("../data/msft_with_footer.csv", 
                 skipfooter=2,
                 engine='python')
df

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,7/21/2014,83.46,83.53,81.81,81.93,2359300
1,7/18/2014,83.3,83.4,82.52,83.35,4020800


Считаем только первые три строки:

In [19]:
pd.read_csv("../data/orders.csv", nrows=3)

Unnamed: 0,id,order_date,ship_mode,customer_id,sales
0,100006,2014-09-07,Standard,DK-13375,377.97
1,100090,2014-07-08,Standard,EB-13705,699.192
2,100293,2014-03-14,Standard,NF-18475,91.056


Пропускаем 100 строк, а затем считываем следующие 5 строк:

In [20]:
pd.read_csv("../data/orders.csv", skiprows=100, nrows=5) 

Unnamed: 0,107524,2014-03-02,Standard,KN-16705,47.76
0,107573,2014-12-12,Standard,PB-19150,23.472
1,107594,2014-07-02,Standard,EH-13945,79.56
2,107706,2014-02-14,Second,ST-20530,16.176
3,107755,2014-02-07,Standard,CK-12760,115.36
4,107769,2014-10-28,Standard,BT-11395,257.98


In [21]:
pd.read_csv("../data/orders.csv", skiprows=100, nrows=5,
           header=0,
           names=["id", "order_date", "ship_mode", "customer_id", "sales"]) 

Unnamed: 0,id,order_date,ship_mode,customer_id,sales
0,107573,2014-12-12,Standard,PB-19150,23.472
1,107594,2014-07-02,Standard,EH-13945,79.56
2,107706,2014-02-14,Second,ST-20530,16.176
3,107755,2014-02-07,Standard,CK-12760,115.36
4,107769,2014-10-28,Standard,BT-11395,257.98


### Чтение и запись данных в формате Excel

Считываем файл Excel, считываем только данные первого рабочего листа о котировках акций (msft в данном случае):

In [22]:
df = pd.read_excel("../data/stocks.xlsx")
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2014-07-21,83.46,83.53,81.81,81.93,2359300
1,2014-07-18,83.3,83.4,82.52,83.35,4020800
2,2014-07-17,84.35,84.63,83.33,83.63,1974000
3,2014-07-16,83.77,84.91,83.66,84.91,1755600
4,2014-07-15,84.3,84.38,83.2,83.58,1874700


Считываем данные рабочего листа aapl:

In [23]:
aapl = pd.read_excel("../data/stocks.xlsx", sheet_name='aapl')
aapl.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2014-07-21,94.99,95.0,93.72,93.94,38887700
1,2014-07-18,93.62,94.74,93.02,94.43,49898600
2,2014-07-17,95.03,95.28,92.57,93.09,57152000
3,2014-07-16,96.97,97.1,94.74,94.78,53396300
4,2014-07-15,96.8,96.85,95.03,95.32,45477900


Параметры совпадают с read_csv.

Сохраняем XLS-файл в рабочем листе 'Sheet1':

In [24]:
df.to_excel("../data/stocks2.xls")

Записываем, задав имя рабочего листа MSFT:

In [25]:
df.to_excel("../data/stocks_msft.xls", sheet_name='MSFT')

Записываем несколько рабочих листов, требуется класс ExcelWriter:

In [26]:
from pandas import ExcelWriter

with ExcelWriter("../data/all_stocks.xls") as writer:
    aapl.to_excel(writer, sheet_name='AAPL')
    df.to_excel(writer, sheet_name='MSFT')

Записываем в xlsx:

In [27]:
df.to_excel("../data/msft2.xlsx")

### Дополнительная литература:

- [Автоматизация Excel с помощью Python](https://medium.com/nastia-shu/%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B5-%D0%BD%D0%B5-%D0%BD%D1%83%D0%B6%D0%BD%D0%BE-%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D0%B2%D0%B0%D1%82%D1%8C-%D1%81%D0%BE%D1%82%D0%BD%D0%B8-%D1%84%D0%B0%D0%B9%D0%BB%D0%BE%D0%B2-%D0%B2-excel-e0a1f5a9e9a7)

### Чтение и запись JSON-файлов

Записываем данные Excel в JSON-файл:

In [28]:
df.head().to_json("../data/stocks.json")

Теперь взглянем на JSON-файл:

In [29]:
import json
from pprint import pprint

with open('../data/stocks.json') as data_file:    
    data = json.load(data_file)

pprint(data)

{'Close': {'0': 81.93, '1': 83.35, '2': 83.63, '3': 84.91, '4': 83.58},
 'Date': {'0': 1405900800000,
          '1': 1405641600000,
          '2': 1405555200000,
          '3': 1405468800000,
          '4': 1405382400000},
 'High': {'0': 83.53, '1': 83.4, '2': 84.63, '3': 84.91, '4': 84.38},
 'Low': {'0': 81.81, '1': 82.52, '2': 83.33, '3': 83.66, '4': 83.2},
 'Open': {'0': 83.46, '1': 83.3, '2': 84.35, '3': 83.77, '4': 84.3},
 'Volume': {'0': 2359300,
            '1': 4020800,
            '2': 1974000,
            '3': 1755600,
            '4': 1874700}}


Считываем данные в формате JSON:

In [30]:
df_from_json = pd.read_json("../data/stocks.json")
df_from_json.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2014-07-21,83.46,83.53,81.81,81.93,2359300
1,2014-07-18,83.3,83.4,82.52,83.35,4020800
2,2014-07-17,84.35,84.63,83.33,83.63,1974000
3,2014-07-16,83.77,84.91,83.66,84.91,1755600
4,2014-07-15,84.3,84.38,83.2,83.58,1874700


### Чтение HTML-файлов из Интернета

Задаем URL-адрес HTML-файла:

In [31]:
url = "https://rating.unecon.ru/index.php?&y=2019&k=1&f=1&up=12270&g=all&upp=all&sort=fio&ball=hide&s=1"

In [32]:
df = pd.read_html(url, header=1, index_col="№", encoding="utf8")

Проверяем, как была прочитана таблица:

In [33]:
df[0].head()

Unnamed: 0_level_0,"Фамилия, имя, отчество",№ группы,ДЯиК,ИЛУ,ОПДП,ОЯ,ПКПИЯ,ФКиСЭД,Ф,∑баллов
№,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,Алтухова Валерия Вадимовна,Л-1903,95.0,94.5,100.0,91.0,78.0,,93.0,551.5
2,Асадова Алиса Александровна,Л-1907,80.0,76.0,65.0,67.0,76.0,,80.0,444.0
3,Баринова Анастасия Дмитриевна,Л-1905,85.0,77.84,80.0,67.0,61.0,,82.0,452.84
4,Башкирова Анита Александровна,Л-1904,,,,,,,,0.0
5,Белякова Дария Сергеевна,Л-1904,75.0,75.0,80.0,69.0,68.05,,77.0,444.05


Считываем данные о котировках акций:

In [34]:
df = pd.read_excel("../data/stocks.xlsx")

Записываем первые две строки в HTML:

In [35]:
df.head(2).to_html("../data/stocks.html")

Смотрим HTML-файл в браузере:

In [36]:
import webbrowser
webbrowser.open("../data/stocks.html")

True

### Загрузка данных из Интернета и облака

In [37]:
df = pd.read_csv("https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/orders.csv")
df.head()

Unnamed: 0,id,order_date,ship_mode,customer_id,sales
0,100006,2014-09-07,Standard,DK-13375,377.97
1,100090,2014-07-08,Standard,EB-13705,699.192
2,100293,2014-03-14,Standard,NF-18475,91.056
3,100328,2014-01-28,Standard,JC-15340,3.928
4,100363,2014-04-08,Standard,JM-15655,21.376


### Чтение из базы данных SQL и запись в базу данных SQL

In [38]:
orders = pd.read_csv("../data/orders.csv")
orders.head()

Unnamed: 0,id,order_date,ship_mode,customer_id,sales
0,100006,2014-09-07,Standard,DK-13375,377.97
1,100090,2014-07-08,Standard,EB-13705,699.192
2,100293,2014-03-14,Standard,NF-18475,91.056
3,100328,2014-01-28,Standard,JC-15340,3.928
4,100363,2014-04-08,Standard,JM-15655,21.376


In [39]:
customers = pd.read_csv("../data/customers.csv")
customers.head()

Unnamed: 0,id,name,segment,state,city
0,CG-12520,Claire Gute,Consumer,Kentucky,Henderson
1,DV-13045,Darrin Van Huff,Corporate,California,Los Angeles
2,SO-20335,Sean O'Donnell,Consumer,Florida,Fort Lauderdale
3,BH-11710,Brosina Hoffman,Consumer,California,Los Angeles
4,AA-10480,Andrew Allen,Consumer,North Carolina,Concord


In [40]:
import sqlite3

# создаем подключение
connection = sqlite3.connect("../data/stocks.sqlite")

# .to_sql() создаст базу SQL для хранения датафрейма в указанной таблице
orders.to_sql("MY_DATA", connection, if_exists="replace") # if_exists задает действие, которое нужно выполнить в том случае, если таблица уже существует
customers.to_sql("MY_DATA", connection, if_exists="replace")

# подтверждаем отправку данных в базу и закрываем подключение
connection.commit()
connection.close()

In [41]:
# подключаемся к файлу базы данных
connection = sqlite3.connect("../data/stocks.sqlite")

Запрос всех записей в MY_DATA возвращает датафрейм index_col и задает столбец, который нужно сделать индексом датафрейма:

In [42]:
stocks = pd.io.sql.read_sql("SELECT * FROM MY_DATA;", 
                             connection, index_col='index')

# закрываем подключение
connection.close()

In [43]:
stocks.head()

Unnamed: 0_level_0,id,name,segment,state,city
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,CG-12520,Claire Gute,Consumer,Kentucky,Henderson
1,DV-13045,Darrin Van Huff,Corporate,California,Los Angeles
2,SO-20335,Sean O'Donnell,Consumer,Florida,Fort Lauderdale
3,BH-11710,Brosina Hoffman,Consumer,California,Los Angeles
4,AA-10480,Andrew Allen,Consumer,North Carolina,Concord


### Взаимодействие с MSSQL

In [44]:
# https://groups.google.com/forum/#!topic/pymssql/CLXHtLKBWig
# https://docs.microsoft.com/ru-ru/sql/connect/odbc/microsoft-odbc-driver-for-sql-server?view=sql-server-ver15

### Дополнительная литература:

1. https://proglib.io/p/rabotaem-s-sql-server-s-pomoshchyu-python-2020-04-18?fbclid=IwAR1pH9SA_7j5OEuqlQTRAh9rJvwyfb8CB3mLUQWu8qhYjBLSjC8uZdXRRvc

2. https://gist.github.com/hunterowens/08ebbb678255f33bba94?fbclid=IwAR1HKg3UkBurfcr7W8RKGY4Q1iMs0wboXBsovPowS1hrbI6nKlgPxnUlKD4