# Ввод и вывод данных
Pandas может загружать данные из различных типов файлов, используя методы с названиями __pd.read___

## Документация
https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

----
----

<table border="1" class="colwidths-given docutils">
<colgroup>
<col width="12%" />
<col width="40%" />
<col width="24%" />
<col width="24%" />
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Format Type</th>
<th class="head">Data Description</th>
<th class="head">Reader</th>
<th class="head">Writer</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td>text</td>
<td><a class="reference external" href="https://en.wikipedia.org/wiki/Comma-separated_values">CSV</a></td>
<td><a class="reference internal" href="#io-read-csv-table"><span class="std std-ref">read_csv</span></a></td>
<td><a class="reference internal" href="#io-store-in-csv"><span class="std std-ref">to_csv</span></a></td>
</tr>
<tr class="row-odd"><td>text</td>
<td><a class="reference external" href="https://www.json.org/">JSON</a></td>
<td><a class="reference internal" href="#io-json-reader"><span class="std std-ref">read_json</span></a></td>
<td><a class="reference internal" href="#io-json-writer"><span class="std std-ref">to_json</span></a></td>
</tr>
<tr class="row-even"><td>text</td>
<td><a class="reference external" href="https://en.wikipedia.org/wiki/HTML">HTML</a></td>
<td><a class="reference internal" href="#io-read-html"><span class="std std-ref">read_html</span></a></td>
<td><a class="reference internal" href="#io-html"><span class="std std-ref">to_html</span></a></td>
</tr>
<tr class="row-odd"><td>text</td>
<td>Local clipboard</td>
<td><a class="reference internal" href="#io-clipboard"><span class="std std-ref">read_clipboard</span></a></td>
<td><a class="reference internal" href="#io-clipboard"><span class="std std-ref">to_clipboard</span></a></td>
</tr>
<tr class="row-even"><td>binary</td>
<td><a class="reference external" href="https://en.wikipedia.org/wiki/Microsoft_Excel">MS Excel</a></td>
<td><a class="reference internal" href="#io-excel-reader"><span class="std std-ref">read_excel</span></a></td>
<td><a class="reference internal" href="#io-excel-writer"><span class="std std-ref">to_excel</span></a></td>
</tr>
<tr class="row-odd"><td>binary</td>
<td><a class="reference external" href="http://www.opendocumentformat.org">OpenDocument</a></td>
<td><a class="reference internal" href="#io-ods"><span class="std std-ref">read_excel</span></a></td>
<td>&#160;</td>
</tr>
<tr class="row-even"><td>binary</td>
<td><a class="reference external" href="https://support.hdfgroup.org/HDF5/whatishdf5.html">HDF5 Format</a></td>
<td><a class="reference internal" href="#io-hdf5"><span class="std std-ref">read_hdf</span></a></td>
<td><a class="reference internal" href="#io-hdf5"><span class="std std-ref">to_hdf</span></a></td>
</tr>
<tr class="row-odd"><td>binary</td>
<td><a class="reference external" href="https://github.com/wesm/feather">Feather Format</a></td>
<td><a class="reference internal" href="#io-feather"><span class="std std-ref">read_feather</span></a></td>
<td><a class="reference internal" href="#io-feather"><span class="std std-ref">to_feather</span></a></td>
</tr>
<tr class="row-even"><td>binary</td>
<td><a class="reference external" href="https://parquet.apache.org/">Parquet Format</a></td>
<td><a class="reference internal" href="#io-parquet"><span class="std std-ref">read_parquet</span></a></td>
<td><a class="reference internal" href="#io-parquet"><span class="std std-ref">to_parquet</span></a></td>
</tr>
<tr class="row-odd"><td>binary</td>
<td><a class="reference external" href="https://msgpack.org/index.html">Msgpack</a></td>
<td><a class="reference internal" href="#io-msgpack"><span class="std std-ref">read_msgpack</span></a></td>
<td><a class="reference internal" href="#io-msgpack"><span class="std std-ref">to_msgpack</span></a></td>
</tr>
<tr class="row-even"><td>binary</td>
<td><a class="reference external" href="https://en.wikipedia.org/wiki/Stata">Stata</a></td>
<td><a class="reference internal" href="#io-stata-reader"><span class="std std-ref">read_stata</span></a></td>
<td><a class="reference internal" href="#io-stata-writer"><span class="std std-ref">to_stata</span></a></td>
</tr>
<tr class="row-odd"><td>binary</td>
<td><a class="reference external" href="https://en.wikipedia.org/wiki/SAS_(software)">SAS</a></td>
<td><a class="reference internal" href="#io-sas-reader"><span class="std std-ref">read_sas</span></a></td>
<td>&#160;</td>
</tr>
<tr class="row-even"><td>binary</td>
<td><a class="reference external" href="https://docs.python.org/3/library/pickle.html">Python Pickle Format</a></td>
<td><a class="reference internal" href="#io-pickle"><span class="std std-ref">read_pickle</span></a></td>
<td><a class="reference internal" href="#io-pickle"><span class="std std-ref">to_pickle</span></a></td>
</tr>
<tr class="row-odd"><td>SQL</td>
<td><a class="reference external" href="https://en.wikipedia.org/wiki/SQL">SQL</a></td>
<td><a class="reference internal" href="#io-sql"><span class="std std-ref">read_sql</span></a></td>
<td><a class="reference internal" href="#io-sql"><span class="std std-ref">to_sql</span></a></td>
</tr>
<tr class="row-even"><td>SQL</td>
<td><a class="reference external" href="https://en.wikipedia.org/wiki/BigQuery">Google Big Query</a></td>
<td><a class="reference internal" href="#io-bigquery"><span class="std std-ref">read_gbq</span></a></td>
<td><a class="reference internal" href="#io-bigquery"><span class="std std-ref">to_gbq</span></a></td>
</tr>
</tbody>
</table>

-----
----

## Работа с .CSV файлами

Файлы CSV (Comma Separated Values) содержат отдельные значения данных, отделённые друг от друга с помощью знаков-разделителей.

Может потребоваться установка библиотек xlrd и openpyxl.
В терминале или командной строке выполните следующие команды:

    conda install xlrd
    conda install openpyxl

(если не используете Anaconda Distribution, то вместо conda install напишите pip install) После этого перезапустите Jupyter Notebook.

## Путь к файлу

Когда нужно обратиться к файлу в pandas, то есть два варианта:

1. Если Ваш файл .csv находится **в той же** самой папке, что и файл .py или блокнот .ipynb, то можно просто указать название этого файла .csv. Например:
    
        df = pd.read_csv('some_file.csv')
        
2. Либо второй вариант - если файл .csv находится в другой папке, то можно указать полный путь к файлу. Обратите внимание, что путь должен быть на 100% правильным, без единой опечатки. Например:

        df = pd.read_csv("C:\\Users\\myself\\files\\some_file.csv")

### Отобразить текущую папку можно с помощью команды pwd

In [13]:
pwd

'C:\\Users\\chern\\Downloads\\UNZIP_ME_FOR_NOTEBOOKS_ML_RUS_V11\\ML_course\\Pandas'

### Вывести список файлов в текущей папке - команда ls

In [16]:
ls

 Том в устройстве C не имеет метки.
 Серийный номер тома: 8E6A-EB38

 Содержимое папки C:\Users\chern\Downloads\UNZIP_ME_FOR_NOTEBOOKS_ML_RUS_V11\ML_course\Pandas

06.03.2025  11:19    <DIR>          .
06.03.2025  11:19    <DIR>          ..
06.03.2025  09:03    <DIR>          .ipynb_checkpoints
26.02.2025  15:02           749 296 00_Pandas_Series.ipynb
27.02.2025  22:27         1 134 337 01_Pandas_DataFrames.ipynb
27.02.2025  23:23            99 862 02_Pandas_Conditional_Filtering.ipynb
28.02.2025  15:39           142 160 03_Pandas_Useful_Methods.ipynb
02.03.2025  14:05         1 079 835 04_Missing_Data.ipynb
03.03.2025  14:49           420 002 05_Groupby_Operations_and_MultiIndex.ipynb
04.03.2025  13:28         1 779 728 06_Combining_DataFrames.ipynb
05.03.2025  15:48            38 029 07_Text_Methods.ipynb
05.03.2025  23:26           113 697 08_Time_Methods.ipynb
06.03.2025  11:19            10 014 09_Inputs_and_Outputs.ipynb
04.07.2020  17:39                51 example.csv
26.09.2020

---
Важно! Все методы для чтения данных из источника данных в dataframe начниются с pd.read_, а все методы по записи данных из dataframr куда-нибудь начниаются с df.to_

---

---
Если работа не в Jupyter Notebook, а с файлами .py, то для работы со списками файлов можно воспользоваться библиотекой os - она относится не к Pandas, а к обычному python.  

import os  
os.getswd() - узнать текущую папку

---

### Чтение - CSV Input

In [22]:
import numpy as np
import pandas as pd

In [39]:
df = pd.read_csv('example.csv')
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [32]:
# Если в файл первая строка - это не название колонок, а строка с данными
df = pd.read_csv('example.csv', header=None)
df

Unnamed: 0,0,1,2,3
0,a,b,c,d
1,0,1,2,3
2,4,5,6,7
3,8,9,10,11
4,12,13,14,15


В таком случае колонки будут пронумерованы автоматически

In [37]:
# Если необходимо указать какую-то колонку в качестве индекса -> index_col=номер_колонки
df = pd.read_csv('example.csv', index_col=0)
df

Unnamed: 0_level_0,b,c,d
a,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,2,3
4,5,6,7
8,9,10,11
12,13,14,15


### Запись - CSV Output
С помощью параметра **index=False** можно не сохранять индекс в файле. Иначе в .csv файл будет добавлена ещё одна колонка со значениями индекса. Если у индекса нет названия, то колонка будет называться "Unnamed: 0". Если необходимо сохранить индекс, то нужно указать значение True (это значение по умолчанию).

In [42]:
# Можно указать как путь, так и просто название для файла
df.to_csv('new_file.csv', index=False)

In [44]:
new = pd.read_csv('new_file.csv')
new

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


## Работа с HTML таблицами
Pandas может считывать табличные данные со страницы HTML из интернета. Это будет работать в том случае, если файрволл не мешает Pandas получать доступ в интернет!  
Может понадобиться установка библиотек <tt>lxml</tt>, <tt>htmllib5</tt> и <tt>BeautifulSoup4</tt>.<br>
В терминале или командной строке запустите команду:

    conda install lxml
    
    или
    
    pip install lxml
    
Затем перезапустите Jupyter Notebook (возможно также придётся перезапустить компьютер).

### Функция read_html() - HTML Input

Функция read_html может считать таблицы с веб-страницы, и возвратить список объектов DataFrame. **Важно**: это работает только для объектов-таблиц на странице html. Эта функция не может магическим образом прочитать таблицы, которе на странице могут являться изображениями. Также, некоторые веб-сайты могут блокировать попытки извлечь HTML с их сайта с помощью Pandas.

Более эффективным способом может быть использование API.

In [51]:
import numpy as np
import pandas as pd

In [53]:
# Либо можно сохранить ссылку в переменную, и передать переменную в метод
tabels = pd.read_html('https://en.wikipedia.org/wiki/World_population')

In [55]:
len(tabels)

27

### Не все таблицы являются полезными!
На этой странице Pandas нашел 26 таблиц. Не все из которых являются полезными:

In [57]:
tabels[0]

Unnamed: 0,Population,1,2,3,4,5,6,7,8,9,10
0,Year,1804,1927,1960,1974,1987,1999,2011,2022,2037,2057
1,Years elapsed,"200,000+",123,33,14,13,12,12,11,15,20


### Некоторые таблицы могут потребовать дополнительного форматирования
Некоторые таблицы могут быть неудачно выровненными. Тогда потребуется выполнить дополнительную работу, чтобы извлечь нужные колонки и строки:

In [59]:
tabels[0].columns

Index(['Population', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10'], dtype='object')

In [81]:
tabels[4]

Unnamed: 0_level_0,#,Most populous countries,2000,2015,2030[A],"Graphs are unavailable due to technical issues. Updates on reimplementing the Graph extension, which will be known as the Chart extension, can be found on Phabricator and on MediaWiki.org."
Unnamed: 0_level_1,"Graphs are unavailable due to technical issues. Updates on reimplementing the Graph extension, which will be known as the Chart extension, can be found on Phabricator and on MediaWiki.org.",Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Unnamed: 0_level_2,"Graphs are unavailable due to technical issues. Updates on reimplementing the Graph extension, which will be known as the Chart extension, can be found on Phabricator and on MediaWiki.org.",Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Unnamed: 0_level_3,"Graphs are unavailable due to technical issues. Updates on reimplementing the Graph extension, which will be known as the Chart extension, can be found on Phabricator and on MediaWiki.org.",Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
Unnamed: 0_level_4,"Graphs are unavailable due to technical issues. Updates on reimplementing the Graph extension, which will be known as the Chart extension, can be found on Phabricator and on MediaWiki.org.",Unnamed: 1_level_4,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4
Unnamed: 0_level_5,"Graphs are unavailable due to technical issues. Updates on reimplementing the Graph extension, which will be known as the Chart extension, can be found on Phabricator and on MediaWiki.org.",Unnamed: 1_level_5,Unnamed: 2_level_5,Unnamed: 3_level_5,Unnamed: 4_level_5,Unnamed: 5_level_5
Unnamed: 0_level_6,"Graphs are unavailable due to technical issues. Updates on reimplementing the Graph extension, which will be known as the Chart extension, can be found on Phabricator and on MediaWiki.org.",Unnamed: 1_level_6,Unnamed: 2_level_6,Unnamed: 3_level_6,Unnamed: 4_level_6,Unnamed: 5_level_6
Unnamed: 0_level_7,"Graphs are unavailable due to technical issues. Updates on reimplementing the Graph extension, which will be known as the Chart extension, can be found on Phabricator and on MediaWiki.org.",Unnamed: 1_level_7,Unnamed: 2_level_7,Unnamed: 3_level_7,Unnamed: 4_level_7,Unnamed: 5_level_7
Unnamed: 0_level_8,"Graphs are unavailable due to technical issues. Updates on reimplementing the Graph extension, which will be known as the Chart extension, can be found on Phabricator and on MediaWiki.org.",Unnamed: 1_level_8,Unnamed: 2_level_8,Unnamed: 3_level_8,Unnamed: 4_level_8,Unnamed: 5_level_8
Unnamed: 0_level_9,"Graphs are unavailable due to technical issues. Updates on reimplementing the Graph extension, which will be known as the Chart extension, can be found on Phabricator and on MediaWiki.org.",Unnamed: 1_level_9,Unnamed: 2_level_9,Unnamed: 3_level_9,Unnamed: 4_level_9,Unnamed: 5_level_9
Unnamed: 0_level_10,"Graphs are unavailable due to technical issues. Updates on reimplementing the Graph extension, which will be known as the Chart extension, can be found on Phabricator and on MediaWiki.org.",Unnamed: 1_level_10,Unnamed: 2_level_10,Unnamed: 3_level_10,Unnamed: 4_level_10,Unnamed: 5_level_10
Unnamed: 0_level_11,"Graphs are unavailable due to technical issues. Updates on reimplementing the Graph extension, which will be known as the Chart extension, can be found on Phabricator and on MediaWiki.org.",Unnamed: 1_level_11,Unnamed: 2_level_11,Unnamed: 3_level_11,Unnamed: 4_level_11,Unnamed: 5_level_11
0,,Graphs are unavailable due to technical issues...,,,,
1,1,China[B],1270,1376,1416,
2,2,India,1053,1311,1528,
3,3,United States,283,322,356,
4,4,Indonesia,212,258,295,
5,5,Pakistan,136,208,245,
6,6,Brazil,176,206,228,
7,7,Nigeria,123,182,263,
8,8,Bangladesh,131,161,186,
9,9,Russia,146,146,149,


In [89]:
t = tabels[4].transpose()

In [93]:
t['indx'] = ['#', 'Most populous countries', '2000', '2015', '2030[A]', 'Graphs are temporarily unavailable due to technical issues.']

In [95]:
t = t.set_index('indx').transpose()

In [97]:
t

indx,#,Most populous countries,2000,2015,2030[A],Graphs are temporarily unavailable due to technical issues.
0,,Graphs are unavailable due to technical issues...,,,,
1,1,China[B],1270,1376,1416,
2,2,India,1053,1311,1528,
3,3,United States,283,322,356,
4,4,Indonesia,212,258,295,
5,5,Pakistan,136,208,245,
6,6,Brazil,176,206,228,
7,7,Nigeria,123,182,263,
8,8,Bangladesh,131,161,186,
9,9,Russia,146,146,149,


In [99]:
t.columns

Index(['#', 'Most populous countries', '2000', '2015', '2030[A]',
       'Graphs are temporarily unavailable due to technical issues.'],
      dtype='object', name='indx')

In [101]:
t = t.drop([0, 11, 12], axis=0)
t

indx,#,Most populous countries,2000,2015,2030[A],Graphs are temporarily unavailable due to technical issues.
1,1,China[B],1270,1376,1416,
2,2,India,1053,1311,1528,
3,3,United States,283,322,356,
4,4,Indonesia,212,258,295,
5,5,Pakistan,136,208,245,
6,6,Brazil,176,206,228,
7,7,Nigeria,123,182,263,
8,8,Bangladesh,131,161,186,
9,9,Russia,146,146,149,
10,10,Mexico,103,127,148,


In [105]:
t = t.drop(['#', 'Graphs are temporarily unavailable due to technical issues.'], axis=1)
t

indx,Most populous countries,2000,2015,2030[A]
1,China[B],1270,1376,1416
2,India,1053,1311,1528
3,United States,283,322,356
4,Indonesia,212,258,295
5,Pakistan,136,208,245
6,Brazil,176,206,228
7,Nigeria,123,182,263
8,Bangladesh,131,161,186
9,Russia,146,146,149
10,Mexico,103,127,148


In [109]:
t.columns = ['Country', '2000', '2015', '2030 Est.']
t

Unnamed: 0,Country,2000,2015,2030 Est.
1,China[B],1270,1376,1416
2,India,1053,1311,1528
3,United States,283,322,356
4,Indonesia,212,258,295
5,Pakistan,136,208,245
6,Brazil,176,206,228
7,Nigeria,123,182,263
8,Bangladesh,131,161,186
9,Russia,146,146,149
10,Mexico,103,127,148


*__Получился чистый датафрейм__*

### Некоторые таблицы могут быть изначально достаточно хорошими

In [112]:
tabels[6]

Unnamed: 0,Rank,Country,Population,Area (km2),Density (pop/km2)
0,1,Singapore,5921231,719,8235
1,2,Bangladesh,165650475,148460,1116
2,3,Palestine[note 3][99],5223000,6025,867
3,4,Taiwan[note 4],23580712,35980,655
4,5,South Korea,51844834,99720,520
5,6,Lebanon,5296814,10400,509
6,7,Rwanda,13173730,26338,500
7,8,Burundi,12696478,27830,456
8,9,Israel,9402617,21937,429
9,10,India,1389637446,3287263,423


In [115]:
tabels[6].set_index('Rank')

Unnamed: 0_level_0,Country,Population,Area (km2),Density (pop/km2)
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Singapore,5921231,719,8235
2,Bangladesh,165650475,148460,1116
3,Palestine[note 3][99],5223000,6025,867
4,Taiwan[note 4],23580712,35980,655
5,South Korea,51844834,99720,520
6,Lebanon,5296814,10400,509
7,Rwanda,13173730,26338,500
8,Burundi,12696478,27830,456
9,Israel,9402617,21937,429
10,India,1389637446,3287263,423


### Как записать данные в HTML файл

In [118]:
t.to_html('simple_tabel.html', index=False)

## Файлы Excel
Pandas может прочитать несложные файлы excel (он выдаст ошибки в случаях, если в файле есть макросы или сложные формулы, ссылающиеся на другие файлы Excel). В целом можно сказать, что Pandas хорошо извлекает только исходные данные из файла Excel.

#### Могут понадобиться библиотеки openpyxl и xlrd! Их можно установить:
    pip install openpyxl
    pip install xlrd

Если планируется много работы с файлами Excel, то можно посмотреть много материала здесь: https://www.python-excel.org/

Внутри файла Excel содержатся отдельные листы, и pandas сохраняет каждый лист как отдельный DataFrame.

Pandas работает с Excel-файлом как со словарём, в котором ключи словаря - это названия листов, а значения словаря - это данные листов в виде датафреймов.

### Чтение файла Excel с помощью read_excel()

In [128]:
df = pd.read_excel('my_excel_file.xlsx')
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


**Иногда для файлов .xlsx ещё нужно явно указать параметр engine:**  
df = pd.read_excel('my_excel_file.xlsx', engine='openpyxl')

### Загрузка одного листа из файла

In [136]:
df = pd.read_excel('my_excel_file.xlsx', sheet_name='First_Sheet')
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


### Как узнать название листов в Excel файле

In [141]:
wb = pd.ExcelFile('my_excel_file.xlsx')
wb.sheet_names

['First_Sheet']

### Загрузка нескольких листов из файла Excel
В таком случае Pandas создаст словарь, в котором ключи словаря - названия листов, а значения - датафреймы с данными.  
__sheet_name=None__ - позволяет загрузить все листы.

In [146]:
excel_sheet_dict = pd.read_excel('my_excel_file.xlsx', sheet_name=None)

In [148]:
type(excel_sheet_dict)

dict

In [150]:
excel_sheet_dict.keys()

dict_keys(['First_Sheet'])

In [152]:
# Обратимся к значению словаря по ключу
excel_sheet_dict['First_Sheet']

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [154]:
excel_sheet_dict

{'First_Sheet':     a   b   c   d
 0   0   1   2   3
 1   4   5   6   7
 2   8   9  10  11
 3  12  13  14  15}

### Запись в файл Excel

In [159]:
our_df = excel_sheet_dict['First_Sheet']
our_df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [162]:
our_df.to_excel('example.xlsx', sheet_name='First_Sheet', index=False)

Если такой файл уже существует, то Pandas попробует найти лист с таким названием внутри этого файла, и, если найдет его, перезапишет лист теми данными, которые будут переданы.

## Подключения SQL

Pandas может читать и записывать данные в базу данных SQL, используя драйвер и библиотеку **sqlalchemy** в Python.

#### Важно: для конкретных баз данных, лучше использовать специализированные библиотеки, разработанные для той или иной базы данных.

* [MySQL](https://www.google.com/search?q=mysql+python)
* [PostgreSQL](https://www.google.com/search?q=postgresql+python)
* [MS SQL Server](https://www.google.com/search?q=MSSQLserver+python)
* [Orcale](https://www.google.com/search?q=oracle+python)
* [MongoDB](https://www.google.com/search?q=mongodb+python)

В данном случае, возможности Pandas будут рассмотрены на примере базы данных SQLite, которая является встроенной в Python.

### Пример базы данных SQL (временно в оперативной памяти)

Понадобится установить sqlalchemy (по сути является посредником между Python и драйвером для базы данных - это позволяет подключаться к базе данных и далее использовать это подключение для обмена данными между python и базой данных):

    pip install sqlalchemy

Чтобы узнать подробнее, как установить соединение с базой данных:  
https://docs.sqlalchemy.org/en/13/core/connections.html

In [168]:
import numpy as np
import pandas as pd
from sqlalchemy import create_engine

In [170]:
# Создаем временную базу данных в памяти
temp_db = create_engine('sqlite:///:memory:')

In [172]:
# Создаем датафрейм (матрицу размером 4 на 4 со случайными числами в диапазоне от 0 до 100)
pd.DataFrame(data=np.random.randint(low=0, high=100, size=(4, 4)), columns=['a', 'b', 'c', 'd'])
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [174]:
df.to_sql(name='new_table', con=temp_db)

4

In [177]:
# При повтороном запуске - получим ошибку, т. к. такая таблица уже существует
df.to_sql(name='new_table', con=temp_db)

ValueError: Table 'new_table' already exists.

**По умолчанию параметр is_exists - принимает значение fail, но он может быть заменён на replace или append**

### Чтение данных из таблицы

Можно прочитать всю таблицу целиком. Если таблица очень большая - лучше так не делать, т.к. Pandas хранит датафреймы в оперативной памяти пк! 

In [185]:
new_df = pd.read_sql(sql='new_table', con=temp_db)

In [187]:
new_df

Unnamed: 0,index,a,b,c,d
0,0,0,1,2,3
1,1,4,5,6,7
2,2,8,9,10,11
3,3,12,13,14,15


**Добавилась колонка Index, так как при выполнении команды to_sql() не был указан параметр index=False**

### Передача SQL запроса в базу данных

In [194]:
# Выбор двух колонк из таблицы
result = pd.read_sql_query(sql='SELECT a,c FROM new_table', con=temp_db)

In [196]:
result

Unnamed: 0,a,c
0,0,2
1,4,6
2,8,10
3,12,14
