# Ввод и вывод данных - Inputs и Outputs


## Ввод и вывод данных

Pandas может загружать данные из различных типов файлов, используя методы с названиями pd.read_. Наиболее часто используемые методы:

In [2]:
import numpy as np
import pandas as pd
pd.options.display.max_rows = 10

# Загружаем файл CSV

Файлы CSV (Comma Separated Values) содержат отдельные значения данных, отделённые друг от друга с помощью знаков-разделителей.

## Путь к файлу

Когда нужно обратиться к файлу в pandas, то есть два варианта:

1. Если Ваш файл .csv находится **в той же** самой папке, что и файл .py или блокнот .ipynb, то можно просто указать название этого файла .csv. Например:
    
        df = pd.read_csv('some_file.csv')
        
2. Либо второй вариант - если файл .csv находится в другой папке, то можно указать полный путь к файлу. Обратите внимание, что путь должен быть на 100% правильным, без единой опечатки. Например:

        df = pd.read_csv("C:\\Users\\myself\\files\\some_file.csv")

#### Отобразить текущую папку можно с помощью команды pwd

In [3]:
pwd

'C:\\Users\\shurkov\\Documents\\ML_Models\\03-Pandas'

#### Вывести список файлов в текущей папке - команда ls

In [4]:
ls

 ’®¬ ў гбва®©бвўҐ C Ё¬ҐҐв ¬ҐвЄг Windows
 ‘ҐаЁ©­л© ­®¬Ґа в®¬ : 0AAC-663C

 ‘®¤Ґа¦Ё¬®Ґ Ї ЇЄЁ C:\Users\shurkov\Documents\ML_Models\03-Pandas

22.12.2023  14:12    <DIR>          .
22.12.2023  14:12    <DIR>          ..
22.12.2023  13:47    <DIR>          .ipynb_checkpoints
22.12.2023  13:47    <DIR>          __pycache__
22.12.2023  13:49            12я108 00-Series.ipynb
22.12.2023  13:54           170я281 01-DataFrames.ipynb
22.12.2023  14:01            44я933 02-Conditional-Filtering.ipynb
22.12.2023  14:05           153я514 03-Useful-Methods.ipynb
22.12.2023  14:07            57я250 04-Missing-Data.ipynb
22.12.2023  14:08            90я361 05-Groupby-Operations-and-MultiIndex.ipynb
22.12.2023  14:09            56я725 06-Combining-DataFrames.ipynb
22.12.2023  14:10            13я441 07-Text-Methods.ipynb
22.12.2023  14:12            39я209 08-Time-Methods.ipynb
18.01.2022  20:40            70я505 09-Inputs-and-Outputs.ipynb
18.01.2022  20:44           103я401 10-Pivot-Tables.ipynb
15.11

### Чтение - CSV Input

In [5]:
df = pd.read_csv('example.csv')

In [6]:
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [7]:
df = pd.read_csv('example.csv',index_col=0)

In [8]:
df

Unnamed: 0_level_0,b,c,d
a,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,2,3
4,5,6,7
8,9,10,11
12,13,14,15


In [9]:
df = pd.read_csv('example.csv')

In [10]:
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


### Запись - CSV Output

С помощью параметра index=False можно не сохранять индекс в файле. Иначе в .csv файл будет добавлена ещё одна колонка со значениями индекса. Если у индекса нет названия, то колонка будет называться "Unnamed: 0". Если Вы хотите сохранить индекс, то просто укажите значение True (это значение по умолчанию).

In [11]:
df.to_csv('new_file.csv',index=False)

## HTML

Pandas может считать табличные данные со страницы HTML из интернета. Это работает только в случае, если Ваш сетевой экран (firewall) не мешает pandas получить доступ в интернет!

Если Вы не используете среду, которая рекомендуется для данного курса, то Вам может понадобиться установка библиотек <tt>lxml</tt>, <tt>htmllib5</tt> и <tt>BeautifulSoup4</tt>.<br>
В терминале или командной строке запустите команду:

    conda install lxml
    
    или
    
    pip install lxml
    
Затем перезапустите Jupyter Notebook (возможно также придётся перезапустить компьютер).

## read_html

### HTML Input

Функция read_html может считать таблицы с веб-страницы, и возвратить список объектов DataFrame. Замечание: это работает только для объектов-таблиц на странице html. Эта функция не может магически прочитать таблицы, которые на странице являются например изображениями.

In [12]:
tables = pd.read_html('https://en.wikipedia.org/wiki/World_population')

In [13]:
len(tables) #tables

29

### Не все таблицы являются полезными
На этой странице Pandas нашёл 26 таблицы. Не все из них являются полезными:

In [14]:
tables[0]

Unnamed: 0,Population,1,2,3,4,5,6,7,8,9,10
0,Year,1804,1927,1960,1974,1987,1999,2011,2022,2037,2057
1,Years elapsed,"200,000+",123,33,14,13,12,12,11,15,20


### Некоторые таблицы могут потребовать форматирование

Некоторые таблицы могут быть неудачно выровненными. Тогда потребуется выполнить дополнительную работу, чтобы извлечь нужные колонки и строки:

In [16]:
tables[1]

Unnamed: 0,Region,2022 (percent),2030 (percent),2050 (percent)
0,Sub-Saharan Africa,"1,152 (14.51%)","1,401 (16.46%)","2,094 (21.62%)"
1,Northern Africa and Western Asia,549 (6.91%),617 (7.25%),771 (7.96%)
2,Central Asia and Southern Asia,"2,075 (26.13%)","2,248 (26.41%)","2,575 (26.58%)"
3,Eastern Asia and Southeastern Asia,"2,342 (29.49%)","2,372 (27.87%)","2,317 (23.92%)"
4,Europe and Northern America,"1,120 (14.10%)","1,129 (13.26%)","1,125 (11.61%)"
5,Latin America and the Caribbean,658 (8.29%),695 (8.17%),749 (7.73%)
6,Australia and New Zealand,31 (0.39%),34 (0.40%),38 (0.39%)
7,Oceania,14 (0.18%),15 (0.18%),20 (0.21%)
8,World,7942,8512,9687


In [17]:
world_pop = tables[1]

In [18]:
world_pop.columns

Index(['Region', '2022 (percent)', '2030 (percent)', '2050 (percent)'], dtype='object')

In [19]:
world_pop = world_pop['World population (millions, UN estimates)[14]'].drop('#',axis=1)

KeyError: 'World population (millions, UN estimates)[14]'

In [None]:
world_pop.columns

In [None]:
world_pop.columns = ['Countries', '2000', '2015', '2030 Est.']
world_pop = world_pop.drop(11,axis=0)

In [None]:
world_pop

### Готовые таблицы

In [20]:
tables[6]

Unnamed: 0,0,1
0,,Graphs are unavailable due to technical issues...


## Запись данных в html

Если Вы создаёте веб-сайт и хотите быстро сгенерить файл .html, то это можно сделать с помощью метода to_html

In [21]:
df.to_html('simple.html',index=False)

**to_html** не идеален, но достаточно полезен для такой работы!

# Файлы Excel

Pandas может прочитать несложные файлы excel (он выдаст ошибки в случаях, если в файле есть макросы или сложные формулы, ссылающиеся на другие файлы excel). В целом можно сказать, что pandas хорошо извлекает только исходные данные из файла excel.

Внутри файла excel содержатся отдельные листы, и pandas сохраняет каждый лист как отдельный DataFrame.

## Чтение файла Excel с помощью read_excel()

In [22]:
df = pd.read_excel('my_excel_file.xlsx',sheet_name='First_Sheet')

In [23]:
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


### Что делать, если Вы не знаете название листа? Или хотите пройти в цикле for по нескольким листам (или по всем листам)?


In [24]:
# Получить список названий листов
pd.ExcelFile('my_excel_file.xlsx').sheet_names

['First_Sheet']

#### Получить все листы

In [25]:
excel_sheets = pd.read_excel('my_excel_file.xlsx',sheet_name=None)

In [26]:
type(excel_sheets)

dict

In [27]:
excel_sheets.keys()

dict_keys(['First_Sheet'])

In [28]:
excel_sheets['First_Sheet']

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


### Запись в файл Excel

In [29]:
df.to_excel('example.xlsx',sheet_name='First_Sheet',index=False)

# Подключения SQL

#### Замечания: Для конкретных баз данных лучше использовать специализированные библиотеки, разработанные специально для той или иной базы данных. Поищите в гугле что-то вроде "название вашей базы данных + Python", и скорее всего Вы найдёте библиотеку для нужной Вам базы данных.

* [MySQL](https://www.google.com/search?q=mysql+python)
* [PostgreSQL](https://www.google.com/search?q=postgresql+python)
* [MS SQL Server](https://www.google.com/search?q=MSSQLserver+python)
* [Orcale](https://www.google.com/search?q=oracle+python)
* [MongoDB](https://www.google.com/search?q=mongodb+python)

Давайте изучим возможности pandas на примере базы данных SQLite, которая является встроенной в Python.

## Пример базы данных SQL (временно в оперативной памяти)

Вам понадобится установить sqlalchemy:

    pip install sqlalchemy


In [30]:
from sqlalchemy import create_engine

In [31]:
temp_db = create_engine('sqlite:///:memory:')

### Запись в базу данных

In [32]:
tables[6]

Unnamed: 0,0,1
0,,Graphs are unavailable due to technical issues...


In [33]:
pop = tables[6]

In [34]:
pop.to_sql(name='populations',con=temp_db)

1

### Чтение из базы данных

In [35]:
# Считываем всю таблицу
pd.read_sql(sql='populations',con=temp_db)

Unnamed: 0,index,0,1
0,0,,Graphs are unavailable due to technical issues...


In [36]:
# Считываем данные с помощью SQL-запроса
pd.read_sql_query(sql="SELECT Country FROM populations",con=temp_db)

OperationalError: (sqlite3.OperationalError) no such column: Country
[SQL: SELECT Country FROM populations]
(Background on this error at: https://sqlalche.me/e/14/e3q8)