In [9]:
"""How do I read and write table data?."""

'How do I read and write table data?.'

# Как мне читать и записывать табличные данные?

<div style="background-color: #ffffff; padding: 20px; text-align: center;">
    <img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg" >
</div>

<a href="https://t.me/init_python"><img src="https://dfedorov.spb.ru/pandas/logo-telegram.png" width="35" height="35" alt="telegram" align="left"></a>

Проведём анализ данных о пассажирах. Данные доступны в виде файла в формате CSV.

In [10]:
import pandas as pd

In [None]:
# pylint: disable=line-too-long

url = "https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/%D0%B1%D1%8B%D1%81%D1%82%D1%80%D0%BE%D0%B5%20%D0%B2%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%B2%20pandas/data/titanic.csv"

In [12]:
titanic = pd.read_csv(url)

`Pandas` предоставляет функцию [`read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas.read_csv) для чтения данных, хранящихся в виде CSV-файла, и преобразования их в `DataFrame`. 

`Pandas` поддерживает множество различных форматов файлов или источников данных (`csv`, `excel`, `sql`, `json`…), каждый из которых имеет префикс `read_*`.

В первую очередь, проверяйте данные после прочтения!

При отображении DataFrame по умолчанию отображаются первые и последней 5 строк:

In [13]:
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Первые 8 строк DataFrame:

In [14]:
titanic.head(8)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


`pandas` содержит метод [`tail()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html#pandas.DataFrame.tail) для отображения последних N строк. 

Например, `titanic.tail(10)` вернет последние 10 строк таблицы.

С помощью обращения к атрибуту `dtypes` можно проверить, какие типы данных хранятся в столбцах таблицы:

In [15]:
titanic.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

Типы данных в этом `DataFrame` - целые числа (`int64`), числа с плавающей точкой (`float63`) и строки (`object`).

При запросе `dtypes` скобки не используются! `dtypes` является атрибутом `DataFrame` и `Series`. Атрибуты представляют собой характеристику `DataFrame` / `Series`, тогда как метод (для которого требуются скобки) что-то делает с `DataFrame` / `Series`. 

Сохраним данные в виде электронной таблицы:

In [16]:
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)

В то время как `read_*` функции используются для чтения данных, `to_*` методы используются для сохранения данных. 

[`to_excel()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html#pandas.DataFrame.to_excel) сохраняет данные в виде файла `Excel`. 

В приведенном примере `sheet_name` задает имя листа. При настройке `index=False` индексные метки не сохраняются в электронной таблице.

Эквивалентная функция для чтения [`read_excel()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html#pandas.read_excel) загрузит данные в `DataFrame`:

In [17]:
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")

In [18]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Техническом детали `DataFrame`:

In [19]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Метод [`info()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html#pandas.DataFrame.info) предоставляет техническую информацию о `DataFrame`, поэтому объясним вывод более подробно:

- Это действительно `DataFrame`.
- Всего 891 запись, т.е. 891 строка.
- У каждой строки есть метка строки (она же `index``) со значениями от 0 до 890.
- Таблица имеет 12 столбцов. Большинство столбцов имеют значение для каждой из строк (все 891 значения `non-null`). Некоторые столбцы имеют пропущенные значения и менее 891 `non-null` значений.
- Столбцы `Name`, `Sex`, `Cabin` и `Embarked` состоят из текстовых данных (`object`). Другие столбцы представляют собой числовые данные, некоторые из которых являются целыми числами (`integer`), а другие - действительными числами (`float`).
- Тип данных (символы, целые числа, ...) в разных столбцах суммируется путем перечисления `dtypes`.
- Приводится приблизительный объем оперативной памяти, используемой для хранения `DataFrame`.