# Лекция № 5
#  1 Введение в библиотеку Pandas

<img src=panda.jpg width=500px>

Pandas - более новый пакет, надстройка над библиотекой NumPy, обеспечивающий эффективную реализацию класса `DataFrame`. 

Объекты `DataFrame` - многомерные массивы с метками для строк и столбцов, а также зачастую с неоднородным типом данных и/или пропущенными данными. 
Помимо удобного интерфейса для хранения маркированных данных, библиотека Pandas реализует множество операций для работы с данными хорошо знакомых пользователям фреймворков баз данных и электронных таблиц.

Структура данных `ndarray` библиотеки NumPy предоставляет все необходимые возможности для работы с хорошо упорядоченными данными в задачах численных вычислений. Для этой цели библиотека NumPy отлично подходит, однако имеет свои ограничения, которые становятся заметными, чуть только нам потребуется немного больше гибкости (маркирование данных, работа с пропущенными данными и т. д.). Эти ограничения проявляются также при попытках выполнения операций, неподходящих для поэлементного транслирования (группировки, создание сводных таблиц и т. д.). Такие операции являются важной частью анализа данных с меньшей степенью структурированности, содержащихся во многих формах окружающего мира.

Библиотека Pandas, особенно ее объекты `Series` и `DataFrame`, основана на структурах массивов библиотеки NumPy и обеспечивает эффективную работу над подобными задачами "очистки данных".

In [2]:
import pandas as pd
import numpy as np

## 1.1 Объект `Series`

Объект `Series` библиотеки Pandas - одномерный массив индексированных данных. Его можно создать из списка или массива следующим образом:

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1, 1.25])
data

0    0.25
1    0.50
2    0.75
3    1.00
4    1.25
dtype: float64

объект `Series` служит контейнером как для последовательности значений, так и последовательности индексов, к которым можно получить доступ посредством атрибутов `values` и `index`. 

Атрибут `values` представляет собой уже знакомый нам массив NumPy:

In [4]:
data.values

array([0.25, 0.5 , 0.75, 1.  , 1.25])

`index` - массивоподобный объект типа `pd.Index`, который мы рассмотрим подробнее далее:

In [5]:
data.index

RangeIndex(start=0, stop=5, step=1)

Аналогично массивам библиотеки NumPy, к данным можно обращаться по соответствующему им индексу посредством нотации с использованием квадратных скобок языка Python:

In [7]:
data[1]

0.5

In [8]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Однако объект `Series` библиотеки Pandas намного универсальнее и гибче, чем эмулируемый им одномерный массив библиотеки NumPy.

Может показаться, что объект `Series` и одномерный массив библиотеки NumPy взаимозаменяемы. Основное различие между ними - *индекс*. В то время как индекс массива NumPy, используемый для доступа к значениям,  целочисленный и описывается неявно, индекс объекта `Series` библиотеки Pandas описывается явно и связывается со значениями.

Явное описание индекса расширяет возможности объекта `Series`. Такой индекс не должен быть целым числом, а может состоять из значений любого нужного типа. Например, при желании мы можем использовать в качестве индекса строковые значения:

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

При этом доступ к элементам работает обычным образом:

In [11]:
data['c']

0.75

Можно применять даже индексы, состоящие из несмежных или непоследовательных значений:

In [12]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [13]:
data[3]

0.75

### 1.1.1 Объект `Series` как специализированный словарь

Объект `Series` библиотеки Pandas можно рассматривать как специализированную разновидность словаря языка Python. 
<mark>**Словарь**</mark> - структура, задающая соответствие произвольных ключей набору произвольных значений, а объект `Series` - структура, задающая соответствие типизированных ключей набору типизированных значений. 

> Типизация важна: точно так же, как соответствующий типу специализированный код для массива библиотеки NumPy при выполнении определенных операций делает его эффективнее, чем стандартный список Python, информация о типе в объекте `Series` библиотеки Pandas делает его намного более эффективным для определенных операций, чем словари Python.

Можно сделать аналогию "объект `Series` - словарь" еще более наглядной, сконструировав объект `Series` непосредственно из *словаря* Python:

In [14]:
population_dict = {
    'California': 38332521,
    'Texas': 26448193,
    'New York': 19651127,
    'Florida': 19552860,
    'Illinois': 12882135
}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

По умолчанию при этом будет создан объект `Series` с полученным из отсортированных ключей индексом. Следовательно, для него возможен обычный доступ к элементам, такой же, как для словаря:

In [15]:
population['California']

38332521

Однако, в отличие от словаря, объект `Series` поддерживает характерные для массивов операции, такие как срезы:

In [16]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

### 1.1.2 Создание объектов `Series`

Мы уже изучили несколько способов создания объектов `Series` библиотеки Pandas с нуля. Все они представляют собой различные варианты следующего синтаксиса:

```py
pd.Series(data, index=index)
```

где `index` - необязательный аргумент, а `data` может быть одной из множества сущностей.

Например, аргумент `data` может быть списком или массивом NumPy. В этом случае `index` по умолчанию будет целочисленной последовательностью:

In [17]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

Аргумент `data` может быть скалярным значением, которое будет повторено нужное количество раз для заполнения заданного индекса:

In [18]:
pd.Series(10, index=[1, 2, 3])

1    10
2    10
3    10
dtype: int64

Аргумент `data` может быть словарем, в котором `index` по умолчанию является ключами этого словаря:

In [19]:
pd.Series({2: 'a', 1: 'b', 3: 'c'})

2    a
1    b
3    c
dtype: object

В каждом случае индекс можно указать вручную, если необходимо получить другой результат:

In [20]:
pd.Series({2: 'a', 1: 'b', 3: 'c'}, index=[3, 2])

3    c
2    a
dtype: object

> Обратите внимание, что объект `Series` заполняется только заданными явным образом ключами.

## 1.2 Объект `DataFrame`

Следующая базовая структура библиотеки Pandas - объект `DataFrame`. Как и объект `Series`, обсуждавшийся в предыдущей секции, объект `DataFrame` можно рассматривать или как обобщение массива NumPy, или как специализированную версию *словаря* Python.

### 1.2.1 `DataFrame` как обобщенный массив NumPy

Если объект `Series` - аналог одномерного массива с гибкими индексами, объект `DataFrame` - аналог двумерного массива с гибкими индексами строк и гибкими именами столбцов. Аналогично тому, что двумерный массив можно рассматривать как упорядоченную последовательность выровненных столбцов, объект `DataFrame` можно рассматривать как упорядоченную последовательность выровненных объектов `Series`. Под "выровненными" имеется в виду то, что они используют один и тот же индекс.

Чтобы продемонстрировать это, сначала создадим новый объект `Series`, содержащий площадь каждого из пяти упомянутых в предыдущем разделе штатов:

In [21]:
area_dict = {
    'California': 423967,
    'Texas': 695662,
    'New York': 141297,
    'Florida': 170312,
    'Illinois': 149995
}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Воспользовавшись объектом `population` класса `Series`, сконструируем на основе словаря единый двумерный объект, содержащий всю эту информацию:

In [22]:
states = pd.DataFrame(
    {
        'population': population,
        'area': area
    }
)
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Аналогично объекту `Series` у объекта `DataFrame` имеется атрибут `index`, обеспечивающий доступ к меткам индекса:

In [23]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Помимо этого, у объекта `DataFrame` есть атрибут `columns`, представляющий собой содержащий метки столбцов объект `Index`:

In [24]:
states.columns

Index(['population', 'area'], dtype='object')

Таким образом, объект `DataFrame` можно рассматривать как обобщение двумерного массива NumPy, где как у строк, так и у столбцов есть обобщенные индексы для доступа к данным.

### 1.2.2 Объект `DataFrame` как специализированный словарь

`DataFrame` можно рассматривать как специализированный словарь. Если словарь задает соответствие ключей значениям, то `DataFrame` задает соответствие имени столбца объекту `Series` с данными этого столбца. Например, запрос данных по атрибуту `'area'` приведет к тому, что будет возвращен объект `Series`, содержащий уже виденные нами ранее площади штатов:

In [25]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Обратите внимание на возможный источник путаницы: в двумерном массиве NumPy `data[0]` возвращает первую *строку*. По этой причине объекты `DataFrame` лучше рассматривать как обобщенные словари, а не обобщенные массивы, хотя обе точки зрения имеют право на жизнь.

### 1.2.3 Создание объектов `DataFrame`

##### Из одного объекта `Series`.

Объект `DataFrame` - набор объектов `Series`. `DataFrame`, состоящий из одного столбца, можно создать на основе одного объекта `Series`:

In [26]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


##### Из списка словарей

Любой список словарей можно преобразовать в объект `DataFrame`. Мы воспользуемся простым генератором списка для создания данных:

In [27]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Даже если некоторые ключи в словаре отсутствуют, библиотека Pandas просто заполнит их значениями `NaN` (то есть Not a number~-- "не является числом"):

In [28]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


##### Из словаря объектов `Series`

Объект `DataFrame` также можно создать на основе словаря объектов `Series`:

In [29]:
pd.DataFrame(
    {
        'population': population,
        'area': area
    }
)

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


##### Из двумерного массива NumPy

Если у нас есть двумерный массив данных, мы можем создать объект `DataFrame` с любыми заданными именами столбцов и индексов. Для каждого из пропущенных значений будет использоваться целочисленный индекс:

In [30]:
pd.DataFrame(
    np.random.rand(3, 2),
    columns=['one', 'two'],
    index=['a', 'b', 'c']
)

Unnamed: 0,one,two
a,0.128103,0.538173
b,0.267276,0.59114
c,0.577867,0.710506


## 1.3 Объект `Index`

Как объект `Series`, так и объект `DataFrame` содержат явный индекс, обеспечивающий возможность ссылаться на данные и модифицировать их. Объект `Index` можно рассматривать или как *неизменяемый массив* (**immutable array**), или как *упорядоченное множество* (**ordered set**) (формально мультимножество, так как объекты `Index` могут содержать повторяющиеся значения). Из этих способов его представления следуют некоторые интересные возможности операций над объектами `Index`. В качестве простого примера создадим `Index` из списка целых чисел:

In [31]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

### 1.3.1 Объект `Index` как неизменяемый массив

Объект `Index` во многом ведет себя аналогично массиву. Например, для извлечения из него значений или срезов можно использовать стандартную нотацию индексации языка Python:

In [32]:
ind[1]

3

In [33]:
ind[::2]

Index([2, 5, 11], dtype='int64')

У объектов `Index` есть много атрибутов, знакомых нам по массивам NumPy:

In [34]:
ind.size, ind.shape, ind.ndim, ind.dtype

(5, (5,), 1, dtype('int64'))

Одно из различий между объектами `Index` и массивами NumPy - неизменяемость индексов, то есть их нельзя модифицировать стандартными средствами:

In [35]:
ind[2] = 0

TypeError: Index does not support mutable operations

Неизменяемость делает безопаснее совместное использование индексов несколькими объектами `DataFrame` и массивами, исключая возможность побочных эффектов в виде случайной модификации индекса по неосторожности.

### 1.3.2 `Index` как неупорядоченное множество

Объекты библиотеки Pandas спроектированы с прицелом на упрощение таких операций, как соединения наборов данных, зависящие от многих аспектов арифметики множеств. Объект `Index` следует большинству соглашений, используемых встроенной структурой данных `set` языка Python, так что объединения, пересечения, разности и другие операции над множествами можно выполнять привычным образом:

In [36]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [37]:
indA.intersection(indB)

Index([3, 5, 7], dtype='int64')

In [38]:
indA.union(indB)

Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [39]:
indA.symmetric_difference(indB)

Index([1, 2, 9, 11], dtype='int64')

## 1. 4 Выборка данных из объекта `DataFrame`

Объект `DataFrame` во многом ведет себя аналогично двумерному или структурированному массиву, а также словарю объектов `Series` с общим индексом. Эти аналогии следует иметь в виду во время изучения способов выборки данных из объекта.

### 1.4.1 Объект `DataFrame` как словарь

Первая аналогия, которую мы будем обсуждать, объект `DataFrame` как словарь схожих между собой объектов `Series`. Вернемся к примеру про площадь и численность населения штатов:

In [40]:
area = pd.Series(
    {
        'California': 423967,
        'Texas': 695662,
        'New York': 141297,
        'Florida': 170312,
        'Illinois': 149995
    }
)
pop = pd.Series(
    {
        'California': 38332521,
        'Texas': 26448193,
        'New York': 19651127,
        'Florida': 19552860,
        'Illinois': 12882135
    }
)
data = pd.DataFrame({'area': area, 'pop': pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


К отдельным объектам `Series`, составляющим столбцы объекта `DataFrame`, можно обращаться посредством такой же индексации, как и для словарей, по имени столбца:

In [41]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Можно обращаться к данным и с помощью атрибутов, используя в их качестве строковые имена столбцов:

In [42]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Хотя это и удобное сокращенное написание, не забывайте, что оно работает не всегда! Например, если имена столбцов - не строки или имена столбцов конфликтуют с методами объекта `DataFrame`, доступ по именам атрибутов <span style='color:red'>**невозможен**</span>. Например, у объекта `DataFrame` есть метод `pop()`, так что выражение `data.pop` будет обозначать его, а не столбец `'pop'`:

In [43]:
data.pop is data['pop']

False

Такой «словарный» синтаксис можно применять для модификации объекта, например добавления еще одного столбца:

In [45]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### 1.4.2 Объект `DataFrame` как двумерный массив

Объект `DataFrame` можно рассматривать как двумерный массив с расширенными возможностями. Посмторим на исходный массив данных с помощью атрибута `values`:

In [46]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

Мы можем выполнить множество привычных для массивов действий над объектом `DataFrame`. Например, транспонировать весь `DataFrame`, поменяв местами строки и столбцы:

In [47]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


Однако, когда речь заходит об индексации объектов `DataFrame`, становится ясно, что словарная индексация мешает нам рассматривать их просто как массивы NumPy. В частности, указание отдельного индекса для массива означает доступ к строке:

In [48]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

а указание отдельного «индекса» для объекта `DataFrame` - доступ к столбцу:

In [49]:
data['pop']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: pop, dtype: int64

Таким образом, нам необходим еще один тип синтаксиса для индексации, аналогичной по стилю индексации массивов. Библиотека Pandas применяет индексаторы `loc`, `iloc`. 
- С помощью индексатора `iloc` можно индексировать исходный массив, как будто это простой массив NumPy (используя неявный синтаксис языка Python), но с сохранением в результирующих данных меток объекта `DataFrame` для индекса и столбцов:

In [50]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [51]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


## 1.3 Как читать и записывать табличные данные?

### 1.3.1 Работа с csv-файлами и тектсовыми/табличными данными

Данные со значениями, разделенными разделителем (CSV-данные), являются, вероятно, одним из наиболее распространенных форматов данных, который вы будете использовать в библиотеке pandas. Многие 
веб-сервисы, а также внутрикорпоративные информационные системы предлагают загрузить данные в формате CSV. Это простой формат, который обычно используется для экспорта данных из электронных 
таблиц типа Excel.

CSV-файл - это файл, который содержит значения, разделенные запятыми. Его можно рассматривать как таблицу данных, аналогичную листу электронной таблицы. Каждая строка данных соответствует строке 
файла, каждый столбец хранится в текстовом формате, при этом данные в каждом столбце разделены запятыми.

[Исходные данные](https://github.com/pandas-dev/pandas/tree/main/doc/data/titanic.csv)

В этом руководстве используется набор данных Titanic, сохраненный в формате CSV. Данные состоят из следующих столбцов:

PassengerId: Идентификатор каждого пассажира.

Survived: Имеет значения 0 и 1. 0 для не выживших и 1 для выживших.

Pclass: Существует 3 класса: класс 1, класс 2 и класс 3.

Name: Имя пассажира.

Sex: Пол пассажира.

Age: Возраст пассажира.

SibSp: Указание на то, что у пассажира есть братья, сестры и супруг.

Parch: Пассажир один или с семьей.

Ticket: Номер билета пассажира.

Fare: Указание тарифа.

Cabin: Каюта пассажира.

Embarked: Категория причала.

<img src=02_io_readwrite.svg>

##### Чтение CSV-фаайла в `DataFrame`

In [52]:
titanic = pd.read_csv("titanic.csv")

pandas предоставляет функцию `read_csv()` для чтения данных, хранящихся в виде CSV-файла, в `DataFrame`. 

Pandas поддерживает множество различных форматов файлов или источников данных из коробки (csv, excel, sql, json, parquet и так далее), каждый из них имеет префикс `read_*`.

Всегда проверяйте данные после их чтения. При отображении `DataFrame` по умолчанию будут отображаться первые и последние 5 строк:

In [54]:
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Чтобы просмотреть первые N строк `DataFrame`, используйте метод `head()` с требуемым количеством строк (в данном случае 8) в качестве аргумента.

In [55]:
titanic.head(8)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


> Если нужно проверить последние N строк, а не первые, используйте метод `tail()`. Например, `titanic.tail(10)` вернет последние 10 строк `DataFrame`.

In [56]:
titanic.tail(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


Проверить, как pandas интерпретирует каждый из типов данных столбца, можно, запросив атрибут pandas `dtypes`:

In [57]:
titanic.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

Для каждого столбца указывается используемый тип данных. Типы данных в этом `DataFrame`: целые числа (`int64`), числа с плавающей запятой (`float64`) и строки (`object`).

##### Сохранение данных

В то время как функции `read_*` используются для чтения данных в pandas, методы `to_*` используются для хранения данных. 
- Метод `to_excel()` сохраняет данные в виде файла Excel. 

В приведенном здесь примере `sheet_name` имеет значение `passengers`, а не предусмотренное по умолчанию `Sheet1`. При установке `index=False` в электронной таблице не сохраняются метки индексов строк.

In [58]:
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)

Эквивалентная функция чтения `read_excel()` перезагрузит данные в `DataFrame`:

In [59]:
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")

Метод `info()` предоставляет техническую информацию о `DataFrame`:

In [60]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Объясним результаты более подробно:

- Это действительно `DataFrame`.
- Имеется 891 запись, то есть 891 строка.
- Каждая строка имеет метку строки (`index`) со значениями в диапазоне от 0 до 890.
- В таблице 12 столбцов. Большинство столбцов имеют значения в каждой из строк (все 891 значения не non-null). В некоторых столбцах значения отсутствуют, количество non-null менее 891.
- Столбцы *Name*, *Sex*, *Cabin* и *Embarked* состоят из текстовых данных (строки, или `object`). Другие столбцы представляют собой числовые данные, некоторые из них представляют собой целые числа (`integer`), некоторые — вещественные числа (`float`).
- Типы данных (символы, целые числа и так далее) в разных столбцах суммируются путем перечисления `dtypes`.
- Также указывается приблизительный объем оперативной памяти, используемой для хранения `DataFrame`.