# Какие данные обрабатывает pandas?

⸮ Я хочу начать использовать pandas

In [1]:
import pandas as pd

Сообщество согласовало псевдоним для pandas — `pd`, поэтому загрузка pandas как `pd` считается стандартной практикой для всей документации pandas.

## Представление таблицы данных pandas

![01_table_dataframe](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg)

⸮ Я хочу сохранить данные пассажиров Титаника. Для ряда пассажиров мне известны имена (символы), возраст (целые числа) и пол (мужской/женский) данные.

In [2]:
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)


df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


Чтобы вручную сохранить данные в таблице, создайте `DataFrame`. При использовании словаря списков Python ключи словаря будут использоваться как заголовки столбцов, а значения в каждом списке — как столбцы `DataFrame`.

`DataFrame` — это двумерная структура данных, которая может хранить данные разных типов (включая символы, целые числа, значения с плавающей запятой, категориальные данные и т. д.) в столбцах. Это похоже на электронную таблицу, таблицу SQL или `data.frame` в R.

* В таблице 3 столбца, каждый из которых имеет метку столбца. Ярлыки столбцов — соответственно Имя, Возраст и Пол.
* Столбец Имя состоит из текстовых данных, где каждое значение представляет собой строку, столбец Возраст представляет собой числа, а столбец Пол представляет собой текстовые данные.

## Каждый столбец в DataFrame — это Series

![01_table_series](https://pandas.pydata.org/docs/_images/01_table_series.svg)

⸮ Меня просто интересует работа с данными в столбце `Age`

In [3]:
df["Age"]

0    22
1    35
2    58
Name: Age, dtype: int64

При выборе одного столбца `DataFrame` результатом является `Series`. Чтобы выбрать столбец, используйте метку столбца в квадратных скобках `[]`.

*Note:* Если вы знакомы со словарями Python, выбор одного столбца очень похож на выбор значений словаря на основе ключа.

Вы также можете создать `Series` с нуля.

In [4]:
ages = pd.Series([22, 35, 58], name="Age")
ages

0    22
1    35
2    58
Name: Age, dtype: int64

`Series` не имеет меток столбцов, так как это всего лишь один столбец `DataFrame`. `Series` имеет метки строк.

## Работаем с DataFrame или Series

⸮ Я хочу знать максимальный возраст пассажиров.

Мы можем сделать это в `DataFrame`, выбрав столбец `Age` и применив `max()`:

In [5]:
df['Age'].max()

58

Или `Series`:

In [6]:
ages.max()

58

⸮ Меня интересуют некоторые основные статистические данные числовых данных моей таблицы данных

In [7]:
df.describe()

Unnamed: 0,Age
count,3.0
mean,38.333333
std,18.230012
min,22.0
25%,28.5
50%,35.0
75%,46.5
max,58.0


Метод `describe()` обеспечивает краткий обзор числовых данных в `DataFrame`. Поскольку столбцы `Name` и `Sex` представляют собой текстовые данные, они по умолчанию не учитываются методом `describe()`.

Многие операции pandas возвращают `DataFrame` или `Series`. Метод `describe()` является примером операции pandas, возвращающей `Series` или `DataFrame`.