# Основы Pandas

## Основная информация



In [1]:
import numpy as np
import pandas as pd

### Структуры:
* Series - одноразмерные именованные массивы данных. Могут иметь конкретный тип (int64, float64), либо иметь общий тип - тип Object (те же векторы, списки).

* Nan - тип данных, который используется Pandas для обозначения отсутствующих значений.

* DataFrame - двуразмерные массивы данных, иначе говоря массив Series, двуразмерный список, либо таблица.

### Различные методы
* date_range(start, end, freq="частота") - диапазон дат типа "YEAR-MOUTH-DAY"

## Series

### Инициализация
* data - набор данных

* index - какой-либо список имен для строк (по умолчанию индексы с 0 до n, можно заменить буквами, иным порядком чисел и т.д.)

* dtype - определение типа данных для Series. Pandas автоматически приводит все данные из data к этому типу, если не указывать проанализирует данные и подберет тип сам. None может быть преобразовано float64 в Nan, но int64 так не может.

* copy - необходимо ли скопировать данные, либо же ссылаться на них. Имеет смысл, если данные изначально были nparray, так как тогда все изменения с Series будут "синхронизироваться" с numpy-массивом.

* fastpath - используется в C для ускорения создания Series, не предназначен для пользователей.

### Методы
* tail/head(n) - вывести последние или первые n-элементов

* nonnan()/nan() - вернуть непустые или пустые значения

### Все методы, применимые к Series могут быть применены к DataFrame

### Практика
* Если в index есть какая-то строчка, которой нет в data, то Series дает ей значение по умолчанию.

In [2]:
numbers = {
    "A": 0,
    "B": 1,
    "C": 10,
    "D": 12,
    "E": 14,
}

data = pd.Series(numbers, index=["A", "B", "C", "D", "F"])

print(data)

A     0.0
B     1.0
C    10.0
D    12.0
F     NaN
dtype: float64


### Примеры создания Series

Стандартный пример

In [3]:
data = [1, 2, 3.4, None, 6, 9]

data_series1 = pd.Series(
    data,
    index=list("ABCDEF"),
    dtype=float,
    name="My Float Data",
)

data_series1

A    1.0
B    2.0
C    3.4
D    NaN
E    6.0
F    9.0
Name: My Float Data, dtype: float64

Существует много разных способов создания Series

Вот например список данных...

In [4]:
animals = ["Жираф", "Носорожик", "Бегемот", "Крокодил", "Кот"]

data = pd.Series(
    animals,
    name="Animals",
    index=["First", "Second", "Third", "Fourth", "Fifth",],
)

print(data)

First         Жираф
Second    Носорожик
Third       Бегемот
Fourth     Крокодил
Fifth           Кот
Name: Animals, dtype: object


А вот обычный скаляр...

In [5]:
data = pd.Series(0.5, index=range(10))

print(data.tail(2))

8    0.5
9    0.5
dtype: float64


А вот словарь... (мы связываем ключи словаря с индексами Series и значения словаря со значениями Series)

In [6]:
# Из словаря (привязка индексов и значений)

movies = {
    "A": "Унисонные присроками",
    "B": "Дальнобойщики, бойщики",
    "C": "Дряная грамотность",
    "D": "Детский страшилка",
}

data = pd.Series(movies, index=["A", "B", "C", "D"])

print(data)

A      Унисонные присроками
B    Дальнобойщики, бойщики
C        Дряная грамотность
D         Детский страшилка
dtype: object


## DataFrame

### Инициализация
* Тоже, что и у Series

* Columns - названия колонок для DataFrame

### Методы
* at/iat/loc/iloc [] - всё с at - выбор одного значения, всё с loc - выбор нескольких значений, слайсов, столбцов, строк. "i" в начале означает, что метод использует нумерацию строк и столбцов Python - то есть с 0 до n и слайсы берутся по правилу [a, b] <=> [a; b). Без "i" - значит мы использует оригинальные названия индексов и столбцов, и срезу включительно с двух сторон.

* to_numpy() - преобразование в Numpy-массив

* sort_index(axis="0 - строка, 1 столбец", by=\["Список строк/столбцов"]) - сортировка осей

* sort_values(axis="0 - строка, 1 столбец", by=\["Список строк/столбцов"]) - сортировка значений

### Практика

Использование функции date_range

In [7]:
times = pd.date_range(
    start="2025-10-16",
    end="2025-10-26",
    freq="1D",
)

experiense = pd.DataFrame(
    data=np.random.rand(11, 4),
    index=times,
    columns=list("ABCD"),
)
print(experiense)

                   A         B         C         D
2025-10-16  0.427267  0.439254  0.276978  0.993554
2025-10-17  0.209218  0.893744  0.887720  0.871935
2025-10-18  0.689984  0.200189  0.146172  0.492506
2025-10-19  0.105026  0.275481  0.996831  0.962090
2025-10-20  0.877035  0.420693  0.732440  0.457005
2025-10-21  0.421050  0.269807  0.820721  0.889420
2025-10-22  0.819069  0.173886  0.235511  0.091033
2025-10-23  0.270611  0.648813  0.615956  0.573608
2025-10-24  0.104140  0.464213  0.168413  0.969143
2025-10-25  0.148707  0.172386  0.603179  0.515876
2025-10-26  0.928980  0.368617  0.790006  0.390714


Создание DataFrame из словаря (ключи - названия столбцов)

In [8]:
values = {
    "Живут в Яшкино": [True, False, True, False, False],
    "Кол-во детей": 1.0,
    "Категория": pd.Categorical(
        [
            "Test",
            "Prod",
            "Test",
            "Prod",
            "Test",
        ]
    ),
    "Случайный шум": np.array([3] * 5, dtype="int32"),
    "Новая строчка": "Потом укажу"
}

df = pd.DataFrame(
    data=values,
    columns=list(values.keys()) + ["Супер новая строчка"],
    index=range(5),
)

print(df)
print(df.dtypes)

print(df.columns)
print(df.index)
# Или просто df.axes

   Живут в Яшкино  Кол-во детей Категория  Случайный шум Новая строчка  \
0            True           1.0      Test              3   Потом укажу   
1           False           1.0      Prod              3   Потом укажу   
2            True           1.0      Test              3   Потом укажу   
3           False           1.0      Prod              3   Потом укажу   
4           False           1.0      Test              3   Потом укажу   

  Супер новая строчка  
0                 NaN  
1                 NaN  
2                 NaN  
3                 NaN  
4                 NaN  
Живут в Яшкино             bool
Кол-во детей            float64
Категория              category
Случайный шум             int32
Новая строчка            object
Супер новая строчка      object
dtype: object
Index(['Живут в Яшкино', 'Кол-во детей', 'Категория', 'Случайный шум',
       'Новая строчка', 'Супер новая строчка'],
      dtype='object')
RangeIndex(start=0, stop=5, step=1)


Применение iloc, head и tail в DataFrame

In [9]:
df = df.iloc[:, :3]
print(df)

print(df.head(n=2))
print(df.tail(n=3))

   Живут в Яшкино  Кол-во детей Категория
0            True           1.0      Test
1           False           1.0      Prod
2            True           1.0      Test
3           False           1.0      Prod
4           False           1.0      Test
   Живут в Яшкино  Кол-во детей Категория
0            True           1.0      Test
1           False           1.0      Prod
   Живут в Яшкино  Кол-во детей Категория
2            True           1.0      Test
3           False           1.0      Prod
4           False           1.0      Test


Преобразование в Numpy с помощью to_numpy()

Важно понимать, что Numpy-массив имеет всегда 1 тип данных, а DataFrame может содержать Series с разными типами данных у каждой => при переводе Pandas будет использовать тот тип данных, которому могут соответствовать все Series. Чаще всего это Object.

In [10]:
ndf = df.to_numpy()
ndf

array([[True, 1.0, 'Test'],
       [False, 1.0, 'Prod'],
       [True, 1.0, 'Test'],
       [False, 1.0, 'Prod'],
       [False, 1.0, 'Test']], dtype=object)

Транспонирование DataFrame

In [11]:
print(df.T, "\n")
print(df)

                   0      1     2      3      4
Живут в Яшкино  True  False  True  False  False
Кол-во детей     1.0    1.0   1.0    1.0    1.0
Категория       Test   Prod  Test   Prod   Test 

   Живут в Яшкино  Кол-во детей Категория
0            True           1.0      Test
1           False           1.0      Prod
2            True           1.0      Test
3           False           1.0      Prod
4           False           1.0      Test


Сортировка осей и значений

In [12]:
df.sort_index(axis=0, inplace=False, ascending=True)

Unnamed: 0,Живут в Яшкино,Кол-во детей,Категория
0,True,1.0,Test
1,False,1.0,Prod
2,True,1.0,Test
3,False,1.0,Prod
4,False,1.0,Test


In [13]:
df = pd.DataFrame(
    data={
        "A": [10, 20, 30],
        "B": ["X", "Y", "Z"],
        "C": [23, 75, 90],
    }
)

number_cols = df.select_dtypes(include="number").columns
other_cols = df.select_dtypes(exclude="number").columns

sorted_df = (
    df[number_cols]
    .sort_values(axis=1, by=0, ascending=False)
    .join(df[other_cols])
)

print(sorted_df, "\n")
print(df)

    C   A  B
0  23  10  X
1  75  20  Y
2  90  30  Z 

    A  B   C
0  10  X  23
1  20  Y  75
2  30  Z  90


Выбор элементов в Series и DataFrame

In [14]:
data = {
    "City": [
        "Moscow",
        "Kemerovo",
        "Yekaterinburg",
        "London",
        "Taiga",
        "Yurga",
    ],
    "Peoples": [1_000, 1, 1.5, 4, 0.5, 0.2],
    "Dogs": [True, True, False, False, False, True],
    "Cars": True,
    "Years": 2.7,
}

df = pd.DataFrame(
    data=data,
    columns=list(data.keys()) + ["Animal"],
    index=[i for i in "ABCDEF"],
)

print("DataFrame:")
print(df, "\n")

print("F строка и Peoples столбец")
print(df.at["F", "Peoples"])

print()

print("5 строка и 1-й столбец")
print(df.iat[5, 1])

print()

print("0-ая и 1-ая строка и 0-ой столбец")
print(df.iloc[0:2, 0:1])

DataFrame:
            City  Peoples   Dogs  Cars  Years Animal
A         Moscow   1000.0   True  True    2.7    NaN
B       Kemerovo      1.0   True  True    2.7    NaN
C  Yekaterinburg      1.5  False  True    2.7    NaN
D         London      4.0  False  True    2.7    NaN
E          Taiga      0.5  False  True    2.7    NaN
F          Yurga      0.2   True  True    2.7    NaN 

F строка и Peoples столбец
0.2

5 строка и 1-й столбец
0.2

0-ая и 1-ая строка и 0-ой столбец
       City
A    Moscow
B  Kemerovo


Все это аналогичные примеры

In [15]:
d1 = df["Peoples"]
d2 = df.Peoples
d3 = df.iloc[:, 1]
d4 = df.loc[:, "Peoples"]

d1.equals(d2) and d2.equals(d3) and d3.equals(d4)

True

Пример более сложного использование срезов

In [16]:
df.loc[:, df.columns[:2]]

Unnamed: 0,City,Peoples
A,Moscow,1000.0
B,Kemerovo,1.0
C,Yekaterinburg,1.5
D,London,4.0
E,Taiga,0.5
F,Yurga,0.2


Взятие строк, удовлетворяющих условиям, из столбца.

In [17]:
print("Числовые условия Peoples столбец, где строки > 0.7")

s = df["Peoples"] > 0.7

print(s)

print(df[s])

print()


print("Фильтрация на основе списка значений. Dogs, строки True")

s = df["Dogs"].isin([True])

print(s)

print(df[s])

Числовые условия Peoples столбец, где строки > 0.7
A     True
B     True
C     True
D     True
E    False
F    False
Name: Peoples, dtype: bool
            City  Peoples   Dogs  Cars  Years Animal
A         Moscow   1000.0   True  True    2.7    NaN
B       Kemerovo      1.0   True  True    2.7    NaN
C  Yekaterinburg      1.5  False  True    2.7    NaN
D         London      4.0  False  True    2.7    NaN

Фильтрация на основе списка значений. Dogs, строки True
A     True
B     True
C    False
D    False
E    False
F     True
Name: Dogs, dtype: bool
       City  Peoples  Dogs  Cars  Years Animal
A    Moscow   1000.0  True  True    2.7    NaN
B  Kemerovo      1.0  True  True    2.7    NaN
F     Yurga      0.2  True  True    2.7    NaN


Вставка значений в DataFrame (идентична обычным спискам)

In [18]:
df.at["A", "Peoples"] = 500

df.Animal = np.random.rand(6, 1)

print(df)

            City  Peoples   Dogs  Cars  Years    Animal
A         Moscow    500.0   True  True    2.7  0.460831
B       Kemerovo      1.0   True  True    2.7  0.186005
C  Yekaterinburg      1.5  False  True    2.7  0.728024
D         London      4.0  False  True    2.7  0.279392
E          Taiga      0.5  False  True    2.7  0.092747
F          Yurga      0.2   True  True    2.7  0.487183
