**Pandas** — это мощная библиотека для языка программирования Python, которая используется для анализа и обработки данных. Она предоставляет удобные инструменты для работы с табличными данными, а также с данными из различных источников, таких как CSV, Excel, SQL базы данных и другие форматы.

Основные возможности Pandas включают:

- **DataFrame** — это двухмерная структура данных, похожая на таблицы в базе данных или электронные таблицы Excel. С помощью DataFrame можно легко манипулировать данными, добавлять и удалять столбцы, фильтровать строки и выполнять другие операции.
  
- **Series** — это одномерная структура данных, аналогичная массиву или списку, которая часто используется для представления одного столбца или строки данных.

- **Чтение и запись данных** — Pandas поддерживает импорт данных из разных форматов (CSV, Excel, SQL и др.) и экспорт данных в эти форматы.
  
- **Группировка, фильтрация и агрегация** — библиотека позволяет группировать данные по категориям, фильтровать их по заданным условиям, а также выполнять агрегатные операции, такие как суммирование, подсчет или вычисление среднего.

- **Работа с отсутствующими данными** — Pandas предлагает удобные методы для работы с отсутствующими значениями, такие как заполнение или удаление пропущенных данных.

Pandas делает обработку данных более простой и эффективной, предоставляя высокоуровневые структуры и функции, которые упрощают задачу работы с большими наборами данных и их анализа.

**Pandas** — это универсальная библиотека для работы с данными, и ее возможности гораздо шире, чем базовые функции обработки данных. Вот еще несколько ключевых аспектов, которые делают Pandas незаменимым инструментом для анализа данных:

### 1. **Гибкость работы с разными форматами данных**
Pandas поддерживает чтение и запись данных из множества форматов, таких как:
- CSV-файлы
- Excel (XLS и XLSX)
- SQL базы данных (с использованием SQLAlchemy)
- JSON
- HTML-таблицы
- Паркет (Parquet)
  
Это делает Pandas отличным инструментом для интеграции данных из различных источников и их преобразования.

### 2. **Работа с временными рядами**
Pandas предоставляет встроенные функции для работы с временными рядами. Можно легко выполнять такие операции, как:
- Конвертация строк в даты с помощью `pd.to_datetime()`
- Упрощение работы с временными метками
- Частотный ресемплинг данных (например, агрегация по дням, месяцам или годам)
- Сдвиг временных данных вперёд или назад для анализа тенденций

### 3. **Манипуляции с данными**
Pandas предлагает широкий спектр возможностей для модификации данных:
- **Слияние и соединение данных**: функции `merge()`, `join()` и `concat()` позволяют объединять несколько DataFrame на основе общих ключей или индексов.
- **Работа с индексами**: вы можете назначить один или несколько столбцов в качестве индексов, что делает выборку и работу с данными более эффективной.
- **Применение функций к данным**: с помощью метода `apply()` можно применять произвольные функции ко всем значениям в DataFrame или Series.
- **Трансформация данных**: Pandas позволяет легко масштабировать, нормализовать и трансформировать данные для их дальнейшего анализа.

### 4. **Обработка отсутствующих данных**
Pandas предлагает мощные инструменты для работы с пропущенными значениями (NaN):
- **Заполнение пропусков**: метод `fillna()` позволяет заменить пропущенные значения определённым значением или методами (например, средним, медианой).
- **Удаление пропусков**: метод `dropna()` позволяет удалить строки или столбцы с пропущенными значениями.
- **Заполнение вперёд/назад**: методы `ffill()` и `bfill()` позволяют заполнить пропущенные значения на основе предыдущих или последующих значений.

### 5. **Группировка и агрегация данных**
Функции группировки в Pandas позволяют выполнять сложные вычисления для разных категорий данных:
- **Группировка** с помощью метода `groupby()` позволяет разбить данные на группы по определенным критериям (например, по категориям, дате или другим атрибутам) и выполнять агрегатные операции, такие как сумма, среднее, минимум или максимум.
- **Сводные таблицы**: Pandas поддерживает создание сводных таблиц (`pivot_table()`), которые помогают легко агрегировать данные по нескольким уровням.

### 6. **Векторизация операций**
Pandas оптимизирован для работы с большими объемами данных за счёт векторизации, что означает, что большинство операций выполняются быстро, так как они реализованы на уровне библиотеки NumPy. Это позволяет выполнять такие операции, как арифметические вычисления, на целых столбцах и рядах данных без использования циклов.

### 7. **Визуализация данных**
Хотя Pandas не предназначен для визуализации сам по себе, он отлично интегрируется с библиотеками визуализации, такими как Matplotlib и Seaborn. Pandas позволяет легко строить графики на основе данных с помощью метода `.plot()`:
- Линейные графики
- Столбчатые диаграммы
- Гистограммы
- Графики разброса

Это упрощает визуальный анализ данных и нахождение закономерностей.

### 8. **Оптимизация памяти и производительности**
Pandas поддерживает возможность настройки типов данных для оптимизации использования памяти. Это важно при работе с большими наборами данных:
- Можно конвертировать столбцы в категории для экономии памяти.
- Pandas поддерживает работу с большими данными с помощью `chunking` (разбиение данных на части), что позволяет загружать и обрабатывать большие наборы данных по частям.

### 9. **Применение в реальных проектах**
Pandas активно используется в различных областях:
- **Финансы**: анализ временных рядов, предсказание цен на акции, анализ отчетности.
- **Наука о данных**: предобработка данных перед обучением моделей машинного обучения, создание feature engineering.
- **Бизнес-аналитика**: анализ продаж, маркетинговых кампаний, клиентских данных.

### 10. **Сообщество и экосистема**
Pandas имеет огромное сообщество разработчиков, которое постоянно расширяет функционал библиотеки. В интернете доступны тысячи примеров, учебных пособий и ответов на вопросы по Pandas. Она также хорошо интегрируется с другими библиотеками Python, такими как NumPy, SciPy, Matplotlib и scikit-learn.

В целом, **Pandas** — это мощный и гибкий инструмент, который делает работу с данными быстрой, простой и эффективной, что делает его незаменимым в арсенале любого аналитика данных или разработчика.

In [5]:
import pandas as pd

In [2]:
my_list_int = [1, 2, 3, 4, 5]
my_list_str = ['Marselle', 'Amanzhol', 'Aisha', 'Adil', 'Bektur']

In [3]:
pd.Series(my_list_int)

0    1
1    2
2    3
3    4
4    5
dtype: int64

1. **`pd.Series(my_list_int)`**:
   - Ты создаешь объект `Series` из списка чисел `my_list_int`. Индексы устанавливаются автоматически, начиная с 0.


In [4]:
pd.Series(my_list_str)

0    Marselle
1    Amanzhol
2       Aisha
3        Adil
4      Bektur
dtype: object

2. **`pd.Series(my_list_str)`**:
   - Создаешь объект `Series` из списка строк `my_list_str`. Индексы также автоматически устанавливаются начиная с 0.


In [24]:
pd.Series(my_list_str, index=my_list_int)

1    Marselle
2    Amanzhol
3       Aisha
4        Adil
5      Bektur
dtype: object

3. **`pd.Series(my_list_str, index=my_list_int)`**:
   - Создаешь объект `Series`, где данные — это строки из списка `my_list_str`, а индексы берутся из списка чисел `my_list_int`.


In [25]:
pd.Series(my_list_int, index=my_list_str)


Marselle    1
Amanzhol    2
Aisha       3
Adil        4
Bektur      5
dtype: int64

4. **`pd.Series(my_list_int, index=my_list_str)`**:
   - Ты создаешь объект `Series`, где данные — это числа из списка `my_list_int`, а индексы задаются именами из списка `my_list_str`.


In [6]:
import pandas as pd
import numpy as np

In [28]:
my_list_np = np.arange(18, 23)
my_list_np

array([18, 19, 20, 21, 22])

1. **`my_list_np = np.arange(1, 6)`**:
   - Используя библиотеку `numpy`, ты создаешь массив чисел от 1 до 5 включительно с помощью функции `np.arange()`. Массив `my_list_np` теперь содержит числа `[1, 2, 3, 4, 5]`.

2. **`my_list_np`**:
   - Здесь ты просто выводишь созданный массив, что позволяет увидеть его содержимое.


In [29]:
pd.Series(my_list_np)

0    18
1    19
2    20
3    21
4    22
dtype: int64

3. **`pd.Series(my_list_np)`**:
   - Ты создаешь объект `Series` из массива `my_list_np`. Индексы по умолчанию будут автоматически установлены, начиная с 0.

In [38]:
names = ['Marselle', 'Amanzhol', 'Aisha', 'Adil', 'Bektur']

series_wich_name = pd.Series(my_list_np, index=names)

print(series_wich_name['Marselle'])
print(series_wich_name[input('Age by name: ')])

18
18


1. **`names = ['Marselle', 'Amanzhol', 'Aisha', 'Adil', 'Bektur']`**:
   - Создается список имен, который будет использоваться в качестве индексов для объекта `Series`.

2. **`series_wich_name = pd.Series(my_list_np, index=names)`**:
   - Ты создаешь объект `Series` из массива `my_list_np` (числа от 1 до 5), используя список `names` в качестве индексов. Теперь значения в `Series` можно будет получать по именам.

3. **`print(series_wich_name['Marselle'])`**:
   - Здесь ты выводишь значение `Series`, соответствующее индексу `'Marselle'`. Поскольку в массиве `my_list_np` находится число 1 (первое значение), будет выведено `1`.

4. **`print(series_wich_name[input('Age by name: ')])`**:
   - В этой строке программа запрашивает у пользователя ввод имени, используя функцию `input()`. Введенное имя затем используется для получения значения из `series_wich_name`. Если введенное имя присутствует в индексе `Series`, соответствующее значение будет выведено. Если имя не существует, будет вызвано исключение `KeyError`.

In [40]:
series_wich_name['Marselle'] = 21
series_wich_name['Aisha'] = 19
print(series_wich_name)

Marselle    21
Amanzhol    19
Aisha       19
Adil        21
Bektur      22
dtype: int64


1. **`series_wich_name['Marselle'] = 21`**:
   - Ты изменяешь значение, соответствующее индексу `'Marselle'`, на `21`. Теперь `Marselle` будет ассоциироваться с возрастом `21`.

2. **`series_wich_name['Aisha'] = 19`**:
   - Ты обновляешь значение для индекса `'Aisha'`, установив его на `19`. Теперь `Aisha` будет ассоциироваться с возрастом `19`.

3. **`print(series_wich_name)`**:
   - Здесь выводится весь объект `Series`, показывая обновленные значения для индексов `'Marselle'` и `'Aisha'`. Остальные значения останутся без изменений.

В результате ты увидишь, что `series_wich_name` теперь содержит:
- `Marselle` — `21`
- `Amanzhol` — прежнее значение
- `Aisha` — `19`
- `Adil` — прежнее значение
- `Bektur` — прежнее значение 

In [54]:
numbers = np.arange(1, 5)

series = pd.Series(
    numbers,
    index=['a', 'b', 'c', 'd'],
    name='numbers'
)

series.name

'numbers'

В этом коде ты создаешь объект `Series` и устанавливаешь ему имя.

1. **`numbers = np.arange(1, 5)`**:
   - Создается массив чисел от 1 до 4 с помощью функции `np.arange()`. В `numbers` теперь находятся значения `[1, 2, 3, 4]`.

2. **`series = pd.Series(...)`**:
   - Ты создаешь объект `Series`, используя массив `numbers` в качестве данных. В качестве индексов задаются символы `['a', 'b', 'c', 'd']`. Также ты устанавливаешь имя для `Series` как `'numbers'`.

3. **`series.name`**:
   - Эта строка возвращает имя объекта `Series`. В данном случае это будет строка `'numbers'`, которую ты установил при создании `Series`.

Таким образом, после выполнения `series.name` ты получишь строку `'numbers'`, которая идентифицирует данный объект `Series`.

In [46]:
data = {
    'Marselle': ['Python', 'BackEnd'], 
    'Bektur': ['Python', 'DataScience'],
    'Adil': ['BackEnd', 'FrontEnd']
}

pd.DataFrame(data, index=['Rank1', 'Rank2'])

Unnamed: 0,Marselle,Bektur,Adil
Rank1,Python,Python,BackEnd
Rank2,BackEnd,DataScience,FrontEnd


В этом коде ты создаешь объект `DataFrame` из словаря с данными.

1. **`data`**:
   - Ты создаешь словарь, в котором ключи — это имена (например, `'Marselle'`, `'Bektur'`, `'Adil'`), а значения — списки, представляющие навыки или специальности этих людей (например, `['Python', 'BackEnd']` для `Marselle`).

2. **`pd.DataFrame(data, index=['Rank1', 'Rank2'])`**:
   - Здесь ты создаешь объект `DataFrame` с использованием словаря `data`. Параметр `index` устанавливает пользовательские индексы для строк, в данном случае `['Rank1', 'Rank2']`. Однако, поскольку в словаре три ключа, а в индексе только два значения, `pandas` автоматически дополнит его недостающими индексами, чтобы все строки были представлены.

Таким образом, в `DataFrame` будет три столбца (по именам) и несколько строк, в зависимости от того, как `pandas` обработает предоставленные данные. Каждый столбец будет содержать списки навыков для каждого имени. 

In [57]:
array_5x5 = np.arange(25).reshape(5, 5)
array_5x5

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [65]:
from string import ascii_uppercase

letters = list(ascii_uppercase[:10])

ser = pd.Series(np.arange(len(letters)), index=letters)
ser

A    0
B    1
C    2
D    3
E    4
F    5
G    6
H    7
I    8
J    9
dtype: int64

1. **`from string import ascii_uppercase`**:
   - Импортируется строка `ascii_uppercase`, содержащая все заглавные буквы английского алфавита (от 'A' до 'Z').

2. **`letters = list(ascii_uppercase[:10])`**:
   - Создается список `letters`, который содержит первые 10 заглавных букв английского алфавита: `['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J']`.

3. **`ser = pd.Series(np.arange(len(letters)), index=letters)`**:
   - Создается объект `Series`, в котором данные — это массив целых чисел от 0 до 9, создаваемый с помощью `np.arange(len(letters))`. Индексы для `Series` берутся из списка `letters`.
   - В результате получится `Series`, где каждой букве будет соответствовать целое число от 0 до 9.

Таким образом, каждая буква от 'A' до 'J' будет сопоставлена с соответствующим числом от 0 до 9.

In [77]:
print(ser.loc['C'])
print()
print(ser.loc[['A', 'B']])
print()
print(ser.loc['A':'C'])
print()
print(ser[ser > 5])

2

A    0
B    1
dtype: int64

A    0
B    1
C    2
dtype: int64

G    6
H    7
I    8
J    9
dtype: int64


In [81]:
ser ** 2
ser.sum()

np.int64(45)

In [83]:
def increase_by_two(el):
    return el + 2

ser = ser.apply(increase_by_two)
ser

A     4
B     5
C     6
D     7
E     8
F     9
G    10
H    11
I    12
J    13
dtype: int64

1. **`print(ser.loc['C'])`**:
   - Эта строка выводит значение, соответствующее индексу `'C'`. В данном случае это будет `2`.

2. **`print(ser.loc[['A', 'B']])`**:
   - Здесь ты выводишь значения, соответствующие индексам `'A'` и `'B'`. 

3. **`print(ser.loc['A':'C'])`**:
   - Эта строка выводит значения от индекса `'A'` до индекса `'C'` (включительно):

4. **`print(ser[ser > 5])`**:
   - Здесь ты выводишь значения, которые больше `5`.

5. **`ser ** 2`**:
   - Эта строка возводит каждый элемент `Series` в квадрат. Однако результат не сохраняется, и вывод не будет напечатан.

6. **`ser.sum()`**:
   - Суммирует все элементы в `ser`. Результат будет равен `0 + 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 = 45`.

7. **`def increase_by_two(el): return el + 2`**:
   - Определяется функция `increase_by_two`, которая увеличивает переданный элемент на 2.

8. **`ser = ser.apply(increase_by_two)`**:
    - Эта строка применяет функцию `increase_by_two` ко всем элементам `Series`, увеличивая каждое значение на 2. После этого `ser` будет содержать значения от `2` до `11`.

Таким образом, код демонстрирует различные способы доступа и манипуляции с данными в объекте `Series`.