<br>
<font size=6>PANDAS</font>
<br>
<br>
<b>pandas</b> — программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временны́ми рядами.
<br><br>
<b>pandas</b> стремится стать фундаментальным высокоуровневым строительным блоком для практического анализа данных в реальном мире в Python. Кроме того, у него есть более широкая цель — стать самым мощным и гибким инструментом анализа/манипулирования данными с открытым исходным кодом, доступным на любом языке.<br>
<br>

Материалы занятия:
- Курс по pandas на kaggle https://www.kaggle.com/code/residentmario/creating-reading-and-writing
- Введение в pandas https://khashtamov.com/ru/pandas-introduction/
- Документация pandas https://pandas.pydata.org/docs/
- Сайт разработчиков https://pandas.pydata.org/

In [1]:
# Установка pandas
!pip install pandas

Collecting pandas
  Downloading pandas-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.1 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.1/12.1 MB[0m [31m10.8 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m0:01[0m:01[0m
Collecting pytz>=2020.1
  Downloading pytz-2022.4-py2.py3-none-any.whl (500 kB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m500.8/500.8 kB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m MB/s[0m eta [36m0:00:01[0m
Installing collected packages: pytz, pandas
Successfully installed pandas-1.5.0 pytz-2022.4


In [2]:
# импортирование pandas
import pandas as pd

<br>
<font size=5>Создание данных</font>
<hr>
Создание данных в pandas включает в себя два объекта: <b>DataFrame</b> и <b>Series</b>.
<br><br>
<b>DataFrame</b> — это таблица. Он содержит <i>массив отдельных записей</i>, каждая из которых имеет определенное значение. Каждая запись соответствует строке и столбцу.<br>
DataFrame проще представлять с помощью словаря python. Например, рассмотрим следующий простой DataFrame:
<br><br>

In [3]:
df = pd.DataFrame({'Yes': [20, 40], 'No': [3, 10]})
df

Unnamed: 0,Yes,No
0,20,3
1,40,10


<br>
"Yes", "No" - колонки или столбцы нашей таблицы(DataFrame).<br>
0, 1 - индексы или строки.<br>
<br>
Но кроме цифр нам часто нужно хранить разные слова:
<br>
<br>

In [4]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
    'population': [17.04, 143.5, 9.5, 45.5],
    'square': [2724902, 17125191, 207600, 603628]
})
df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


<br>
<b>Series</b><br><br>
Структура/объект Series представляет из себя объект, похожий на одномерный массив (питоновский список, например), но отличительной его чертой является наличие ассоциированных меток, т.н. индексов, вдоль каждого элемента из списка. Такая особенность превращает его в ассоциативный массив или словарь в Python.
<br><br>
Если DataFrame — это таблица, то Series — это список. И на самом деле вы можете создать его не более чем списком.
<br>
<br>

In [5]:
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

In [11]:
my_series.index
my_series.values

array([ 5,  6,  7,  8,  9, 10])

<br>
Series — это, по сути, один столбец DataFrame.<br>
Таким образом, вы можете назначать метки строк ряду так же, как и раньше, используя параметр индекса. Однако у Series нет имени столбца, у него есть только одно общее имя:
<br>
<br>

In [6]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

In [12]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2['f']

10

In [14]:
my_series2[['a', 'b', 'f']]

a    0
b    0
f    0
dtype: int64

In [15]:
my_series2[['a', 'b', 'f']]
my_series2[['a', 'b', 'f']] = 0
my_series2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

In [16]:
my_series2[my_series2 > 0]

c    7
d    8
e    9
dtype: int64

In [17]:
my_series2[my_series2 > 0] * 2

c    14
d    16
e    18
dtype: int64

<br>
Чтение файлов данных<br>
Возможность создать DataFrame или Series вручную очень удобна. Но в большинстве случаев мы не будем создавать собственные данные вручную. Вместо этого мы будем работать с уже существующими данными.<br>
<br>
Данные могут храниться в любой из множества различных форм и форматов. Безусловно, самым простым из них является скромный файл CSV. Когда вы открываете файл CSV, вы получаете что-то вроде этого:<br>
<br>
Продукт А, Продукт Б, Продукт С,<br>
30,21,9,<br>
35,34,1,<br>
41,11,11<br>
Таким образом, файл CSV представляет собой таблицу значений, разделенных запятыми. Отсюда и название: «Значения, разделенные запятыми» или CSV.<br>
<br>
Давайте теперь отложим в сторону наши игрушечные наборы данных и посмотрим, как выглядит настоящий набор данных, когда мы читаем его в DataFrame. Мы будем использовать функцию pd.read_csv() для чтения данных в DataFrame. Это происходит так:<br>
<br>

In [18]:
data = pd.read_csv(data/)

SyntaxError: invalid syntax (606908847.py, line 1)

In [None]:
data.head()

In [None]:
data.shape()