Статья о некоторых особенностях Pandas.

В этой статье будут приведены некоторые лишь некоторые возможности Pandas. За более подробным руководством советую обратится к официальному руководству.

Статья будет поделена на несколько примеров, которые содержат краткий код с комментяриями к его выполнению. И пояснения к нему. Итак начнем.

Для начала подругим непосредственно Pandas.

In [1]:
import pandas as pd


1. Создание DataFrame()

In [2]:
# Создание пустого Дата Фрейма Пандас выполняется следующим кодом
arr = pd.DataFrame() 

2. Заполенение ручным способом

In [3]:
#Заполенение ручным способом

arr = pd.DataFrame([[1,'Сергей', 'Python'],
                  [2,'Андрей', 'C#'],
                  [3,'Дмитрий', 'Node.js']], 
columns=['номер','имя', 'язык программирования'])

In [4]:
print(arr)

   номер      имя язык программирования
0      1   Сергей                Python
1      2   Андрей                    C#
2      3  Дмитрий               Node.js


Pandas наиболее удобно применять для загрузки готовых данных из файла(чаще всего используется CSV) Для примера загрузим файл данных MNIST.

Загрузка CSV файла

In [5]:
data = pd.read_csv(r'C:\Тест\Test_Pandas.csv', sep = ';')

In [6]:
# Удаление всех строк в которых встречается nan
arr = data.dropna(axis=0)
print(arr)

   Number    Name Programm Language
0       1    Andy            Python
1       2    Serg                C#
2       3  Dmitry           Node.js
4       5    Alex                C#
5       6    Wlad            Python
6       7    Yuri           Node.js
7       8    Alex            Python
8       9    Oleg            Python
9      10     Den            Python


In [7]:
# Удаление всех строк в которых встречается nan
arr = data.dropna(axis=0)
print(arr)

   Number    Name Programm Language
0       1    Andy            Python
1       2    Serg                C#
2       3  Dmitry           Node.js
4       5    Alex                C#
5       6    Wlad            Python
6       7    Yuri           Node.js
7       8    Alex            Python
8       9    Oleg            Python
9      10     Den            Python


In [8]:
# Замена пропусков средним значением
arr = data.fillna(arr.mean())
print(arr)

   Number    Name Programm Language
0       1    Andy            Python
1       2    Serg                C#
2       3  Dmitry           Node.js
3       4     NaN            Python
4       5    Alex                C#
5       6    Wlad            Python
6       7    Yuri           Node.js
7       8    Alex            Python
8       9    Oleg            Python
9      10     Den            Python


In [9]:
arr = data['Name'].unique()
print(arr)

['Andy' 'Serg' 'Dmitry' nan 'Alex' 'Wlad' 'Yuri' 'Oleg' 'Den']


In [10]:
# Первые две строки датасета( по умолчанию их 5)
data.head(2)


Unnamed: 0,Number,Name,Programm Language
0,1,Andy,Python
1,2,Serg,C#


In [11]:
# Последние две строки датасета( по умолчанию их 5)
data.tail(2)

Unnamed: 0,Number,Name,Programm Language
8,9,Oleg,Python
9,10,Den,Python


In [12]:
# Подсчет количества строк
arr = len(data)
print(arr)

10


In [13]:
# Еще один способ подсчета количества строк
arr = data.shape[0]
print(arr)

10


In [14]:
# Количество столбов
arr = data.shape[1]
print(arr)

3


In [15]:
# Беглый просмотр исследумего датасета
print(data.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Number             10 non-null     int64 
 1   Name               9 non-null      object
 2   Programm Language  10 non-null     object
dtypes: int64(1), object(2)
memory usage: 368.0+ bytes
None


In [16]:
# Подсчет общих статистических метрик в столбцах 
# с числовыми значениями. На данном датасете прелести этой функции не видны.
print(data.describe())

         Number
count  10.00000
mean    5.50000
std     3.02765
min     1.00000
25%     3.25000
50%     5.50000
75%     7.75000
max    10.00000


In [17]:
# Подсчет вхождения каждого отдельного элемента в отдельно взятом столбце.
# В данном случае в столбце 'Name'
data.Name.value_counts()

Alex      2
Dmitry    1
Oleg      1
Andy      1
Serg      1
Wlad      1
Yuri      1
Den       1
Name: Name, dtype: int64

In [18]:
# Перевод значений из столбца в список
arr = data['Name'].tolist()
print(arr)


['Andy', 'Serg', 'Dmitry', nan, 'Alex', 'Wlad', 'Yuri', 'Alex', 'Oleg', 'Den']


In [19]:
# Представление названий столбцов в виде списка
arr = data.columns.tolist()
print(arr)

['Number', 'Name', 'Programm Language']


In [20]:
# Добавление нового столбца
data['New_column'] = 1
print(data)

   Number    Name Programm Language  New_column
0       1    Andy            Python           1
1       2    Serg                C#           1
2       3  Dmitry           Node.js           1
3       4     NaN            Python           1
4       5    Alex                C#           1
5       6    Wlad            Python           1
6       7    Yuri           Node.js           1
7       8    Alex            Python           1
8       9    Oleg            Python           1
9      10     Den            Python           1


In [21]:

# Разбивка основоного фрейма данных на два, поменьше
# Подобная операция применяется в анализе данных, но этом позже.

data1 = data[0:4]
data2 = data[5:10]

In [22]:
# Построчная сумма двух отдельных столбцов
data['Sum'] = data[['Number','New_column']].sum(axis=1)
print(data)

   Number    Name Programm Language  New_column  Sum
0       1    Andy            Python           1    2
1       2    Serg                C#           1    3
2       3  Dmitry           Node.js           1    4
3       4     NaN            Python           1    5
4       5    Alex                C#           1    6
5       6    Wlad            Python           1    7
6       7    Yuri           Node.js           1    8
7       8    Alex            Python           1    9
8       9    Oleg            Python           1   10
9      10     Den            Python           1   11


In [23]:
# Добавление нового столбца
data = data.drop(['New_column'], axis=1)
print(data)

   Number    Name Programm Language  Sum
0       1    Andy            Python    2
1       2    Serg                C#    3
2       3  Dmitry           Node.js    4
3       4     NaN            Python    5
4       5    Alex                C#    6
5       6    Wlad            Python    7
6       7    Yuri           Node.js    8
7       8    Alex            Python    9
8       9    Oleg            Python   10
9      10     Den            Python   11


In [24]:

# Конкантенция значений двух столбцов  с разделителем в виде пробела
data['Concat'] = data['Name'].str.cat(data['Programm Language'], sep =" ")
print(data)


   Number    Name Programm Language  Sum          Concat
0       1    Andy            Python    2     Andy Python
1       2    Serg                C#    3         Serg C#
2       3  Dmitry           Node.js    4  Dmitry Node.js
3       4     NaN            Python    5             NaN
4       5    Alex                C#    6         Alex C#
5       6    Wlad            Python    7     Wlad Python
6       7    Yuri           Node.js    8    Yuri Node.js
7       8    Alex            Python    9     Alex Python
8       9    Oleg            Python   10     Oleg Python
9      10     Den            Python   11      Den Python


In [25]:
# фильтрация по значению
arr = data[data['Number'] > 5]
print(arr)

   Number  Name Programm Language  Sum        Concat
5       6  Wlad            Python    7   Wlad Python
6       7  Yuri           Node.js    8  Yuri Node.js
7       8  Alex            Python    9   Alex Python
8       9  Oleg            Python   10   Oleg Python
9      10   Den            Python   11    Den Python


In [26]:
#  Строки по значению
arr = data[data['Name'].isin(['Alex'])]
print(arr)


   Number  Name Programm Language  Sum       Concat
4       5  Alex                C#    6      Alex C#
7       8  Alex            Python    9  Alex Python


In [27]:
#  Обращение ко второй ячейке третьего столба

arr = data.iloc[2, 2]
print(arr)

Node.js
