# Шпаргалка по Pandas

In [2]:
import pandas as pd
import numpy as np

## Series

Она представляет из себя объект, похожий на одномерный массив, но отличительной чертой является наличие индексов. Индекс находится слева, а сам элемент справа.

Синтаксис создания:

pandas.Series(input_data, index, data_type)

 - input_data: ввод в виде списка, константы, массива NumPy, Dict и т. д.
 - index: значения индексов.
 - data_type (опционально): тип данных.

In [3]:
a = pd.Series([4, 7, 6, 3, 9])
print(a)
a = pd.Series([4, 7, 6, 3, 9], index=['one', 'two', 'three', 'four', 'five'])
print(a)

0    4
1    7
2    6
3    3
4    9
dtype: int64
one      4
two      7
three    6
four     3
five     9
dtype: int64


In [5]:
a.index

Index(['one', 'two', 'three', 'four', 'five'], dtype='object')

In [6]:
a.values

array([4, 7, 6, 3, 9], dtype=int64)

## DataFrame

Объект DataFrame является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. При этом в столбцах можно хранить данные разных типов данных. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их элементами.

Синтаксис создания:

pandas.DataFrame(input_data, index)

 - input_data: ввод в виде Dict, 2D массива NumPy, Series и т. д.
 - index: значения индексов.

### Основные операции с датафреймом

Создание датафрейма

In [8]:
df = pd.DataFrame({
    'Age': [46, 37, 44, 42, 42],
    'Country': ['Spain', 'Spain', 'Germany', 'Germany', 'France'],
    'Gender': ['Female', 'Female', 'Male', 'Male', 'Male']
})
print(df)

   Age  Country  Gender
0   46    Spain  Female
1   37    Spain  Female
2   44  Germany    Male
3   42  Germany    Male
4   42   France    Male


Создание датафрейма из CSV и вывод первых строк

In [6]:
df = pd.read_csv('laptop_price.csv', encoding='latin-1')
df.head()

Unnamed: 0,laptop_ID,Company,Product,TypeName,Inches,ScreenResolution,Cpu,Ram,Memory,Gpu,OpSys,Weight,Price_euros
0,1,Apple,MacBook Pro,Ultrabook,13.3,IPS Panel Retina Display 2560x1600,Intel Core i5 2.3GHz,8GB,128GB SSD,Intel Iris Plus Graphics 640,macOS,1.37kg,1339.69
1,2,Apple,Macbook Air,Ultrabook,13.3,1440x900,Intel Core i5 1.8GHz,8GB,128GB Flash Storage,Intel HD Graphics 6000,macOS,1.34kg,898.94
2,3,HP,250 G6,Notebook,15.6,Full HD 1920x1080,Intel Core i5 7200U 2.5GHz,8GB,256GB SSD,Intel HD Graphics 620,No OS,1.86kg,575.0
3,4,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.7GHz,16GB,512GB SSD,AMD Radeon Pro 455,macOS,1.83kg,2537.45
4,5,Apple,MacBook Pro,Ultrabook,13.3,IPS Panel Retina Display 2560x1600,Intel Core i5 3.1GHz,8GB,256GB SSD,Intel Iris Plus Graphics 650,macOS,1.37kg,1803.6


Обращение к конкретным столбцам датафрейма

In [7]:
df[['Company', 'Product']].head()

Unnamed: 0,Company,Product
0,Apple,MacBook Pro
1,Apple,Macbook Air
2,HP,250 G6
3,Apple,MacBook Pro
4,Apple,MacBook Pro


Вывод индексов и столбцов

In [8]:
print(df.columns)
print(df.index)

Index(['laptop_ID', 'Company', 'Product', 'TypeName', 'Inches',
       'ScreenResolution', 'Cpu', 'Ram', 'Memory', 'Gpu', 'OpSys', 'Weight',
       'Price_euros'],
      dtype='object')
RangeIndex(start=0, stop=50, step=1)


### Первичный анализ данныйх датафрейма

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   laptop_ID         50 non-null     object 
 1   Company           48 non-null     object 
 2   Product           48 non-null     object 
 3   TypeName          48 non-null     object 
 4   Inches            48 non-null     float64
 5   ScreenResolution  48 non-null     object 
 6   Cpu               48 non-null     object 
 7   Ram               48 non-null     object 
 8   Memory            48 non-null     object 
 9   Gpu               48 non-null     object 
 10  OpSys             48 non-null     object 
 11  Weight            48 non-null     object 
 12  Price_euros       48 non-null     float64
dtypes: float64(2), object(11)
memory usage: 5.2+ KB


Вывод значений:

- Count - количество непропущенных объектов (там, где нет nan значений)
- mean - арифметическое среднее
- std - стандартное отклонение
- min - минимальное значение
- 25% - квантиль 25 процентов
- 50% - квантиль 50 процентов или же медиана
- 75% - квантиль 75 процентов
- max - максимальное значение

In [10]:
df.describe()

Unnamed: 0,Inches,Price_euros
count,48.0,48.0
mean,15.052083,949.705833
std,1.364596,638.446082
min,11.6,191.9
25%,13.825,459.25
50%,15.6,809.5
75%,15.6,1298.25
max,17.3,2858.0


Вывод максимального, минимального и среднего значения

In [11]:
print(df['Price_euros'].min())
print(df['Price_euros'].max())
print(df['Price_euros'].mean())

191.9
2858.0
949.7058333333334


- count - количество непропущенных объектов
- unique - количество уникальных значений
- top - самое частотное значение (мода)
- freq - частота появления самого частотного значения

In [12]:
df.describe(include=['object'])

Unnamed: 0,laptop_ID,Company,Product,TypeName,ScreenResolution,Cpu,Ram,Memory,Gpu,OpSys,Weight
count,50,48,48,48,48,48,48,48,48,48,48
unique,50,6,31,5,9,27,5,12,26,5,26
top,1,Apple,MacBook Pro,Notebook,Full HD 1920x1080,Intel Core i5 8250U 1.6GHz,8GB,256GB SSD,Intel UHD Graphics 620,Windows 10,2.2kg
freq,1,12,8,24,15,9,23,14,6,27,6


Вывод уникальных значений по столбцу и кол-во повторений

In [17]:
print(df['Company'].unique())
print(df['Company'].nunique())

['Apple' 'HP' 'Acer' 'Asus' 'Dell' nan 'Lenovo']
6


Количество повторений значений без нормализации и с нормализацией

In [18]:
print(df['Company'].value_counts())
print(df['Company'].value_counts(normalize=True))

Company
Apple     12
Dell      12
HP         9
Asus       7
Acer       4
Lenovo     4
Name: count, dtype: int64
Company
Apple     0.250000
Dell      0.250000
HP        0.187500
Asus      0.145833
Acer      0.083333
Lenovo    0.083333
Name: proportion, dtype: float64


### Фильтрация
Фильтрация в pandas основывается на булевых масках.

In [37]:
df[df['Company'] == 'Apple'].head()

Unnamed: 0,laptop_ID,Company,Product,TypeName,Inches,ScreenResolution,Cpu,Ram,Memory,Gpu,OpSys,Weight,Price_euros
0,1,Apple,MacBook Pro,Ultrabook,13.3,IPS Panel Retina Display 2560x1600,Intel Core i5 2.3GHz,8GB,128GB SSD,Intel Iris Plus Graphics 640,macOS,1.37kg,1339.69
1,2,Apple,Macbook Air,Ultrabook,13.3,1440x900,Intel Core i5 1.8GHz,8GB,128GB Flash Storage,Intel HD Graphics 6000,macOS,1.34kg,898.94
3,4,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.7GHz,16GB,512GB SSD,AMD Radeon Pro 455,macOS,1.83kg,2537.45
4,5,Apple,MacBook Pro,Ultrabook,13.3,IPS Panel Retina Display 2560x1600,Intel Core i5 3.1GHz,8GB,256GB SSD,Intel Iris Plus Graphics 650,macOS,1.37kg,1803.6
6,7,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.2GHz,16GB,256GB Flash Storage,Intel Iris Pro Graphics,Mac OS X,2.04kg,2139.97


Логическое И

In [36]:
df[(df['Company'] == 'Apple') & (df['Price_euros'] >= 1500)].head()

Unnamed: 0,laptop_ID,Company,Product,TypeName,Inches,ScreenResolution,Cpu,Ram,Memory,Gpu,OpSys,Weight,Price_euros
3,4,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.7GHz,16GB,512GB SSD,AMD Radeon Pro 455,macOS,1.83kg,2537.45
4,5,Apple,MacBook Pro,Ultrabook,13.3,IPS Panel Retina Display 2560x1600,Intel Core i5 3.1GHz,8GB,256GB SSD,Intel Iris Plus Graphics 650,macOS,1.37kg,1803.6
6,7,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.2GHz,16GB,256GB Flash Storage,Intel Iris Pro Graphics,Mac OS X,2.04kg,2139.97
12,13,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.8GHz,16GB,256GB SSD,AMD Radeon Pro 555,macOS,1.83kg,2439.97
15,16,Apple,MacBook Pro,Ultrabook,13.3,IPS Panel Retina Display 2560x1600,Intel Core i5 2.3GHz,8GB,256GB SSD,Intel Iris Plus Graphics 640,macOS,1.37kg,1518.55


Логическое ИЛИ

In [35]:
df[(df['Company'] == 'Acer') | (df['Company'] == 'Asus')].head()

Unnamed: 0,laptop_ID,Company,Product,TypeName,Inches,ScreenResolution,Cpu,Ram,Memory,Gpu,OpSys,Weight,Price_euros
5,6,Acer,Aspire 3,Notebook,15.6,1366x768,AMD A9-Series 9420 3GHz,4GB,500GB HDD,AMD Radeon R5,Windows 10,2.1kg,400.0
8,9,Asus,ZenBook UX430UN,Ultrabook,14.0,Full HD 1920x1080,Intel Core i7 8550U 1.8GHz,16GB,512GB SSD,Nvidia GeForce MX150,Windows 10,1.3kg,1495.0
9,10,Acer,Swift 3,Ultrabook,14.0,IPS Panel Full HD 1920x1080,Intel Core i5 8250U 1.6GHz,8GB,256GB SSD,Intel UHD Graphics 620,Windows 10,1.6kg,770.0
20,21,Asus,Vivobook E200HA,Netbook,11.6,1366x768,Intel Atom x5-Z8350 1.44GHz,2GB,32GB Flash Storage,Intel HD Graphics 400,Windows 10,0.98kg,191.9
31,32,Asus,E402WA-GA010T (E2-6110/2GB/32GB/W10),Notebook,14.0,1366x768,AMD E-Series E2-6110 1.5GHz,2GB,32GB Flash Storage,AMD Radeon R2,Windows 10,1.65kg,199.0


### Сортировки

По возрастанию

In [38]:
df.sort_values(['Price_euros']).head()

Unnamed: 0,laptop_ID,Company,Product,TypeName,Inches,ScreenResolution,Cpu,Ram,Memory,Gpu,OpSys,Weight,Price_euros
20,21,Asus,Vivobook E200HA,Netbook,11.6,1366x768,Intel Atom x5-Z8350 1.44GHz,2GB,32GB Flash Storage,Intel HD Graphics 400,Windows 10,0.98kg,191.9
31,32,Asus,E402WA-GA010T (E2-6110/2GB/32GB/W10),Notebook,14.0,1366x768,AMD E-Series E2-6110 1.5GHz,2GB,32GB Flash Storage,AMD Radeon R2,Windows 10,1.65kg,199.0
35,36,Lenovo,IdeaPad 120S-14IAP,Notebook,14.0,1366x768,Intel Celeron Dual Core N3350 1.1GHz,4GB,64GB Flash Storage,Intel HD Graphics 500,Windows 10,1.44kg,249.0
22,23,HP,255 G6,Notebook,15.6,1366x768,AMD E-Series E2-9000e 1.5GHz,4GB,500GB HDD,AMD Radeon R2,No OS,1.86kg,258.0
11,12,HP,250 G6,Notebook,15.6,Full HD 1920x1080,Intel Core i3 6006U 2GHz,4GB,500GB HDD,Intel HD Graphics 520,No OS,1.86kg,344.99


По убыванию

In [40]:
df.sort_values(['Price_euros'], ascending=False).head()

Unnamed: 0,laptop_ID,Company,Product,TypeName,Inches,ScreenResolution,Cpu,Ram,Memory,Gpu,OpSys,Weight,Price_euros
17,18,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.9GHz,16GB,512GB SSD,AMD Radeon Pro 560,macOS,1.83kg,2858.0
3,4,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.7GHz,16GB,512GB SSD,AMD Radeon Pro 455,macOS,1.83kg,2537.45
12,13,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.8GHz,16GB,256GB SSD,AMD Radeon Pro 555,macOS,1.83kg,2439.97
6,7,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.2GHz,16GB,256GB Flash Storage,Intel Iris Pro Graphics,Mac OS X,2.04kg,2139.97
33,34,Dell,XPS 13,Ultrabook,13.3,Touchscreen / Quad HD+ 3200x1800,Intel Core i7 8550U 1.8GHz,16GB,512GB SSD,Intel UHD Graphics 620,Windows 10,1.2kg,1869.0
