In [27]:
import pandas as pd 
import numpy as np

In [28]:
np.random.seed(1) # случайность для воспроизводимости
n = 100 # количество строк
dates = pd.date_range(start='2050-01-01', periods=n, freq='D') 
# генерация 100 последовательных
products = np.random.choice(['Tablet', 'Camera','Keyboard', 'Mouse', 'Smartphone'],n) # выбор из 3 продуктов
prices = np.round(np.random.uniform(50.0, 200.0, n), 2) # цены от 50.0 до 200.0
quantities = np.random.randint(1, 5, n) # количество от 1 до 4

data = { # создание словаря данных
    'Date': dates,
    'Product': products,
    'Price': prices,
    'Quantity': quantities
}
df = pd.DataFrame(data) # создание DataFrame
df

Unnamed: 0,Date,Product,Price,Quantity
0,2050-01-01,Mouse,147.16,3
1,2050-01-02,Smartphone,103.09,2
2,2050-01-03,Tablet,164.48,3
3,2050-01-04,Camera,103.48,1
4,2050-01-05,Mouse,162.92,1
...,...,...,...,...
95,2050-04-06,Keyboard,119.32,3
96,2050-04-07,Tablet,69.84,1
97,2050-04-08,Keyboard,164.64,4
98,2050-04-09,Smartphone,81.91,3


In [29]:
df.dtypes # проверка типов данных столбцов

Date        datetime64[ns]
Product             object
Price              float64
Quantity             int32
dtype: object

In [30]:
df.to_csv('c:/Jupyter_notebook/PandasCourse/data/random_sales_data.csv', index=False)
# сохранение в CSV файл без индекса

In [31]:
df = pd.read_csv('c:/Jupyter_notebook/PandasCourse/data/random_sales_data.csv', parse_dates=['Date']) 
# чтение из CSV файла с разбором столбца 'Date' как даты
df   

Unnamed: 0,Date,Product,Price,Quantity
0,2050-01-01,Mouse,147.16,3
1,2050-01-02,Smartphone,103.09,2
2,2050-01-03,Tablet,164.48,3
3,2050-01-04,Camera,103.48,1
4,2050-01-05,Mouse,162.92,1
...,...,...,...,...
95,2050-04-06,Keyboard,119.32,3
96,2050-04-07,Tablet,69.84,1
97,2050-04-08,Keyboard,164.64,4
98,2050-04-09,Smartphone,81.91,3


In [32]:
df.dtypes # проверка типов данных столбцов после чтения из CSV

Date        datetime64[ns]
Product             object
Price              float64
Quantity             int64
dtype: object

In [33]:
df.to_excel('c:/Jupyter_notebook/PandasCourse/data/random_sales_data.xlsx', index=False)
# сохранение в Excel файл без индекса

In [34]:
import sys
!{sys.executable} -m pip install --upgrade openpyxl xlrd




In [35]:
import openpyxl, xlrd
print("openpyxl:", openpyxl.__version__)
print("xlrd:", xlrd.__version__)


openpyxl: 3.1.5
xlrd: 2.0.2


In [36]:


df = pd.read_excel(r'c:/Jupyter_notebook/PandasCourse/data/random_sales_data.xlsx', engine='openpyxl')
df.head()


Unnamed: 0,Date,Product,Price,Quantity
0,2050-01-01,Mouse,147.16,3
1,2050-01-02,Smartphone,103.09,2
2,2050-01-03,Tablet,164.48,3
3,2050-01-04,Camera,103.48,1
4,2050-01-05,Mouse,162.92,1


In [37]:
df.to_json('c:/Jupyter_notebook/PandasCourse/data/random_sales_data.json', orient='records', lines=True)
# сохранение в JSON файл в формате строк

In [38]:
df.shape # проверка формы DataFrame

(100, 4)

In [39]:
df.describe().round(2) # получение статистического описания
# данных с округлением до 2 знаков

Unnamed: 0,Date,Price,Quantity
count,100,100.0,100.0
mean,2050-02-19 12:00:00,117.32,2.49
min,2050-01-01 00:00:00,51.35,1.0
25%,2050-01-25 18:00:00,81.13,1.0
50%,2050-02-19 12:00:00,114.1,3.0
75%,2050-03-16 06:00:00,161.21,3.0
max,2050-04-10 00:00:00,197.26,4.0
std,,42.47,1.14


In [40]:
df.values[:5] # получение значений DataFrame в виде массива NumPy первые 5 строк

array([[Timestamp('2050-01-01 00:00:00'), 'Mouse', 147.16, 3],
       [Timestamp('2050-01-02 00:00:00'), 'Smartphone', 103.09, 2],
       [Timestamp('2050-01-03 00:00:00'), 'Tablet', 164.48, 3],
       [Timestamp('2050-01-04 00:00:00'), 'Camera', 103.48, 1],
       [Timestamp('2050-01-05 00:00:00'), 'Mouse', 162.92, 1]],
      dtype=object)

In [41]:
df.groupby('Product') # группировка по столбцу 'Product' и подсчет
# суммы по другим столбцам

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001B5CECCD910>

In [42]:
df.groupby('Product')['Quantity'].sum() # суммирование количества по продуктам

Product
Camera        59
Keyboard      35
Mouse         38
Smartphone    66
Tablet        51
Name: Quantity, dtype: int64

In [43]:
df.groupby('Product')['Price'].mean().round(2)  # средняя цена по продуктам 
# округленная до 2 знаков

Product
Camera        121.54
Keyboard      123.47
Mouse         129.43
Smartphone    115.61
Tablet        100.17
Name: Price, dtype: float64