## Pandas Series

Структура/объект Series представляет из себя объект, похожий на одномерный массив (потоновский список, например), но отличительной его чертой являет наличие ассоциированных меток, индексов, вдолькаждого элемента из списка. Такая особенность превращает его ассоциативный массив или в словарь в Питоне.

In [3]:
import pandas as pd
import numpy as np

In [7]:
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

In [9]:
my_series.index

RangeIndex(start=0, stop=6, step=1)

In [11]:
my_series.values

array([ 5,  6,  7,  8,  9, 10], dtype=int64)

In [21]:
my_series[4]

9

In [23]:
my_series[[4]]

4    9
dtype: int64

In [15]:
my_series2 = pd.Series([5, 6, 7], index = ['a', 'b', 'c'])
my_series2

a    5
b    6
c    7
dtype: int64

In [19]:
my_series2.index

Index(['a', 'b', 'c'], dtype='object')

In [25]:
mask = my_series > 7
mask

0    False
1    False
2    False
3     True
4     True
5     True
dtype: bool

In [27]:
my_series[mask]

3     8
4     9
5    10
dtype: int64

In [37]:
my_series2[['a', 'c']] = 0
my_series2

a    0
b    6
c    0
dtype: object

In [39]:
my_series2[(my_series2 > 0)]

b    6
dtype: object

In [41]:
my_series3 = pd.Series({'a' : 1, 'ab': 2, 'abc':3})
my_series3

a      1
ab     2
abc    3
dtype: int64

In [43]:
my_series3.name = "numbers"
my_series3.index.name = "letters"
my_series3

letters
a      1
ab     2
abc    3
Name: numbers, dtype: int64

## Pandas DataFrame

Объект DataFrame - табличная структура данных. И как в любой таблице здесь присутствуют строки и столбцы. Столбцами выступают объекты Series, строки который являют их непосредственными элементами.

In [110]:
df = pd.DataFrame({
    'city': ['Moscow', 'Krasnodar', 'Orenburg', 'Kazan'],
    'delivery_time': [15, 25, 30, 20], 
    'couries': [1123, 893, 560, 746]
})
df

Unnamed: 0,city,delivery_time,couries
0,Moscow,15,1123
1,Krasnodar,25,893
2,Orenburg,30,560
3,Kazan,20,746


In [51]:
df.delivery_time

0    15
1    25
2    30
3    20
Name: delivery_time, dtype: int64

In [55]:
type(df.delivery_time)

pandas.core.series.Series

In [57]:
df['delivery_time']

0    15
1    25
2    30
3    20
Name: delivery_time, dtype: int64

In [59]:
df[['delivery_time']]

Unnamed: 0,delivery_time
0,15
1,25
2,30
3,20


In [112]:
df.index = ['Msc', 'Krd', 'Orb', 'Kaz']
df

Unnamed: 0,city,delivery_time,couries
Msc,Moscow,15,1123
Krd,Krasnodar,25,893
Orb,Orenburg,30,560
Kaz,Kazan,20,746


### Импорт данных

In [66]:
#pd.read_csv('file_name')
#pd.read_exel('file_name')
#pd.read_sql(query, conection_object)
#pd.read_html(url)

In [68]:
ml = pd.read_csv('orders_history.csv')
ml.head(3)

Unnamed: 0,order_date,rider_assigned,food_picked_up,food_delivered,successful_order,failed_order,rider_id,vendor_id,price
0,2021-07-01 08:56:13,2021-07-01 09:04:09,2021-07-01 09:17:01,2021-07-01 09:29:58,1,0,bb2eac1de1b6d2b301fba4f2479c8cbf,ff6609fc0bf8b3824811a4ae7d431fd6,244.0
1,2021-07-01 10:16:07,2021-07-01 10:16:36,2021-07-01 10:49:33,2021-07-01 11:04:07,1,0,e46bfb686b9ff1d9de75f8d9ac604311,9e08b7b5bbd7d6162da8db1c8bb78f03,1064.0
2,2021-07-01 13:31:18,2021-07-01 13:31:37,2021-07-01 13:50:12,2021-07-01 14:08:42,1,0,2f5ce824cd2610e43c7d4136b4a78873,e522d9a7ad1528dd0b05bbfec5066679,1234.0


In [76]:
#работа Pandas с большими DataFrame, которые могут не помещаться в оперативную память компьтера
# для это мы читаем файл небольшими чанками 
c_size = 10000

for gm_chunk in pd.read_csv('orders_history.csv', 
                            chunksize = c_size): #Указываем размер чанка, то есть блока
    print(gm_chunk.shape)

(10000, 9)
(10000, 9)
(10000, 9)
(10000, 9)
(7944, 9)


### Экспорт данных

In [82]:
#pd.to_cvs(file_name)
#pd.to_exel('file_name')
#pd.to_sql(query, conection_object)
#pd.to_html(url)

### Доступ к данным

Доступ к строкам по индексу возможен несколькими способами: 

    .loc - используется для доступа по строковой метке
    .iloc - используется для доступа по числовому значению 

In [86]:
df.loc['Msc']

cite             Moscow
delivery_time        15
couries            1123
Name: Msc, dtype: object

In [90]:
df.iloc[0]

cite             Moscow
delivery_time        15
couries            1123
Name: Msc, dtype: object

In [114]:
#обращение к индексу+колонке
df.loc[['Msc', 'Orb'], 'city']

Msc      Moscow
Orb    Orenburg
Name: city, dtype: object

In [116]:
df.iloc[[0, 1], [0]]

Unnamed: 0,city
Msc,Moscow
Krd,Krasnodar


In [118]:
df[df.delivery_time < 25][['city', 'delivery_time', 'couries']]

Unnamed: 0,city,delivery_time,couries
Msc,Moscow,15,1123
Kaz,Kazan,20,746


In [120]:
filters = (df.city == 'Moscow')
filters

Msc     True
Krd    False
Orb    False
Kaz    False
Name: city, dtype: bool

In [122]:
df[filters]

Unnamed: 0,city,delivery_time,couries
Msc,Moscow,15,1123


In [126]:
#создаем новый столбец
df['delivery_time_hours'] = df['delivery_time']/60
df

Unnamed: 0,city,delivery_time,couries,delivery_time_hours
Msc,Moscow,15,1123,0.25
Krd,Krasnodar,25,893,0.416667
Orb,Orenburg,30,560,0.5
Kaz,Kazan,20,746,0.333333


In [134]:
df.drop(['delivery_time_hours'], axis = 1)
#если мы хотим удалисть столбеу указываем axis = 1, если строку axis = 0)

Unnamed: 0,city,delivery_time,couries
Msc,Moscow,15,1123
Krd,Krasnodar,25,893
Orb,Orenburg,30,560
Kaz,Kazan,20,746


In [136]:
df.drop(['Msc'], axis = 0)

Unnamed: 0,city,delivery_time,couries,delivery_time_hours
Krd,Krasnodar,25,893,0.416667
Orb,Orenburg,30,560,0.5
Kaz,Kazan,20,746,0.333333


In [140]:
#при этом наш DataFrame не изменятеся, чтоб его изменить необходимо
df.drop(['delivery_time_hours'], axis = 1, inplace = True)
df

Unnamed: 0,city,delivery_time,couries
Msc,Moscow,15,1123
Krd,Krasnodar,25,893
Orb,Orenburg,30,560
Kaz,Kazan,20,746


In [142]:
#вытаскивае n самых больших или маленьких показателей и колонки соответственно 
df.nlargest(3, 'delivery_time')

Unnamed: 0,city,delivery_time,couries
Orb,Orenburg,30,560
Krd,Krasnodar,25,893
Kaz,Kazan,20,746


In [144]:
df.nsmallest(3, 'couries')

Unnamed: 0,city,delivery_time,couries
Orb,Orenburg,30,560
Kaz,Kazan,20,746
Krd,Krasnodar,25,893


In [146]:
df.columns = ['City', 'Time', 'Cour']
df

Unnamed: 0,City,Time,Cour
Msc,Moscow,15,1123
Krd,Krasnodar,25,893
Orb,Orenburg,30,560
Kaz,Kazan,20,746


## Задание

на основе информации содержащейся в файле 'orders.csv' необходимо ответить на следующие вопрсы:

1. Сколько уникальных городов представлено в этом DataFrame?
2. Сколько ресторанов в таблице специализируется на рыбе?
3. Сколько колонок в датафрейме имеют тип данных float64?
4. Сколько дней у ресторана с индефикатором 40065 было менее 20 успешных заказа?

1. Сколько уникальных городов представлено в этом DataFrame?

In [153]:
bd = pd.read_csv('orders.csv')
bd.head(5)

Unnamed: 0,date,vendor_id,chain_id,city_id,spec,successful_orders,fail_orders
0,2019-07-02,40065,7501,23,Суши,54.0,1.0
1,2019-08-27,48058,33226,23,Шаурма,0.0,0.0
2,2019-09-25,35430,26220,25,Пицца,2.0,0.0
3,2019-09-21,56553,38601,23,Шашлыки,1.0,0.0
4,2019-09-21,43919,30984,25,Суши,6.0,0.0


In [201]:
bd.drop_duplicates(subset = ['city_id'])

Unnamed: 0,date,vendor_id,chain_id,city_id,spec,successful_orders,fail_orders
0,2019-07-02,40065,7501,23,Суши,54.0,1.0
2,2019-09-25,35430,26220,25,Пицца,2.0,0.0
5,2019-06-13,53006,36214,26,Грузинская,2.0,0.0
6,2019-07-07,28982,20651,24,Суши,0.0,1.0


In [203]:
bd.nunique() #подсчет уникальных значений

date                  121
vendor_id            1537
chain_id             1063
city_id                 4
spec                   35
successful_orders     193
fail_orders            42
dtype: int64

2. Сколько ресторанов в таблице специализируется на рыбе?

In [206]:
len(bd[bd['spec'] == 'Рыба'])

1103

3. Сколько колонок в датафрейме имеют тип данных float64?

In [215]:
bd.dtypes[bd.dtypes == 'float64']

successful_orders    float64
fail_orders          float64
dtype: object

4. Сколько дней у ресторана с индефикатором 40065 было менее 20 успешных заказа?

In [218]:
len(bd[(bd['vendor_id'] == 40065) & (bd['successful_orders'] < 20)])

45