<a href="https://colab.research.google.com/github/Sepren/Data_Analytic/blob/main/Series_and_DataFrame.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas Series

Структура/объект Series представляет из себя объект, похожий на одномерный массив (питоновский список, например), но отлчительной его чертой является наличие ассоциированных меток, т.н. индексов, вдоль каждого элемента из списка. Такая особенность превращает его в ассоциативный массив или словарь в Python

In [22]:
import pandas as pd
import numpy as np

my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

In [23]:
my_series.index

RangeIndex(start=0, stop=6, step=1)

In [24]:
my_series.values

array([ 5,  6,  7,  8,  9, 10])

In [26]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10],
                       index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2

a     5
b     6
c     7
d     8
e     9
f    10
dtype: int64

In [29]:
my_series2.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [None]:
my_series[4]

9

In [30]:
my_series[[4]]

4    9
dtype: int64

In [31]:
my_series2['a']

5

In [32]:
mask = my_series > 7

In [33]:
mask

0    False
1    False
2    False
3     True
4     True
5     True
dtype: bool

In [34]:
my_series[mask]

3     8
4     9
5    10
dtype: int64

In [35]:
my_series2[['a', 'b', 'f']] = 0
my_series2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

In [36]:
my_series2[(my_series2 > 0)]

c    7
d    8
e    9
dtype: int64

In [37]:
my_series2 > 0

a    False
b    False
c     True
d     True
e     True
f    False
dtype: bool

In [38]:
my_series3 = pd.Series({'a': 5, 'b': 6, 'c': 7, 'd': 8})
my_series3

a    5
b    6
c    7
d    8
dtype: int64

In [39]:
my_series3.name = 'numbers'
my_series3.index.name = 'letters'
my_series3

letters
a    5
b    6
c    7
d    8
Name: numbers, dtype: int64

# Pandas DataFrame

Объект DataFrame лучше всего представлять себе в виде обычной таблицы и это правильно, ведь DataFrame является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их непосредственными элементами

In [40]:
df = pd.DataFrame({
    "city": ["Moscow", "Krasnodar", "Belgorod", "Kazan"],
    "delivery_time": [25, 29, 32, 30],
    "couries": [11440, 784, 112, 998]
})
df

Unnamed: 0,city,delivery_time,couries
0,Moscow,25,11440
1,Krasnodar,29,784
2,Belgorod,32,112
3,Kazan,30,998


In [41]:
df.delivery_time

0    25
1    29
2    32
3    30
Name: delivery_time, dtype: int64

In [42]:
type(df.delivery_time)

pandas.core.series.Series

In [43]:
df["delivery_time"]

0    25
1    29
2    32
3    30
Name: delivery_time, dtype: int64

In [44]:
df[["delivery_time"]]

Unnamed: 0,delivery_time
0,25
1,29
2,32
3,30


In [45]:
df.index = ['Msc', 'Krd', 'Blg', 'Kzn']
df

Unnamed: 0,city,delivery_time,couries
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Blg,Belgorod,32,112
Kzn,Kazan,30,998


# Импорт данных

In [46]:
# pd.read_csv('filename')
# pd.read_excel('filename')
# pd.read_sql(query, connection_object)
# pd.read_table(filename)
# pd.read_json(json_string)
# pd.read_html(url)
# pd.read_clipboard()
# pd.DataFrame(dict)

In [47]:
ml = pd.read_csv('files/orders_history.csv', sep =' , ')
ml.head(2)

  ml = pd.read_csv('files/orders_history.csv', sep =' , ')


FileNotFoundError: ignored

Отдельно стоит упомянуть про возможность работы в Pandas с большими файлами, которые могут не помещаться в оперативную память компьютера. Для этого мы можем читать файл небольшими чанками.

In [None]:
c_size = 10000

for gm_chunk in pd.read_csv('files/orders_history.csv',
                            sep=' , ',
                            chunksize=c_size):
  print(gm_chunk.shape)

# Экспорт данных

In [48]:
# pd.to_csv(filename)
# pd.to_excel(filename)
# pd.to_sql(query, connection_object)
# pd.to_table(filename)
# pd.to_json(json_string)
# pd.to_html(url)
# pd.to_clipboard()

# Доступ к данным

Доступ к строкам по индексу возможен несколькими способами:

- .loc - используется для доступа по строковой метке
- .iloc - используется для доступа по числовому значению (начиная от 0)

In [49]:
df.loc['Msc']

city             Moscow
delivery_time        25
couries           11440
Name: Msc, dtype: object

In [50]:
df

Unnamed: 0,city,delivery_time,couries
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Blg,Belgorod,32,112
Kzn,Kazan,30,998


In [51]:
df.iloc[1]

city             Krasnodar
delivery_time           29
couries                784
Name: Krd, dtype: object

In [52]:
type(df.iloc[0])

pandas.core.series.Series

In [54]:
# индекс + колонки
df.loc[['Msc', 'Kzn'], 'couries']

Msc    11440
Kzn      998
Name: couries, dtype: int64

В .loc и .iloc запомнить, что первая часть относится к строкам, вторая - к столбцам

In [55]:
df

Unnamed: 0,city,delivery_time,couries
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Blg,Belgorod,32,112
Kzn,Kazan,30,998


In [56]:
df.iloc[[0, 1], [1]]

Unnamed: 0,delivery_time
Msc,25
Krd,29


In [58]:
df[df.delivery_time > 30][['city', 'couries']]

Unnamed: 0,city,couries
Blg,Belgorod,112


In [59]:
# более сложное условие
df[(df.delivery_time >= 25) | (df.city == 'Msc')][['city', 'delivery_time']]

Unnamed: 0,city,delivery_time
Msc,Moscow,25
Krd,Krasnodar,29
Blg,Belgorod,32
Kzn,Kazan,30


In [60]:
# или так
filters = (df.city == 'Moscow')
df[filters]

Unnamed: 0,city,delivery_time,couries
Msc,Moscow,25,11440


In [61]:
# Создаем новую колонку
df['delivery_time_hours'] = df['delivery_time'] / 60
df

Unnamed: 0,city,delivery_time,couries,delivery_time_hours
Msc,Moscow,25,11440,0.416667
Krd,Krasnodar,29,784,0.483333
Blg,Belgorod,32,112,0.533333
Kzn,Kazan,30,998,0.5


In [62]:
# обратите внимание, что при дропе колонок необходимо в том или ином виде перезаписывать данные в исходном датафрейме
df.drop(['delivery_time_hours'], axis = 1 )
# df.drop(['delivery_time_hours'], axis = 'columns', inplace = True

Unnamed: 0,city,delivery_time,couries
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Blg,Belgorod,32,112
Kzn,Kazan,30,998


In [63]:
df = df.drop(['delivery_time_hours'], axis=1)
df

Unnamed: 0,city,delivery_time,couries
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Blg,Belgorod,32,112
Kzn,Kazan,30,998


In [64]:
df = df.rename(columns={'couries': 'num_of_couriers'})
df

Unnamed: 0,city,delivery_time,num_of_couriers
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Blg,Belgorod,32,112
Kzn,Kazan,30,998


In [65]:
# Вытаскивает n самых больших показателей из колонки - нет нужды в сортировке
df.nlargest(3, 'delivery_time')

Unnamed: 0,city,delivery_time,num_of_couriers
Blg,Belgorod,32,112
Kzn,Kazan,30,998
Krd,Krasnodar,29,784


In [66]:
df.nsmallest(3, 'delivery_time')

Unnamed: 0,city,delivery_time,num_of_couriers
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Kzn,Kazan,30,998


In [67]:
df.columns = ['City', 'Delivery_Time', 'Number_of_Couriers']

In [68]:
df

Unnamed: 0,City,Delivery_Time,Number_of_Couriers
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Blg,Belgorod,32,112
Kzn,Kazan,30,998
