In [1]:
import pandas as pd
import numpy as np

In [2]:
cities = pd.read_csv("Cities_with_NaN.csv") 
# Можно сразу при чтении файла превратить один из столбцов в индекс DataFrame, указав при этом его позицию (индекс) 
#cities = pd.read_csv('cities.csv', index_col=0)

In [3]:
cities.head()

Unnamed: 0,city,country,latitude,longitude,temperature
0,Aalborg,,57.03,9.92,7.52
1,Aberdeen,United Kingdom,,-2.08,8.1
2,Abisko,Sweden,63.35,,0.2
3,Adana,Turkey,36.99,35.32,
4,Albacete,Spain,39.0,-1.87,12.62


In [4]:
# Получить статистику по всему датасету
cities.describe()

# Получить статистику по одному или нескольким столбцам
cities['country'].describe()
#cities[['latitude', 'temperature']].describe()

count        212
unique        37
top       Turkey
freq          24
Name: country, dtype: object

# Работа с дубликатами

In [5]:
# Добавим в конец датасета все те же самые ряды, чтобы получить дубликаты
temp_df = cities.append(cities)

# Распечатаем размер
print(temp_df.shape)

# Распечатаем уникальные города
print(temp_df['city'].unique)

# Посчитаем количество уникальных городов
print("Unique: ", temp_df['city'].nunique())

# По несоответствию количества рядов и уникальных значений можно понять, что у нас имеются дупликаты

# Убираем дупликаты 
temp_df.drop_duplicates(keep='first', inplace=True)
print(temp_df.shape)

#Another important argument for drop_duplicates() is keep, which has three possible options:
#first: (default) Drop duplicates except for the first occurrence.
#last: Drop duplicates except for the last occurrence.
#False: Drop all duplicates.

(426, 5)
<bound method Series.unique of 0          Aalborg
1         Aberdeen
2           Abisko
3            Adana
4         Albacete
          ...     
208    Yevpatoriya
209       Zaragoza
210       Zhytomyr
211      Zonguldak
212         Zurich
Name: city, Length: 426, dtype: object>
Unique:  212
(213, 5)


# Работа с отсутствующими значениями

In [6]:
# Матрица значений True/False, где True означает, что значение пропущено - NaN
print(cities.isnull())
# Аналог
#pd.isna(cities)

# Статистика по NaN для каждого столбца
cities.isnull().sum()

      city  country  latitude  longitude  temperature
0    False     True     False      False        False
1    False    False      True      False        False
2    False    False     False       True        False
3    False    False     False      False         True
4    False    False     False      False        False
..     ...      ...       ...        ...          ...
208  False    False     False      False        False
209  False    False     False      False        False
210  False    False     False      False        False
211  False    False     False      False        False
212  False    False     False      False        False

[213 rows x 5 columns]


city           0
country        1
latitude       1
longitude      1
temperature    1
dtype: int64

In [7]:
# Заполнение NaN в определенном столбце/всей таблице происходит при помощи команды fillna()

# Вы можете применять это как к оригинальной таблице, так и оставить ее неизменной, и работать с ее копией
# выбор менять оригинальную таблицу определяется параметром inplace=True

# new_cities = cities['latitude'].fillna(100000) # Если создаем копию
cities['latitude'].fillna(100000, inplace=True)  # Если меняем оригинальную таблицу

In [8]:
# Выкидываем все ряды, где есть хоть один NaN, применяется тоже самое правило с параметром inplace=True
cities.dropna(inplace=True)
print(cities.shape)

# Если мы собираемся выкинуть все столбцы, где есть хоть один NaN
#movies_df.dropna(axis=1)

(210, 5)


# Индексация и слайсинг

In [9]:
# Меняем индекс с индекса 0-n установленного по умолчанию, на столбец city
cities = cities.set_index('city')

In [10]:
# Выбор одного столбца
longitude = cities['longitude']

print(type(longitude))

long = cities[['longitude']]

print(type(long))

# Выбор нескольких столбцов
subset =  cities[['temperature', 'longitude']]
print(subset.head())

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>
           temperature  longitude
city                             
Aberdeen          8.10      -2.08
Albacete         12.62      -1.87
Algeciras        17.38      -5.47
Amiens           10.17       2.30
Amsterdam         8.93       4.92


In [11]:
subset

Unnamed: 0_level_0,temperature,longitude
city,Unnamed: 1_level_1,Unnamed: 2_level_1
Aberdeen,8.10,-2.08
Albacete,12.62,-1.87
Algeciras,17.38,-5.47
Amiens,10.17,2.30
Amsterdam,8.93,4.92
...,...,...
Yevpatoriya,10.02,33.36
Zaragoza,14.17,-0.89
Zhytomyr,6.67,28.66
Zonguldak,10.64,31.78


## Selection by Label -  выбор по лейблу - loc

Выбор по лейблу осуществляется командой loc. При таком выборе вы должны указывать действительные названия индекса и столбцов, которые вы хотите выбрать

In [12]:
cities.loc['Amsterdam', :] # Выбираем только ряд, у которого индекс=Amsterdam

country        Netherlands
latitude             52.35
longitude             4.92
temperature           8.93
Name: Amsterdam, dtype: object

In [13]:
cities.loc['Amsterdam':'Athens', :] # Выбираем только ряды, индексами Amsterdam-Athens

Unnamed: 0_level_0,country,latitude,longitude,temperature
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Amsterdam,Netherlands,52.35,4.92,8.93
Ancona,Italy,43.6,13.5,13.52
Andorra,Andorra,42.5,1.52,9.6
Angers,France,47.48,-0.53,10.98
Ankara,Turkey,39.93,32.86,9.86
Antalya,Turkey,36.89,30.7,11.88
Arad,Romania,46.17,21.32,9.32
Athens,Greece,37.98,23.73,17.41


In [14]:
cities.loc['Berlin':'Bonn', ['temperature', 'longitude']] # Выбираем ряды Берлина-Бонна, и две определенные колонки

Unnamed: 0_level_0,temperature,longitude
city,Unnamed: 1_level_1,Unnamed: 2_level_1
Berlin,8.72,13.4
Bialystok,6.07,23.17
Bielefeld,8.78,8.53
Bila Tserkva,6.98,30.13
Bilbao,11.41,-2.93
Birmingham,8.81,-1.92
Blackpool,9.15,-3.05
Bodo,4.5,14.4
Bologna,11.69,11.34
Bonn,8.63,7.08


In [15]:
cities.loc[:, ['temperature', 'longitude']] # Выбираем все ряды, и две определенные колонки

Unnamed: 0_level_0,temperature,longitude
city,Unnamed: 1_level_1,Unnamed: 2_level_1
Aberdeen,8.10,-2.08
Albacete,12.62,-1.87
Algeciras,17.38,-5.47
Amiens,10.17,2.30
Amsterdam,8.93,4.92
...,...,...
Yevpatoriya,10.02,33.36
Zaragoza,14.17,-0.89
Zhytomyr,6.67,28.66
Zonguldak,10.64,31.78


In [16]:
cities.loc[['Berlin','Brest', 'Valencia'], ['country', 'temperature']] # Выбираем ряды Берлина-Бонна, и две определенные колонки

Unnamed: 0_level_0,country,temperature
city,Unnamed: 1_level_1,Unnamed: 2_level_1
Berlin,Germany,8.72
Brest,France,11.02
Brest,Belarus,6.73
Valencia,Spain,16.02


## Selection by Position -  выбор по позиции -  iloc

Выбор по позиции осуществляется командой iloc. При таком выборе вы должны указывать порядковую позицию колонки Индекс и столбцов, с точки зрения их числогого индекса (нумерация всегда ведется с 0, верхнее число границы не указывается).

Такой выбор схож со слайсингом lists and numpy.arrays

In [17]:
cities.iloc[0:3, 0:4] # Распечатать города под порядковыми индексами 0-2, и столбцы 0-3

Unnamed: 0_level_0,country,latitude,longitude,temperature
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Aberdeen,United Kingdom,100000.0,-2.08,8.1
Albacete,Spain,39.0,-1.87,12.62
Algeciras,Spain,36.13,-5.47,17.38


# isIn

In [19]:
# Функция isin() позволяет сгруппировать поиск по каким-то определенным значениям в столбце
cities[cities['country'].isin(['Sweden', 'Turkey'])]

Unnamed: 0_level_0,country,latitude,longitude,temperature
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ankara,Turkey,39.93,32.86,9.86
Antalya,Turkey,36.89,30.7,11.88
Batman,Turkey,37.89,41.14,14.16
Bursa,Turkey,40.2,29.07,11.16
Denizli,Turkey,37.77,29.08,15.02
Edirne,Turkey,41.67,26.57,10.9
Erzincan,Turkey,39.75,39.49,8.67
Erzurum,Turkey,39.92,41.29,5.17
Eskisehir,Turkey,39.79,30.53,11.11
Gaziantep,Turkey,37.07,37.38,13.46


In [20]:
# Такие условия можно комбинировать с обычными логическими операторами &, | and ~
cities[cities['country'].isin(['Sweden', 'Turkey']) & (cities['temperature']>13.0) ]

Unnamed: 0_level_0,country,latitude,longitude,temperature
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Batman,Turkey,37.89,41.14,14.16
Denizli,Turkey,37.77,29.08,15.02
Gaziantep,Turkey,37.07,37.38,13.46
Istanbul,Turkey,41.1,29.01,13.2
Malatya,Turkey,38.37,38.3,14.13
Manisa,Turkey,38.63,27.44,15.1
Tekirdag,Turkey,40.99,27.51,13.02


# Applying functions

In [23]:
def temp_rating(x):
    if x >= 15.0:
        return "warm"
    else:
        return "cold"
    
# Создадим новую колонку и вставим туда аутпут функции    
cities["temp_category"] = cities["temperature"].apply(temp_rating)

In [24]:
cities.head()

Unnamed: 0_level_0,country,latitude,longitude,temperature,temp_category
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Aberdeen,United Kingdom,100000.0,-2.08,8.1,cold
Albacete,Spain,39.0,-1.87,12.62,cold
Algeciras,Spain,36.13,-5.47,17.38,warm
Amiens,France,49.9,2.3,10.17,cold
Amsterdam,Netherlands,52.35,4.92,8.93,cold


In [25]:
cities[cities.temp_category == 'cold']

Unnamed: 0_level_0,country,latitude,longitude,temperature,temp_category
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Aberdeen,United Kingdom,100000.00,-2.08,8.10,cold
Albacete,Spain,39.00,-1.87,12.62,cold
Amiens,France,49.90,2.30,10.17,cold
Amsterdam,Netherlands,52.35,4.92,8.93,cold
Ancona,Italy,43.60,13.50,13.52,cold
...,...,...,...,...,...
Yevpatoriya,Ukraine,45.20,33.36,10.02,cold
Zaragoza,Spain,41.65,-0.89,14.17,cold
Zhytomyr,Ukraine,50.25,28.66,6.67,cold
Zonguldak,Turkey,41.43,31.78,10.64,cold


# Сортировка

In [26]:
# Ascending = True - сортировка по возрастанию
# Ascending = False - сортировка по убыванию (Descending)

cities.sort_values(by='temperature', ascending=False)

Unnamed: 0_level_0,country,latitude,longitude,temperature,temp_category
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Palermo,Italy,38.13,13.35,17.90,warm
Athens,Greece,37.98,23.73,17.41,warm
Algeciras,Spain,36.13,-5.47,17.38,warm
Cartagena,Spain,37.60,-0.98,17.32,warm
Kalamata,Greece,37.04,22.11,17.30,warm
...,...,...,...,...,...
Tampere,Finland,61.50,23.75,3.59,cold
Oslo,Norway,59.92,10.75,2.32,cold
Bergen,Norway,60.39,5.32,1.75,cold
Oulu,Finland,65.00,25.47,1.45,cold


# Группировка

In [27]:
# Группируем города по странам и находим сред.ариф температуру
cities.groupby(['country'])['temperature'].mean()

country
Albania                   15.180000
Andorra                    9.600000
Austria                    6.144000
Belarus                    5.946667
Belgium                    9.650000
Bosnia and Herzegovina     9.600000
Bulgaria                  10.440000
Croatia                   10.865000
Czech Republic             7.856667
Denmark                    7.730000
Estonia                    4.590000
Finland                    3.487500
France                    10.151111
Germany                    7.869286
Greece                    16.902500
Hungary                    9.602500
Ireland                    9.300000
Italy                     13.474667
Latvia                     5.270000
Lithuania                  6.143333
Macedonia                  9.360000
Moldova                    8.415000
Montenegro                 9.990000
Netherlands                8.756667
Norway                     3.726000
Poland                     7.250000
Portugal                  14.470000
Romania             

In [33]:
# Cчитаем количество стран в рядах, сгруппированных по температурным категориям  warm и cold
# Не забываем, что при этом названия стран для разных городов могут повторяться, 
# поэтому это не счет уникальных стран по категориям
cities.groupby(['temp_category'])['country'].count()

temp_category
cold    186
warm     24
Name: country, dtype: int64

In [35]:
# Cчет уникальных стран по двум темп.категориям
cities.groupby(['temp_category'])['country'].nunique()

temp_category
cold    35
warm     6
Name: country, dtype: int64

 # Concatenation - объединение двух и более таблиц
 
Объединение происходит чаще всего по вертикали путем добавления новых рядов, но также может происходить и по вертикали

Количество колонок при таком объединении может не совпадать.
При этом, если выбран параметр join='outer', то финальная таблица будет содержать в себе столько столбцов,
сколько имеется в самой максимальной по столбцам таблице, а недостающие значения будут зполнены NaN
Если же выбран параметр join='inner', то финальная таблица будет содержать в себе только те столбцы, которые 
считаются общими для всех объединяемых таблиц.
По умолчанию, парметр join='outer'

In [36]:
# Вертикальное объединение
df1 = pd.DataFrame(np.random.randn(4, 4))
df2 = pd.DataFrame(np.random.randn(4, 3)) # Количество колонок при таком объединении может не совпадать
df3 = pd.DataFrame(np.random.randn(4, 3)) # при этом недостающие значения будут зполнены NaN

df_outer = pd.concat([df1,df2,df3], axis=0, join='outer')

print(df_outer.head(10))
print(df_outer.shape)

df_inner = pd.concat([df1,df2,df3], axis=0, join='inner')

print(df_inner.head(10))
print(df_inner.shape)

          0         1         2         3
0  1.315804 -0.984253  1.764698 -0.952522
1 -0.472815 -1.517238  0.556942  0.475631
2  0.073247  0.486359  0.630032 -0.078265
3  1.205941  2.235726  1.047594  0.619272
0 -1.321887 -0.866603  0.726675       NaN
1  1.910051 -0.821595  0.331355       NaN
2  0.194948 -0.367314  0.903972       NaN
3  0.485950  0.791258 -1.244727       NaN
0 -1.596940 -0.529496  0.189135       NaN
1  1.415840  1.039568  0.529231       NaN
(12, 4)
          0         1         2
0  1.315804 -0.984253  1.764698
1 -0.472815 -1.517238  0.556942
2  0.073247  0.486359  0.630032
3  1.205941  2.235726  1.047594
0 -1.321887 -0.866603  0.726675
1  1.910051 -0.821595  0.331355
2  0.194948 -0.367314  0.903972
3  0.485950  0.791258 -1.244727
0 -1.596940 -0.529496  0.189135
1  1.415840  1.039568  0.529231
(12, 3)


In [37]:
# Горизонтальное объединение
df1 = pd.DataFrame(np.random.randn(4, 4))
df2 = pd.DataFrame(np.random.randn(4, 3)) 

df = pd.concat([df1,df2], axis=1)
print(df.head())
print(df.shape)

          0         1         2         3         0         1         2
0  0.815430 -1.539107  0.602253  1.387577  0.877783  0.539275  1.087152
1 -0.983021  0.103931 -1.016582 -1.065338 -0.623350  1.003851 -0.508506
2 -0.602131 -0.067236 -0.259012  0.472028 -0.205230 -0.524666  1.422240
3 -1.931453 -1.156318  0.220242 -0.920373 -0.487684 -0.736541 -0.609527
(4, 7)


# Append

Похож по фунциональности на вертикальный concatenate
Добавляет ряды в конец существующей таблицы, при этом врзвращая новый объект

In [38]:
df1 = pd.DataFrame(np.random.randn(4, 4))
s2 = pd.Series(['X0', 'X1', 'X2', 'X3'])
result = df1.append(s2, ignore_index=True)

In [39]:
result

Unnamed: 0,0,1,2,3
0,1.29805,-1.76475,0.976968,-0.865368
1,-0.100645,0.58855,-0.457412,-0.464684
2,1.18569,0.970235,-0.379768,0.93846
3,0.335842,0.388739,0.134286,-0.965406
4,X0,X1,X2,X3


# Операция слияния - merge

In [40]:
empl = { "emp_name": ['Abay', 'Alua', 'Miras', 'Alibek', 'Mereke', 'Almas'],
            "dept_n": [31, 33, 33, 34, 34, np.nan]}

employee = pd.DataFrame(empl)

dept = {"dept_name": ['Sales', 'IT', 'Marketing', 'Finance'],
              "dept_n": [31, 33, 34, 35]}

department = pd.DataFrame(dept)

In [41]:
employee

Unnamed: 0,emp_name,dept_n
0,Abay,31.0
1,Alua,33.0
2,Miras,33.0
3,Alibek,34.0
4,Mereke,34.0
5,Almas,


In [42]:
department

Unnamed: 0,dept_name,dept_n
0,Sales,31
1,IT,33
2,Marketing,34
3,Finance,35


In [43]:
# Outer join - оставить все ключи,  которые присутствуют либо в левой, либо в правой таблице
# Заполнить недостающие значения NaN
result_out = pd.merge(employee, department, how='outer', on=['dept_n'])
result_out

Unnamed: 0,emp_name,dept_n,dept_name
0,Abay,31.0,Sales
1,Alua,33.0,IT
2,Miras,33.0,IT
3,Alibek,34.0,Marketing
4,Mereke,34.0,Marketing
5,Almas,,
6,,35.0,Finance


In [44]:
# Inner join - оставить только те ключи, которые совпадают в обоих таблицах 
# таким образом, недостающих значений не будет
result_in = pd.merge(employee, department, how='inner', on=['dept_n'])
result_in

Unnamed: 0,emp_name,dept_n,dept_name
0,Abay,31.0,Sales
1,Alua,33.0,IT
2,Miras,33.0,IT
3,Alibek,34.0,Marketing
4,Mereke,34.0,Marketing


In [45]:
# Left join - оставить все ключи, встречающиеся в левой (первой) таблице, 
# и проигнорировать все не совпадающие из правой
# Заполнить недостающие значения NaN
result_left = pd.merge(employee, department, how='left', on=['dept_n'])
result_left

Unnamed: 0,emp_name,dept_n,dept_name
0,Abay,31.0,Sales
1,Alua,33.0,IT
2,Miras,33.0,IT
3,Alibek,34.0,Marketing
4,Mereke,34.0,Marketing
5,Almas,,


In [46]:
# Right join - оставить все ключи, встречающиеся в правой (второй)) таблице, 
# и проигнорировать все не совпадающие из левой
# Заполнить недостающие значения NaN
result_right = pd.merge(employee, department, how='right', on=['dept_n'])
result_right

Unnamed: 0,emp_name,dept_n,dept_name
0,Abay,31.0,Sales
1,Alua,33.0,IT
2,Miras,33.0,IT
3,Alibek,34.0,Marketing
4,Mereke,34.0,Marketing
5,,35.0,Finance
