### Series

In [1]:
import pandas as pd
import numpy as np

# series - одномерный массив с метками (индексом)
my_series = pd.Series([1,3,5,4,2,0,7])
my_series

0    1
1    3
2    5
3    4
4    2
5    0
6    7
dtype: int64

In [2]:
my_series.index

RangeIndex(start=0, stop=7, step=1)

In [3]:
my_series.values

array([1, 3, 5, 4, 2, 0, 7])

In [4]:
my_series_2 = pd.Series([1,3,5,4,2,0,7], index = ['a','b','c','d','e','f','g'])
print(my_series_2)

a    1
b    3
c    5
d    4
e    2
f    0
g    7
dtype: int64


In [5]:
# Обращение к элементам идет по индексу
my_series[[4]]

4    2
dtype: int64

In [6]:
my_series_2[[4]]

e    2
dtype: int64

In [7]:
my_series_2[['a']]

a    1
dtype: int64

In [8]:
my_series_2[['a','b','d']]=0
my_series_2

a    0
b    0
c    5
d    0
e    2
f    0
g    7
dtype: int64

In [9]:
my_series_2[my_series_2>0]

c    5
e    2
g    7
dtype: int64

In [10]:
my_series_3 = pd.Series({'a': 1, 'b': 3, 'c': 2, 'd': 4, 'e': 5})
print(my_series_3)

a    1
b    3
c    2
d    4
e    5
dtype: int64


In [11]:
my_series_3.name = 'numbers'
my_series_3.index.name = 'letters'

In [12]:
my_series_3

letters
a    1
b    3
c    2
d    4
e    5
Name: numbers, dtype: int64

In [13]:
my_series_3.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object', name='letters')

### DataFrame

In [14]:
# DataFrame представляет собой табличную структуру
df = pd.DataFrame({
                    'country': ['Kazahstan', 'Russia', 'Belarus', 'Ukrain'], 
                    'population': [17.03, 143.2, 9.5 , 45.5], 
                    'square': [272, 1712, 207, 603]
                    })
print(df)

     country  population  square
0  Kazahstan       17.03     272
1     Russia      143.20    1712
2    Belarus        9.50     207
3     Ukrain       45.50     603


In [15]:
# каждый столбец Pandas DataFrame представляет собой Series
df['country']

0    Kazahstan
1       Russia
2      Belarus
3       Ukrain
Name: country, dtype: object

In [16]:
df.country

0    Kazahstan
1       Russia
2      Belarus
3       Ukrain
Name: country, dtype: object

In [17]:
type(df.country)

pandas.core.series.Series

In [18]:
df.index=['KZ', 'RU', 'BY', 'UA']

In [19]:
df

Unnamed: 0,country,population,square
KZ,Kazahstan,17.03,272
RU,Russia,143.2,1712
BY,Belarus,9.5,207
UA,Ukrain,45.5,603


In [20]:
ml = pd.read_csv('./meteorite-landings.csv', sep = ',')
ml.tail()

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
45711,Zillah 002,31356,Valid,Eucrite,172.0,Found,1990.0,29.037,17.0185,"(29.037000, 17.018500)"
45712,Zinder,30409,Valid,"Pallasite, ungrouped",46.0,Found,1999.0,13.78333,8.96667,"(13.783330, 8.966670)"
45713,Zlin,30410,Valid,H4,3.3,Found,1939.0,49.25,17.66667,"(49.250000, 17.666670)"
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,2003.0,49.78917,41.5046,"(49.789170, 41.504600)"
45715,Zulu Queen,30414,Valid,L3.7,200.0,Found,1976.0,33.98333,-115.68333,"(33.983330, -115.683330)"


In [21]:
mailru = pd.read_html('https://mail.ru')
mailru

[                                                   0                1
 0  Mail.ruПочтаМой МирОдноклассникиВКонтактеИгрыЗ...  РегистрацияВход,
     0      1
 0 NaN  выход,
                  0
 0  РегистрацияВход,
          0                1      2     3     4     5     6        7
 0  Новости  Санкт-Петербург  Спорт  Авто  Кино  Леди  Игры  Hi-Tech,
                                                    0  \
 0  Погода-5, вечером -8завтра -3mr.counter('d1265...   
 
                                                    1  \
 0  Торги ММВБ$68.47−1.72€72.46−3.24mr.counter('d6...   
 
                                                    2  
 0  ГороскопыРак — начало дня едва ли обойдется бе...  ,
               0                                        1  \
 0  ТВ программа  Нефть84.26−0.53mr.counter('d12403154');   
 
                              2  
 0  Начните делать добрые дела!  ]

In [22]:
# Если размер данных очень большой и целиком не помещается в память, можно задать чтение чанками
c_size = 10000

for gm_chunk in pd.read_csv('./meteorite-landings.csv', sep = ',', chunksize=c_size):
    print(gm_chunk.shape)

(10000, 10)
(10000, 10)
(10000, 10)
(10000, 10)
(5716, 10)


In [23]:
gm_chunk.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass', 'fall', 'year', 'reclat',
       'reclong', 'GeoLocation'],
      dtype='object')

### Экспорт данных


In [24]:
# df.to_csv(filename)
# df.to_excel(filename)
# df.to_json(filename)

### Доступ к данным

Доступ к строкам осуществляется 2 способами:
1) .loc - используется для доступа к строковой метке
2) .iloc - используется для доступа по числовому значению, начиная с нуля

In [25]:
df.loc['KZ']

country       Kazahstan
population        17.03
square              272
Name: KZ, dtype: object

In [26]:
df.iloc[0]

country       Kazahstan
population        17.03
square              272
Name: KZ, dtype: object

In [27]:
df.columns

Index(['country', 'population', 'square'], dtype='object')

In [28]:
# индекс + колонки
# сначала указываем строки, затем столбцы
df.loc[['KZ','RU'], 'population']

KZ     17.03
RU    143.20
Name: population, dtype: float64

In [29]:
df.iloc[[0,1],1]

KZ     17.03
RU    143.20
Name: population, dtype: float64

In [30]:
# условия для фильтрации, указывается в первых квадратных скобках
df[df.population>10][['country','square']]

Unnamed: 0,country,square
KZ,Kazahstan,272
RU,Russia,1712
UA,Ukrain,603


In [31]:
df[df.population>10]

Unnamed: 0,country,population,square
KZ,Kazahstan,17.03,272
RU,Russia,143.2,1712
UA,Ukrain,45.5,603


In [32]:
# более сложные фильтры с несколькими условиями
df[(df.square > 10) & (df.country == 'Russia')][['country', 'square']]

Unnamed: 0,country,square
RU,Russia,1712


In [33]:
# на практике задаются фильтры
filters = (df.country == 'Russia') & (df.square>10)
col_names = ['country', 'square']
print(df[filters],'\n')
print(df[filters][col_names])

   country  population  square
RU  Russia       143.2    1712 

   country  square
RU  Russia    1712


In [34]:
# создаем новую колонку
df['density'] = df['population'] / df['square'] * 1000
print(df)

      country  population  square    density
KZ  Kazahstan       17.03     272  62.610294
RU     Russia      143.20    1712  83.644860
BY    Belarus        9.50     207  45.893720
UA     Ukrain       45.50     603  75.456053


In [35]:
# если необходимо удалить какой-то элемент в колонке, тогда необходимо перезаписать данные в DataFrame
# пример ниже, как не работает и как работает (добавляем inplace)
df.drop(['density'], axis=1)
print(df)

# ниже правильный, рабочий вариант
# df.drop(['density'], axis='columns', inplace=True)
# print(df)

# ниже еще один правильный, рабочий вариант дропа колонок
df.drop(['density'], axis=1, inplace=True)
print(df)

      country  population  square    density
KZ  Kazahstan       17.03     272  62.610294
RU     Russia      143.20    1712  83.644860
BY    Belarus        9.50     207  45.893720
UA     Ukrain       45.50     603  75.456053
      country  population  square
KZ  Kazahstan       17.03     272
RU     Russia      143.20    1712
BY    Belarus        9.50     207
UA     Ukrain       45.50     603


In [36]:
df['Country Code']=df['country']
print(df)

# переименование колонок
df.rename(columns={'Country Code':'country code'}, inplace=True)
print(df)

df.drop(columns=['country code'], axis=1, inplace=True)
print(df)

      country  population  square Country Code
KZ  Kazahstan       17.03     272    Kazahstan
RU     Russia      143.20    1712       Russia
BY    Belarus        9.50     207      Belarus
UA     Ukrain       45.50     603       Ukrain
      country  population  square country code
KZ  Kazahstan       17.03     272    Kazahstan
RU     Russia      143.20    1712       Russia
BY    Belarus        9.50     207      Belarus
UA     Ukrain       45.50     603       Ukrain
      country  population  square
KZ  Kazahstan       17.03     272
RU     Russia      143.20    1712
BY    Belarus        9.50     207
UA     Ukrain       45.50     603


In [37]:
df['country code'] = df['country']
print(df)
df.drop(columns={'country code'}, axis='columns', inplace=True)
print(df)

      country  population  square country code
KZ  Kazahstan       17.03     272    Kazahstan
RU     Russia      143.20    1712       Russia
BY    Belarus        9.50     207      Belarus
UA     Ukrain       45.50     603       Ukrain
      country  population  square
KZ  Kazahstan       17.03     272
RU     Russia      143.20    1712
BY    Belarus        9.50     207
UA     Ukrain       45.50     603


In [38]:
# Показывает N самых больших элементов в колонке, не требуется сортировка
print(df.columns)
df.nlargest(n=3, columns={'square'})

Index(['country', 'population', 'square'], dtype='object')


Unnamed: 0,country,population,square
RU,Russia,143.2,1712
UA,Ukrain,45.5,603
KZ,Kazahstan,17.03,272


In [39]:
df.nsmallest(2, columns={'square'})

Unnamed: 0,country,population,square
BY,Belarus,9.5,207
KZ,Kazahstan,17.03,272


Работа с данными с помощью Pandas

In [40]:
df=pd.read_csv('./meteorite-landings.csv', sep=',')
df.head(3)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21.0,Fell,1880.0,50.775,6.08333,"(50.775000, 6.083330)"
1,Aarhus,2,Valid,H6,720.0,Fell,1951.0,56.18333,10.23333,"(56.183330, 10.233330)"
2,Abee,6,Valid,EH4,107000.0,Fell,1952.0,54.21667,-113.0,"(54.216670, -113.000000)"


In [41]:
df.tail(10)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
45706,Zerkaly,31354,Valid,H5,16000.0,Found,1956.0,52.13333,81.96667,"(52.133330, 81.966670)"
45707,Zhaoping,54609,Valid,"Iron, IAB complex",2000000.0,Found,1983.0,24.23333,111.18333,"(24.233330, 111.183330)"
45708,Zhigansk,30405,Valid,"Iron, IIIAB",900000.0,Found,1966.0,68.0,128.3,"(68.000000, 128.300000)"
45709,Zhongxiang,30406,Valid,Iron,100000.0,Found,1981.0,31.2,112.5,"(31.200000, 112.500000)"
45710,Zillah 001,31355,Valid,L6,1475.0,Found,1990.0,29.037,17.0185,"(29.037000, 17.018500)"
45711,Zillah 002,31356,Valid,Eucrite,172.0,Found,1990.0,29.037,17.0185,"(29.037000, 17.018500)"
45712,Zinder,30409,Valid,"Pallasite, ungrouped",46.0,Found,1999.0,13.78333,8.96667,"(13.783330, 8.966670)"
45713,Zlin,30410,Valid,H4,3.3,Found,1939.0,49.25,17.66667,"(49.250000, 17.666670)"
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,2003.0,49.78917,41.5046,"(49.789170, 41.504600)"
45715,Zulu Queen,30414,Valid,L3.7,200.0,Found,1976.0,33.98333,-115.68333,"(33.983330, -115.683330)"


In [42]:
# Изменяем количество выводимой на экран информации из датафрейма
# pd.set_option('display.max_columns', 100)
# pd.set_option('display.max_rows', 100)

In [43]:
# Задаем точность вывода цифр в ячейках датафрейма
pd.set_option('display.precision',3)

In [44]:
# Размер данных
print(df.shape)
print(df.shape[0]) # количество строк
print(df.shape[1]) # количество столбцов

(45716, 10)
45716
10


In [45]:
df.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass', 'fall', 'year', 'reclat',
       'reclong', 'GeoLocation'],
      dtype='object')

In [46]:
# Смотрим общую информацию о датафрейме, статистики для числовых признаков
df.describe()

Unnamed: 0,id,mass,year,reclat,reclong
count,45716.0,45580.0,45428.0,38401.0,38401.0
mean,26889.735,13280.0,1991.772,-39.123,61.074
std,16860.683,575000.0,27.181,46.379,80.647
min,1.0,0.0,301.0,-87.367,-165.433
25%,12688.75,7.2,1987.0,-76.714,0.0
50%,24261.5,32.6,1998.0,-71.5,35.667
75%,40656.75,202.6,2003.0,0.0,157.167
max,57458.0,60000000.0,2501.0,81.167,354.473


In [47]:
# Аналогично мы можем вывести статистики для нечисловых признаков
# количество наблюдений, количество уникальных наблюдений, самое часто повторяемое
df.describe(include=['object'])

Unnamed: 0,name,nametype,recclass,fall,GeoLocation
count,45716,45716,45716,45716,38401
unique,45716,2,466,2,17100
top,Aachen,Valid,L6,Found,"(0.000000, 0.000000)"
freq,1,45641,8285,44609,6214


In [48]:
# Удаление объекта из памяти
# del(df_s)

In [49]:
# Если хотим в вывести топ-5 элементов наиболее встречаемых в каком-то столбце, метод value_count 
# применяется к серии, потом выводим n элементов
df.recclass.value_counts()[:5]

L6    8285
H5    7142
L5    4796
H6    4528
H4    4211
Name: recclass, dtype: int64

In [50]:
# Включает NA, для столбца recclass выполняется подсчет топ-5 элементов
df.recclass.value_counts(dropna=False)[:5]

L6    8285
H5    7142
L5    4796
H6    4528
H4    4211
Name: recclass, dtype: int64

In [51]:
# Информация по колонкам dataframe, также выводится информация о том, сколько памяти занимает DF
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   name         45716 non-null  object 
 1   id           45716 non-null  int64  
 2   nametype     45716 non-null  object 
 3   recclass     45716 non-null  object 
 4   mass         45585 non-null  float64
 5   fall         45716 non-null  object 
 6   year         45428 non-null  float64
 7   reclat       38401 non-null  float64
 8   reclong      38401 non-null  float64
 9   GeoLocation  38401 non-null  object 
dtypes: float64(4), int64(1), object(5)
memory usage: 3.5+ MB
None


In [52]:
# print(df.drop(columns=['fall'], axis=1).head())
# print(df.head())

In [53]:
# for x in numbers:                                                                                                                                                                               
#     print("{:10.4f}".format(x)) 
# The empty string before the colon means "take the next provided argument to format()" – in this case the x as the only argument.
# The 10.4f part after the colon is the format specification.
# The f denotes fixed-point notation.
# The 10 is the total width of the field being printed, lefted-padded by spaces.
# The 4 is the number of digits after the decimal point.

# Раборат с памятью в случае обработки больших объемов данных
for dtype in ['object', 'int64', 'float64']:
    selected_dtype=df.select_dtypes(include=[dtype])
    mean_usage_b=selected_dtype.memory_usage(deep=True).mean()
    mean_usage_mb=mean_usage_b/1024 ** 2
    print("Average memory usage for {} columns: {:03.2f} Mb".format(dtype, mean_usage_mb))
    # print("Average memory usage for", dtype,  "columns:",  '{:03.2f}'.format(mean_usage_mb), "Mb")

Average memory usage for object columns: 2.41 Mb
Average memory usage for int64 columns: 0.17 Mb
Average memory usage for float64 columns: 0.28 Mb


In [63]:
# Замена типа переменной может значительно снизить потребеление памяти
df.head()
df['mass']=df['mass'].astype('float32')

In [64]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   name         45716 non-null  object 
 1   id           45716 non-null  int64  
 2   nametype     45716 non-null  object 
 3   recclass     45716 non-null  object 
 4   mass         45585 non-null  float32
 5   fall         45716 non-null  object 
 6   year         45428 non-null  float64
 7   reclat       38401 non-null  float64
 8   reclong      38401 non-null  float64
 9   GeoLocation  38401 non-null  object 
dtypes: float32(1), float64(3), int64(1), object(5)
memory usage: 3.3+ MB


In [65]:
# Тип данных категория
[(col, df[col].nunique()) for col in df.columns]

[('name', 45716),
 ('id', 45716),
 ('nametype', 2),
 ('recclass', 466),
 ('mass', 12576),
 ('fall', 2),
 ('year', 268),
 ('reclat', 12738),
 ('reclong', 14640),
 ('GeoLocation', 17100)]

In [74]:
import pandas as pd
df = pd.read_csv('./meteorite-landings.csv', sep=',')
# print(df.describe(),'\n')
# print(df.info(),'\n')
# print(df.columns)
df['mass'] = df['mass'].astype('float32')
print(df.info(),'\n')

[(col, df[col].nunique()) for col in df.columns]


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   name         45716 non-null  object 
 1   id           45716 non-null  int64  
 2   nametype     45716 non-null  object 
 3   recclass     45716 non-null  object 
 4   mass         45585 non-null  float32
 5   fall         45716 non-null  object 
 6   year         45428 non-null  float64
 7   reclat       38401 non-null  float64
 8   reclong      38401 non-null  float64
 9   GeoLocation  38401 non-null  object 
dtypes: float32(1), float64(3), int64(1), object(5)
memory usage: 3.3+ MB
None 



[('name', 45716),
 ('id', 45716),
 ('nametype', 2),
 ('recclass', 466),
 ('mass', 12576),
 ('fall', 2),
 ('year', 268),
 ('reclat', 12738),
 ('reclong', 14640),
 ('GeoLocation', 17100)]

In [76]:
unique_counts = pd.DataFrame.from_records([(col, df[col].nunique()) for col in df.columns], columns = ['col_name', 'unique_cnt']).sort_values(by='unique_cnt', ascending=False)
print(unique_counts)


      col_name  unique_cnt
0         name       45716
1           id       45716
9  GeoLocation       17100
8      reclong       14640
7       reclat       12738
4         mass       12576
3     recclass         466
6         year         268
2     nametype           2
5         fall           2


In [85]:
# recclass - класс метеор будем рассматривать, как категориальную переменную
df_with_cat=df.copy()
print(df_with_cat.columns,'\n')
df_with_cat['recclass']=df_with_cat['recclass'].astype('category')

Index(['name', 'id', 'nametype', 'recclass', 'mass', 'fall', 'year', 'reclat',
       'reclong', 'GeoLocation'],
      dtype='object') 



In [86]:
# Видим, что recclass теперь стало типом категория
# Многие модели, такие, как catboost и lightgbm прекрасно работают с типом категория
# Тип категория занимает меньше места и увеличивает производительность
df_with_cat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   name         45716 non-null  object  
 1   id           45716 non-null  int64   
 2   nametype     45716 non-null  object  
 3   recclass     45716 non-null  category
 4   mass         45585 non-null  float64 
 5   fall         45716 non-null  object  
 6   year         45428 non-null  float64 
 7   reclat       38401 non-null  float64 
 8   reclong      38401 non-null  float64 
 9   GeoLocation  38401 non-null  object  
dtypes: category(1), float64(4), int64(1), object(4)
memory usage: 3.2+ MB


In [94]:
# Вычисляем среднее по переменной mass с группировкой по категории recclass, to_frame конвертирует
# series в DataFrame
%%timeit
print(df_with_cat.groupby('recclass')['mass'].mean().to_frame())

812 µs ± 974 ns per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [97]:
# Тоже самое с другим типом переменной выполняется значительно дольше
%%timeit
print(df.groupby('recclass')['mass'].mean().to_frame())

                           mass
recclass                       
Acapulcoite             490.424
Acapulcoite/Lodranite    31.793
Acapulcoite/lodranite    44.933
Achondrite-prim        1078.000
Achondrite-ung          895.846
...                         ...
Unknown                     NaN
Ureilite                490.015
Ureilite-an            1287.125
Ureilite-pmict          262.686
Winonaite              1129.013

[466 rows x 1 columns]
                           mass
recclass                       
Acapulcoite             490.424
Acapulcoite/Lodranite    31.793
Acapulcoite/lodranite    44.933
Achondrite-prim        1078.000
Achondrite-ung          895.846
...                         ...
Unknown                     NaN
Ureilite                490.015
Ureilite-an            1287.125
Ureilite-pmict          262.686
Winonaite              1129.013

[466 rows x 1 columns]
                           mass
recclass                       
Acapulcoite             490.424
Acapulcoite/Lodranite   

In [107]:
 # Сортировка данных, по каждому из параметров можно указывать порядок сортировки (возрастание или убывание)
df.sort_values(by=['recclass','mass'], ascending=[True,False]).head(5)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
27673,Northwest Africa 2656,32485,Valid,Acapulcoite,7500.0,Found,2003.0,,,
30353,Northwest Africa 725,17807,Valid,Acapulcoite,3824.0,Found,,30.6,-5.05,"(30.600000, -5.050000)"
27845,Northwest Africa 2871,33345,Valid,Acapulcoite,3467.0,Found,2005.0,,,
7131,Dhofar 125,6910,Valid,Acapulcoite,2697.0,Found,2000.0,18.987,54.6,"(18.986670, 54.600500)"
3,Acapulco,10,Valid,Acapulcoite,1914.0,Fell,1976.0,16.883,-99.9,"(16.883330, -99.900000)"


In [120]:
# Извлечение данных
df.loc[0::5,:]

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21.0,Fell,1880.0,50.775,6.083,"(50.775000, 6.083330)"
5,Adhi Kot,379,Valid,EH4,4239.0,Fell,1919.0,32.100,71.800,"(32.100000, 71.800000)"
10,Aioun el Atrouss,423,Valid,Diogenite-pm,1000.0,Fell,1974.0,16.398,-9.570,"(16.398060, -9.570280)"
15,Akwanga,432,Valid,H,3000.0,Fell,1959.0,8.917,8.433,"(8.916670, 8.433330)"
20,Albareto,453,Valid,L/LL4,2000.0,Fell,1766.0,44.650,11.017,"(44.650000, 11.016670)"
...,...,...,...,...,...,...,...,...,...,...
45695,Zagora,30387,Valid,"Iron, IAB-ung",50000.0,Found,1987.0,30.367,-5.850,"(30.366670, -5.850000)"
45700,Zaragoza,48916,Valid,"Iron, IVA-an",162000.0,Found,,41.650,-0.867,"(41.650000, -0.866670)"
45705,Zerhamra,30403,Valid,"Iron, IIIAB-an",630000.0,Found,1967.0,29.859,-2.645,"(29.858610, -2.645000)"
45710,Zillah 001,31355,Valid,L6,1475.0,Found,1990.0,29.037,17.018,"(29.037000, 17.018500)"


In [123]:
#  Посчитать среднее значеине по одной из категорий
print(df[df['name']=='Abee']['mass'].mean())

# Второй вариант реализации
filters = df['name'] == 'Abee'
columns = 'mass'

print(df[filters][columns].mean())


107000.0
107000.0


In [125]:
# Считаем количество значений в категории
df.year.value_counts()

2003.0    3323
1979.0    3046
1998.0    2697
2006.0    2456
1988.0    2296
          ... 
1766.0       1
1751.0       1
1750.0       1
1749.0       1
2501.0       1
Name: year, Length: 268, dtype: int64

In [126]:
# применение функции к каждому столбцу или строке
df[['mass','id']].apply(np.max)

mass    6.000e+07
id      5.746e+04
dtype: float64

In [135]:
# Замена значений в колонке в соотвествии со словарем
d = {'Found':1, 'Fell': 0}
df['status']=df['fall'].map(d)
df.tail(5)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation,status
45711,Zillah 002,31356,Valid,Eucrite,172.0,Found,1990.0,29.037,17.018,"(29.037000, 17.018500)",1
45712,Zinder,30409,Valid,"Pallasite, ungrouped",46.0,Found,1999.0,13.783,8.967,"(13.783330, 8.966670)",1
45713,Zlin,30410,Valid,H4,3.3,Found,1939.0,49.25,17.667,"(49.250000, 17.666670)",1
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,2003.0,49.789,41.505,"(49.789170, 41.504600)",1
45715,Zulu Queen,30414,Valid,L3.7,200.0,Found,1976.0,33.983,-115.683,"(33.983330, -115.683330)",1


In [137]:
# Группировка данных
# df.groupby(by=groupping_columns)[columns_to_show].function()
df.groupby(by='recclass')['mass'].min()

recclass
Acapulcoite                1.77
Acapulcoite/Lodranite      2.70
Acapulcoite/lodranite      1.30
Achondrite-prim          130.00
Achondrite-ung             0.15
                          ...  
Unknown                     NaN
Ureilite                   0.50
Ureilite-an                3.10
Ureilite-pmict             2.47
Winonaite                  1.50
Name: mass, Length: 466, dtype: float64

In [144]:
# df.groupby(by='recclass')['mass'].agg(['min', 'max', 'mean'])
df.groupby(by='fall')['mass'].agg([np.mean, np.max, np.min])

Unnamed: 0_level_0,mean,amax,amin
fall,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Fell,47070.715,23000000.0,0.1
Found,12461.923,60000000.0,0.0


In [146]:
# Матрица сопряженности или сводные таблицы
pd.crosstab(df['fall'],df['nametype'])
pd.crosstab(df['fall'],df['nametype'], normalize=True)

nametype,Relict,Valid
fall,Unnamed: 1_level_1,Unnamed: 2_level_1
Fell,0.0,0.024
Found,0.002,0.974


In [151]:
# Merje, join and concatenate
# http://pandas.pydata.org/pandas-docs/stable/merging.html
raw_data = {
        'subject_id': ['1','2','3','4','5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']
}

df_a = pd.DataFrame(raw_data, columns=['subject_id','first_name', 'last_name'])
df_a.index = [0,1,2,3,4]
print(type(raw_data),'\n')
print(type(df_a),'\n')
df_a

<class 'dict'> 

<class 'pandas.core.frame.DataFrame'> 



Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches


In [152]:
raw_data = {
        'subject_id': ['4','5','6','7','8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bruce', 'Betty'],
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']
}

df_b = pd.DataFrame(raw_data, columns=['subject_id','first_name', 'last_name'])
df_b.index=[2,3,4,5,6]
df_b

Unnamed: 0,subject_id,first_name,last_name
2,4,Billy,Bonder
3,5,Brian,Black
4,6,Bran,Balwner
5,7,Bruce,Brice
6,8,Betty,Btisan


In [154]:
raw_data = {
    'subject_id': ['1','2','3','4','5','6','7','8','9','10','11'],
    'test_id': [51,15, 15, 61, 16, 14, 15, 1, 61, 16,17]
}
df_n = pd.DataFrame(raw_data, columns=['subject_id','test_id'])
df_n

Unnamed: 0,subject_id,test_id
0,1,51
1,2,15
2,3,15
3,4,61
4,5,16
5,6,14
6,7,15
7,8,1
8,9,61
9,10,16


In [156]:
# Concat используется для объединения таблиц по горизонтальной или вертикальной оси
# Ниже представлен пример объединения по строкам
df_new = pd.concat([df_a,df_b])
df_new

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
2,4,Billy,Bonder
3,5,Brian,Black
4,6,Bran,Balwner
5,7,Bruce,Brice
6,8,Betty,Btisan


In [158]:
# Если необходимо объединить по столбцам
df_new = pd.concat([df_a, df_b], axis=1)
df_new

Unnamed: 0,subject_id,first_name,last_name,subject_id.1,first_name.1,last_name.1
0,1.0,Alex,Anderson,,,
1,2.0,Amy,Ackerman,,,
2,3.0,Allen,Ali,4.0,Billy,Bonder
3,4.0,Alice,Aoni,5.0,Brian,Black
4,5.0,Ayoung,Atiches,6.0,Bran,Balwner
5,,,,7.0,Bruce,Brice
6,,,,8.0,Betty,Btisan


In [159]:
# Дропаем индекс и сохраняем предыдущий в новую колонку
# Потом надо разобраться, почему индекс не записался в новый столбец
df_new.reset_index(drop=False)
df_new

Unnamed: 0,subject_id,first_name,last_name,subject_id.1,first_name.1,last_name.1
0,1.0,Alex,Anderson,,,
1,2.0,Amy,Ackerman,,,
2,3.0,Allen,Ali,4.0,Billy,Bonder
3,4.0,Alice,Aoni,5.0,Brian,Black
4,5.0,Ayoung,Atiches,6.0,Bran,Balwner
5,,,,7.0,Bruce,Brice
6,,,,8.0,Betty,Btisan


In [160]:
# Concat с помощью атрибута inner join
df_new = pd.concat([df_a,df_b], axis=1, join='inner')
df_new


Unnamed: 0,subject_id,first_name,last_name,subject_id.1,first_name.1,last_name.1
2,3,Allen,Ali,4,Billy,Bonder
3,4,Alice,Aoni,5,Brian,Black
4,5,Ayoung,Atiches,6,Bran,Balwner


In [162]:
# Append - частный случай метода Concat с параметрами (axis=0, join='outer')
df_new = pd.concat([df_a,df_b],axis=0,join='outer')
# df_a.append(df_b )
df_new

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
2,4,Billy,Bonder
3,5,Brian,Black
4,6,Bran,Balwner
5,7,Bruce,Brice
6,8,Betty,Btisan


In [167]:
# Merge может объединять не только по индексам, но и по наименованию колонок
# В merge указывается сначала таблица к которой мы хотим что-то просоединить, 
# потом таблица из которой хотим что-то добавить в левую, потом столбец по которому ищем соответствие
print(df_a,'\n')
print(df_n,'\n')

pd.merge(df_a,df_n, on='subject_id')

  subject_id first_name last_name
0          1       Alex  Anderson
1          2        Amy  Ackerman
2          3      Allen       Ali
3          4      Alice      Aoni
4          5     Ayoung   Atiches 

   subject_id  test_id
0           1       51
1           2       15
2           3       15
3           4       61
4           5       16
5           6       14
6           7       15
7           8        1
8           9       61
9          10       16
10         11       17 



Unnamed: 0,subject_id,first_name,last_name,test_id
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,5,Ayoung,Atiches,16


In [169]:
# Хочу внезависимости от того, какие данные есть в правой таблице, оставить все, что есть в левой по ключу
pd.merge(df_a,df_b, on='subject_id', how='left')

Unnamed: 0,subject_id,first_name_x,last_name_x,first_name_y,last_name_y
0,1,Alex,Anderson,,
1,2,Amy,Ackerman,,
2,3,Allen,Ali,,
3,4,Alice,Aoni,Billy,Bonder
4,5,Ayoung,Atiches,Brian,Black


In [170]:
# Хочу внезависимости от того, какие данные есть в левой таблице, оставить все, что есть в правой по ключу
pd.merge(df_a, df_b, on='subject_id', how='right')

Unnamed: 0,subject_id,first_name_x,last_name_x,first_name_y,last_name_y
0,4,Alice,Aoni,Billy,Bonder
1,5,Ayoung,Atiches,Brian,Black
2,6,,,Bran,Balwner
3,7,,,Bruce,Brice
4,8,,,Betty,Btisan


In [171]:
# Оставить пересечение левой и правой
# result = pd.merge(left, right, how="left", on=["key1", "key2"])
pd.merge(df_a, df_b, on='subject_id', how='inner')

Unnamed: 0,subject_id,first_name_x,last_name_x,first_name_y,last_name_y
0,4,Alice,Aoni,Billy,Bonder
1,5,Ayoung,Atiches,Brian,Black


In [173]:
pd.merge(df_a, df_b, on='subject_id', how='outer')

Unnamed: 0,subject_id,first_name_x,last_name_x,first_name_y,last_name_y
0,1,Alex,Anderson,,
1,2,Amy,Ackerman,,
2,3,Allen,Ali,,
3,4,Alice,Aoni,Billy,Bonder
4,5,Ayoung,Atiches,Brian,Black
5,6,,,Bran,Balwner
6,7,,,Bruce,Brice
7,8,,,Betty,Btisan
