<a href="https://colab.research.google.com/github/zepif/data-scince-lectures/blob/main/%D0%92%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B2_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#import pandas as pd

В pandas есть два основных объекта: DataFrame и Series.

**DataFrame**

DataFrame - это таблица. Она содержит массив отдельных записей, каждая из которых имеет определенное значение. Каждая запись соответствует строке (или записи) и столбцу.

Например, рассмотрим следующий простой DataFrame:

In [None]:
import pandas as pd

pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


In [None]:
import pandas as pd

pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


**Series**

In [None]:
import pandas as pd

pd.Series([10, 20, 30, 40, 50])

0    10
1    20
2    30
3    40
4    50
dtype: int64

Series и DataFrame тесно связаны между собой. DataFrame - это просто набор Series, склеенных вместе

**Считывание данных**

Возможность создать DataFrame или Series вручную очень удобна. Но в большинстве случаев мы не будем создавать собственные данные вручную. Вместо этого мы будем работать с уже существующими данными.

Данные могут храниться в любой из множества различных форм и форматов. Самый простой из них - CSV. Когда вы открываете CSV-файл, вы получаете что-то похожее на следующее:

Продукт A, Продукт B, Продукт C,

30,21,9,

35,34,1,

41,11,11

Таким образом, CSV-файл - это таблица значений, разделенных запятыми. Отсюда и название: "Comma-Separated Values".

Для чтения данных в DataFrame мы воспользуемся функцией pd.read_csv(). Это происходит следующим образом:

In [54]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")

print(california_housing.shape)
print(california_housing, end="\n\n")
print(california_housing.head(10), end="\n\n")

(3000, 9)
      longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0       -122.05     37.37                27.0       3885.0           661.0   
1       -118.30     34.26                43.0       1510.0           310.0   
2       -117.81     33.78                27.0       3589.0           507.0   
3       -118.36     33.82                28.0         67.0            15.0   
4       -119.67     36.33                19.0       1241.0           244.0   
...         ...       ...                 ...          ...             ...   
2995    -119.86     34.42                23.0       1450.0           642.0   
2996    -118.14     34.06                27.0       5257.0          1082.0   
2997    -119.70     36.30                10.0        956.0           201.0   
2998    -117.12     34.10                40.0         96.0            14.0   
2999    -119.63     34.42                42.0       1765.0           263.0   

      population  households  median_income  median_h

**Работа с данными**

Python предоставляют хорошие способы индексирования данных. Pandas переносит все эти способы, что облегчает работу с ним. Например:

In [None]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")

print(california_housing.households)

print(california_housing['population'])

print(california_housing['population'][0])

0        606.0
1        277.0
2        495.0
3         11.0
4        237.0
         ...  
2995     607.0
2996    1036.0
2997     220.0
2998      14.0
2999     260.0
Name: households, Length: 3000, dtype: float64
0       1537.0
1        809.0
2       1484.0
3         49.0
4        850.0
         ...  
2995    1258.0
2996    3496.0
2997     693.0
2998      46.0
2999     753.0
Name: population, Length: 3000, dtype: float64
1537.0


**Индексирование в pandas**

В pandas есть свои собственные операторы доступа, loc и iloc. Которые используются для более сложных операций.

Выбор на основе индекса

функция iloc - выбирает по индексу: выбор данных на основе их числового положения в данных.


In [None]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")

print(california_housing.iloc[0])
print(end="\n\n\n")
print(california_housing.iloc[:3, 0])
print(end="\n\n\n")
print(california_housing.iloc[[0, 1, 2, 6, 7], 0])

longitude               -122.0500
latitude                  37.3700
housing_median_age        27.0000
total_rooms             3885.0000
total_bedrooms           661.0000
population              1537.0000
households               606.0000
median_income              6.6085
median_house_value    344700.0000
Name: 0, dtype: float64



0   -122.05
1   -118.30
2   -117.81
Name: longitude, dtype: float64



0   -122.05
1   -118.30
2   -117.81
6   -121.43
7   -120.65
Name: longitude, dtype: float64


Функция loc выбирает на основе меток, то есть важно значение индекса данных, а не их позиция

In [None]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")

print(california_housing.loc[0, 'longitude'])
print(end="\n\n\n")
print(california_housing.loc[0, ['longitude', 'latitude',  'housing_median_age']])
print(end="\n\n\n")

-122.05



longitude            -122.05
latitude               37.37
housing_median_age     27.00
Name: 0, dtype: float64





При выборе или переходе между loc и iloc стоит помнить об одной "загвоздке": эти два метода используют немного разные схемы индексации.

iloc использует схему индексации stdlib, где первый элемент диапазона включается, а последний исключается. Таким образом, 0:10 выберет записи 0,...,9. loc, тем временем, индексирует по принципу "включительно". Таким образом, 0:10 будет выбирать записи 0,...,10.

Зачем так сделали? Помните, что loc может индексировать любой тип stdlib: например, строки. Если у нас есть таблица с индексными значениями Apples, ..., Potatoes, ..., и мы хотим выбрать все фрукты по алфавиту между Apples и Potatoes, то гораздо удобнее проиндексировать ```df.loc['Apples':'Potatoes']```, чем что-то вроде ```df.loc['Apples': 'Potatoet']``` (t идет после s в алфавите).

**Условные операторы**

In [58]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")

print(california_housing.longitude)
print(end="\n\n\n")
print(california_housing.longitude < -118.8)
print(end="\n\n\n")

print(california_housing.longitude[california_housing.longitude < -118.8])
print(end="\n\n\n")
print(california_housing.loc[(california_housing.longitude < -119) & (california_housing.longitude > -120)])
print(end="\n\n\n")

print(california_housing.loc[california_housing.housing_median_age.isin([25])])

0      -122.05
1      -118.30
2      -117.81
3      -118.36
4      -119.67
         ...  
2995   -119.86
2996   -118.14
2997   -119.70
2998   -117.12
2999   -119.63
Name: longitude, Length: 3000, dtype: float64



0        True
1       False
2       False
3       False
4        True
        ...  
2995     True
2996    False
2997     True
2998    False
2999     True
Name: longitude, Length: 3000, dtype: bool



0      -122.05
4      -119.67
5      -119.56
6      -121.43
7      -120.65
         ...  
2989   -122.02
2992   -122.33
2995   -119.86
2997   -119.70
2999   -119.63
Name: longitude, Length: 1439, dtype: float64



      longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
4       -119.67     36.33                19.0       1241.0           244.0   
5       -119.56     36.51                37.0       1018.0           213.0   
11      -119.12     35.85                37.0        736.0           166.0   
30      -119.35     36.33                14.0       1195.0  

**Присвоение данных**

In [60]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")

print(california_housing['longitude'])
california_housing['longitude'] = range(len(california_housing), 0, -1)
print(california_housing['longitude'])

0      -122.05
1      -118.30
2      -117.81
3      -118.36
4      -119.67
         ...  
2995   -119.86
2996   -118.14
2997   -119.70
2998   -117.12
2999   -119.63
Name: longitude, Length: 3000, dtype: float64
0       3000
1       2999
2       2998
3       2997
4       2996
        ... 
2995       5
2996       4
2997       3
2998       2
2999       1
Name: longitude, Length: 3000, dtype: int64


**Операции с данными**

In [None]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")

print(california_housing.head)
print(end="\n\n\n")
print(california_housing.total_rooms.describe())
print(end="\n\n\n")
print(california_housing.total_rooms.mean())
print(end="\n\n\n")
print(california_housing.total_rooms.unique())
print(end="\n\n\n")
print(california_housing.total_rooms.value_counts())

<bound method NDFrame.head of       longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0       -122.05     37.37                27.0       3885.0           661.0   
1       -118.30     34.26                43.0       1510.0           310.0   
2       -117.81     33.78                27.0       3589.0           507.0   
3       -118.36     33.82                28.0         67.0            15.0   
4       -119.67     36.33                19.0       1241.0           244.0   
...         ...       ...                 ...          ...             ...   
2995    -119.86     34.42                23.0       1450.0           642.0   
2996    -118.14     34.06                27.0       5257.0          1082.0   
2997    -119.70     36.30                10.0        956.0           201.0   
2998    -117.12     34.10                40.0         96.0            14.0   
2999    -119.63     34.42                42.0       1765.0           263.0   

      population  households  med

**Maps**

Мы можем использовать встроенную функцию Python map() для применения функции к каждому элементу итерируемого объекта и возвращения нового значения для получения результатов. 

In [61]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")

print(california_housing.latitude)
calif_latitude_mean = california_housing.latitude.mean()
print(california_housing.latitude.map(lambda p: p - calif_latitude_mean))

0       37.37
1       34.26
2       33.78
3       33.82
4       36.33
        ...  
2995    34.42
2996    34.06
2997    36.30
2998    34.10
2999    34.42
Name: latitude, Length: 3000, dtype: float64
0       1.73461
1      -1.37539
2      -1.85539
3      -1.81539
4       0.69461
         ...   
2995   -1.21539
2996   -1.57539
2997    0.66461
2998   -1.53539
2999   -1.21539
Name: latitude, Length: 3000, dtype: float64


apply() - эквивалентный метод, если мы хотим преобразовать весь DataFrame, вызывая пользовательский метод для каждой строки

In [None]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")

calif_latitude_mean = california_housing.latitude.mean()

def remean_latitude(row):
    row.latitude = row.latitude - calif_latitude_mean
    return row

california_housing.apply(remean_latitude, axis='columns')

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,1.73461,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.30,-1.37539,43.0,1510.0,310.0,809.0,277.0,3.5990,176500.0
2,-117.81,-1.85539,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,-1.81539,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,0.69461,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0
...,...,...,...,...,...,...,...,...,...
2995,-119.86,-1.21539,23.0,1450.0,642.0,1258.0,607.0,1.1790,225000.0
2996,-118.14,-1.57539,27.0,5257.0,1082.0,3496.0,1036.0,3.3906,237200.0
2997,-119.70,0.66461,10.0,956.0,201.0,693.0,220.0,2.2895,62000.0
2998,-117.12,-1.53539,40.0,96.0,14.0,46.0,14.0,3.2708,162500.0


In [None]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")

calif_latitude_mean = california_housing.latitude.mean()
print(california_housing.latitude - calif_latitude_mean)

0       1.73461
1      -1.37539
2      -1.85539
3      -1.81539
4       0.69461
         ...   
2995   -1.21539
2996   -1.57539
2997    0.66461
2998   -1.53539
2999   -1.21539
Name: latitude, Length: 3000, dtype: float64


**Анализ данных**

In [68]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")

print(california_housing.groupby('latitude').latitude.count())
print(end="\n\n\n")

print(california_housing.groupby('latitude').apply(lambda df: df.longitude.iloc[0]))
print(end="\n\n\n")
print(california_housing.groupby(['median_income', 'median_house_value']).apply(lambda df: df.latitude[df.households.idxmax()]))
print(end="\n\n\n")
print(california_housing.groupby(['latitude']).population.agg([min, max]))

latitude
32.56    1
32.57    3
32.58    6
32.59    2
32.60    1
        ..
41.31    1
41.54    1
41.63    1
41.80    1
41.92    1
Name: latitude, Length: 587, dtype: int64



latitude
32.56   -117.09
32.57   -117.11
32.58   -117.05
32.59   -117.12
32.60   -117.07
          ...  
41.31   -122.32
41.54   -123.92
41.63   -122.64
41.80   -124.17
41.92   -124.16
Length: 587, dtype: float64



median_income  median_house_value
0.4999         500001.0              34.02
0.5360         87500.0               38.02
               162500.0              37.67
               275000.0              33.62
0.5495         91700.0               33.96
                                     ...  
12.8763        500001.0              34.12
13.6623        500001.0              33.02
14.2867        500001.0              34.07
15.0001        350000.0              37.74
               500001.0              33.62
Length: 2990, dtype: float64



             min     max
latitude                
32.56      626.0   6

**Мультииндекс**

Функция groupby() немного отличается тем, что, в зависимости от выполняемой операции, она иногда приводит к так называемому мультииндексу.

Мультииндекс отличается от обычного индекса тем, что он имеет несколько уровней. Например:

In [87]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")

ex = california_housing.groupby(['latitude', 'longitude']).total_rooms.agg([max])

print(ex)
print(ex.index, end="\n\n\n")
print(ex.reset_index())

                       max
latitude longitude        
32.56    -117.09     864.0
32.57    -117.12    1450.0
         -117.11    2723.0
         -117.08    2203.0
32.58    -117.13    2511.0
...                    ...
41.31    -122.32    1393.0
41.54    -123.92    2920.0
41.63    -122.64    2722.0
41.80    -124.17    2739.0
41.92    -124.16    1668.0

[2712 rows x 1 columns]
MultiIndex([(32.56, -117.09),
            (32.57, -117.12),
            (32.57, -117.11),
            (32.57, -117.08),
            (32.58, -117.13),
            (32.58, -117.11),
            (32.58,  -117.1),
            (32.58, -117.08),
            (32.58, -117.07),
            (32.58, -117.05),
            ...
            (40.99, -123.35),
            (41.01, -123.52),
            ( 41.2, -122.27),
            (41.23, -122.27),
            (41.28, -122.45),
            (41.31, -122.32),
            (41.54, -123.92),
            (41.63, -122.64),
            ( 41.8, -124.17),
            (41.92, -124.16)],
       

**Сортировка**

In [74]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")
ex = california_housing.groupby(['latitude', 'longitude']).total_rooms.agg([max])
ex = ex.reset_index()
ex = ex.sort_values(by='max')
print(ex)
print(end='\n\n\n')
ex = ex.sort_values(by='max', ascending=False)
print(ex)
print(end='\n\n\n')
ex = ex.sort_index()
print(ex)
print(end='\n\n\n')
ex = ex.sort_values(by=['max', 'latitude'])
print(ex)
print(end='\n\n\n')

      latitude  longitude      max
520      33.86    -116.95      6.0
20       32.66    -117.12     16.0
261      33.62    -114.62     18.0
1996     37.67    -121.04     19.0
871      34.03    -118.06     21.0
...        ...        ...      ...
235      33.49    -117.12  21988.0
198      33.15    -117.27  23915.0
385      33.78    -116.36  24121.0
2418     38.48    -121.53  27870.0
248      33.58    -117.20  30450.0

[2712 rows x 3 columns]



      latitude  longitude      max
248      33.58    -117.20  30450.0
2418     38.48    -121.53  27870.0
385      33.78    -116.36  24121.0
198      33.15    -117.27  23915.0
235      33.49    -117.12  21988.0
...        ...        ...      ...
871      34.03    -118.06     21.0
1996     37.67    -121.04     19.0
261      33.62    -114.62     18.0
20       32.66    -117.12     16.0
520      33.86    -116.95      6.0

[2712 rows x 3 columns]



      latitude  longitude     max
0        32.56    -117.09   864.0
1        32.57    -117.12  1450.0
2 

**Переименования**

In [75]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")
ex = california_housing.groupby(['latitude', 'longitude']).total_rooms.agg([max])
ex = ex.reset_index()
print(ex)
ex = ex.rename(columns = {'latitude' : 'new_latitude'})
print(ex)
ex = ex.rename(index = {0 : 'firstEntry', 1 : 'secondEntry'})
print(ex)

      latitude  longitude     max
0        32.56    -117.09   864.0
1        32.57    -117.12  1450.0
2        32.57    -117.11  2723.0
3        32.57    -117.08  2203.0
4        32.58    -117.13  2511.0
...        ...        ...     ...
2707     41.31    -122.32  1393.0
2708     41.54    -123.92  2920.0
2709     41.63    -122.64  2722.0
2710     41.80    -124.17  2739.0
2711     41.92    -124.16  1668.0

[2712 rows x 3 columns]
      new_latitude  longitude     max
0            32.56    -117.09   864.0
1            32.57    -117.12  1450.0
2            32.57    -117.11  2723.0
3            32.57    -117.08  2203.0
4            32.58    -117.13  2511.0
...            ...        ...     ...
2707         41.31    -122.32  1393.0
2708         41.54    -123.92  2920.0
2709         41.63    -122.64  2722.0
2710         41.80    -124.17  2739.0
2711         41.92    -124.16  1668.0

[2712 rows x 3 columns]
             new_latitude  longitude     max
firstEntry          32.56    -117.09   86

**Oбъединение таблиц**

In [79]:
import pandas as pd

california_housing = pd.read_csv("sample_data/california_housing_test.csv")
california_housing_2 = pd.read_csv("sample_data/california_housing_train.csv")

print(california_housing)
print(california_housing_2)
print(end="\n\n\n")
print(pd.concat([california_housing, california_housing_2]).head)
print(end="\n\n\n\n")
print(california_housing.join(california_housing_2, lsuffix='_1', rsuffix='_2'))

      longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0       -122.05     37.37                27.0       3885.0           661.0   
1       -118.30     34.26                43.0       1510.0           310.0   
2       -117.81     33.78                27.0       3589.0           507.0   
3       -118.36     33.82                28.0         67.0            15.0   
4       -119.67     36.33                19.0       1241.0           244.0   
...         ...       ...                 ...          ...             ...   
2995    -119.86     34.42                23.0       1450.0           642.0   
2996    -118.14     34.06                27.0       5257.0          1082.0   
2997    -119.70     36.30                10.0        956.0           201.0   
2998    -117.12     34.10                40.0         96.0            14.0   
2999    -119.63     34.42                42.0       1765.0           263.0   

      population  households  median_income  median_house_value

# Примеры задач

In [11]:
import pandas as pd
solutions = pd.read_csv("sample_data/labs_solutions.csv", sep=';')

print(solutions)

       solution_id  problem_id  user_id  contest_id    filename  \
0                1        1000     1001         NaN         NaN   
1                2        1000     1001         NaN         NaN   
2                3        1000     1001         NaN         NaN   
3                4        1301    10663      1000.0  Program.cs   
4                5        1308    10668      1000.0   task12.cs   
...            ...         ...      ...         ...         ...   
65995        65996        1021    12774      1239.0         NaN   
65996        65997        1013    11540      1051.0         NaN   
65997        65998        1335    11387      1061.0         NaN   
65998        65999        1109    11861      1088.0         NaN   
65999        66000        1050    11496      1051.0         NaN   

                               checksum  lang_id  posted_time  checked_time  \
0      e0906b1de689ae9a9daa3ed52d8ee0ac       12   1661652663    1661652668   
1      e0906b1de689ae9a9daa3ed52d8ee0

1. количество решений на разных языках программирования

In [81]:
import pandas as pd
solutions = pd.read_csv("sample_data/labs_solutions.csv", sep=';')

print(solutions.lang_id.value_counts())

12    19844
37    17253
4     12336
30     5458
35     3183
14     1747
39     1461
3      1364
19      960
20      635
28      541
26      395
17      388
11      115
31      107
18       71
34       48
13       48
2        23
23       13
25        4
27        3
5         1
21        1
16        1
Name: lang_id, dtype: int64


2. количество различных решённых задач

In [88]:
import pandas as pd
solutions = pd.read_csv("sample_data/labs_solutions.csv", sep=';')

print(len(solutions[solutions.score <= 100.0].problem_id.unique()))

637


3. количество различных контестов

In [84]:
import pandas as pd
solutions = pd.read_csv("sample_data/labs_solutions.csv", sep=';')

print(len(solutions[solutions.contest_id.notnull()].contest_id.unique()))

447


4. количество ОК

In [16]:
import pandas as pd
solutions = pd.read_csv("sample_data/labs_solutions.csv", sep=';')

print(len(solutions[solutions.score == 100.00]))

28390


5. количество решений на >= X%

In [90]:
import pandas as pd
solutions = pd.read_csv("sample_data/labs_solutions.csv", sep=';')

x = float(input())

print(len(solutions[solutions.score >= x]))

05
44856


6. количество решений с одинаковой md5

In [94]:
import pandas as pd
solutions = pd.read_csv("sample_data/labs_solutions.csv", sep=';')

print(solutions.checksum.value_counts(), end="\n\n")

print(solutions[solutions.checksum == '1617611c9416297b6d60a2b94d363813'].problem_id.unique())

5373a64586b720d400d7129dd72af164    125
e0906b1de689ae9a9daa3ed52d8ee0ac     90
1617611c9416297b6d60a2b94d363813     55
ee6ff50d5205652870756f0f6b3b5e20     53
aad42149ff16f5e0a23d78a9030e32d3     53
                                   ... 
d868afd186611e4f4787b35d3ea65913      1
4383f3fc56898c0718325924faac7ce0      1
c2ff644fd55a0246d9f6da690848d5ad      1
e8e0d97afe1d2bae7310be569c10b7c3      1
7003e8feb8a53bdfee544746073610a6      1
Name: checksum, Length: 56133, dtype: int64

[1115 1109 1128 1111 1108 1141]


7. топ-10 пользователей по количеству отправок

In [96]:
import pandas as pd
solutions = pd.read_csv("sample_data/labs_solutions.csv", sep=';')

print(solutions.user_id.value_counts().head(10))

10042    540
12417    473
10755    385
10273    371
1002     322
12425    301
11186    271
11206    268
12164    267
11397    262
Name: user_id, dtype: int64


8. топ-10 самых непопулярных задач

In [98]:
import pandas as pd
solutions = pd.read_csv("sample_data/labs_solutions.csv", sep=';')

print(solutions[solutions['score'] == 100.0].problem_id.value_counts(ascending=True))

1420      1
2084      1
2283      1
1354      1
1256      1
       ... 
1001    437
1011    461
1010    562
1009    596
1000    700
Name: problem_id, Length: 611, dtype: int64


# Д/З

1. какой балл встречается чаще всего

2. топ-10 пользователей по количеству ОК по разным  задачам

3. количество решений на >= X% и <= Y%

4. промежуток времени длинной в сутки, когда было больше всего отправок