In [1]:
import sys
import os

path = os.path.abspath('..')
sys.path.append(path + '/src')
path = '/'.join(path.split('/')[:-1])
sys.path.append(path + '/get_issues/src')

In [2]:
import pandas as pd
import seaborn as sb
import matplotlib.pyplot as plt  
plt.style.use('dark_background')
%matplotlib inline

## Загрузка данных о репозиториях

Данные содержат информацию о репозиториях, имеющих преобладающий язык Python, с активными страницами инцидентов.

In [3]:
path_to_repos_list = '../data/'
repos_list_filename = 'python_repos_interesting.json'

In [4]:
from collect_repos import load_repo_info_from_json
repositories = load_repo_info_from_json(path_to_repos_list,
                                        repos_list_filename)

In [5]:
repositories.columns

Index(['databaseId', 'nameWithOwner', 'description', 'mirrorUrl', 'createdAt',
       'pushedAt', 'updatedAt', 'forkCount', 'stargazerCount',
       'hasIssuesEnabled', 'isArchived', 'isDisabled', 'isFork', 'isMirror',
       'diskUsage', 'parent', 'defaultBranchRef.name',
       'commitComments.totalCount', 'licenseInfo.name', 'watchers.totalCount',
       'issues.totalCount', 'pullRequests.totalCount', 'primaryLanguage.name',
       'releases.totalCount', 'languages.edges', 'licenseInfo'],
      dtype='object')

In [6]:
repositories = repositories.astype({'forkCount':'int32', 'stargazerCount':'int32', 
                                    'diskUsage':'float64', 'commitComments.totalCount':'int32',
                                    'watchers.totalCount':'int32', 'issues.totalCount':'int32', 
                                    'pullRequests.totalCount':'int32', 'releases.totalCount':'int32'})

## Конечная цель фильтрации репозиториев

Конечной целью фильтрации репозиториев является выбор репозиториев согласно следующим критериям:

- популярность и количество разработчиков (контрибуторов, майнтейнеров и коммитеров)
- репозиторий должен быть хранилищем версионированного исходного кода, предназначенного для разработки ПО, не для хранения, веб-хостинга, учебных целей и т.п.
- должен содержать как можно больше "хороших" сообщений об инцидентах с меткой bug или похожей меткой
- должен быть активно разрабатываемым
- должен иметь релевантную лицензию

## Первичный анализ данных о репозиториях

Посмотрим на описательные статистики основных числовых параметров репозиториев:

In [6]:
repositories.describe()

Unnamed: 0,databaseId,forkCount,stargazerCount,diskUsage,commitComments.totalCount,watchers.totalCount,issues.totalCount,pullRequests.totalCount,releases.totalCount,licenseInfo
count,149025.0,149025.0,149025.0,149025.0,149025.0,149025.0,149025.0,149025.0,149025.0,0.0
mean,103262000.0,35.686187,133.404717,18126.0,2.35945,12.534488,33.485093,37.757806,2.457011,
std,83205570.0,284.363675,1066.370635,218370.3,38.241831,58.664404,288.999818,301.62802,13.072654,
min,8338.0,1.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,
25%,30096960.0,2.0,4.0,81.0,0.0,2.0,2.0,2.0,0.0,
50%,86740150.0,6.0,13.0,379.0,0.0,4.0,6.0,5.0,0.0,
75%,160699900.0,18.0,50.0,3630.0,0.0,10.0,18.0,17.0,1.0,
max,324204100.0,43282.0,118425.0,45576750.0,9435.0,6043.0,69367.0,44303.0,1661.0,


## Первичная фильтрация репозиториев

Отберем репозитории по совокупности из четырех параметров: число форков, число звезд, число инцидентов и число пулл-реквестов. Данные параметры отражают относительную популярность репозитория, а также интенсивность его развития (с момента создания).
Это должно позволить сузить круг рассматриваемых репозиториев, по которым будет проводиться дальнейшая фильтрация. Зададим в качестве порогов соответствующих верхних ограничений 75%-процентили.

In [7]:
quantile_threshold = 0.75
selected_repositories = repositories.loc[(repositories['stargazerCount']>=repositories['stargazerCount'].quantile(q=quantile_threshold)) &
                                         (repositories['issues.totalCount']>=repositories['issues.totalCount'].quantile(q=quantile_threshold)) &
                                         (repositories['pullRequests.totalCount']>=repositories['pullRequests.totalCount'].quantile(q=quantile_threshold))]
selected_repositories.shape

(12201, 26)

In [9]:
repositories['stargazerCount'].quantile(q=quantile_threshold), repositories['issues.totalCount'].quantile(q=quantile_threshold), repositories['pullRequests.totalCount'].quantile(q=quantile_threshold)

(50.0, 18.0, 17.0)

In [8]:
selected_repositories.describe()

Unnamed: 0,databaseId,forkCount,stargazerCount,diskUsage,commitComments.totalCount,watchers.totalCount,issues.totalCount,pullRequests.totalCount,releases.totalCount,licenseInfo
count,12201.0,12201.0,12201.0,12201.0,12201.0,12201.0,12201.0,12201.0,12201.0,0.0
mean,68415370.0,234.735022,1013.581674,32961.4,16.566757,56.689943,235.975576,240.280305,10.61036,
std,69253910.0,945.949864,3532.483385,430515.4,125.518285,173.043529,962.284793,983.422413,30.919353,
min,8338.0,1.0,50.0,9.0,0.0,0.0,18.0,17.0,0.0,
25%,12093140.0,34.0,109.0,467.0,0.0,13.0,41.0,32.0,0.0,
50%,44260670.0,69.0,248.0,2139.0,2.0,24.0,80.0,65.0,2.0,
75%,106154800.0,165.0,715.0,13062.0,8.0,50.0,185.0,171.0,11.0,
max,313674200.0,43282.0,118425.0,44117320.0,9435.0,6043.0,69367.0,44303.0,1305.0,


In [10]:
selected_repositories['nameWithOwner'].to_csv('../data/interesting_repos.csv', 
                                              sep='\n', 
                                              index=False, 
                                              header=False)