Цель: изучение и применение методов анализа данных с использованием языка программирования Python. В ходе работы необходимо провести загрузку и обработку датасета, а затем применить различные методы анализа, такие как вывод размерности массива, вывод всех уникальных значений, сортировка по определенным параметрам, удаление дубликатов, анализ с помощью функций info, анализ с помощью функций describe и т.д. В конце работы необходимо сохранить новый датасет.

In [4]:
import pandas as pd

Импортируем библиотеку pandas, которая позволяет осуществлять чтение, обработку и анализ данных из файла CSV.

In [5]:
df = pd.read_csv('roblox_account_index.csv')

Функция из библиотеки pandas, используется для чтения файла CSV и создания DataFrame, представляющего данные из этого файла.

In [6]:
print(df)

        user_id           username       display_name  premium  \
0    2720080757          hdidbhsj9          hdidbhsj9    False   
1      26648435      fascinatedggg      fascinatedggg    False   
2    2363526602     jwywgwuywgwuwu     jwywgwuywgwuwu    False   
3     204248014  Spicemothderedent  Spicemothderedent    False   
4     321013183            COJdUXN            COJdUXN    False   
..          ...                ...                ...      ...   
943  2534569991          lAMN0T0_K          lAMN0T0_K    False   
944  1100522853          pado12456          pado12456    False   
945   219393774      CoryDelacruz5      CoryDelacruz5    False   
946  2026025530    nikita_neki1008    nikita_neki1008    False   
947  3365945828          Lina80400          Lina80400    False   

                                                avatar  \
0    https://tr.rbxcdn.com/41d67f7034aceef014f19f0b...   
1    https://tr.rbxcdn.com/f5374a5906735426f5cf5d36...   
2    https://tr.rbxcdn.com/6b8e70

Вывод всего датасета на экран.

In [7]:
print("Размерность массива:", df.shape)

Размерность массива: (948, 6)


Эта функция представляет размерность массива, то есть количество строк и столбцов.

In [20]:
print("Наименования колонок:", df.columns)

Наименования колонок: Index(['user_id', 'username', 'display_name', 'premium', 'avatar',
       'avatar_headshot'],
      dtype='object')


Эта функция возвращает названия всех столбцов.

In [18]:
column_meanings = {
    "user_id": "Идентификатор пользователя",
    "username": "Имя пользователя",
    "display_name": "Отображаемое имя",
    "premium": "Премиум-статус пользователя",
    "avatar": "Ссылка на аватар",
    "avatar_headshot": "Ссылка на аватар пользователя"
}
for column in df.columns:
    print(f"{column}: {column_meanings.get(column, 'Неизвестное значение')}")

user_id: Идентификатор пользователя
username: Имя пользователя
display_name: Отображаемое имя
premium: Премиум-статус пользователя
avatar: Ссылка на аватар
avatar_headshot: Ссылка на аватар пользователя


Вывод обозначения колонок.

In [17]:
for column in df.columns:
    print(f"Уникальные значения в колонке {column}: {df[column].unique()}")

Уникальные значения в колонке user_id: [2720080757   26648435 2363526602  204248014  321013183 3057916767
 1790862618 1414099231  434235066  226160439  296425116  855312228
 2633484208 3183825952 2643935211 2634807513 1192982462 1122374552
  135001298  933563205 1840148565 1911906524 3123299647 2042920272
 2405947174  604001109 2242382077  475449261 2832958976 1074859176
 3324981710 2999218770  553102898  191305699  966536307 2816487125
  737028129 1788372786  538291648  796869339 3314473096 2460057848
 2030351820 2351849436  517489931 1473232468  711094853 1894713575
   21285440 1867581204 2212770624 2383328475 1967911147 1706907387
 2621834989 2538857969 3032792304 2725590009  999946439  724986021
  286464311  142834330 1194823377 1504276135 1269010001 1479563014
 3094795211 1071676250 3071552309  232611827  520656125  862995293
 2819822995 3014875356 1633945871 1071108544  268209344   98366562
  406401549  166668395 2346420210  307722735 1914351187 2356306877
 2243103087 2416727629 

Эта функция возвращает уникальные значения из определенной колонки.

In [19]:
sorted_df = df.sort_values(by='username')
print(sorted_df)

        user_id           username       display_name  premium  \
821  2049337794         0114074asd         0114074asd    False   
383   540910707           02589zxc           02589zxc    False   
650  1823181480          0328jiwon          0328jiwon    False   
244  3238822208            0_Vazio            0_Vazio    False   
363  1733541596  10305290103pqpqpq  10305290103pqpqpq    False   
..          ...                ...                ...      ...   
510  1293012563      zaddeaw064123      zaddeaw064123    False   
146  1540031534          zijocatic          zijocatic    False   
391  3207617313       zoeynette974       zoeynette974    False   
800  1108277012             zswtyd             zswtyd    False   
132  1789473015           zuheir78           zuheir78    False   

                                                avatar  \
821  https://tr.rbxcdn.com/84b93dcd7bb4a8dcaaa73499...   
383  https://tr.rbxcdn.com/79fde415fa4db0be21e198b4...   
650  https://tr.rbxcdn.com/a221e3

Эта функция сортирует датасет по значениям определенного столбца.

In [21]:
df = df.drop(['avatar', 'avatar_headshot'], axis=1)
print(df)

        user_id           username       display_name  premium
0    2720080757          hdidbhsj9          hdidbhsj9    False
1      26648435      fascinatedggg      fascinatedggg    False
2    2363526602     jwywgwuywgwuwu     jwywgwuywgwuwu    False
3     204248014  Spicemothderedent  Spicemothderedent    False
4     321013183            COJdUXN            COJdUXN    False
..          ...                ...                ...      ...
943  2534569991          lAMN0T0_K          lAMN0T0_K    False
944  1100522853          pado12456          pado12456    False
945   219393774      CoryDelacruz5      CoryDelacruz5    False
946  2026025530    nikita_neki1008    nikita_neki1008    False
947  3365945828          Lina80400          Lina80400    False

[948 rows x 4 columns]


Функция используется для удаления указанных столбцов.

In [22]:
df['display_name'].fillna('Unknown', inplace=True)
print(df)

        user_id           username       display_name  premium
0    2720080757          hdidbhsj9          hdidbhsj9    False
1      26648435      fascinatedggg      fascinatedggg    False
2    2363526602     jwywgwuywgwuwu     jwywgwuywgwuwu    False
3     204248014  Spicemothderedent  Spicemothderedent    False
4     321013183            COJdUXN            COJdUXN    False
..          ...                ...                ...      ...
943  2534569991          lAMN0T0_K          lAMN0T0_K    False
944  1100522853          pado12456          pado12456    False
945   219393774      CoryDelacruz5      CoryDelacruz5    False
946  2026025530    nikita_neki1008    nikita_neki1008    False
947  3365945828          Lina80400          Lina80400    False

[948 rows x 4 columns]


Эта функция заполняет пустые значения в указанной колонке определенным значением.

In [23]:
df = df.drop_duplicates()
print(df)

        user_id           username       display_name  premium
0    2720080757          hdidbhsj9          hdidbhsj9    False
1      26648435      fascinatedggg      fascinatedggg    False
2    2363526602     jwywgwuywgwuwu     jwywgwuywgwuwu    False
3     204248014  Spicemothderedent  Spicemothderedent    False
4     321013183            COJdUXN            COJdUXN    False
..          ...                ...                ...      ...
943  2534569991          lAMN0T0_K          lAMN0T0_K    False
944  1100522853          pado12456          pado12456    False
945   219393774      CoryDelacruz5      CoryDelacruz5    False
946  2026025530    nikita_neki1008    nikita_neki1008    False
947  3365945828          Lina80400          Lina80400    False

[948 rows x 4 columns]


Функция удаляет дубликаты строк из датасета.

In [24]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 948 entries, 0 to 947
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   user_id       948 non-null    int64 
 1   username      948 non-null    object
 2   display_name  948 non-null    object
 3   premium       948 non-null    bool  
dtypes: bool(1), int64(1), object(2)
memory usage: 23.3+ KB
None


Функция info предоставляет общую информацию о структуре данных, включая количество ненулевых значений в каждом столбце, типы данных и использование памяти. 

In [25]:
print(df.describe())

            user_id
count  9.480000e+02
mean   1.664117e+09
std    1.010539e+09
min    3.441841e+06
25%    7.572988e+08
50%    1.629718e+09
75%    2.561044e+09
max    3.397693e+09


Функция describe предоставляет статистическое описание числовых столбцов, включая среднее значение, стандартное отклонение, минимальное и максимальное значения, а также квартили.

In [27]:
selected_data = df.loc[0:5, ['user_id', 'username', 'display_name']]
print(selected_data)

      user_id           username       display_name
0  2720080757          hdidbhsj9          hdidbhsj9
1    26648435      fascinatedggg      fascinatedggg
2  2363526602     jwywgwuywgwuwu     jwywgwuywgwuwu
3   204248014  Spicemothderedent  Spicemothderedent
4   321013183            COJdUXN            COJdUXN
5  3057916767         poyraz02ir         poyraz02ir


Функция loc позволяет выбрать подмножество данных по индексам строк и названиям столбцов. В данном случае мы выбираются данные с индексами от 0 до 5 и только три указанных столбца.

In [28]:
new_filename = 'new_roblox_dataset.csv'
df.to_csv(new_filename, index=False)

Сохранение новго датасета.

Вывод: изучены и применены методы анализа данных с использованием языка программирования Python. В ходе работы проведена загрузка и обработка датасета, а затем применены различные методы анализа, такие как вывод размерности массива, вывод всех уникальных значений, сортировка по определенным параметрам, удаление дубликатов, анализ с помощью функций info, анализ с помощью функций describe и т.д. В конце работы необходимо сохранен новый датасет.