<a href="https://colab.research.google.com/github/Irina-64/100-pandas-puzzles/blob/master/AZ01_%D0%92%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B2_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8_Numpy_%D0%B8_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Библиотека `pandas` активно используется в современном data science для работы с данными, которые могут быть представлены в виде таблиц (а это очень, очень большая часть данных)

`pandas` есть в пакете Anaconda, но если вдруг у Вас её по каким-то причинам нет, то можно установить, раскомментировав следующую команду:

In [None]:
# !pip install pandas

In [None]:
import numpy as np
import pandas as pd #Стандартное сокращение для pandas. Всегда используйте его!

In [None]:
import os
import warnings
warnings.filterwarnings('ignore')

# pd.Series

Тип данных pd.Series представляет собой одномерный набор данных. Отсутствующий данные записываются как `np.nan` (в этот день термометр сломался или метеоролог был пьян); они не участвуют в вычислении средних, среднеквадратичных отклонений и т.д.

### Создание
Создадим Series из списка температур

In [None]:
some_list = [1, 3, 5, np.nan, 6, 8]
ser_1 = pd.Series(some_list)
ser_1


Unnamed: 0,0
0,1.0
1,3.0
2,5.0
3,
4,6.0
5,8.0


In [None]:
# Так же можно в явном виде указать индексы, чтобы потом было более удобно обращаться к элементам
ind = ['1st day', '2nd day', '3rd day', '4th day', '5rd day', '6th day']

ser_2 = pd.Series(some_list, index=ind)
ser_2

Unnamed: 0,0
1st day,1.0
2nd day,3.0
3rd day,5.0
4th day,
5rd day,6.0
6th day,8.0


In [None]:
ser_2['4th day']

np.float64(nan)

In [None]:
# А еще можно дать pd.Series имя, чтобы было совсем красиво
ser_3 = pd.Series(some_list, index=ind, name='Temperature')
ser_3

Unnamed: 0,Temperature
1st day,1.0
2nd day,3.0
3rd day,5.0
4th day,
5rd day,6.0
6th day,8.0


### Индексирование
С индексами можно работать так же, как и в случае с обычным list.

In [None]:
print(ser_3[0])

print('-----------')

print(ser_3[1:3])

print('-----------')

print(ser_3[::-1])

1.0
-----------
2nd day    3.0
3rd day    5.0
Name: Temperature, dtype: float64
-----------
6th day    8.0
5rd day    6.0
4th day    NaN
3rd day    5.0
2nd day    3.0
1st day    1.0
Name: Temperature, dtype: float64


  print(ser_3[0])


### Индексирование pd.Series по условиям

In [None]:
date_range = pd.date_range('20190101', periods=10)
ser_4 = pd.Series(np.random.rand(10), date_range)
ser_4

Unnamed: 0,0
2019-01-01,0.287169
2019-01-02,0.97989
2019-01-03,0.238894
2019-01-04,0.966992
2019-01-05,0.32898
2019-01-06,0.443646
2019-01-07,0.10763
2019-01-08,0.128699
2019-01-09,0.790502
2019-01-10,0.16327


In [None]:
ser_4 > 0.5

Unnamed: 0,0
2019-01-01,False
2019-01-02,True
2019-01-03,False
2019-01-04,True
2019-01-05,False
2019-01-06,False
2019-01-07,False
2019-01-08,False
2019-01-09,True
2019-01-10,False


В качестве индекса можно указать выражение, и нам будут возвращены только те элементы, для которых значение является `True`

In [None]:
ser_4[ser_4 > 0.5]

Unnamed: 0,0
2019-01-02,0.97989
2019-01-04,0.966992
2019-01-09,0.790502


In [None]:
ser_4[(ser_4 > 0.6) | (ser_4 < 0.2)]

Unnamed: 0,0
2019-01-02,0.97989
2019-01-04,0.966992
2019-01-07,0.10763
2019-01-08,0.128699
2019-01-09,0.790502
2019-01-10,0.16327


### Сортировки
Тип `pd.Series` можно отсортировать как по значениям, так и по индексу.

In [None]:
ser_4.sort_index()

Unnamed: 0,0
2019-01-01,0.287169
2019-01-02,0.97989
2019-01-03,0.238894
2019-01-04,0.966992
2019-01-05,0.32898
2019-01-06,0.443646
2019-01-07,0.10763
2019-01-08,0.128699
2019-01-09,0.790502
2019-01-10,0.16327


In [None]:
ser_4.sort_values()

Unnamed: 0,0
2019-01-07,0.10763
2019-01-08,0.128699
2019-01-10,0.16327
2019-01-03,0.238894
2019-01-01,0.287169
2019-01-05,0.32898
2019-01-06,0.443646
2019-01-09,0.790502
2019-01-04,0.966992
2019-01-02,0.97989


### Операции с series
Тип `pd.Series` можно модифицировать проще, чем стандартный ``list`` из Python.

In [None]:
ser_4 + 100

Unnamed: 0,0
2019-01-01,100.287169
2019-01-02,100.97989
2019-01-03,100.238894
2019-01-04,100.966992
2019-01-05,100.32898
2019-01-06,100.443646
2019-01-07,100.10763
2019-01-08,100.128699
2019-01-09,100.790502
2019-01-10,100.16327


In [None]:
np.exp(ser_4)

Unnamed: 0,0
2019-01-01,1.332649
2019-01-02,2.664163
2019-01-03,1.269844
2019-01-04,2.630021
2019-01-05,1.38955
2019-01-06,1.558378
2019-01-07,1.113636
2019-01-08,1.137347
2019-01-09,2.204504
2019-01-10,1.177355


In [None]:
term_1 = pd.Series(np.random.randint(0, 10, 5))
term_2 = pd.Series(np.random.randint(0, 10, 6))

term_1 + term_2

Unnamed: 0,0
0,10.0
1,13.0
2,1.0
3,10.0
4,15.0
5,


In [None]:
term_1.shape

(5,)

# pd.DataFrame

Тип данных pd.DataFrame представляет собой двумерную таблицу с данными. Имеет индекс и набор столбцов (возможно, имеющих разные типы). Таблицу можно построить, например, из словаря, значениями в котором являются одномерные наборы данных.
### Создание и основные объекты

In [None]:
# Dataframe можно составить из словаря. Ключ будет соответсовать колонке
some_dict = {'one': pd.Series([1,2,3], index=['a','b','c']),
             'two': pd.Series([1,2,3,4], index=['a','b','c','d']),
             'three': pd.Series([5,6,7,8], index=['a','b','c','d'])}
df = pd.DataFrame(some_dict)
df

Unnamed: 0,one,two,three
a,1.0,1,5
b,2.0,2,6
c,3.0,3,7
d,,4,8


In [None]:
#Альтернативно, из списка списков с аргументом columns

some_array = [[1,1,5], [2,2,6], [3,3,7], [np.nan, 4,8]]
df = pd.DataFrame(some_array, index=['a', 'b', 'c', 'd'], columns=['one', 'two', 'three'])
df

Unnamed: 0,one,two,three
a,1.0,1,5
b,2.0,2,6
c,3.0,3,7
d,,4,8


In [None]:
df.values

array([[ 1.,  1.,  5.],
       [ 2.,  2.,  6.],
       [ 3.,  3.,  7.],
       [nan,  4.,  8.]])

In [None]:
df.columns

Index(['one', 'two', 'three'], dtype='object')

In [None]:
df.columns = ['first_column', 'second_column', 'third_column']
df.index = [1,2,3,4]
df

Unnamed: 0,first_column,second_column,third_column
1,1.0,1,5
2,2.0,2,6
3,3.0,3,7
4,,4,8


### Индексирование
Есть очень много способов индексировать DataFrame в Pandas. Не все из них хорошие! Вот несколько удобных, но не универсальных.

#### По колонкам
Индексирование по колонке возращает pd.Series. Можно выбирать не одну колонку, а сразу несколько. Тогда снова вернётся pd.DataFrame.

In [None]:
first_column = df['first_column']
first_column

Unnamed: 0,first_column
1,1.0
2,2.0
3,3.0
4,


In [None]:
subset_dataframe = df[['first_column', 'second_column']]
subset_dataframe

Unnamed: 0,first_column,second_column
1,1.0,1
2,2.0,2
3,3.0,3
4,,4


#### По строкам
Можно использовать любые срезы, как в Python-списке. Они будут применяться к строкам. Нельзя обращаться по элементу!

In [None]:
df[1] #не сработает

KeyError: 1

In [None]:
df[:1]

Unnamed: 0,first_column,second_column,third_column
1,1.0,1,5


In [None]:
df[1:4]

Unnamed: 0,first_column,second_column,third_column
2,2.0,2,6
3,3.0,3,7
4,,4,8


#### Универсальное индексирование: .loc и .iloc

.loc и .iloc --- это два взаимозаменяемых атрибута, которые позволяют индексировать по обеим осям сразу. Путаницы не возникает из-за фиксированного порядка перечисления осей.

In [None]:
#По индексам:
df.iloc[1:3, :2]

Unnamed: 0,first_column,second_column
2,2.0,2
3,3.0,3


In [None]:
df.loc[1:3, ['first_column', 'second_column']]

Unnamed: 0,first_column,second_column
1,1.0,1
2,2.0,2
3,3.0,3


Лучше использовать по умолчанию либо только loc, либо только .iloc! А лучше вообще всегда только .iloc, чтобы не запутаться.

### Модификации датасета, создание новых колонок
Можно просто брать и создавать новую колонку. Синтаксис тут вполне естественный.

In [None]:
new_column = [5,2,1,4]
df['new_column'] = new_column
df

Unnamed: 0,first_column,second_column,third_column,new_column
1,1.0,1,5,5
2,2.0,2,6,2
3,3.0,3,7,1
4,,4,8,4


Аналогично, можно применять к отдельным колонкам арифметические операции (ведь колонки --- это Series!)

In [None]:
df['first_column'] = df['first_column'] * 10
df

Unnamed: 0,first_column,second_column,third_column,new_column
1,10.0,1,5,5
2,20.0,2,6,2
3,30.0,3,7,1
4,,4,8,4


## Домашнее задание

1. Скачайте любой датасет с сайта https://www.kaggle.com/datasets

 Загрузите набор данных из CSV-файла в DataFrame.
Выведите первые 5 строк данных, чтобы получить представление о структуре данных.
Выведите информацию о данных (.info()) и статистическое описание (.describe()).

2. Определите среднюю зарплату (Salary) по городу (City) - используйте файл приложенный к дз - dz.csv​

3. В поле сдачи домашнего задания приложите ссылку на репозиторий с кодом.



Загрузим выбранный файл

Это файл ["YouTube Top 100 Songs 2025 Dataset"](https://www.kaggle.com/datasets/vedikagupta0/youtube-top-100-songs-2025-dataset?resource=download&select=youtube-top-100-songs-2025.csv) из одноименного соревнования

### Описание набора данных

Этот набор данных содержит топ-100 песен YouTube 2025 года, включая подробные метаданные о самых популярных треках года. Он включает в себя следующую информацию:

🎵 Song Titles & Full Titles (Названия песен и полные названия — официальные названия видео, представленные на YouTube)

📝 Descriptions (Описания — официальные описания исполнителей/лейблов, промоакции и ссылки на альбомы)

👀 View Counts (Количество просмотров — от нескольких тысяч до более чем 2 миллиардов просмотров)

⏱️ Duration (Продолжительность — от коротких треков (~2 минуты) до расширенных версий (~6 минут))

🎶 Categories (Категории — в основном музыка, с несколькими записями в разделах «Люди» и «Блоги»)

🏷️ Tags  (Теги — имена исполнителей, лейблы и ключевые слова, связанные с жанром)

🖼️ Thumbnails (Миниатюры — превью-изображения видео для каждой песни)

📅 Collected Date (Дата сбора данных — 22 сентября 2025 г).

### Загрузка датасета

In [None]:
df = pd.read_csv('youtube-top-100-songs-2025.csv')
df.head()

Unnamed: 0,title,fulltitle,description,view_count,categories,tags,duration,duration_string,live_status,thumbnail,channel,channel_url,channel_follower_count
0,ROSÉ & Bruno Mars - APT. (Official Music Video),ROSÉ & Bruno Mars - APT. (Official Music Video),ROSÉ & Bruno Mars - APT.\nDownload/stream: ht...,2009014557,Music,YG Entertainment;YG;와이지;K-pop;BLACKPINK;블랙핑크;블...,173,2:53,False,https://i.ytimg.com/vi_webp/ekr2nIex040/maxres...,ROSÉ,https://www.youtube.com/channel/UCBo1hnzxV9rz3...,19200000
1,"Lady Gaga, Bruno Mars - Die With A Smile (Offi...","Lady Gaga, Bruno Mars - Die With A Smile (Offi...",MAYHEM OUT NOW\nhttp://ladygaga.com \n \nListe...,1324833300,Music,Lady Gaga;Bruno Mars;Interscope;Pop,252,4:12,False,https://i.ytimg.com/vi/kPa7bsKwL-c/maxresdefau...,Lady Gaga,https://www.youtube.com/channel/UC07Kxew-cMIay...,29600000
2,Reneé Rapp - Leave Me Alone (Official Music Vi...,Reneé Rapp - Leave Me Alone (Official Music Vi...,"Listen to “BITE ME”, the new album from Reneé ...",2536628,Music,Reneé Rapp;Interscope Records;Pop,160,2:40,False,https://i.ytimg.com/vi/tiPWzFLiz4A/maxresdefau...,Reneé Rapp,https://www.youtube.com/channel/UCZy4ki_L4bzw9...,408000
3,Billie Eilish - BIRDS OF A FEATHER (Official M...,Billie Eilish - BIRDS OF A FEATHER (Official M...,Listen to HIT ME HARD AND SOFT: https://billie...,558329099,Music,Billie Eilish;Darkroom/Interscope Records;Alte...,231,3:51,False,https://i.ytimg.com/vi/V9PVRfjEBTI/maxresdefau...,Billie Eilish,https://www.youtube.com/channel/UCDGmojLIoWpXo...,56800000
4,Reneé Rapp - Mad (Official Music Video),Reneé Rapp - Mad (Official Music Video),"Listen to “BITE ME”, the new album from Reneé ...",2113548,Music,Reneé Rapp;Interscope Records;Pop,180,3:00,False,https://i.ytimg.com/vi/xkWQM3flsiY/maxresdefau...,Reneé Rapp,https://www.youtube.com/channel/UCZy4ki_L4bzw9...,408000


### Разная информация о датасете

Можно узнать размер таблицы, информацию о значениях таблицы, различные статистики по значениям.

#### проверим форму датасета

In [None]:
print('\nStep 3 — Shape: ', df.shape)


Step 3 — Shape:  (100, 13)


видим, что в датасете 100 строк и 13 колонок

найдем пропущенные значения и дубли в столбцах

In [None]:
print(df.isnull().sum())
print('\nDuplicates: ', df.duplicated().sum())

title                      0
fulltitle                  0
description                0
view_count                 0
categories                 0
tags                      15
duration                   0
duration_string            0
live_status                0
thumbnail                  0
channel                    0
channel_url                0
channel_follower_count     0
dtype: int64

Duplicates:  0


а теперь проверим статистику. Но поскольку это можно сделать только для численных характеристик, то сначала выделим их в отдельный датасет

In [None]:
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
print('\nStep 6 — Numeric summary:')
print(df[numeric_cols].describe().T)


Step 6 — Numeric summary:
                        count          mean           std     min         25%  \
view_count              100.0  1.059103e+08  2.491132e+08  1161.0  18527021.0   
duration                100.0  2.039000e+02  4.426059e+01   120.0       173.0   
channel_follower_count  100.0  1.612067e+07  1.980038e+07     1.0    613250.0   

                               50%           75%           max  
view_count              37982240.0  1.111073e+08  2.009015e+09  
duration                     193.5  2.317500e+02  3.540000e+02  
channel_follower_count   6320000.0  2.760000e+07  7.620000e+07  


еще одна полезная команда

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   title                   100 non-null    object
 1   fulltitle               100 non-null    object
 2   description             100 non-null    object
 3   view_count              100 non-null    int64 
 4   categories              100 non-null    object
 5   tags                    85 non-null     object
 6   duration                100 non-null    int64 
 7   duration_string         100 non-null    object
 8   live_status             100 non-null    bool  
 9   thumbnail               100 non-null    object
 10  channel                 100 non-null    object
 11  channel_url             100 non-null    object
 12  channel_follower_count  100 non-null    int64 
dtypes: bool(1), int64(3), object(9)
memory usage: 9.6+ KB


определим количество уникальных значений

In [None]:
print('Unique titles:', df['fulltitle'].nunique() if 'fulltitle' in df.columns else df['fulltitle'].nunique())
if 'tags' in df.columns:
    print('Unique tags entries:', df['tags'].nunique())
if 'categories' in df.columns:
    print('Unique categories:', df['categories'].nunique())

Unique titles: 100
Unique tags entries: 76
Unique categories: 2


#### Задание 2

Определите среднюю зарплату (Salary) по городу (City) - используйте файл приложенный к дз - dz.csv​

In [None]:
df1 = pd.read_csv('dz.csv')
df1

Unnamed: 0,Name,City,Salary
0,Аня,Томск,200000.0
1,Боб,Москва,350000.0
2,Чарли,Москва,270000.0
3,Лиза,Томск,70000.0
4,Настя,,35000.0
5,Саша,Томск,23000.0
6,Сергей,Москва,250000.0
7,Максим,Москва,
8,Иван,Москва,67000.0
9,Станислав,Москва,120000.0


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Name    12 non-null     object 
 1   City    10 non-null     object 
 2   Salary  11 non-null     float64
dtypes: float64(1), object(2)
memory usage: 420.0+ bytes


есть пропуски. Подумаем, чем их заменить.

Обычно категориальные характеристики заменяют самыми частыми значениями (по моде)



In [None]:
most_freq_city = df['City'].mode()[0]
df['City'] = df['City'].fillna(most_freq_city)
df

Unnamed: 0,Name,City,Salary
0,Аня,Томск,200000.0
1,Боб,Москва,350000.0
2,Чарли,Москва,270000.0
3,Лиза,Томск,70000.0
4,Настя,Москва,35000.0
5,Саша,Томск,23000.0
6,Сергей,Москва,250000.0
7,Максим,Москва,
8,Иван,Москва,67000.0
9,Станислав,Москва,120000.0


пропуски в "Salary" заменим медианой по столбцу

In [None]:
median_salary = df['Salary'].median()
df['Salary'] = df['Salary'].fillna(median_salary)
df

Unnamed: 0,Name,City,Salary
0,Аня,Томск,200000.0
1,Боб,Москва,350000.0
2,Чарли,Москва,270000.0
3,Лиза,Томск,70000.0
4,Настя,Москва,35000.0
5,Саша,Томск,23000.0
6,Сергей,Москва,250000.0
7,Максим,Москва,72000.0
8,Иван,Москва,67000.0
9,Станислав,Москва,120000.0


теперь можно определить среднюю зарплату по городам. Используем группировку

In [None]:
mean_salary_by_city = df.groupby('City')['Salary'].mean()
print(mean_salary_by_city)

City
Москва    151375.0
Томск      91250.0
Name: Salary, dtype: float64
