# Задания

In [1]:
# Импорт библиотеки pandas для работы с данными
import pandas as pd

# Загрузка данных из CSV-файла в DataFrame
data = pd.read_csv('data/data.csv')

# Вывод первых 5 строк DataFrame для первоначального ознакомления с данными
data.head()

Unnamed: 0,id,address,categories,city,cuisines,dateAdded,dateUpdated,latitude,longitude,menus.category,menus.currency,menus.dateSeen,menus.description,menus.name,name,province
0,AVwc__cikufWRAb51QjV,610 Commercial St,"Restaurant Delivery Service,Restaurants,Pizza,...",Atchison,Restaurant Delivery Service,2016-03-02T11:49:34Z,2017-02-01T18:04:44Z,39.56157,-95.12102,,,2017-02-01T18:04:44Z,,Taco,Gambino's Pizza,KS
1,AVwc__cikufWRAb51QjV,610 Commercial St,"Restaurant Delivery Service,Restaurants,Pizza,...",Atchison,Restaurant Delivery Service,2016-03-02T11:49:34Z,2017-02-01T18:04:44Z,39.56157,-95.12102,,,2016-03-02T11:49:34Z,"Beef, onion, cheddar cheese, lettuce, refried...",Taco,Gambino's Pizza,KS
2,AVwc__dF_7pvs4fz1Ncy,9521 Morton Davis Dr,"Golf Course, American Restaurant, and Resort",Patterson,,2016-10-14T01:58:25Z,2016-10-14T01:58:25Z,37.401855,-121.266703,,,2016-10-14T01:58:25Z,"Beef barbacoa or chicken, spanish rice, pico d...",Smotherd Burrito,Diablo Grande Golf & Country Club,Grayson
3,AVwc__kCByjofQCxkdm-,10550 W I 25 Frontage Rd,Fast Food Restaurant,Longmont,,2016-09-09T17:30:34Z,2016-10-04T05:15:17Z,,,,,2016-09-09T17:30:34Z,,Sausage Burrito,Mcdonald's,Niwot
4,AVwc__WtByjofQCxkdkR,8495 W 3rd St,"Mexican Restaurant Mid-City West,Mexican Resta...",Los Angeles,Mexican,2016-05-19T11:50:25Z,2016-09-11T00:06:37Z,34.080724,-118.389578,,,2016-05-19T11:50:25Z,"Wahoo, avocado, cabbage, pico de gallo and av...",Wahoo Tacogrilled,Baja Fresh Mexican Grill,Bicentennial


In [2]:
# Получаем информацию о типах данных для колонок city и latitude
data[['city', 'latitude']].dtypes

city         object
latitude    float64
dtype: object

In [3]:
# Получение описательной статистики для числовых колонок DataFrame
data.describe()

Unnamed: 0,latitude,longitude
count,55636.0,55636.0
mean,36.694846,-98.713309
std,4.835124,18.245857
min,-31.986438,-159.49269
25%,33.668355,-117.64715
50%,36.047195,-96.68232
75%,40.58838,-82.67993
max,61.21946,115.903696


In [4]:
# Удаление всех строк, содержащих хотя бы одно пропущенное значение (NaN)
# и получение размерности полученного DataFrame
data.dropna().shape

(1925, 16)

In [5]:
# Фильтруем данные по условиям: город California
filtered_data = data[data['city'] == 'California']

# Получаем индексы отфильтрованных строк
print(filtered_data.index.sort_values().tolist())

[40483, 52930, 52931, 52932, 52933, 52934, 52935, 52936, 52937, 52938, 52939, 65070]


In [6]:
# Фильтруем данные по условиям: город California и заведение Taco Bell
filtered_data = data[(data['city'] == 'California') & (data['name'] == 'Taco Bell')]

# Получаем индексы отфильтрованных строк
print(filtered_data.index.sort_values().tolist())

[52930, 52931, 52932, 52933, 52934, 52935, 52936, 52937, 52938, 52939]


In [7]:
# Условия фильтрации - DataFrame с заведениями, которые:
# Находятся в Нью-Йорке ИЛИ называются Taco Bell
# И не содержат в меню позиций "Volcano Taco" или "Fresco Soft Taco"

# Создание фильтрованного DataFrame по сложному условию
result = data[
    (((data['city'] == 'New York') | (data['name'] == 'Taco Bell')) & (~data['menus.name'].isin(['Volcano Taco', 'Fresco Soft Taco'])))
]

In [8]:
# Фильтрация данных: оставляем только заведения с указанной валютой оплаты
result = data[~data['menus.currency'].isna()]

In [9]:
# Анализ типа и структуры данных для колонки 'categories'

# Вариант 1: обращение как к Series
print(type(data['categories']))
print(data['categories'].dtypes, '\n')

# Вариант 2: обращение как к DataFrame с одной колонкой
print(type(data[['categories']]))
print(data[['categories']].dtypes)

<class 'pandas.core.series.Series'>
object 

<class 'pandas.core.frame.DataFrame'>
categories    object
dtype: object


In [10]:
# Получаем 5 городов с наибольшим количеством записей
data['city'].value_counts().nlargest(5)

city
San Diego        1924
Los Angeles      1603
Chicago          1186
San Francisco    1120
New York         1085
Name: count, dtype: int64

In [11]:
# Подсчет количества ресторанов Taco Bell в каждом городе и выбор топ-5 городов
result = data[data['name']=='Taco Bell']['city'].value_counts().iloc[0:5]
result

city
Indianapolis    84
Columbus        63
Charleston      63
Tampa           62
Albuquerque     42
Name: count, dtype: int64

In [12]:
# Преобразуем столбец dateAdded в datetime формат
data['dateAdded'] = pd.to_datetime(data['dateAdded'], errors='coerce')

# Фильтруем записи, где месяц открытия - октябрь (10)
october_openings = data[data['dateAdded'].dt.month == 10]

# Получаем индексы первых пяти записей в порядке возрастания
first_five_indices = october_openings.index[:5].sort_values().tolist()

# Выводим результат
first_five_indices

[2, 21, 22, 23, 24]

In [13]:
# Группировка по месяцу открытия ресторана и подсчет уникальных id
result = data.groupby(data['dateAdded'].dt.month)['id'].nunique()

# Преобразование результата в DataFrame и сброс индекса, установка dateAdded в качестве индекса
result = result.reset_index()
result.set_index('dateAdded', inplace=True)

# Выводим результат
result

Unnamed: 0_level_0,id
dateAdded,Unnamed: 1_level_1
1,308
2,257
3,4970
4,3224
5,1141
6,1356
7,645
8,479
9,554
10,4716


In [14]:
# Преобразуем колонки с датами в правильный формат datetime
data['dateAdded'] = pd.to_datetime(data['dateAdded'])
data['dateUpdated'] = pd.to_datetime(data['dateUpdated'])

# Вычисление разницы в днях между dateUpdated и dateAdded
data['update_delta'] = (data['dateUpdated'] - data['dateAdded']).dt.days

# Группировка по городу и вычисление среднего update_delta и максимальной широты
result = data.groupby('city', as_index=False).agg({
    'update_delta': 'mean', 
    'latitude': 'max'
})

# Сохранение среднего значения update_delta для города Zephyrhills
zep_mean = result[result['city'] == 'Zephyrhills']['update_delta'].values[0]

# Проверка результатов
print(result.head())
print(f"Среднее значение update_delta для Zephyrhills: {zep_mean}")

        city  update_delta   latitude
0  Abbeville    114.857143  29.982108
1   Aberdeen     81.625000  46.975110
2    Abilene    206.454545  32.453090
3   Abingdon    303.500000  36.712800
4   Abington    393.000000  40.124851
Среднее значение update_delta для Zephyrhills: 329.69565217391306


In [15]:
# Фильтрация ресторанов, у которых в колонке categories упоминается Pizza
pizza_restaurants = data[data['categories'].str.contains('Pizza', na=False)]

# Получение индекса 3-го элемента после фильтрации
third_index = pizza_restaurants.index[2]

third_index

np.int64(66)

In [16]:
# Отбираем записи с более чем 20 категориями
# Предполагаем, что категории разделены каким-то разделителем (например, запятой)
filtered_data = data[data['categories'].str.split(',').str.len() > 20]

# Группируем по провинциям и находим минимальную долготу в каждой
result = filtered_data.groupby('province')['longitude'].min().reset_index()

# Округляем значения долготы до 3-х знаков после запятой
result['longitude'] = result['longitude'].round(3)

# Переименовываем колонки согласно требованиям
result.columns = ['province', 'longitude']

# Сохраняем в CSV файл с сепаратором ;
# result.to_csv('result.csv', sep=';', index=False)

# Мини-проект

In [17]:
# Загрузка данных из CSV-файла в DataFrame
playstore = pd.read_csv('data/playstore.csv')

# Вывод первых и последних 5 строк DataFrame для первоначального ознакомления с данными
playstore

Unnamed: 0.1,Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
0,0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up
3,3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",Free,0,Teen,Art & Design,"June 8, 2018",Varies with device,4.2 and up
4,4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",Free,0,Everyone,Art & Design;Creativity,"June 20, 2018",1.1,4.4 and up
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10835,10835,Sya9a Maroc - FR,FAMILY,4.5,38,53M,"5,000+",Free,0,Everyone,Education,"July 25, 2017",1.48,4.1 and up
10836,10836,Fr. Mike Schmitz Audio Teachings,FAMILY,5.0,4,3.6M,100+,Free,0,Everyone,Education,"July 6, 2018",1.0,4.1 and up
10837,10837,Parkinson Exercices FR,MEDICAL,,3,9.5M,"1,000+",Free,0,Everyone,Medical,"January 20, 2017",1.0,2.2 and up
10838,10838,The SCP Foundation DB fr nn5n,BOOKS_AND_REFERENCE,4.5,114,Varies with device,"1,000+",Free,0,Mature 17+,Books & Reference,"January 19, 2015",Varies with device,Varies with device


In [18]:
# Сохраняем первые 3 строки датафрейма
data_head = playstore.head(3)

# Сохраняем последние 3 строки датафрейма  
data_tail = playstore.tail(3)

In [19]:
# Получаем количество строк и столбцов в датафрейме
n_row = playstore.shape[0]  # количество строк
n_col = playstore.shape[1]  # количество столбцов

n_row, n_col

(10840, 14)

In [20]:
# Подсчет количества уникальных приложений в колонке App
unique_apps_count = playstore['App'].nunique()

unique_apps_count

9659

In [21]:
# Подсчет пропущенных значений в колонке Rating
rating_missing = playstore['Rating'].isna().sum()
print(rating_missing)

1474


In [22]:
# Создаем три отдельных датафрейма из указанных срезов
df1 = playstore.iloc[0:3]    # первые три строки (индексы 0, 1, 2)
df2 = playstore.iloc[5:8]    # строки 6-8 (индексы 5, 6, 7) - потому что 5:8 дает индексы 5,6,7
df3 = playstore.iloc[15:19]  # строки 16-19 (индексы 15, 16, 17, 18) - потому что 15:19 дает индексы 15,16,17,18

# Выбираем только нужные колонки в каждом датафрейме
cols = ['App', 'Size', 'Genres', 'Current Ver']
df1 = df1[cols]
df2 = df2[cols]
df3 = df3[cols]

# Объединяем датафреймы с помощью concat
result_df = pd.concat([df1, df2, df3])

# Сохраняем в CSV файл с сохранением индексов
# result_df.to_csv('result.csv', index=True)

In [23]:
# Удаление дубликатов по колонке 'App' и сброс индекса
unique_playstore = playstore.drop_duplicates(subset='App').reset_index(drop=True)

In [24]:
# Вывод оригинальных названий колонок
original_columns = playstore.columns.tolist()

# Приведение названий колонок к стандартному виду
playstore.columns = playstore.columns.str.lower().str.replace(' ', '_')

# Вывод преобразованных названий колонок
new_columns = playstore.columns.tolist()

# Создание красивой таблицы сравнения
print("Таблица сравнения:")
print(f"{'До':<20} | {'После':<20}")
print("-" * 40)
for orig, new in zip(original_columns, new_columns):
    print(f"{orig:<20} | {new:<20}")

Таблица сравнения:
До                   | После               
----------------------------------------
Unnamed: 0           | unnamed:_0          
App                  | app                 
Category             | category            
Rating               | rating              
Reviews              | reviews             
Size                 | size                
Installs             | installs            
Type                 | type                
Price                | price               
Content Rating       | content_rating      
Genres               | genres              
Last Updated         | last_updated        
Current Ver          | current_ver         
Android Ver          | android_ver         


In [25]:
# Удаляем дубликаты приложений по колонке App
unique_apps = playstore.drop_duplicates(subset=['app'])

# Подсчитываем количество бесплатных приложений
free_count = unique_apps[unique_apps['type'] == 'Free'].shape[0]

# Подсчитываем общее количество уникальных приложений
total_count = unique_apps.shape[0]

# Вычисляем долю бесплатных приложений и округляем до сотых
free_ratio = round(free_count / total_count, 2)

free_ratio

0.92

In [26]:
# Фильтрация приложений по категории и количеству отзывов
education_playstore = playstore[
    (playstore['category'] == 'EDUCATION') & (playstore['reviews'] > 1000)
].reset_index(drop=True)

In [27]:
# Удаление знака $ из колонки price
playstore['price'] = playstore['price'].astype(str)
playstore['price'] = playstore['price'].str.replace('$', '', regex=False)

# Преобразование колонки price в тип float
playstore['price'] = playstore['price'].astype(float)

In [28]:
# Удаляем дубликаты приложений
unique_data = playstore.drop_duplicates(subset=['app'])

# Создаем сводную таблицу
pivot_table = unique_data.pivot_table(
    values=['price', 'rating', 'reviews'],
    index=['category', 'type'],
    aggfunc={
        'price': 'mean',
        'rating': 'mean', 
        'reviews': 'mean'
    }
)

# Переименовываем колонки
pivot_table.columns = ['mean_price', 'mean_rating', 'mean_reviews']

# Округляем значения
pivot_table['mean_price'] = pivot_table['mean_price'].round(2)
pivot_table['mean_rating'] = pivot_table['mean_rating'].round(1)
pivot_table['mean_reviews'] = pivot_table['mean_reviews'].round(2)

# Сбрасываем multi-index для сохранения в CSV
result = pivot_table.reset_index()

# Сохраняем в CSV
# result.to_csv('pivot_result.csv', index=False)