In [1]:
import requests
import os

In [2]:
folder_name = "data"
url = "https://gist.githubusercontent.com/tiangechen/b68782efa49a16edaf07dc2cdaa855ea/raw/0c794a9717f18b094eabab2cd6a6b9a226903577/movies.csv"
file_name = "movies.csv"

In [3]:
if not os.path.exists(folder_name):
    os.makedirs(folder_name)

In [4]:
file_path = os.path.join(folder_name, file_name)
file_path

'data/movies.csv'

In [5]:
requests.get(url)

<Response [200]>

In [6]:
response = requests.get(url)

In [7]:
if response.status_code == 200:
    with open(file_path, 'wb') as file:
        file.write(response.content)
    print(f"Successfully created file {file_path}")
else:
    print("Cannot download file.")

Successfully created file data/movies.csv


In [8]:
import pandas as pd
import numpy as np

In [9]:
# df = pd.read_table("movies.csv", sep=",")
df = pd.read_csv("data/movies.csv")

In [10]:
df = df.drop_duplicates()

In [11]:
df.columns

Index(['Film', 'Genre', 'Lead Studio', 'Audience score %', 'Profitability',
       'Rotten Tomatoes %', 'Worldwide Gross', 'Year'],
      dtype='object')

In [12]:
df.dtypes

Film                  object
Genre                 object
Lead Studio           object
Audience score %       int64
Profitability        float64
Rotten Tomatoes %      int64
Worldwide Gross       object
Year                   int64
dtype: object

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 75 entries, 0 to 76
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Film               75 non-null     object 
 1   Genre              75 non-null     object 
 2   Lead Studio        75 non-null     object 
 3   Audience score %   75 non-null     int64  
 4   Profitability      75 non-null     float64
 5   Rotten Tomatoes %  75 non-null     int64  
 6   Worldwide Gross    75 non-null     object 
 7   Year               75 non-null     int64  
dtypes: float64(1), int64(3), object(4)
memory usage: 5.3+ KB


In [14]:
df.describe()

Unnamed: 0,Audience score %,Profitability,Rotten Tomatoes %,Year
count,75.0,75.0,75.0,75.0
mean,63.72,4.527171,46.493333,2009.066667
std,13.699043,8.121111,26.412207,1.349007
min,35.0,0.0,3.0,2007.0
25%,52.0,1.749447,26.0,2008.0
50%,64.0,2.639333,43.0,2009.0
75%,75.0,4.535337,64.5,2010.0
max,89.0,66.934,96.0,2011.0


In [15]:
# 3. Скільки всього фільмів у наборі даних?
# 	Існує щонайменше 5 способів:
# 1)   Використовується метод unique() для визначення унікальних значень у стовпці "Film", та обчислюється їхня кількість за допомогою len().
# 2)   Використовується функція len(), щоб порахувати загальну кількість рядків у DataFrame.
# 3)   Використовується метод count(), який підраховує кількість ненульових значень у стовпці "Film".
# 4)   Використовується метод value_counts(), який підраховує кількість кожного унікального значення у стовпці "Film".
# 5)   Використовується атрибут shape, щоб отримати кортеж, який містить кількість рядків і стовпців у DataFrame.

In [16]:
df.value_counts("Film") #4

Film
(500) Days of Summer                  1
27 Dresses                            1
A Dangerous Method                    1
A Serious Man                         1
Across the Universe                   1
                                     ..
What Happens in Vegas                 1
When in Rome                          1
You Will Meet a Tall Dark Stranger    1
Youth in Revolt                       1
Zack and Miri Make a Porno            1
Name: count, Length: 75, dtype: int64

In [17]:
# 4. Скільки фільмів є у наборі даних для кожного року?
# 	Існує щонайменше 5 способів:
# 1)   Використовується метод value_counts(), щоб підрахувати кількість фільмів для кожного унікального року у стовпці "Year".
# 2)   Використовується метод groupby() для групування рядків за значенням у стовпці "Year". 
#     Потім використовується метод agg() для обчислення кількості фільмів за кожний рік. Результат сортується за кількістю фільмів у зворотньому порядку.
# 3)   Застосовується метод groupby() для групування даних за роками, а потім застосовується метод count() для підрахунку кількості фільмів у кожній групі:
# groupby('Year')['Film'].count()
# Результат представляється у вигляді DataFrame.
# 4)   Застосовується метод groupby() для групування даних за роками, після чого обчислюється кількість фільмів у кожній групі: 
# groupby('Year').count()
# Результат представляється у вигляді DataFrame, де відображаються тільки стовпці "Year" і "Film" за допомогою функції loc:
# loc[:, ['Year', 'Film']]
# 5)   Використовується цикл для перебору унікальних значень року зі стовпця "Year" і підрахунку кількості фільмів для кожного року. 
#     Кожний раз, коли відбувається ітерація, фільтрується DataFrame за значенням року, обчислюється його довжина (кількість рядків) 
# і виводиться результат разом з відповідним роком.

In [18]:
df.value_counts("Year")

Year
2010    20
2008    19
2011    13
2009    12
2007    11
Name: count, dtype: int64

In [19]:
# 5. Покажіть детальну інформацію про найменш та найбільш прибуткові фільми у наборі даних.
# 	Використаймо фільтрацію. Спочатку виводяться рядки, де значення стовпця "Profitability" дорівнює максимальному значенню у цьому стовпці, 
# щоб показати найбільш прибутковий фільм. 
#     Потім виводяться рядки, де значення стовпця "Profitability" дорівнює мінімальному значенню у цьому стовпці, щоб показати найменш прибутковий фільм. 
# 	Інший синтаксис: Значення максимального та мінімального прибутку можна також знайти, використовуючи метод loc з умовою isin().

In [20]:
df["Genre"].unique()


array(['Romance', 'Comedy', 'Drama', 'Animation', 'Fantasy', 'Romence',
       'Comdy', 'Action', 'romance', 'comedy'], dtype=object)

In [21]:
df["Genre"] = df["Genre"].replace({
    "comedy": "Comedy",
    "Comdy": "Comedy",
    "Romence": "Romance",
    "romance": "Romance"
})

In [22]:
df["Genre"].unique()

array(['Romance', 'Comedy', 'Drama', 'Animation', 'Fantasy', 'Action'],
      dtype=object)

In [23]:
# 7. Збережіть (у новий файл CSV) 10 найкращих комедій за кількістю глядачів;  покажіть лише назву фільму, рік та студію.
# 	Використовується наступний підхід:
# 	Відбираються всі комедії за допомогою фільтрування за жанром.
# 	Відбираються перші 10 комедій за оцінкою глядачів у порядку спадання.
# 	Обираються лише потрібні стовпці: назва фільму, рік та студія.
# 	Зберігається результат у новому CSV файлі.
# 	Інший синтаксис: Результати можна також знайти, використовуючи метод loc з умовою isin().

In [24]:
df.head()

Unnamed: 0,Film,Genre,Lead Studio,Audience score %,Profitability,Rotten Tomatoes %,Worldwide Gross,Year
0,Zack and Miri Make a Porno,Romance,The Weinstein Company,70,1.747542,64,$41.94,2008
1,Youth in Revolt,Comedy,The Weinstein Company,52,1.09,68,$19.62,2010
2,You Will Meet a Tall Dark Stranger,Comedy,Independent,35,1.211818,43,$26.66,2010
3,When in Rome,Comedy,Disney,44,0.0,15,$43.04,2010
4,What Happens in Vegas,Comedy,Fox,72,6.267647,28,$219.37,2008


In [25]:
df_comedy = df[df["Genre"] == "Comedy"]
df_comedy.head()

# or
# df_comedy_bull = df["Genre"] == "Comedy"
# df_comedy = df[df_comedy_bull]

Unnamed: 0,Film,Genre,Lead Studio,Audience score %,Profitability,Rotten Tomatoes %,Worldwide Gross,Year
1,Youth in Revolt,Comedy,The Weinstein Company,52,1.09,68,$19.62,2010
2,You Will Meet a Tall Dark Stranger,Comedy,Independent,35,1.211818,43,$26.66,2010
3,When in Rome,Comedy,Disney,44,0.0,15,$43.04,2010
4,What Happens in Vegas,Comedy,Fox,72,6.267647,28,$219.37,2008
9,Valentine's Day,Comedy,Warner Bros.,54,4.184038,17,$217.57,2010


In [26]:
df.columns

Index(['Film', 'Genre', 'Lead Studio', 'Audience score %', 'Profitability',
       'Rotten Tomatoes %', 'Worldwide Gross', 'Year'],
      dtype='object')

In [27]:
top10_comedy = df_comedy.sort_values(by="Audience score %", ascending=False).head(10)

In [28]:
top10_comedy = top10_comedy[["Film", "Year", "Lead Studio"]]

In [29]:
top10_comedy.to_csv("top10_comedies.csv", index=False)
top10_comedy

Unnamed: 0,Film,Year,Lead Studio
54,Knocked Up,2007,Universal
27,Sex and the City,2008,Warner Bros.
76,(500) Days of Summer,2009,Fox
69,Enchanted,2007,Disney
71,Beginners,2011,Independent
44,Marley and Me,2008,Fox
60,High School Musical 3: Senior Year,2008,Disney
45,Mamma Mia!,2008,Universal
16,The Proposal,2009,Disney
30,Penelope,2008,Summit
