# Introduction

Do higher film budgets lead to more box office revenue? Let's find out if there's a relationship using the movie budgets and financial performance data that I've scraped from [the-numbers.com](https://www.the-numbers.com/movie/budgets) on **May 1st, 2018**. 

หนังที่ใช้ทุนสร้างมากขึ้นจะมีได้รายได้จากการขายตั๋วภาพยนตร์มากขึ้นหรือไม่? มาดูว่ามีความสัมพันธ์หรือไม่ โดยใช้ข้อมูลงบประมาณภาพยนตร์และผลประกอบการทางการเงินที่ผมดึงข้อมูลจาก [the-numbers.com](https://www.the-numbers.com/movie/budgets) เมื่อวันที่ 1 พฤษภาคม 2018


<img src=https://i.imgur.com/kq7hrEh.png>

# Import Statements

In [None]:
import pandas as pd
import matplotlib.pyplot as plt


# Notebook Presentation

In [None]:
pd.options.display.float_format = '{:,.2f}'.format

from pandas.plotting import register_matplotlib_converters
register_matplotlib_converters()

# Read the Data

In [None]:
data = pd.read_csv('cost_revenue_dirty.csv')

# Explore and Clean the Data

**Challenge**: Answer these questions about the dataset:
**Challenge**: ตอบคำถามเหล่านี้เกี่ยวกับชุดข้อมูล:
- How many rows and columns does the dataset contain?
- ชุดข้อมูลมีกี่แถวและคอลัมน์?

- Are there any NaN values present?
- มีค่า NaN อยู่หรือไม่?

- Are there any duplicate rows?
- มีแถวที่ซ้ำกันหรือไม่?

- What are the data types of the columns?
- ประเภทของข้อมูลในคอลัมน์คืออะไร?

### Data Type Conversions

**Challenge**: Convert the `USD_Production_Budget`, `USD_Worldwide_Gross`, and `USD_Domestic_Gross` columns to a numeric format by removing `$` signs and `,`. 
<br>
<br>
Note that *domestic* in this context refers to the United States.



แปลงคอลัมน์ USD_Production_Budget, USD_Worldwide_Gross, และ USD_Domestic_Gross เป็นรูปแบบตัวเลขโดยการลบเครื่องหมาย $ และ , ออก
<br>
<br>
Note:  *domestic* ในข้อมูลนี้หมายถึงสหรัฐอเมริกา

**Challenge**: Convert the `Release_Date` column to a Pandas Datetime type. 

**Challenge**: แปลง `Release_Date` column ไปเป็น Pandas Datetime type. 

### Descriptive Statistics

**Challenge**: 

1. What is the average production budget of the films in the data set?
2. What is the average worldwide gross revenue of films?
3. What were the minimums for worldwide and domestic revenue?
4. Are the bottom 25% of films actually profitable or do they lose money?
5. What are the highest production budget and highest worldwide gross revenue of any film?
6. How much revenue did the lowest and highest budget films make?


---
**Challenge**: 

1. ค่าเฉลี่ยของงบประมาณในการผลิตภาพยนตร์ในชุดข้อมูลคืออะไร?
2. ค่าเฉลี่ยของรายได้จากการขายทั่วโลกของภาพยนตร์คืออะไร?
3. ค่าขั้นต่ำของรายได้จากการขายทั่วโลกและรายได้ในประเทศ (domestic) คืออะไร?
4. ภาพยนตร์ 25% แรกในชุดข้อมูลนั้นมีกำไรจริงหรือสูญเสียเงิน?
5. ภาพยนตร์ที่มีงบประมาณในการผลิตสูงสุดและภาพยนตร์ที่มีรายได้จากการขายทั่วโลกสูงสุดคืออะไร?
6. ภาพยนตร์ที่มีงบประมาณต่ำสุดและภาพยนตร์ที่มีรายได้สูงสุดได้รับเงินรายได้เท่าไร?


# Investigating the Zero Revenue Films

**Challenge** How many films grossed $0 domestically (i.e., in the United States)? What were the highest budget films that grossed nothing?

**Challenge** มีภาพยนตร์กี่เรื่องที่ไม่ได้รับรายได้ในประเทศ (domestically) คือ $0? และภาพยนตร์ที่มีงบประมาณสูงสุดแต่ไม่ได้รับรายได้เลยคืออะไร?

**Challenge**: How many films grossed $0 worldwide? What are the highest budget films that had no revenue internationally?

**Challenge**: มีภาพยนตร์กี่เรื่องที่ไม่ได้รับรายได้ทั่วโลก (worldwide) คือ $0? และภาพยนตร์ที่มีงบประมาณสูงสุดแต่ไม่ได้รับรายได้ที่ระดับนานาชาติคืออะไร?

### Filtering on Multiple Conditions

**Challenge**: Use the [`.query()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) to accomplish the same thing. Create a subset for international releases that had some worldwide gross revenue, but made zero revenue in the United States. 

Hint: This time you'll have to use the `and` keyword.


**Challenge**: ใช้ [`.query()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) เพื่อทำสิ่งเดียวกัน สร้างชุดข้อมูลย่อยสำหรับการเผยแพร่ระดับนานาชาติที่มีรายได้จากการขายทั่วโลก แต่ไม่ได้รับรายได้ในสหรัฐอเมริกา

Hint: ในครั้งนี้คุณจะต้องใช้คำสั่ง  `and` 

### Unreleased Films

**Challenge**:
* Identify which films were not released yet as of the time of data collection (May 1st, 2018).
* How many films are included in the dataset that have not yet had a chance to be screened in the box office? 
* Create another DataFrame called data_clean that does not include these films. 

**Challenge**:

* ระบุภาพยนตร์ที่ยังไม่เข้าฉายตามเวลาที่เก็บข้อมูล (1 พฤษภาคม 2018)
* มีภาพยนตร์กี่เรื่องในชุดข้อมูลที่ยังไม่ได้มีโอกาสเข้าฉายในโรงภาพยนตร์?
* สร้าง DataFrame อีกชุดที่ชื่อว่า data_clean โดยไม่รวมภาพยนตร์เหล่านี้ลงไปในชุดข้อมูล

In [None]:
# Date of Data Collection
scrape_date = pd.Timestamp('2018-5-1')

### Films that Lost Money

**Challenge**: 
What is the percentage of films where the production costs exceeded the worldwide gross revenue? 

**Challenge**: 
เปอร์เซ็นต์ของภาพยนตร์ที่ค่าใช้จ่ายในการผลิตเกินรายได้จากการขายทั่วโลกหรือไม่?

# Seaborn for Data Viz: Bubble Charts

### Plotting Movie Releases over Time

**Challenge**: Try to create the following Bubble Chart:

**Challenge**: สร้าง Bubble Chart ตามรูปด้านล่าง:

<img src=https://i.imgur.com/8fUn9T6.png>



# Converting Years to Decades Trick

**Challenge**: Create a column in `data_clean` that has the decade of the release. 

**Challenge**: สร้าง column ใน `data_clean` ที่ระบุทศวรรษการเผยแพร่ (decade of the release)

<img src=https://i.imgur.com/0VEfagw.png width=650> 

Here's how: 
1. Create a [`DatetimeIndex` object](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DatetimeIndex.html) from the Release_Date column. 
2. Grab all the years from the `DatetimeIndex` object using the `.year` property.
<img src=https://i.imgur.com/5m06Ach.png width=650>
3. Use floor division `//` to convert the year data to the decades of the films.
4. Add the decades as a `Decade` column to the `data_clean` DataFrame.


นี่คือวิธีการ:
1. สร้าง DatetimeIndex object จากคอลัมน์ Release_Date.
2. เก็บข้อมูลปีทั้งหมดจาก DatetimeIndex object โดยใช้ .year property.
3. ใช้การหารจัดเศษ // เพื่อแปลงข้อมูลปีเป็นทศวรรษของภาพยนตร์.
4. เพิ่มทศวรรษเป็นคอลัมน์ชื่อ Decade ใน DataFrame data_clean 


### Separate the "old" (before 1969) and "New" (1970s onwards) Films

**Challenge**: Create two new DataFrames: `old_films` and `new_films`
* `old_films` should include all the films before 1969 (up to and including 1969)
* `new_films` should include all the films from 1970 onwards
* How many films were released prior to 1970?
* What was the most expensive film made prior to 1970?


**Challenge**: สร้าง DataFrame 2 ตัว: `old_films` และ `new_films`
* `old_films` ควรรวมภาพยนตร์ทั้งหมดก่อนปี 1969 (รวมถึงปี 1969)
* `new_films` ควรรวมภาพยนตร์ทั้งหมดตั้งแต่ปี 1970 เป็นต้นไป
* มีภาพยนตร์กี่เรื่องที่เผยแพร่ก่อนปี 1970?
* ภาพยนตร์ที่ค่าใช้จ่ายสูงสุดก่อนปี 1970 คืออะไร?

# Seaborn Regression Plots

**Challenge**: Use Seaborn's `.regplot()` to show the scatter plot and linear regression line against the `new_films`. 

**Challenge**: ใช้ Seaborn's `.regplot()` แสดง scatter plot และ linear regression line เปรียบเทียบ `new_films`. 
<br>
<br>
Style the chart

Style ของ chart

* Put the chart on a `'darkgrid'`.
* ใส่ chart บน `'darkgrid'`
* Set limits on the axes so that they don't show negative values.
* ตั้งค่าขอบเขต axes ให้ไม่แสดงค่าที่เป็นลบ
* Label the axes on the plot "Revenue in \$ billions" and "Budget in \$ millions".
* ตั้งชื่อแกน "Revenue in \$ billions" และ "Budget in \$ millions"
* Provide HEX colour codes for the plot and the regression line. Make the dots dark blue (#2f4b7c) and the line orange (#ff7c43).
* ใช้รหัสสี HEX สำหรับ plot และ regression line โดย dots เป็น dark blue (#2f4b7c) และเส้นสีส้ม orange (#ff7c43)



Interpret the chart

อธิบายกราฟ Chart

* Do our data points for the new films align better or worse with the linear regression than for our older films?
* ข้อมูลของภาพยนตร์ใหม่มีความสัมพันธ์ linear regression ดีกว่าหรือแย่กว่าภาพยนตร์เก่า?
* Roughly how much would a film with a budget of $150 million make according to the regression line?
* โดยประมาณภาพยนตร์ที่มีงบประมาณ $150 ล้านจะสร้างรายได้ประมาณเท่าไรตาม linear regression?




# Run Your Own Regression with scikit-learn

$$ REV \hat ENUE = \theta _0 + \theta _1 BUDGET$$

**Challenge**: Run a linear regression for the `old_films`. Calculate the intercept, slope and r-squared. How much of the variance in movie revenue does the linear model explain in this case?

**Challenge**: รัน linear regression สำหรับ `old_films`  คำนวณ intercept, slope และ r-squared ว่าสมการเชิงเส้นอธิบายความแปรปรวนของรายได้จากภาพยนตร์ในกรณีนี้เป็นเท่าใด?


# Use Your Model to Make a Prediction

We just estimated the slope and intercept! Remember that our Linear Model has the following form:

เราเพิ่งประมาณค่า slope และ intercept  จำไว้ว่า Linear Model ของเรามีรูปแบบดังนี้:

$$ REV \hat ENUE = \theta _0 + \theta _1 BUDGET$$

**Challenge**:  How much global revenue does our model estimate for a film with a budget of $350 million? 

**Challenge**:  Model ของเราประมาณรายได้รวมทั่วโลกเท่าใดสำหรับภาพยนตร์ที่มีงบประมาณ $350 ล้าน?