# Chaper 1: 판다스 소개
> 1장에서는 판다스로 샘플 데이터셋을 분석하여 라이브러리가 무엇을 할 수 있는지에 대한 전체적인 그림을 그려볼 수 있도록 개요를 제공합니다.

* 판다스 : 파이썬 프로그랠밍 언어를 기반으로 구축된 데이터 분석용 라이브러리
  * 라이브러리(또는 패키지) : 특정 분야의 문제를 해결하기 위한 코드 모음
* 판다스는 정렬, 필터링, 정리, 중복 제거, 집계, 피벗 등의 데이터 조작 작업을 위한 도구 모음
* 판다스 장점
  * 처리 능력과 사용자 생산성 사이의 균형이 좋음
  * 간단하고 직관적인 명령 집합을 제공

<br>

## 판다스 둘러보기
* 데이터 설명
  * 역대 최고의 수익을 올린 영화 700편의 데이터셋
  * 5개의 변수 : Rank(순위), Title(제목), Studio(제작사), Gross(총수익), Year(개봉연도)


### 1.1 데이터셋 가져오기


In [4]:
# Load pandas library
import pandas as pd

* `read_csv()`
  * 판다스는 csv 파일의 내용을 DataFrame 객체로 가져옴
  * 객체 : 데이터를 저장하는 컨테이너
* 판다스는 한가지 유형의 객체(DataFrame)를 사용하여 다중 열의 데이터셋을 저장하고 다른 유형의 객체(Series)를 사용하여 단일 열 데이터셋을 저장함
  * DataFrame은 엑셀의 다중 열 테이블과 유사

In [5]:
pd.read_csv("/content/movies.csv")

Unnamed: 0,Rank,Title,Studio,Gross,Year
0,1,Avengers: Endgame,Buena Vista,"$2,796.30",2019
1,2,Avatar,Fox,"$2,789.70",2009
2,3,Titanic,Paramount,"$2,187.50",1997
3,4,Star Wars: The Force Awakens,Buena Vista,"$2,068.20",2015
4,5,Avengers: Infinity War,Buena Vista,"$2,048.40",2018
...,...,...,...,...,...
777,778,Yogi Bear,Warner Brothers,$201.60,2010
778,779,Garfield: The Movie,Fox,$200.80,2004
779,780,Cats & Dogs,Warner Brothers,$200.70,2001
780,781,The Hunt for Red October,Paramount,$200.50,1990


* 인덱스는 DataFrame의 왼쪽에 있는 오름차순 숫자
  * 인덱스 레이블은 데이터 행의 식별자 역할
  * 모든 열을 DataFrame의 인덱스로 설정할 수 있음
  * 인덱스에 적합한 열 : 각 행에 대한 기본 식별자 또는 참조 지점으로 사용할 수 있는 값

In [6]:
pd.read_csv('/content/movies.csv', index_col="Title")

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Avengers: Endgame,1,Buena Vista,"$2,796.30",2019
Avatar,2,Fox,"$2,789.70",2009
Titanic,3,Paramount,"$2,187.50",1997
Star Wars: The Force Awakens,4,Buena Vista,"$2,068.20",2015
Avengers: Infinity War,5,Buena Vista,"$2,048.40",2018
...,...,...,...,...
Yogi Bear,778,Warner Brothers,$201.60,2010
Garfield: The Movie,779,Fox,$200.80,2004
Cats & Dogs,780,Warner Brothers,$200.70,2001
The Hunt for Red October,781,Paramount,$200.50,1990


* 다른 곳에 ㅊㅁ조할 수 있도록 DataFrame을 moview 변수에 할당함
  * 변수 : 객체에 사용자가 붙인 이름

In [8]:
movies = pd.read_csv('/content/movies.csv', index_col="Title")

### 1.2 DataFrame 조작

In [9]:
# 첫 몇 행
movies.head(4)

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Avengers: Endgame,1,Buena Vista,"$2,796.30",2019
Avatar,2,Fox,"$2,789.70",2009
Titanic,3,Paramount,"$2,187.50",1997
Star Wars: The Force Awakens,4,Buena Vista,"$2,068.20",2015


In [10]:
# 마지막 몇 행
movies.tail(4)

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Garfield: The Movie,779,Fox,$200.80,2004
Cats & Dogs,780,Warner Brothers,$200.70,2001
The Hunt for Red October,781,Paramount,$200.50,1990
Valkyrie,782,MGM,$200.30,2008


In [11]:
# 몇개의 행이 있는지
len(movies)

782

In [12]:
# 행과 열 개수 확인
movies.shape # 782개 행 / 4개 변수

(782, 4)

In [14]:
# 총 셀 개수
movies.size

3128

In [15]:
# 데이터 유형
## int64 : 정수열 / object : 텍스트열
movies.dtypes

Rank       int64
Studio    object
Gross     object
Year       int64
dtype: object

* 1차원 레이블이 지정된 값 배열인 Series라는 새 객체를 반환함
  * 각 행에 대한 식별자가 있는 단일 데이터 열
  * Series의 인덱스 레이블은 4개의 변수임 -> 기존의 행값을 영로 변경하여 표시함

In [17]:
# 행의 숫자 순서에 따른 행 추출 
## 인덱스는 0부터 계산함
movies.iloc[499]

Rank           500
Studio         Fox
Gross     $288.30 
Year          2018
Name: Maze Runner: The Death Cure, dtype: object

* 인덱스 레이블을 사용하여 DataFrame 행에 접근할 수 있음

In [18]:
movies.loc["Forrest Gump"]

Rank            119
Studio    Paramount
Gross      $677.90 
Year           1994
Name: Forrest Gump, dtype: object

In [19]:
movies.loc["101 Dalmatians"]

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101 Dalmatians,425,Buena Vista,$320.70,1996
101 Dalmatians,708,Buena Vista,$215.90,1961


In [21]:
# 가장 최근에 개봉한 영화 다섯편
movies.sort_values(by = "Year", ascending = False).head()

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Avengers: Endgame,1,Buena Vista,"$2,796.30",2019
John Wick: Chapter 3 - Parabellum,458,Lionsgate,$304.70,2019
The Wandering Earth,114,China Film Corporation,$699.80,2019
Toy Story 4,198,Buena Vista,$519.80,2019
How to Train Your Dragon: The Hidden World,199,Universal,$519.80,2019


In [23]:
# 영화 제작사와 개봉일을 알파벳 순서대로 나열한 영화
movies.sort_values(by = ["Studio", "Year"]).head()

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
The Blair Witch Project,588,Artisan,$248.60,1999
101 Dalmatians,708,Buena Vista,$215.90,1961
The Jungle Book,755,Buena Vista,$205.80,1967
Who Framed Roger Rabbit,410,Buena Vista,$329.80,1988
Dead Poets Society,636,Buena Vista,$235.90,1989


In [24]:
# 인덱스 정렬 -> 영화 제목을 알파벳 순서대로 보고 싶을 때
movies.sort_index().head()

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
"10,000 B.C.",536,Warner Brothers,$269.80,2008
101 Dalmatians,708,Buena Vista,$215.90,1961
101 Dalmatians,425,Buena Vista,$320.70,1996
2 Fast 2 Furious,632,Universal,$236.40,2003
2012,93,Sony,$769.70,2009


## 1.3 Series의 값 계산
* 목표 : 가장 많은 수익을 올린 영화가 가장 많은 영화 제작사 찾기

In [25]:
# 각 제작사가 Studio 열에서 나타나는 횟수가 필요함
movies["Studio"]

Title
Avengers: Endgame                   Buena Vista
Avatar                                      Fox
Titanic                               Paramount
Star Wars: The Force Awakens        Buena Vista
Avengers: Infinity War              Buena Vista
                                     ...       
Yogi Bear                       Warner Brothers
Garfield: The Movie                         Fox
Cats & Dogs                     Warner Brothers
The Hunt for Red October              Paramount
Valkyrie                                    MGM
Name: Studio, Length: 782, dtype: object

In [27]:
# 반환값 : Series 객체
movies["Studio"].value_counts().head(5)

Warner Brothers    132
Buena Vista        125
Fox                117
Universal          109
Sony                86
Name: Studio, dtype: int64

## 1.4 하나 이상의 기준으로 열 필터링
* 목표 : 유니버셜 스튜디오에서 제작한 영화만 찾고 싶음

In [28]:
movies[movies["Studio"]=="Universal"]

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Jurassic World,6,Universal,"$1,671.70",2015
Furious 7,8,Universal,"$1,516.00",2015
Jurassic World: Fallen Kingdom,13,Universal,"$1,309.50",2018
The Fate of the Furious,17,Universal,"$1,236.00",2017
Minions,19,Universal,"$1,159.40",2015
...,...,...,...,...
The Break-Up,763,Universal,$205.00,2006
Everest,766,Universal,$203.40,2015
Patch Adams,772,Universal,$202.30,1998
Kindergarten Cop,775,Universal,$202.00,1990


* 필터링 조건을 변수에 할당하면 가독성이 높아짐

In [29]:
released_by_universal = (movies["Studio"]=="Universal")
movies[released_by_universal].head()

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Jurassic World,6,Universal,"$1,671.70",2015
Furious 7,8,Universal,"$1,516.00",2015
Jurassic World: Fallen Kingdom,13,Universal,"$1,309.50",2018
The Fate of the Furious,17,Universal,"$1,236.00",2017
Minions,19,Universal,"$1,159.40",2015


In [31]:
# Universal에서 제작 & 2015에 개봉
released_by_universal = (movies["Studio"]=="Universal")
released_in_2015 = (movies["Year"]==2015)
movies[released_by_universal & released_in_2015]

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Jurassic World,6,Universal,"$1,671.70",2015
Furious 7,8,Universal,"$1,516.00",2015
Minions,19,Universal,"$1,159.40",2015
Fifty Shades of Grey,165,Universal,$571.00,2015
Pitch Perfect 2,504,Universal,$287.50,2015
Ted 2,702,Universal,$216.70,2015
Everest,766,Universal,$203.40,2015
Straight Outta Compton,776,Universal,$201.60,2015


In [32]:
# Universal에서 제작 or 2015에 개봉
released_by_universal = (movies["Studio"]=="Universal")
released_in_2015 = (movies["Year"]==2015)
movies[released_by_universal | released_in_2015]

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Star Wars: The Force Awakens,4,Buena Vista,"$2,068.20",2015
Jurassic World,6,Universal,"$1,671.70",2015
Furious 7,8,Universal,"$1,516.00",2015
Avengers: Age of Ultron,9,Buena Vista,"$1,405.40",2015
Jurassic World: Fallen Kingdom,13,Universal,"$1,309.50",2018
...,...,...,...,...
The Break-Up,763,Universal,$205.00,2006
Everest,766,Universal,$203.40,2015
Patch Adams,772,Universal,$202.30,1998
Kindergarten Cop,775,Universal,$202.00,1990


In [34]:
# 1975년 이전에 개봉한 영화
before_1975 = movies["Year"] < 1975
movies[before_1975]

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
The Exorcist,252,Warner Brothers,$441.30,1973
Gone with the Wind,288,MGM,$402.40,1939
Bambi,540,RKO,$267.40,1942
The Godfather,604,Paramount,$245.10,1972
101 Dalmatians,708,Buena Vista,$215.90,1961
The Jungle Book,755,Buena Vista,$205.80,1967


In [35]:
# 1983년에서 1986년 사이에 개보앟ㄴ 영화
mid_80s = movies["Year"].between(1983, 1986)
movies[mid_80s]

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Return of the Jedi,222,Fox,$475.10,1983
Back to the Future,311,Universal,$381.10,1985
Top Gun,357,Paramount,$356.80,1986
Indiana Jones and the Temple of Doom,403,Paramount,$333.10,1984
Crocodile Dundee,413,Paramount,$328.20,1986
Beverly Hills Cop,432,Paramount,$316.40,1984
Rocky IV,467,MGM,$300.50,1985
Rambo: First Blood Part II,469,TriStar,$300.40,1985
Ghostbusters,485,Columbia,$295.20,1984
Out of Africa,662,Universal,$227.50,1985


In [36]:
# 영화 제목을 소문자로 바꾸고 제목에 'dark'라는 단어가 있는 영화
has_dark_in_title = movies.index.str.lower().str.contains("dark")
movies[has_dark_in_title]

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Transformers: Dark of the Moon,23,Paramount,"$1,123.80",2011
The Dark Knight Rises,27,Warner Brothers,"$1,084.90",2012
The Dark Knight,39,Warner Brothers,"$1,004.90",2008
Thor: The Dark World,132,Buena Vista,$644.60,2013
Star Trek Into Darkness,232,Paramount,$467.40,2013
Fifty Shades Darker,309,Universal,$381.50,2017
Dark Shadows,600,Warner Brothers,$245.50,2012
Dark Phoenix,603,Fox,$245.10,2019


## 1.5 데이터 그룹화
* 목적 : 어떤 제작사가 제작한 영화의 총수익이 가장 높은지
  * Gross 열의 값을 제작사별로 집계

* Gross 열의 값이 숫자가 아닌 텍스트로 저장됨
  * `$`와 `,`를 제거하는 과정이 필요함

In [44]:
# $와 ,를 모두 빈텍스트로 바꾸기 & 부동 소수점 숫자로 변환
movies['Gross'].str.replace("$", "", regex=False).str.replace(",", "", regex=False).astype(float)

Title
Avengers: Endgame               2796.3
Avatar                          2789.7
Titanic                         2187.5
Star Wars: The Force Awakens    2068.2
Avengers: Infinity War          2048.4
                                 ...  
Yogi Bear                        201.6
Garfield: The Movie              200.8
Cats & Dogs                      200.7
The Hunt for Red October         200.5
Valkyrie                         200.3
Name: Gross, Length: 782, dtype: float64

In [45]:
movies['Gross'] = (movies['Gross'].str.replace("$", "", regex=False).str.replace(",", "", regex=False).astype(float))
movies.head(5)

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Avengers: Endgame,1,Buena Vista,2796.3,2019
Avatar,2,Fox,2789.7,2009
Titanic,3,Paramount,2187.5,1997
Star Wars: The Force Awakens,4,Buena Vista,2068.2,2015
Avengers: Infinity War,5,Buena Vista,2048.4,2018


* 제작사를 식별하고 각 제작사에 속한 영화를 bucket으로 지정해야함 -> 이과정이 그룹화
  * Studio 열의 값을 기반으로 DataFrame의 행을 그룹화하는 예제

In [47]:
studios = movies.groupby("Studio")

In [49]:
# 제작사 당 영화 수
studios["Gross"].count().sort_values(ascending=False).head()

Studio
Warner Brothers    132
Buena Vista        125
Fox                117
Universal          109
Sony                86
Name: Gross, dtype: int64

In [50]:
# 제작사 당 수익
studios["Gross"].sum().sort_values(ascending=False).head()

Studio
Buena Vista        73585.0
Warner Brothers    58643.8
Fox                50420.8
Universal          44302.3
Sony               32822.5
Name: Gross, dtype: float64

In [51]:
# 제작사 당 수익 평균
studios["Gross"].mean().sort_values(ascending=False).head()

Studio
HC                        870.300000
China Film Corporation    699.800000
Newmarket                 611.900000
Buena Vista               588.680000
Lionsgate                 477.771429
Name: Gross, dtype: float64