## 데이터 셋
영화 좋아하시나요?
- https://www.kaggle.com/datasets/harshitshankhdhar/imdb-dataset-of-top-1000-movies-and-tv-shows/

[별첨] # 마크다운 테이블 왼쪽 정렬을 위한 팁

In [None]:
%%html
<style> .rendered_html table{margin-left:5px} </style>

**데이터(data)**
이름 | 설명
- | -
Poster_Link | imdb가 사용하는 포스터 링크
Series_Title  | 영화 이름
Released_Year | 해당 영화가 개봉된 연도
Certificate | 인증서, 해당 영화로 얻은 인증서
Runtime  | 영화의 총 진행길이
Genre | 영화의 장르
IMDB_Rating | IMDB 사이트의 영화 등급
Overview | 개요. 미니스토리/요약
Meta_score | 영화에서 얻은 점수
Director | 영화 감독 이름
Star1,Star2,Star3,Star4 | 대표 배우 이름
No_of_votes | 총 투표 수
Gross | 해당 영화로 수익(돈)

**영감(Inspiration)**
- 영화 대 감독의 흥행 분석.
- 영화의 흥행 대 다른 스타의 총체적 분석.
- 영화 대 감독의 득표수 분석.
- 영화와 다른 스타의 투표수 분석.
- 어떤 배우가 어떤 장르를 더 선호하나요?
- IMDB_Rating 최대 시간이 좋은 배우 조합은 무엇입니까?
- 어떤 배우 조합이 좋은 성적을 내고 있나요?

## 실습

In [None]:
import pandas as pd

In [None]:
movie_df = pd.read_csv('imdb_top_1000.csv')
movie_df

## 필요한 열만 가져오기

In [None]:
cols = ['Series_Title', 'Released_Year', 'Certificate', 'Genre', 'IMDB_Rating', 'Meta_score', 'Director', 'No_of_Votes', 'Gross']

In [None]:
# 가져올 열 지정하기


## 열 순서를 변경하기
- 열의 우선순위를 생각해서 가져와보도록 하자.
- cols에 저장된 순서를 바꾸면 될까?

In [None]:
cols = ['Released_Year', 'Genre', 'Series_Title', 'Director', 'Meta_score', 'IMDB_Rating', 'No_of_Votes', 'Certificate', 'Gross']

In [None]:
# 순서 바꿔서 열 지정하기


변경이 되지 않는다.
다음과 같은 방법으로 변경할 수 있다.

## .info()
- 간략한 요약 출력
- index dtype, columns, non-nulll values, memry usage

**누락값(결측치) 존재 확인**
- 누락값이 Meta_score와 Certificate, Gross 열에서 보인다.
- 총 1000개의 데이터가 있어야하는데, `843 non-null`, `899 non-null`, `831 non-null`로 나온다.

## .describe()
- 집계 함수의 요약

In [None]:
# 반올림 처리를 한다면


In [None]:
# 유효숫자 1자리 = 소수점 2자리에서 반올림 처리


## 왜 수익은 .describe()에서 안나올까? 

In [None]:
# Gross의 타입을 보면 숫자형 타입이 아닌 object임을 알 수 있다.


In [None]:
# Gross의 포맷을 확인


## .str.replace() - 1단계 : 포맷 변경하기
- 숫자형 데이터로 변환 가능한 형태로 처리
- 데이터 분석에 유용한 형태로 가공하는 작업 : 데이터 전처리
- comma(,)부터 .str.replace() 로 삭제하자.
- https://pandas.pydata.org/docs/reference/api/pandas.Series.str.replace.html

In [None]:
# 1단계 comma(,) 삭제하기


In [None]:
# 확인


## .fillna() - 2단계 : 결측치 대체하기
- NaN으로 나오고 있는 결측치는 0으로 대체

In [None]:
# movie_df['Gross'].fillna(0, inplace=True)


In [None]:
# .info()로도 .count()로도 결측치 확인이 가능


## .astype() - 3단계 : dtype 변환하기
- 정수형 dtype인 int64로 변환

In [None]:
# .astype('변환형')


In [None]:
# 데이터 조회하면


In [None]:
# .describe()로 요약하면


## percentiles=
- 각 OO% 백분위수를 확인할 수 있다.

In [None]:
# 필요하다면 퍼센트 범위를 지정할 수도 있다.
# [20%, 40%, 60%, 80%] -> [.2, .4, .6, .8]


>**percentiles : list-like of numbers, optional**  
The percentiles to include in the output.   
All should fall between 0 and 1. The default is ``[.25, .5, .75]``, which returns the 25th, 50th, and 75th percentiles.

In [None]:
# 빈 리스트를 넣으면? -> 50%는 남는다


- 왜냐하면 50%는 사실은 median(중앙값)이고, 이 때문에 percentiles처리에 오류가 있다는 오해가 종종 있다.

## DataFrame 집계함수에서 numeric_only=
- max, min, mean 등을 DataFrame에서 바로 사용하면 때때로 경고(Warning)이 발생한다.
- 숫자형 데이터만 있는 건 아니기 때문임으로 숫자만 처리하도록 지정하는 것.

In [None]:
# 이러면 Warning 발생 - max


In [None]:
# numeric_only=True


## .quantile()
- quantile : 분위수 - 오름차순/내림차순 되있을 때 이를 나누는 지점
  - percentiles : 백분위수, 100개 영역 지점이 존재. 퍼센트
  - quartiles : 4분위수, 4구역 지점이 존재

In [None]:
# 만일 50% 지점을 확인한다면 0.5


In [None]:
# 50% 지점 == median(중앙값)


## include=

> **include : ‘all’, list-like of dtypes or None (default), optional**  
A white list of data types to include in the result. Ignored for Series. Here are the options:  
  
- all : All columns of the input will be included in the output.  
- A list-like of dtypes : Limits the results to the provided data types. To limit the result to numeric types submit numpy.number. To limit it instead to object columns submit the numpy.object data type. Strings can also be used in the style of select_dtypes (e.g. **df.describe(include=['O'])**). To select pandas categorical columns, use 'category'  
- None (default) : The result will include all numeric columns.  

---
1. 'all': 입력된 모든 열이 결과에 포함됩니다.
2. 데이터 유형의 목록 형태(list-like of dtypes): 결과를 지정된 데이터 유형으로 제한합니다. 
    - 숫자 유형에 대한 결과를 제한하려면 numpy.number를 사용하고, 
    - 객체 열에 대한 결과를 제한하려면 numpy.object 데이터 유형을 사용합니다. 
    - select_dtypes와 유사한 방식으로 문자열도 사용할 수 있습니다 (예: **df.describe(include=['O'])**). 알파벳임. 0아님  
    - pandas 범주형 열을 선택하려면 'category'를 사용합니다.
3. None (기본값): 결과에는 모든 숫자 열이 포함됩니다.

- count: 해당 열의 비어 있지 않은(non-null) 값의 개수
- unique: 해당 열에서 고유한(unique) 값의 개수
- top: 해당 열에서 가장 빈도가 높은 값(top value)
- freq: top 값의 빈도수

In [None]:
# 문자열 타입에 대한 요약 정보


In [None]:
# 숫자형 타입에 대한 요약 정보


In [None]:
# 문자열, int형에 대한 요약 정보


In [None]:
# 모든(all) 타입에 대한 요약 정보


표현할 수 없는 항목은 NaN으로 나온다.
- 문자열 데이터는 mean, std, min등을 표현할 수 없고
- 숫자형 데이터는 unique, top, freq를 표현할 수 있을 것 같은데, 크게 의미가 없습니다.
  - unique: 숫자형 데이터는 고유한(unique) 값의 개수를 가질 수 없으므로 NaN으로 처리
  - top: 숫자형 데이터는 가장 빈도가 높은(top) 값이라는 개념이 적용되지 않으므로 NaN으로 처리
  - freq: 숫자형 데이터는 각 값의 빈도수를 측정할 수 없으므로 NaN으로 처리