In [2]:
import pandas as pd
import numpy as np
from pathlib import Path

In [4]:
p1 = Path.cwd() / 'back_data'
movies = pd.read_csv(p1 / 'movie.csv')
# index label(axis=0), column name(axis=1), NaN(Not a Number -> 결측치)
movies.head()

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,7.1,,0


In [5]:
columns = movies.columns
# 가능하다면 Index 객체는 hash 테이블을 사용해 구현 -> set와 유사하나 순서가 있고 항목 중복 가능
index = movies.index
# numpy의 ndarray -> pandas의 대부분은 ndarray에 크게 의존
data = movies.to_numpy()
issubclass(columns.__class__, pd.Index)

True

In [6]:
# 데이터의 형식은 continuous(연속형, 연속변수)과 categorical(범주형, 이산변수)
# pandas의 분류 -> float, int, object, category(pd.Categorical), bool, datetime64[ns] 등
# 데이터 형식에 따라 연산 종류가 달라진다는 점 고려

In [9]:
# dtypes 메서드 활용해 데이터 형식 파악 -> value_counts() 메서드 체인 가능
# object 형식은 유효한 모든 파이썬 객체 포함
movies.dtypes.value_counts()

float64    13
object     12
int64       3
dtype: int64

In [10]:
# info() 메서드 활용(화면에만 출력) -> Series는 info()가 없음
movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4916 entries, 0 to 4915
Data columns (total 28 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   color                      4897 non-null   object 
 1   director_name              4814 non-null   object 
 2   num_critic_for_reviews     4867 non-null   float64
 3   duration                   4901 non-null   float64
 4   director_facebook_likes    4814 non-null   float64
 5   actor_3_facebook_likes     4893 non-null   float64
 6   actor_2_name               4903 non-null   object 
 7   actor_1_facebook_likes     4909 non-null   float64
 8   gross                      4054 non-null   float64
 9   genres                     4916 non-null   object 
 10  actor_1_name               4909 non-null   object 
 11  movie_title                4916 non-null   object 
 12  num_voted_users            4916 non-null   int64  
 13  cast_total_facebook_likes  4916 non-null   int64

In [14]:
# label-based / positional-based 열 또는 행 선택 -> loc, iloc
# False가 있는 이유 -> NaN은 자기 자신과 같지 않음
movies.loc[:, 'director_name'] == movies.iloc[:, 1]

0        True
1        True
2        True
3        True
4        True
        ...  
4911     True
4912    False
4913     True
4914     True
4915     True
Name: director_name, Length: 4916, dtype: bool

In [13]:
# .equals() 메서드를 통해 전체 비교
movies.loc[:, 'director_name'].equals(movies.iloc[:, 1])

True

In [15]:
# Series는 DataFrame의 dtypes 메서드와 달리 'dtype' 사용
movies['director_name'].dtype

dtype('O')

In [16]:
# apply() 메서드와 체인하여 'director_name'의 각 type 확인
# apply는 각 데이터에 반영, pipe는 전체 DataFrame 혹은 Series에 반영
movies['director_name'].apply(type).unique()

array([<class 'str'>, <class 'float'>], dtype=object)

In [17]:
director = movies['director_name']
fb_likes = movies['actor_1_facebook_likes']

In [18]:
# sample() 메서드 -> 첫 번째 인자는 샘플 개수, 두 번째 인자는 고정적인 상태 지정
director.sample(5, random_state=42)

2347      Brian Percival
4687         Lucio Fulci
691        Phillip Noyce
3911       Sam Peckinpah
2488    Rowdy Herrington
Name: director_name, dtype: object

In [20]:
# value_counts() 메서드를 통해 빈도(이산변수에서의 도수) 확인 가능
# normalize=True 인자 전달하여 상대도수 확인도 가능, sort= 인자 전달하여 정렬 여부도 가능, ascending= 인자 전달하여 정렬 방식도 가능
director.value_counts(normalize=True, sort=False)

James Cameron        0.001454
Gore Verbinski       0.001454
Sam Mendes           0.001454
Christopher Nolan    0.001662
Doug Walker          0.000208
                       ...   
Neill Dela Llana     0.000208
Anthony Vallone      0.000208
Scott Smith          0.000208
Benjamin Roberds     0.000208
Daniel Hsia          0.000208
Name: director_name, Length: 2397, dtype: float64

In [23]:
# unique() 메서드 활용하여 고유한 값을 가진 numpy 배열 반환
# count() 메서드는 결측치가 아닌 개수 반환(Series는 info() 미지원하므로 이렇게 확인)
director.size, director.shape, len(director), director.unique(), director.count()

(4916,
 (4916,),
 4916,
 array(['James Cameron', 'Gore Verbinski', 'Sam Mendes', ...,
        'Scott Smith', 'Benjamin Roberds', 'Daniel Hsia'], dtype=object),
 4814)

In [27]:
# min(), max(), mean(), median(), std() 등 기본적 통계량 확인 가능
# describe() 메서드를 사용해 요약 통계량 표시 -> 숫자형이냐 object 형식이냐에 따라 완전히 다른 값 반환
fb_likes.describe(percentiles=[0.2, 0.5, 0.8]), director.describe()

(count      4909.000000
 mean       6494.488491
 std       15106.986884
 min           0.000000
 20%         510.000000
 50%         982.000000
 80%       13000.000000
 max      640000.000000
 Name: actor_1_facebook_likes, dtype: float64,
 count                 4814
 unique                2397
 top       Steven Spielberg
 freq                    26
 Name: director_name, dtype: object)

In [26]:
# quantile() 메서드는 분위수를 계산 : 입력이 스칼라면 출력도 스칼라, 입력이 리스트면 출력은 Series
# describe() 메서드 내에서는 percentiles= 인자를 전달하여 분위수 확인
fb_likes.quantile([0.1, 0.5, 0.9])

0.1      240.0
0.5      982.0
0.9    18000.0
Name: actor_1_facebook_likes, dtype: float64

In [28]:
# isna()로 결측치 확인(반대는 notna())
# fillna('') 메서드로 결측치 대체
# hasnans 메서드로 전체 Series에 결측치가 있는지 여부도 확인

In [31]:
# dropna() 메서드를 통해 결측치 제거 -> DataFrame이라면 how='all' / how='any'인자 전달 가능
fb_likes_dropped = fb_likes.dropna(how='all')
fb_likes_dropped.shape

(4909,)