### DataFrame Load & Save

In [1]:
import numpy as np
import pandas as pd

In [4]:
n = "\n--------------------------------------------------------------------------\n"

##### read_csv

In [7]:
df = pd.read_csv('./data/users.csv')
print(df.columns, n)
print(df.index, n)
print(df.shape, n)
print(df.info(), n)
print(df.describe(), n)
print(df.head(), n)
print(df.tail(), n)
print(df)

Index(['id', 'first_name', 'last_name', 'email', 'gender', 'ip_address'], dtype='object') 
--------------------------------------------------------------------------

RangeIndex(start=0, stop=1000, step=1) 
--------------------------------------------------------------------------

(1000, 6) 
--------------------------------------------------------------------------

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          1000 non-null   int64 
 1   first_name  1000 non-null   object
 2   last_name   1000 non-null   object
 3   email       1000 non-null   object
 4   gender      1000 non-null   object
 5   ip_address  1000 non-null   object
dtypes: int64(1), object(5)
memory usage: 47.0+ KB
None 
--------------------------------------------------------------------------

                id
count  1000.000000
mean    500.500000
std     288.819

In [None]:
# 확장자가 다르더라도 csv 데이터면 read_csv로 처리 가능
df = pd.read_csv('./data/users.txt')
df

Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
1,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
2,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
3,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
4,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
...,...,...,...,...,...,...
995,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
996,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
997,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
998,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


In [11]:
df = pd.read_csv('./data/users.tsv')
df

Unnamed: 0,id\tfirst_name\tlast_name\temail\tgender\tip_address
0,1\tNorbie\tWrassell\tnwrassell0@bbc.co.uk\tMal...
1,2\tTybalt\tCovendon\ttcovendon1@indiegogo.com\...
2,3\tElyn\tVolk\tevolk2@umich.edu\tFemale\t254.1...
3,4\tTodd\tCarriage\ttcarriage3@youku.com\tMale\...
4,5\tPryce\tBrookzie\tpbrookzie4@dmoz.org\tAgend...
...,...
995,996\tAllsun\tMcTeague\tamcteaguern@moonfruit.c...
996,997\tViva\tEpinoy\tvepinoyro@cnbc.com\tFemale\...
997,998\tHeall\tMallett\thmallettrp@google.it\tMal...
998,999\tConroy\tScandrett\tcscandrettrq@cornell.e...


In [None]:
# 구분자가 ,가 아닌 다른 문자인 경우에도 sep 인자를 넘겨주면 read_csv로 처리 가능 **중요**

# ? 질문 : 내 생각은 csv 는 comma 즉 , 를 통해서 데이터 컬럼을 구별하고
# txt 파일 또한 , csv 와 같은 형태이므로 문제가 되지 않는다.
# 그럼 tsv 와 같은 경우는 지금 \t (이스케이프 문자)로 구분을 하고 있다.
# 그러므로 \t 를 , 의 형태로 바꾸면 될 것 같은데 아닌가요? 설명 부탁드립니다.
# 지금은 sep 인자를 통해서 구분자를 \t 로 넣어주었습니다. 이는 구분자로 탭을 한다는 것으로 바꾼다는 의미인데 , 가 아니지 않나요?


# 질문에 대한 설명입니다.
# csv 파일은 기본적으로 쉼표(,)로 컬럼을 구분합니다.
# txt 파일도 실제로 쉼표(,)로 구분되어 있다면 read_csv로 문제없이 읽을 수 있습니다.
# 하지만 tsv 파일은 컬럼이 탭(\t) 문자로 구분되어 있습니다.
# sep 인자를 통해 구분자를 '\t'로 지정하면, pandas가 각 컬럼을 탭 기준으로 나누어 읽게 됩니다.
# 만약 tsv 파일의 내용을 직접 ,(쉼표)로 바꾼다면 csv 파일과 동일하게 읽을 수 있지만,
# 파일을 직접 수정하지 않고 sep='\t' 옵션을 주는 것이 일반적이고 더 안전한 방법입니다.
# 즉, sep='\t'는 파일의 구분자를 탭으로 "넣어서 바꾼다"는 의미가 아니라,
# "이 파일은 탭으로 구분되어 있으니 탭을 기준으로 컬럼을 나눠라"라는 의미입니다.

df = pd.read_csv('./data/users.tsv', sep='\t')
df

Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
1,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
2,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
3,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
4,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
...,...,...,...,...,...,...
995,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
996,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
997,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
998,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


In [23]:
df = pd.read_csv('./data/headless_users.csv')
df

Unnamed: 0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
0,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
1,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
2,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
3,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
4,6,Kamilah,Rispin,krispin5@twitter.com,Female,115.131.102.123
...,...,...,...,...,...,...
994,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
995,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
996,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
997,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          1000 non-null   int64 
 1   first_name  1000 non-null   object
 2   last_name   1000 non-null   object
 3   email       1000 non-null   object
 4   gender      1000 non-null   object
 5   ip_address  1000 non-null   object
dtypes: int64(1), object(5)
memory usage: 47.0+ KB


In [28]:
# 헤더가 없는 경우에는 header=None 인자를 추가하여 헤더를 지정하지 않도록 합니다.
df = pd.read_csv(
    './data/headless_users.csv',
     header=None
     )
df

Unnamed: 0,0,1,2,3,4,5
0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
1,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
2,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
3,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
4,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
...,...,...,...,...,...,...
995,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
996,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
997,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
998,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


In [38]:
# 헤더가 없는 경우에는 header=None 인자를 추가하여 헤더를 지정하지 않도록 합니다.
# 첫 줄에 column label이 없는 데이터
# header=None 인자를 추가하여 헤더를 지정하지 않도록 합니다.
# names 인자를 추가하여 column label을 지정합니다.

df = pd.read_csv(
    './data/headless_users.csv',
     header=None,
     names=["id", "first_name", "last_name", "email", "gender", "ip_address"]
     )
df

Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
1,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
2,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
3,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
4,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
...,...,...,...,...,...,...
995,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
996,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
997,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
998,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          1000 non-null   int64 
 1   first_name  1000 non-null   object
 2   last_name   1000 non-null   object
 3   email       1000 non-null   object
 4   gender      1000 non-null   object
 5   ip_address  1000 non-null   object
dtypes: int64(1), object(5)
memory usage: 47.0+ KB


In [None]:
# 헤더가 없는 경우에는 header=None 인자를 추가하여 헤더를 지정하지 않도록 합니다.
df = pd.read_csv('./data/headless_users.csv', header=["id", "first_name", "last_name", "email", "gender", "ip_address"])
df

# ! **중요** names 인자를 추가하여 column label을 지정합니다.

ValueError: header must be integer or list of integers

---
##### to_csv

In [32]:
df.to_csv('./data/users2.csv')

In [None]:
df2 = pd.read_csv('./data/users2.csv') # 기본값: index=True, header=True
df2
# to_csv로 저장한 파일은 가장 왼쪽 열에 인덱스 열이 추가되어 저장됩니다.

Unnamed: 0.1,Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
1,1,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
2,2,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
3,3,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
4,4,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
...,...,...,...,...,...,...,...
995,995,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
996,996,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
997,997,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
998,998,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


In [41]:
df.to_csv('./data/users2_no_index.csv', index=False)
df3 = pd.read_csv('./data/users2_no_index.csv')
df3
# 인덱스 열을 제거하려면 index=False 인자를 추가합니다.

Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
1,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
2,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
3,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
4,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
...,...,...,...,...,...,...
995,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
996,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
997,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
998,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


In [40]:
df.to_csv('./data/users2_no_index_no_header.csv', index=False, header=False)
df4 = pd.read_csv('./data/users2_no_index_no_header.csv')
df4
# 인덱스 열과 헤더를 모두 제거하려면 index=False와 header=False를 함께 사용합니다.


Unnamed: 0,1,Norbie,Wrassell,nwrassell0@bbc.co.uk,Male,201.234.222.219
0,2,Tybalt,Covendon,tcovendon1@indiegogo.com,Male,90.113.205.35
1,3,Elyn,Volk,evolk2@umich.edu,Female,254.131.69.38
2,4,Todd,Carriage,tcarriage3@youku.com,Male,242.31.116.66
3,5,Pryce,Brookzie,pbrookzie4@dmoz.org,Agender,212.63.28.128
4,6,Kamilah,Rispin,krispin5@twitter.com,Female,115.131.102.123
...,...,...,...,...,...,...
994,996,Allsun,McTeague,amcteaguern@moonfruit.com,Female,134.34.119.166
995,997,Viva,Epinoy,vepinoyro@cnbc.com,Female,93.2.144.250
996,998,Heall,Mallett,hmallettrp@google.it,Male,254.24.191.245
997,999,Conroy,Scandrett,cscandrettrq@cornell.edu,Male,150.254.219.221


---
##### HTML 문서 내 table Load
- 정적 웹 페이지 내 table 태그 부분만 추출해 DataFrame 객체로 변환 가능
- Parsing 처리를 위한 lxml 패키지 필요

In [42]:
!pip install lxml

Collecting lxml
  Downloading lxml-6.0.1-cp312-cp312-win_amd64.whl.metadata (3.9 kB)
Downloading lxml-6.0.1-cp312-cp312-win_amd64.whl (4.0 MB)
   ---------------------------------------- 0.0/4.0 MB ? eta -:--:--
   ---------------------------------------- 4.0/4.0 MB 59.5 MB/s eta 0:00:00
Installing collected packages: lxml
Successfully installed lxml-6.0.1


In [43]:
import lxml

In [44]:
pd.read_html('https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%98%81%ED%99%94_%ED%9D%A5%ED%96%89_%EA%B8%B0%EB%A1%9D')

HTTPError: HTTP Error 403: Forbidden

In [45]:
pd.read_html('https://naver.com')

ImportError: Missing optional dependency 'html5lib'.  Use pip or conda to install html5lib.

In [47]:
url = 'https://www.kobis.or.kr/kobis/business/stat/offc/findFormerBoxOfficeList.do'

In [48]:
pd.read_html(url)

[                    순위                  영화명                  개봉일  \
 0  검색된 데이터가 존재하지 않습니다.  검색된 데이터가 존재하지 않습니다.  검색된 데이터가 존재하지 않습니다.   
 
        매출액  오름차순  내림차순      관객수  오름차순  내림차순     스크린수  오름차순  내림차순  
 0  검색된 데이터가 존재하지 않습니다.  검색된 데이터가 존재하지 않습니다.  검색된 데이터가 존재하지 않습니다.  ,
                     순위                  영화명                  개봉일  \
 0  검색된 데이터가 존재하지 않습니다.  검색된 데이터가 존재하지 않습니다.  검색된 데이터가 존재하지 않습니다.   
 
        매출액  오름차순  내림차순      관객수  오름차순  내림차순     스크린수  오름차순  내림차순  
 0  검색된 데이터가 존재하지 않습니다.  검색된 데이터가 존재하지 않습니다.  검색된 데이터가 존재하지 않습니다.  ,
                     순위                  영화명                  개봉일  \
 0  검색된 데이터가 존재하지 않습니다.  검색된 데이터가 존재하지 않습니다.  검색된 데이터가 존재하지 않습니다.   
 
        매출액  오름차순  내림차순      관객수  오름차순  내림차순     스크린수  오름차순  내림차순  
 0  검색된 데이터가 존재하지 않습니다.  검색된 데이터가 존재하지 않습니다.  검색된 데이터가 존재하지 않습니다.  ,
                     순위                  영화명                  개봉일  \
 0  검색된 데이터가 존재하지 않습니다.  검색된 데이터가 존재하지 않습니다.  검색된 데이터가 존재하지 않습니다.   
 
        매출액  오름차순  내림차순      

In [50]:
kmdb = 'https://www.kmdb.or.kr/db/list/detail/242/0003'
pd.read_html(kmdb)

[     순위       제목   감독  제작년도          영상도서관  열람자료  내가 본  영화
 0   1.0  하녀  VOD  김기영  1960  B  B  B  D  D  D  D       NaN
 1   2.0   살인의 추억  봉준호  2003        B  B  B  B  D       NaN
 2   3.0      기생충  봉준호  2019        B  B  B  B  D       NaN
 3   4.0      오발탄  유현목  1961                 B  D       NaN
 4   5.0     올드보이  박찬욱  2003           B  B  D  D       NaN
 ..  ...      ...  ...   ...                  ...       ...
 95  NaN      우리들  윤가은  2016                    D       NaN
 96  NaN      부산행  연상호  2016                 B  D       NaN
 97  NaN       버닝  이창동  2018                 B  D       NaN
 98  NaN       벌새  김보라  2018              B  B  D       NaN
 99  NaN     자산어보  이준익  2019                 B  D       NaN
 
 [100 rows x 6 columns]]

In [51]:
tables = pd.read_html(kmdb)
len(tables)

1

In [52]:
tables

[     순위       제목   감독  제작년도          영상도서관  열람자료  내가 본  영화
 0   1.0  하녀  VOD  김기영  1960  B  B  B  D  D  D  D       NaN
 1   2.0   살인의 추억  봉준호  2003        B  B  B  B  D       NaN
 2   3.0      기생충  봉준호  2019        B  B  B  B  D       NaN
 3   4.0      오발탄  유현목  1961                 B  D       NaN
 4   5.0     올드보이  박찬욱  2003           B  B  D  D       NaN
 ..  ...      ...  ...   ...                  ...       ...
 95  NaN      우리들  윤가은  2016                    D       NaN
 96  NaN      부산행  연상호  2016                 B  D       NaN
 97  NaN       버닝  이창동  2018                 B  D       NaN
 98  NaN       벌새  김보라  2018              B  B  D       NaN
 99  NaN     자산어보  이준익  2019                 B  D       NaN
 
 [100 rows x 6 columns]]

In [54]:
tables[0]

Unnamed: 0,순위,제목,감독,제작년도,영상도서관 열람자료,내가 본 영화
0,1.0,하녀 VOD,김기영,1960,B B B D D D D,
1,2.0,살인의 추억,봉준호,2003,B B B B D,
2,3.0,기생충,봉준호,2019,B B B B D,
3,4.0,오발탄,유현목,1961,B D,
4,5.0,올드보이,박찬욱,2003,B B D D,
...,...,...,...,...,...,...
95,,우리들,윤가은,2016,D,
96,,부산행,연상호,2016,B D,
97,,버닝,이창동,2018,B D,
98,,벌새,김보라,2018,B B D,


In [None]:
movie_df = tables[0] # html에 여러개 table이 있을 경우 첫번째 table을 선택
movie_df

Unnamed: 0,순위,제목,감독,제작년도,영상도서관 열람자료,내가 본 영화
0,1.0,하녀 VOD,김기영,1960,B B B D D D D,
1,2.0,살인의 추억,봉준호,2003,B B B B D,
2,3.0,기생충,봉준호,2019,B B B B D,
3,4.0,오발탄,유현목,1961,B D,
4,5.0,올드보이,박찬욱,2003,B B D D,
...,...,...,...,...,...,...
95,,우리들,윤가은,2016,D,
96,,부산행,연상호,2016,B D,
97,,버닝,이창동,2018,B D,
98,,벌새,김보라,2018,B B D,


In [60]:
print(movie_df.info(), n)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   순위           10 non-null     float64
 1   제목           100 non-null    object 
 2   감독           100 non-null    object 
 3   제작년도         100 non-null    int64  
 4   영상도서관  열람자료  94 non-null     object 
 5   내가 본  영화     0 non-null      float64
dtypes: float64(2), int64(1), object(3)
memory usage: 4.8+ KB
None 
--------------------------------------------------------------------------



In [61]:
print(movie_df.describe(), n)

             순위         제작년도  내가 본  영화
count  10.00000   100.000000       0.0
mean    5.40000  1990.590000       NaN
std     2.91357    19.273206       NaN
min     1.00000  1934.000000       NaN
25%     3.25000  1979.500000       NaN
50%     5.50000  1995.500000       NaN
75%     7.75000  2005.000000       NaN
max    10.00000  2022.000000       NaN 
--------------------------------------------------------------------------



In [62]:
print(movie_df.head(), n)
print(movie_df.tail(), n)
print(movie_df.columns, n)
print(movie_df.index, n)
print(movie_df.shape, n)

    순위       제목   감독  제작년도          영상도서관  열람자료  내가 본  영화
0  1.0  하녀  VOD  김기영  1960  B  B  B  D  D  D  D       NaN
1  2.0   살인의 추억  봉준호  2003        B  B  B  B  D       NaN
2  3.0      기생충  봉준호  2019        B  B  B  B  D       NaN
3  4.0      오발탄  유현목  1961                 B  D       NaN
4  5.0     올드보이  박찬욱  2003           B  B  D  D       NaN 
--------------------------------------------------------------------------

    순위    제목   감독  제작년도 영상도서관  열람자료  내가 본  영화
95 NaN   우리들  윤가은  2016           D       NaN
96 NaN   부산행  연상호  2016        B  D       NaN
97 NaN    버닝  이창동  2018        B  D       NaN
98 NaN    벌새  김보라  2018     B  B  D       NaN
99 NaN  자산어보  이준익  2019        B  D       NaN 
--------------------------------------------------------------------------

Index(['순위', '제목', '감독', '제작년도', '영상도서관  열람자료', '내가 본  영화'], dtype='object') 
--------------------------------------------------------------------------

RangeIndex(start=0, stop=100, step=1) 
-----------------------------

In [65]:
# movie_df 에서 '봉준호' 감독 영화 조회
movie_df[movie_df['감독'] == '봉준호']

Unnamed: 0,순위,제목,감독,제작년도,영상도서관 열람자료,내가 본 영화
1,2.0,살인의 추억,봉준호,2003,B B B B D,
2,3.0,기생충,봉준호,2019,B B B B D,
80,,괴물,봉준호,2006,B D D D,
87,,마더,봉준호,2009,B B D D,


In [None]:
# movie_df 에서 '봉준호' 감독은 몇 개 등록되어있나?
len(movie_df[movie_df['감독'] == '봉준호'])

4

In [69]:
# count() 함수를 사용하여 봉준호 감독의 영화 개수 조회
movie_df[movie_df['감독'] == '봉준호'].count()
# '봉준호' 감독의 영화가 몇개 등록되어 있는 지 파악하고 싶었지만 .count() 함수를 사용하면 모든 컬럼에 대해 개수를 조회하기 때문에 영화 개수를 파악하기는 어려움

순위             2
제목             4
감독             4
제작년도           4
영상도서관  열람자료    4
내가 본  영화       0
dtype: int64

In [None]:
movie_df['감독'].value_count()

NameError: name 'movie_df' is not defined