데이터 파일 분석: castings.csv
데이터 내용 및 필드 구성
castings.csv 파일은 영화 출연진(캐스팅) 정보를 담고 있습니다. 각 열은 다음과 같은 의미를 가집니다.
movie: 영화 ID
people: 배우 ID
order: 영화에서 배우의 출연 순서
leading: 주연 여부 (1: 주연, 0: 조연)

In [1]:
import pandas as pd

# 데이터 로딩
castings = pd.read_csv('data/castings.csv')

# 처음 5행 출력
print("Castings Data Head:")
print(castings.head())

# 데이터 정보 요약
print("\nCastings Data Info:")
print(castings.info())

# 기술 통계 정보 요약
print("\nCastings Data Describe:")
print(castings.describe())


Castings Data Head:
   movie  people  order  leading
0  10001    4374      1        1
1  10001     178      2        1
2  10001    3241      3        1
3  10001   47952      4        1
4  10001   47953      5        0

Castings Data Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9776 entries, 0 to 9775
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   movie    9776 non-null   int64
 1   people   9776 non-null   int64
 2   order    9776 non-null   int64
 3   leading  9776 non-null   int64
dtypes: int64(4)
memory usage: 305.6 KB
None

Castings Data Describe:
              movie         people        order      leading
count   9776.000000    9776.000000  9776.000000  9776.000000
mean   10499.104746   36151.930851     9.799509     0.295315
std      287.023933   62989.430164    12.576221     0.456208
min    10001.000000       5.000000     1.000000     0.000000
25%    10260.000000    4327.000000     3.000000     0.000000
50%

기본 통계 정보
1. 배우 수
2. 영화 수
3. 주연/조연 수
4. 출연진 수수

In [2]:
num_people = castings['people'].nunique()
print(f"총 배우 수: {num_people}")

총 배우 수: 6644


In [3]:
num_movies = castings['movie'].nunique()
print(f"총 영화 수: {num_movies}")


총 영화 수: 988


In [4]:
leading_counts = castings['leading'].value_counts()
print(f"주연/조연 배우 수:\n{leading_counts}")


주연/조연 배우 수:
leading
0    6889
1    2887
Name: count, dtype: int64


In [5]:
num_castings = len(castings)
print(f"총 캐스팅 수: {num_castings}")

총 캐스팅 수: 9776


데이터 내용 및 필드 구성
countries.csv 파일은 영화 제작 국가 정보를 담고 있습니다. 각 열은 다음과 같은 의미를 가집니다.
movie: 영화 ID (castings.csv 파일의 movie와 연결)
country: 제작 국가명

In [6]:
import pandas as pd

# 데이터 로딩
countries = pd.read_csv('data/countries.csv')

# 처음 5행 출력
print("Countries Data Head:")
print(countries.head())

# 데이터 정보 요약
print("\nCountries Data Info:")
print(countries.info())

# 기술 통계 정보 요약
print("\nCountries Data Describe:")
print(countries.describe())


Countries Data Head:
   movie country
0  10001    이탈리아
1  10001     프랑스
2  10002      미국
3  10003      미국
4  10004      미국

Countries Data Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1109 entries, 0 to 1108
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   movie    1109 non-null   int64 
 1   country  1109 non-null   object
dtypes: int64(1), object(1)
memory usage: 17.5+ KB
None

Countries Data Describe:
              movie
count   1109.000000
mean   10496.257890
std      285.409915
min    10001.000000
25%    10253.000000
50%    10492.000000
75%    10746.000000
max    10999.000000


genres.csv
movie: 영화 ID (castings.csv, countries.csv 파일의 movie와 연결)
genre: 장르명

In [7]:
import pandas as pd

# 데이터 로딩 (파일 경로 수정 필요)
try:
    genres = pd.read_csv('data/genres.csv')
except FileNotFoundError:
    print("오류: 'genres.csv' 파일을 찾을 수 없습니다. 파일 경로를 확인해주세요.")
    exit()

# 처음 5행 출력
print("Genres Data Head:")
print(genres.head())

# 데이터 정보 요약
print("\nGenres Data Info:")
print(genres.info())

# 기술 통계 정보 요약
print("\nGenres Data Describe:")
print(genres.describe())


Genres Data Head:
   movie   genre
0  10001     드라마
1  10001  멜로/로맨스
2  10002      SF
3  10002     코미디
4  10003      SF

Genres Data Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2025 entries, 0 to 2024
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   movie   2025 non-null   int64 
 1   genre   2025 non-null   object
dtypes: int64(1), object(1)
memory usage: 31.8+ KB
None

Genres Data Describe:
              movie
count   2025.000000
mean   10474.521975
std      289.972315
min    10001.000000
25%    10221.000000
50%    10474.000000
75%    10719.000000
max    10999.000000


데이터 내용 및 필드 구성
rates.csv 파일은 사용자 평점 정보를 담고 있을 것으로 예상됩니다. 일반적인 구성은 다음과 같을 수 있습니다:
movie: 영화 ID (castings.csv, countries.csv, genres.csv 파일의 movie와 연결)
user: 사용자 ID
rating: 평점 (1~5점 척도)
timestamp: 평점 기록 시간

In [8]:
import pandas as pd

# 데이터 로딩 (파일 경로 수정 필요)
try:
    rates = pd.read_csv('data/rates.csv')
except FileNotFoundError:
    print("오류: 'rates.csv' 파일을 찾을 수 없습니다. 파일 경로를 확인해주세요.")
    exit()

# 처음 5행 출력
print("Rates Data Head:")
print(rates.head())

# 데이터 정보 요약
print("\nRates Data Info:")
print(rates.info())

# 기술 통계 정보 요약
print("\nRates Data Describe:")
print(rates.describe())


Rates Data Head:
   user  movie  rate        time
0     0  10003     7  1494128040
1     0  10004     7  1467529800
2     0  10018     9  1513344120
3     0  10021     9  1424497980
4     0  10022     7  1427627340

Rates Data Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 140710 entries, 0 to 140709
Data columns (total 4 columns):
 #   Column  Non-Null Count   Dtype
---  ------  --------------   -----
 0   user    140710 non-null  int64
 1   movie   140710 non-null  int64
 2   rate    140710 non-null  int64
 3   time    140710 non-null  int64
dtypes: int64(4)
memory usage: 4.3 MB
None

Rates Data Describe:
                user          movie           rate          time
count  140710.000000  140710.000000  140710.000000  1.407100e+05
mean    14948.679916   10278.818861       8.953258  1.297460e+09
std     14539.728057     292.806259       2.106047  1.374877e+08
min         0.000000   10001.000000       1.000000  1.069340e+09
25%      2980.000000   10048.000000       9.000000 