In [None]:

import numpy as np
import pandas as pd

# Series를 생성해 보아요!
s = pd.Series([-1, 5, 10, 99], dtype=np.float64)
print(s)
print()

print(s.values)
print(s.index)
print(s.dtype)

0    -1.0
1     5.0
2    10.0
3    99.0
dtype: float64

[-1.  5. 10. 99.]
RangeIndex(start=0, stop=4, step=1)
float64


In [None]:

# Series는 생성할 때 index를 지정할 수 있어요!
# 지정 index를 사용할 수 있어요!
s = pd.Series([-1, 10, -8, 20], dtype=np.float64,
              index=['c', 'b', 'a', 'k'])
print(s)
print()

print(s.values)
print(s.index)
print(s.dtype)
print()

print(s[1]) # 숫자 index를 이용해서 indexing
print(s['a'])

c    -1.0
b    10.0
a    -8.0
k    20.0
dtype: float64

[-1. 10. -8. 20.]
Index(['c', 'b', 'a', 'k'], dtype='object')
float64

10.0
-8.0


  print(s[1]) # 숫자 index를 이용해서 indexing


In [None]:

# Series를 생성할 때 지정 index를 사용해서 Series를 생성할 거에요!

s = pd.Series([-1, 10, -8, 20], dtype=np.float64,
              index=[0 ,2 ,100 ,6])
print(s)
print()

print(s[2]) # 지정 index가 우선!
# print(s[3]) # key error 지정 index를 지정하면 기존의 순차적인 index는 사라진다!

0      -1.0
2      10.0
100    -8.0
6      20.0
dtype: float64

10.0


In [None]:

# 지정 index를 지정할 땐 key와 value가 쌍을 이뤄야 하며,
# 같은 index를 사용할 수 있어요!
s = pd.Series([-1, 10, -8, 20], dtype=np.float64,
              index=['c', 'a', 'k', 'a'])
print(s)
print()

print(s['a'])

c    -1.0
a    10.0
k    -8.0
a    20.0
dtype: float64

a    10.0
a    20.0
dtype: float64


In [None]:

# Series에서 slicing은 어떻게 되나요?
s = pd.Series([-1, 10, -8, 20], dtype=np.float64, index=['c', 'a', 'k', 'b'])
print(s)
print()

new_s = s[0:2] # python list와 달리 view가 생성된다.
new_s[0] = 100 # 원본의 값도 바뀜.
print(new_s)
print()
print(s)

c    -1.0
a    10.0
k    -8.0
b    20.0
dtype: float64

c    100.0
a     10.0
dtype: float64

c    100.0
a     10.0
k     -8.0
b     20.0
dtype: float64


  new_s[0] = 100 # 원본의 값도 바뀜.


In [None]:

# Series에서 slicing은 어떻게 되나요?
s = pd.Series([-1, 10, -8, 20], dtype=np.float64, index=['c', 'a', 'k', 'b'])
print(s)
print()

print(s['a':'b']) # 지정 index로 slicing하면 s[inclusive:inclusive]

c    -1.0
a    10.0
k    -8.0
b    20.0
dtype: float64

a    10.0
k    -8.0
b    20.0
dtype: float64


In [None]:

# Series에서 Fancy indexing 할 수 있나요? ndarray 기반이므로 가능!
# Series에서 Boolean indexing 할 수 있나요? 가능!
s = pd.Series([-1, 10, -8, 20], dtype=np.float64, index=['c', 'a', 'k', 'b'])
print(s)
print()

print(s[[0, 2]])
print()

# 현재 Series에서 -1보다 큰 값만 추출하세요! (Series 형태로)
# 어떤 조건에 따라 값을 추출해야하면 Boolean indexing을 생각하면 된다!
print(s[s > -5])
print()

print(s[(s > -5) & (s % 2 == 0)])

c    -1.0
a    10.0
k    -8.0
b    20.0
dtype: float64

c   -1.0
k   -8.0
dtype: float64

c    -1.0
a    10.0
b    20.0
dtype: float64

a    10.0
b    20.0
dtype: float64


  print(s[[0, 2]])


In [None]:
s = pd.Series([-1, 10, -8, 20], dtype=np.float64, index=['c', 'a', 'k', 'b'])
print(s)
print()
print(s.sum())

c    -1.0
a    10.0
k    -8.0
b    20.0
dtype: float64

21.0


In [None]:
# Dictionary를 이용해서 Series를 만들어보아요!
my_dict = {
    "서울": 3000,
    "인천": 2000,
    "제주": 1000
}

s = pd.Series(my_dict)
print(s)
print(s[0])
print(s['제주'])

서울    3000
인천    2000
제주    1000
dtype: int64
3000
1000


  print(s[0])


In [None]:
# Series의 요소를 추가하거나 삭제하려면 어떻게 해야하나요?
s = pd.Series([1, 2, 3, 4])
print(s)
print()

# 값을 추가할 때
s[4] = 5
print(s)
print()

# 값을 삭제할 경우에는 drop을 사용해요!
s = s.drop(2)
print(s)

0    1
1    2
2    3
3    4
dtype: int64

0    1
1    2
2    3
3    4
4    5
dtype: int64

0    1
1    2
3    4
4    5
dtype: int64


In [None]:
# 실습 1
# A 공장이 있어요!
# 2020-01-01부터 10일간의 생산량을 Series로 지정할거에요!
# 생산량은 평균이 50이고 표준편차가 5인 정규분포에서 랜덤하게 추출 (정수)

# B 공장이 있어요!
# 2020-01-05부터 10일간의 생산량을 Series로 저장할거에요!
# 생산량은 평균이 70이고 표준편차가 8인 정규분포에서 랜덤하게 추출 (정수)

# 날짜별로 생산량의 합을 구할거에요!

import numpy as np
import pandas as pd
from datetime import date, datetime, timedelta

np.random.seed(1)

# A 공장
start_day = datetime(2020, 1, 1) # 2020-01-01 날짜에 대한 날짜값
# 10일간의 생산량을 랜덤하게 생성해서 list를 만들어보아요!
a_amount = [int(x) for x in np.random.normal(50, 5, (10,))]
a_index = [(start_day + timedelta(days=x)).strftime('%Y-%m-%d') for x in range(10)]
print(a_amount)
print(a_index)
print()

a_s = pd.Series(a_amount, index=a_index)
a_s['sum'] = a_s.sum()
print(a_s)
print()

# B 공장
start_day = datetime(2020, 1, 5) # 2020-01-05 날짜에 대한 날짜값
# 10일간의 생산량을 랜덤하게 생성해서 list를 만들어보아요!
b_amount = [int(x) for x in np.random.normal(70, 8, (10,))]
b_index = [(start_day + timedelta(days=x)).strftime('%Y-%m-%d') for x in range(10)]
print(b_amount)
print(b_index)
print()

b_s = pd.Series(b_amount, index=b_index)
b_s['sum'] = b_s.sum()
print(b_s)
print()

# 전체 생산량을 알기위해 두 공장의 생산량을 더해줄거에요!
print(a_s + b_s)

[58, 46, 47, 44, 54, 38, 58, 46, 51, 48]
['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04', '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08', '2020-01-09', '2020-01-10']

2020-01-01     58
2020-01-02     46
2020-01-03     47
2020-01-04     44
2020-01-05     54
2020-01-06     38
2020-01-07     58
2020-01-08     46
2020-01-09     51
2020-01-10     48
sum           490
dtype: int64

[81, 53, 67, 66, 79, 61, 68, 62, 70, 74]
['2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08', '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12', '2020-01-13', '2020-01-14']

2020-01-05     81
2020-01-06     53
2020-01-07     67
2020-01-08     66
2020-01-09     79
2020-01-10     61
2020-01-11     68
2020-01-12     62
2020-01-13     70
2020-01-14     74
sum           681
dtype: int64

2020-01-01       NaN
2020-01-02       NaN
2020-01-03       NaN
2020-01-04       NaN
2020-01-05     135.0
2020-01-06      91.0
2020-01-07     125.0
2020-01-08     112.0
2020-01-09     130.0
2020-01-10     109.0


In [None]:
# 각 공장이 겹치지 않는 부분도 표현하고 싶어요!
index_a = set(a_index)
print(index_a)
index_b = set(b_index)
print(index_b)
print()

index_a_b = index_a - index_b
print(index_a_b)
index_b_a = index_b - index_a
print(index_b_a)
print()

for i in index_a_b:
    b_s[i] = 0

for i in index_b_a:
    a_s[i] = 0

print(a_s)
print()
print((b_s))
print()
print(a_s + b_s)

{'2020-01-06', '2020-01-07', '2020-01-08', '2020-01-05', '2020-01-03', '2020-01-10', '2020-01-01', '2020-01-04', '2020-01-09', '2020-01-02'}
{'2020-01-06', '2020-01-14', '2020-01-07', '2020-01-08', '2020-01-05', '2020-01-11', '2020-01-10', '2020-01-13', '2020-01-12', '2020-01-09'}

{'2020-01-01', '2020-01-03', '2020-01-02', '2020-01-04'}
{'2020-01-12', '2020-01-11', '2020-01-14', '2020-01-13'}

2020-01-01     58
2020-01-02     46
2020-01-03     47
2020-01-04     44
2020-01-05     54
2020-01-06     38
2020-01-07     58
2020-01-08     46
2020-01-09     51
2020-01-10     48
sum           490
2020-01-12      0
2020-01-11      0
2020-01-14      0
2020-01-13      0
dtype: int64

2020-01-05     81
2020-01-06     53
2020-01-07     67
2020-01-08     66
2020-01-09     79
2020-01-10     61
2020-01-11     68
2020-01-12     62
2020-01-13     70
2020-01-14     74
sum           681
2020-01-01      0
2020-01-03      0
2020-01-02      0
2020-01-04      0
dtype: int64

2020-01-01      58
2020-01-02     

In [None]:
# DataFrame에 대해서 알아보아요!
# 먼저 DataFrame을 생성해보아요 => dictionary로 생성
data = {
    'name': ['홍길동', '신사임당', '강감찬', '이순신'],
    'year': [2020, 2021, 2020, 2023],
    'grade': [3.1, 4.0, 1.2, 2.5]
}
# Series를 만들때는 key값이 지정 index로 사용.
# DataFrame을 만들때는 key값이 컬럼명으로 사용.

s = pd.Series(data)
print(s)
print()

df = pd.DataFrame(data)
print(df)
display(df)
print()

# 기억해야 하는 속성(기본 속성)
print(df.shape)
print(df.size)
print(df.ndim)
print(df.values)

name        [홍길동, 신사임당, 강감찬, 이순신]
year     [2020, 2021, 2020, 2023]
grade        [3.1, 4.0, 1.2, 2.5]
dtype: object

   name  year  grade
0   홍길동  2020    3.1
1  신사임당  2021    4.0
2   강감찬  2020    1.2
3   이순신  2023    2.5


Unnamed: 0,name,year,grade
0,홍길동,2020,3.1
1,신사임당,2021,4.0
2,강감찬,2020,1.2
3,이순신,2023,2.5



(4, 3)
12
2
[['홍길동' 2020 3.1]
 ['신사임당' 2021 4.0]
 ['강감찬' 2020 1.2]
 ['이순신' 2023 2.5]]


In [None]:
# DataFrame의 index, columns, values
data = {
    'name': ['홍길동', '신사임당', '강감찬', '이순신'],
    'year': [2020, 2021, 2020, 2023],
    'grade': [3.1, 4.0, 1.2, 2.5]
}

df = pd.DataFrame(data)
display(df)

print(df.index)
print(df.columns)
print(df.columns[0])
print(df.values)

Unnamed: 0,name,year,grade
0,홍길동,2020,3.1
1,신사임당,2021,4.0
2,강감찬,2020,1.2
3,이순신,2023,2.5


RangeIndex(start=0, stop=4, step=1)
Index(['name', 'year', 'grade'], dtype='object')
name
[['홍길동' 2020 3.1]
 ['신사임당' 2021 4.0]
 ['강감찬' 2020 1.2]
 ['이순신' 2023 2.5]]


In [None]:
# DataFrame을 생성한 후
# index와 column명을 변경하고 싶어요!
data = {
    'name': ['홍길동', '신사임당', '강감찬', '이순신'],
    'year': [2020, 2021, 2020, 2023],
    'grade': [3.1, 4.0, 1.2, 2.5]
}

df = pd.DataFrame(data)
display(df)
print()

# inplace가 False면 원본은 건들지 않고 복사본이 만들어진다
new_df1 = df.rename(columns={'name': '이름', 'year': '년도', 'grade': '학점'}, inplace=False)
display(new_df)
print()
# columns, index 둘다 한 rename 함수에 넣을 수도 있음!
new_df2 = new_df1.rename(index={0: 'one', 1: 'two', 2: 'three', 3: 'four'})
display(new_df2)

Unnamed: 0,name,year,grade
0,홍길동,2020,3.1
1,신사임당,2021,4.0
2,강감찬,2020,1.2
3,이순신,2023,2.5





Unnamed: 0,이름,년도,학점
0,홍길동,2020,3.1
1,신사임당,2021,4.0
2,강감찬,2020,1.2
3,이순신,2023,2.5





Unnamed: 0,이름,년도,학점
one,홍길동,2020,3.1
two,신사임당,2021,4.0
three,강감찬,2020,1.2
four,이순신,2023,2.5


In [None]:
# 특정 column을 index로 사용할 수 있어요!
data = {
    'name': ['홍길동', '신사임당', '강감찬', '이순신'],
    'year': [2020, 2021, 2020, 2023],
    'grade': [3.1, 4.0, 1.2, 2.5]
}

df = pd.DataFrame(data)
display(df)
print()

new_df = df.set_index('name', inplace=False)
display(new_df)

Unnamed: 0,name,year,grade
0,홍길동,2020,3.1
1,신사임당,2021,4.0
2,강감찬,2020,1.2
3,이순신,2023,2.5





Unnamed: 0_level_0,year,grade
name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,2020,3.1
신사임당,2021,4.0
강감찬,2020,1.2
이순신,2023,2.5


In [None]:
# 행과 열의 위치를 바꿀 수 있어요!
data = {
    'name': ['홍길동', '신사임당', '강감찬', '이순신'],
    'year': [2020, 2021, 2020, 2023],
    'grade': [3.1, 4.0, 1.2, 2.5]
}

df = pd.DataFrame(data)
display(df)
print()

new_df = df.transpose()
display(new_df)

Unnamed: 0,name,year,grade
0,홍길동,2020,3.1
1,신사임당,2021,4.0
2,강감찬,2020,1.2
3,이순신,2023,2.5





Unnamed: 0,0,1,2,3
name,홍길동,신사임당,강감찬,이순신
year,2020,2021,2020,2023
grade,3.1,4.0,1.2,2.5


In [None]:
# 일반적으로 우리가 사용하는 데이터 파일의 형식

# 1. CSV 파일 (.csv)
#    naive한 형태의 데이터 파일 형식
#    Comma Seperated Value (콤마로 나뉘어진 값)
#    예) 홍길동, 20, 서울, 김길동, 30, 부산, 최길동, 50, 인천
#    장점 : 부가적인 데이터가 적게 들어가요!
#           상대적으로 사이즈가 큰 데이터를 표현하기에 적합해요!
#    단점 : 데이터를 해석하거나 사용하는데 어려움이 따라요!
#           유지보수가 어려워요!

# 2. XML 파일 (.xml)
#    Extended Markup Language (확장된 마크업 언어)
#    예)
#    <person>
#         <name>홍길동</name><age>20</age><address>서울</address>
#    </person>
#    <person>
#         <name>김길동</name><age>30</age><address>부산</address>
#    </person>
#    장점 : 사용하기가 아주 쉬워요. 데이터 표현을 쉽게 할 수 있어요!
#    단점 : 사이즈가 너무 커져요!

# 3. JSON 파일 (.json)
#    JaveScript Object notation (자바스크립트 객체 표현법)
#    예) {person : {'name' : '홍길동', 'age' : 20, 'address' : '서울'}}

In [None]:
import numpy as np
import pandas as pd

df = pd.read_csv('/content/drive/MyDrive/KDT/data/movies.csv')

display(df)
print()

display(df.head(10)) # head()는 DataFrame의 시작부터 x개의 행을 가져오는 함수
                   # 인자가 없으면 default로 5를 설정
print()

display(df.tail())
print(df.shape)


Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
5,6,Heat (1995),Action|Crime|Thriller
6,7,Sabrina (1995),Comedy|Romance
7,8,Tom and Huck (1995),Adventure|Children
8,9,Sudden Death (1995),Action
9,10,GoldenEye (1995),Action|Adventure|Thriller


Unnamed: 0,movieId,title,genres
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation
9741,193609,Andrew Dice Clay: Dice Rules (1991),Comedy


(9742, 3)


In [None]:
# 파일(CSV)로부터 데이터를 읽어와서 쉽게 DataFrame을 생성할 수 있어요!
# 이번에는 Open API를 이용해서 데이터를 JSON형태로 가져와서
# 그걸 이용해 DataFrame을 생성해 볼거에요!
# 1. Open API는 어떤 것을 사용할건가요?
#    영화진흥위원회 Open API를 사용해 보아요!
#    502df71277e631d18ab5df069e4a01b5
#    http://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=502df71277e631d18ab5df069e4a01b5&targetDt=202503184
#    일별 box office 순위를 알려주는 Open API를 이용해서 JSON 데이터를 받아올 거에요!

# 내일 여기부터 다시 시작해요!