DataFrame은 행과 열로 구성되어 있으며, 각 열은 Series로 구성되어 있습니다. 각각의 Series는 모두 같은 길이를 가져야 합니다. DataFrame은 딕셔너리나 2차원 배열 등으로부터 생성할 수 있습니다. 열의 이름은 columns 인자를 사용하여 설정할 수 있으며, 인덱스의 이름은 index 인자를 사용하여 설정할 수 있습니다.

In [3]:
import pandas as pd
import numpy as np

int8, int16, int32, int64: 부호 있는 정수 타입
uint8, uint16, uint32, uint64: 부호 없는 정수 타입
float16, float32, float64, float128: 부동소수점 타입
complex64, complex128, complex256: 복소수 타입
bool: 불리언 타입
object: 파이썬 객체 타입
string_: 고정 길이 문자열 타입
unicode_: 고정 길이 유니코드 타입

부호가 있는 정수와 없는 정수는 양수, 0, 음수를 다루는 데 있어서 차이가 있습니다. 부동소수점 타입은 소수점 이하 값을 다룰 때 사용하며, 복소수 타입은 실수와 허수로 이루어진 복소수를 다룰 때 사용합니다. 불리언 타입은 참(True) 또는 거짓(False) 값을 가지며, 파이썬 객체 타입은 파이썬 객체를 다룰 때 사용합니다. 고정 길이 문자열 타입과 유니코드 타입은 문자열을 다룰 때 사용하며, 고정 길이를 가지므로 메모리 효율이 높습니다.

Series는 1차원 데이터 구조로서, 각각의 값은  
인덱스로 구분되어 있습니다. 여기서는 기본적으로 0부터  
시작하는 정수 인덱스가 자동으로 생성됩니다  
dtype: int64 객체의 데이터 타입 정수형(integer)

In [4]:
series=pd.Series([100,200,300])
series

0    100
1    200
2    300
dtype: int64

map 함수는 Series에 대해 각 원소를 순회하며,  
입력된 딕셔너리에 해당하는 키값과 매칭되는 원소값을 찾아 변환합니다.  
따라서 series 객체에 저장된 100을 'c', 200을 'b', 300을 'a'로 바꿉니다.

이 때 변환되는 값들은 새로운 Series 객체에 저장되며.  
기존 Series의 인덱스와 같은 순서로 저장됩니다.  
이를 출력하면 새로운 변환된 Series 객체가 출력됩니다.  
기존 변수의 요소는 변하지 않음

In [5]:
series.map({100:'c', 200:'b', 300:'a'})

0    c
1    b
2    a
dtype: object

{}를 문자열 내에 삽입한 뒤, format() 메서드에 전달된 인수들로 치환하여 문자열을 생성

"{} + {} = {}".format(2, 3, 5) 코드는 문자열 내에 {}를 각각 2, 3, 5로 치환하여 "2 + 3 = 5" 문자열을 생성

map() 함수의 인자로는 $ {} 문자열을 사용하고, .format() 메서드를 이용하여 시리즈 객체의 각 값에 $ 문자를 추가한 문자열을 생성

In [18]:
series.map('${}'.format)

0    $100
1    $200
2    $300
dtype: object

In [19]:
series.map('빚 {}억'.format)

0    빚 100억
1    빚 200억
2    빚 300억
dtype: object

lambda x:np.add(x,3) 부분에서 x는 입력 변수를 나타내고,  
np.add(x,3)은 입력 변수 x와 3을 더한 값을 반환합니다.  
따라서 series.map(f)는 Series series의 모든 요소에 대해  
함수 f를 적용하여 처리된 값을 반환

In [20]:
f = lambda x:np.add(x,3)
series.map(f)

0    103
1    203
2    303
dtype: int32

시리즈는 데이터를 일련의 값과 인덱스로 구성된 1차원 배열 형태로  
나타내며, 각 값은 해당되는 인덱스와 매핑됩니다.  
즉, 이번 예시에서 시리즈의 첫 번째 값은 20이며,  
그에 해당하는 인덱스는 'london'

In [21]:
s = pd.Series([20,21,12], index=['london', 'New york', 'helsinky'])
s

london      20
New york    21
helsinky    12
dtype: int64

In [22]:
def sub_custom_value(x,val):
    return x-val

apply 는 Series나 DataFrame에 함수를 적용하여  
새로운 결과를 반환합니다. 데이터프레임의 행 또는 열에 적용될 수 있습니다.

sub_custom_value 함수는 입력받은 인자에서 10을 뺀 값을 반환하는 함수입니다. 이 함수를 apply 메서드와 함께 사용하여 Series의 모든 요소에 대해 sub_custom_value 함수를 적용할 수 있습니다.

s.apply(sub_custom_value,args=(10,))는 s의 모든 요소에서 10을 빼는 결과를 반환합니다. apply 메서드에서 args는 인수를 전달하는 매개변수로, sub_custom_value 함수의 value 매개변수에 10을 전달합니다.

sub_custom_value 함수에 인자로 10이 전달됩니다. 이는 s.apply(sub_custom_value, args=(10,))에서 args 파라미터를 사용하여 전달됩니다. 따라서 sub_custom_value 함수의 두 번째 인자는 10이 됩니다.

sub_custom_value 함수는 value - custom_value의 값을 반환합니다. apply 함수를 통해 시리즈 객체의 모든 원소에 sub_custom_value 함수가 적용되어 시리즈 객체의 모든 원소에 대한 value - 10이 계산됩니다.

In [23]:
s.apply(sub_custom_value,args=(10,))

london      10
New york    11
helsinky     2
dtype: int64

- axis 별로 apply를 적용 가능

numpy의 arange 함수를 사용하여 0부터 11까지의 수를 가지는 1차원 배열을 생성합니다.  
생성된 1차원 배열을 reshape 함수를 사용하여 3x4 크기의 2차원 배열로 변환합니다.  

columns=list('abcd')
리스트 내포 방식을 사용하여, 문자열 'abcd'를 리스트로 변환합니다.  
이 리스트를 DataFrame의 열(column) 이름으로 사용합니다.

위에서 생성된 3x4 크기의 2차원 배열과 열 이름 리스트를 이용하여 DataFrame을 생성합니다.

 0부터 11까지의 수를 가지는 3x4 크기의 2차원 배열을 생성하고, 이 배열의 열 이름을 'a', 'b', 'c', 'd'로 지정하여 DataFrame으로 변환하여 변수 frame에 저장하는 코드


In [24]:
frame  = pd.DataFrame(np.arange(12).reshape(3,4),
                      columns=list('abcd'))
frame 

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


열 'a', 'b', 'c', 'd'에 대해 각각 최대값과 최소값의 차이를 계산한 결과를 반환합니다. 반환되는 값은 pandas의 Series 객체로, 인덱스는 각 열의 이름('a', 'b', 'c', 'd')이고, 값은 해당 열의 최대값과 최소값의 차이

In [25]:
frame.apply(lambda x : x.max()-x.min())
# axis = 0  탑재됨 (디폴트 =기본 설정값)
# 모든 열의 최대값 - 최소값

a    8
b    8
c    8
d    8
dtype: int32

In [26]:
frame.apply(lambda x : x.max()-x.min(),axis=1) # 모든 행의 최대값 - 최소값

0    3
1    3
2    3
dtype: int32

- applymap
  - 모든 원소에 원소별로 함수에 적용.

In [27]:
frame.applymap(lambda x: x**2) # 모든 요소에 **2

Unnamed: 0,a,b,c,d
0,0,1,4,9
1,16,25,36,49
2,64,81,100,121


In [28]:
frame = pd.DataFrame(np.arange(16).reshape(4,4),
                     index = ['r1','r2','r3','r4'],
                     columns =['c1','c2','c3','c4'])
frame

Unnamed: 0,c1,c2,c3,c4
r1,0,1,2,3
r2,4,5,6,7
r3,8,9,10,11
r4,12,13,14,15


In [29]:
frame.drop('r1') # r1 행을 없앰 # 할당임 삭제아님

Unnamed: 0,c1,c2,c3,c4
r2,4,5,6,7
r3,8,9,10,11
r4,12,13,14,15


In [30]:
frame1 = frame.drop('r1') # 얘를 제외하고 변수에 넣음

In [31]:
frame1

Unnamed: 0,c1,c2,c3,c4
r2,4,5,6,7
r3,8,9,10,11
r4,12,13,14,15


In [32]:
frame.drop('c1',axis=1) # c1 열을 없앰 ketError: "['c1'] not found in axis"

Unnamed: 0,c2,c3,c4
r1,1,2,3
r2,5,6,7
r3,9,10,11
r4,13,14,15


In [33]:
frame.drop(columns=['c3','c4']) # c3,c4 열을 없앰

Unnamed: 0,c1,c2
r1,0,1
r2,4,5
r3,8,9
r4,12,13


In [None]:
frame.drop('r1',inplace=True) # 아예 삭제임 변수내에 데이터를 삭제 (drop 버림, inplace=True 원본 건드리는 거)

In [35]:
frame # 위 inplace 때문에 r1 행이 사라진 상태

Unnamed: 0,c1,c2,c3,c4
r2,4,5,6,7
r3,8,9,10,11
r4,12,13,14,15


- 데이터 병합
    - concat ( join 느낌? )

In [69]:
s1= pd.Series([100,200], index=['c','d'])
s2= pd.Series([300,300,300], index=['c','d','e'])
s3= pd.Series([500,600], index=['f','g'])

print(s1,s2,s3, sep='\n\n')

c    100
d    200
dtype: int64

c    300
d    300
e    300
dtype: int64

f    500
g    600
dtype: int64


In [37]:
pd.concat([s1,s2,s3]) # concat 데이터 병합 s1,s2,s3를 합침

c    100
d    200
c    300
d    300
e    300
f    500
g    600
dtype: int64

In [38]:
pd.concat([s1,s2,s3],axis=1) # SQL의 outer join(합집합)으로 돌아감

Unnamed: 0,0,1,2
c,100.0,300.0,
d,200.0,300.0,
e,,300.0,
f,,,500.0
g,,,600.0


- Merge
    - key를 이용해 데이터의 row를 기준으로 연결시켜 합침(SQL의 join과 유사)
    - 두 개의 데이터프레임을 병합

In [39]:
data1 = pd.DataFrame({'id':['01','02','03','04','05','06'],
                      'col1':np.random.randint(0,50,6), # 0 ~ 50 중 6개
                      'col2':np.random.randint(1000,2000,6)}) # 1000~2000 중 6개
data1

Unnamed: 0,id,col1,col2
0,1,15,1441
1,2,4,1753
2,3,6,1332
3,4,43,1394
4,5,41,1466
5,6,4,1921


In [40]:
data2 = pd.DataFrame({'id':['04', '05', '06', '07'],
                      'col1':np.random.randint(1000,5000,4)}) # 1000~5000 중 4개
data2 # inner join (교집합)

Unnamed: 0,id,col1
0,4,3279
1,5,2764
2,6,3458
3,7,3954


In [41]:
# inner join 교집합 # 교집합=디폴트
pd.merge(data1,data2,on='id') # on은 기준

Unnamed: 0,id,col1_x,col2,col1_y
0,4,43,1394,3279
1,5,41,1466,2764
2,6,4,1921,3458


on='id'는 첫번째 데이터프레임과 두번째 데이터프레임이 공유하는 'id' 열을 기준으로 병합한다는 것을 의미합니다. how='left'는 첫번째 데이터프레임을 기준으로 왼쪽에 있는 모든 행을 가져와서 두번째 데이터프레임과 병합한다는 것을 의미

In [71]:
# how : 어떤 방식으로 병합할 것 인가? (inner, outer, left, right)
pd.merge(data1,data2,on='id', how='right') # on은 기준

Unnamed: 0,id,col1_x,col2,col1_y
0,4,43.0,1394.0,3279
1,5,41.0,1466.0,2764
2,6,4.0,1921.0,3458
3,7,,,3954


In [43]:
# outer join (합집합)
pd.merge(data1,data2,on='id', how='outer') # on은 기준

Unnamed: 0,id,col1_x,col2,col1_y
0,1,15.0,1441.0,
1,2,4.0,1753.0,
2,3,6.0,1332.0,
3,4,43.0,1394.0,3279.0
4,5,41.0,1466.0,2764.0
5,6,4.0,1921.0,3458.0
6,7,,,3954.0


- missing data
  - dropna: 결축치가 있는 것을 삭제

In [44]:
obj = pd.Series(['apple', 'mango', np.nan,None,'peach',1])
obj

0    apple
1    mango
2      NaN
3     None
4    peach
5        1
dtype: object

In [45]:
obj.dropna() # NaN, None 없앰

0    apple
1    mango
4    peach
5        1
dtype: object

In [46]:
frame = pd.DataFrame([[np.nan,np.nan,np.nan,np.nan],
                      [10,50,40,60],
                      [5,2,30,8],
                      [15,3,10,np.nan]],
                      columns = ['x1','x2','x3','x4'])
frame

Unnamed: 0,x1,x2,x3,x4
0,,,,
1,10.0,50.0,40.0,60.0
2,5.0,2.0,30.0,8.0
3,15.0,3.0,10.0,


In [47]:
frame.dropna() # NaN 이 포함 된 모든 행이 사라짐

Unnamed: 0,x1,x2,x3,x4
1,10.0,50.0,40.0,60.0
2,5.0,2.0,30.0,8.0


In [48]:
frame.dropna(how='all') # NaN이 있는 행만 삭제
# how : any, all 있음  all은 행과 열에 전부 있을때 삭제(해당 줄 전체가 NaN이면 삭제)
# any 는 NaN가 포함된 요소의 모든 행렬을 삭제 

Unnamed: 0,x1,x2,x3,x4
1,10.0,50.0,40.0,60.0
2,5.0,2.0,30.0,8.0
3,15.0,3.0,10.0,


In [49]:
frame.fillna(0) # method : ffill, bfill, backfill, 'pad',None
# NaN 자리에 0으로 대체

Unnamed: 0,x1,x2,x3,x4
0,0.0,0.0,0.0,0.0
1,10.0,50.0,40.0,60.0
2,5.0,2.0,30.0,8.0
3,15.0,3.0,10.0,0.0


In [50]:
frame.fillna({'x1':10, 'x3':3}) # x1 NaN에 10, x3 NaN에 3

Unnamed: 0,x1,x2,x3,x4
0,10.0,,3.0,
1,10.0,50.0,40.0,60.0
2,5.0,2.0,30.0,8.0
3,15.0,3.0,10.0,


In [51]:
frame.isna().sum() # 결축치가 몇개인지 알려주는거 x4엔 NaN 2개 있음
# frame.isnull().sum() 위와 같음

x1    1
x2    1
x3    1
x4    2
dtype: int64

- 중복제거
  - duplicated(): 각 row가 중복인지(True) 아닌지(False) 알려주는 불리언
  - drop_duplicated() : duplicated를 적용한 결과가 False인 것들만 모아서 dataframe 반환

In [52]:
data = pd.DataFrame({'id':['0001', '0002', '0003', '0001'],
                     'name':['a','b','c','a']})
data

Unnamed: 0,id,name
0,1,a
1,2,b
2,3,c
3,1,a


In [53]:
data.duplicated() # 중복체크(True-> 중복이 되어있다.) / 3번 중복

0    False
1    False
2    False
3     True
dtype: bool

In [54]:
data.drop_duplicates() # 중복을 삭제 / 3번 중복이라 삭제

Unnamed: 0,id,name
0,1,a
1,2,b
2,3,c


- cut 함수

In [55]:
ages = [20,30,67,39,59,44,56,77,28,80,32,46,52,19,33,5,15,50,29,21,33,48,85,80,31,10]
bins = [0,20,40,60,100]

In [56]:
cuts = pd.cut(ages,bins) # 범주화 / 묶어주는 것 / 구간이 짤림
cuts # 해당 나이가 어느 구간에 있는지 알려줌/ 렝스, 총길이/ 구간 카테고리

[(0, 20], (20, 40], (60, 100], (20, 40], (40, 60], ..., (40, 60], (60, 100], (60, 100], (20, 40], (0, 20]]
Length: 26
Categories (4, interval[int64, right]): [(0, 20] < (20, 40] < (40, 60] < (60, 100]]

In [57]:
cuts.categories # cut 메소드의 결과는 categorical이라는 특수 객체에 존재. 구간을 나눠줌

IntervalIndex([(0, 20], (20, 40], (40, 60], (60, 100]], dtype='interval[int64, right]')

In [58]:
cuts.codes # 각 요소의 구간인덱스를 알려줌

array([0, 1, 3, 1, 2, 2, 2, 3, 1, 3, 1, 2, 2, 0, 1, 0, 0, 2, 1, 1, 1, 2,
       3, 3, 1, 0], dtype=int8)

In [59]:
group_names = ['10대 이하', '20대-30대', '40-50대', '60대 이상']
pd.cut(ages,bins, labels=group_names) # 이거 강사님 안됨 

['10대 이하', '20대-30대', '60대 이상', '20대-30대', '40-50대', ..., '40-50대', '60대 이상', '60대 이상', '20대-30대', '10대 이하']
Length: 26
Categories (4, object): ['10대 이하' < '20대-30대' < '40-50대' < '60대 이상']

In [60]:
# 구간을 균등한 길이로 나눔. 구간 값이 균등
pd.cut(ages,4,precision=1).value_counts()
# precision : 소수점 자릿수, 3이면 소수점 세번째에서 반올림

(4.9, 25.0]     6
(25.0, 45.0]    9
(45.0, 65.0]    6
(65.0, 85.0]    5
Name: count, dtype: int64

In [61]:
# 구간을 균등한 길이로 나눔. 분포인원이 균등
pd.qcut(ages,4).value_counts()

(4.999, 28.25]    7
(28.25, 36.0]     6
(36.0, 55.0]      6
(55.0, 85.0]      7
Name: count, dtype: int64

- get_dummines
  - 명목형 변수를(수치형이 아닌) 문자형 원핫(onehot) 인코딩해줌

In [62]:
df = pd.DataFrame({'col1':[10,20,30],
                   'col2':['a','b','a']})
df

Unnamed: 0,col1,col2
0,10,a
1,20,b
2,30,a


In [63]:
pd.get_dummies(df)

Unnamed: 0,col1,col2_a,col2_b
0,10,True,False
1,20,False,True
2,30,True,False


In [64]:
df = pd.DataFrame({'col1':['001','002','003','004','005','006'],
                   'col2':[10,20,30,40,50,60],
                   'col3':['서울시','경기도','서울시','제주도','경기도','서울시']})
df

Unnamed: 0,col1,col2,col3
0,1,10,서울시
1,2,20,경기도
2,3,30,서울시
3,4,40,제주도
4,5,50,경기도
5,6,60,서울시


In [65]:
pd.get_dummies(df) # 1:True, 0:False 유효하지 않은 분석
# 원핫(onehot)쓰면 스팔스 매트릭스(sparse matrix)대부분의 요소가 0인 행렬 자주,많이 발생

Unnamed: 0,col2,col1_001,col1_002,col1_003,col1_004,col1_005,col1_006,col3_경기도,col3_서울시,col3_제주도
0,10,True,False,False,False,False,False,False,True,False
1,20,False,True,False,False,False,False,True,False,False
2,30,False,False,True,False,False,False,False,True,False
3,40,False,False,False,True,False,False,False,False,True
4,50,False,False,False,False,True,False,True,False,False
5,60,False,False,False,False,False,True,False,True,False


In [66]:
import pandas as pd

kbo = pd.read_csv('C:/Users/5/kbo.csv')
kbo

FileNotFoundError: [Errno 2] No such file or directory: 'C:/Users/5/kbo.csv'

In [None]:
kbo.shape # 30열 9행

(30, 9)

In [None]:
kbo.columns # 칼럼즈

Index(['연도', '순위', '팀', '경기수', '승', '패', '무', '승률', '게임차'], dtype='object')

In [None]:
kbo['팀'].unique # 중복 팀 제거

<bound method Series.unique of 0      두산
1      키움
2      SK
3      LG
4      NC
5      KT
6     KIA
7      삼성
8      한화
9      롯데
10     두산
11     SK
12     한화
13     넥센
14    KIA
15     삼성
16     롯데
17     LG
18     KT
19     NC
20    KIA
21     두산
22     롯데
23     NC
24     SK
25     LG
26     넥센
27     한화
28     삼성
29     KT
Name: 팀, dtype: object>

In [None]:
kbo.info() # csv 정보

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   연도      30 non-null     int64  
 1   순위      30 non-null     int64  
 2   팀       30 non-null     object 
 3   경기수     30 non-null     int64  
 4   승       30 non-null     int64  
 5   패       30 non-null     int64  
 6   무       30 non-null     int64  
 7   승률      30 non-null     float64
 8   게임차     30 non-null     float64
dtypes: float64(2), int64(6), object(1)
memory usage: 2.2+ KB


In [None]:
kbo.describe() # 디스크라이브

Unnamed: 0,연도,순위,경기수,승,패,무,승률,게임차
count,30.0,30.0,30.0,30.0,30.0,30.0,30.0,30.0
mean,2018.0,5.466667,144.0,71.2,71.2,1.6,0.4998,12.833333
std,0.830455,2.921187,0.0,11.871147,11.591912,1.275769,0.082079,12.576204
min,2017.0,1.0,144.0,48.0,51.0,0.0,0.34,-14.5
25%,2017.0,3.0,144.0,61.25,62.5,1.0,0.43175,2.375
50%,2018.0,5.0,144.0,70.5,71.5,1.0,0.4945,9.75
75%,2019.0,8.0,144.0,79.0,80.75,2.0,0.558,19.5
max,2019.0,10.0,144.0,93.0,94.0,5.0,0.646,39.0


In [None]:
kbo.isna().sum() # = kbo.isnul().sum() 결축치(NaN, None) 확인

연도     0
순위     0
팀      0
경기수    0
승      0
패      0
무      0
승률     0
게임차    0
dtype: int64

- groupby를 하면 group으로 묶인 Groupby 객체를 반환
    - 이 객체는 그룹 연산을 위해 필요한 모든 정보를 가지고 있음.
    - 새로운 정보를 추출 할 수 있음

In [None]:
kbo.groupby('팀') # 출력 안나오는게 맞음

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001297E67F670>

In [None]:
kbo.groupby('팀').count() # 총 수를 카운트, 넥센 -> 키움 팀 이름 바뀜

Unnamed: 0_level_0,연도,순위,경기수,승,패,무,승률,게임차
팀,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
KIA,3,3,3,3,3,3,3,3
KT,3,3,3,3,3,3,3,3
LG,3,3,3,3,3,3,3,3
NC,3,3,3,3,3,3,3,3
SK,3,3,3,3,3,3,3,3
넥센,2,2,2,2,2,2,2,2
두산,3,3,3,3,3,3,3,3
롯데,3,3,3,3,3,3,3,3
삼성,3,3,3,3,3,3,3,3
키움,1,1,1,1,1,1,1,1


In [None]:
kbo.groupby(['연도','팀']).sum() #피벗테이블 pivot table

Unnamed: 0_level_0,Unnamed: 1_level_0,순위,경기수,승,패,무,승률,게임차
연도,팀,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2017,KIA,1,144,87,56,1,0.608,0.0
2017,KT,10,144,50,94,0,0.347,37.5
2017,LG,6,144,69,72,3,0.489,17.0
2017,NC,4,144,79,62,3,0.56,7.0
2017,SK,5,144,75,68,1,0.524,12.0
2017,넥센,7,144,69,73,2,0.486,17.5
2017,두산,2,144,84,57,3,0.596,2.0
2017,롯데,3,144,80,62,2,0.563,6.5
2017,삼성,9,144,55,84,5,0.396,30.0
2017,한화,8,144,61,81,2,0.43,25.5


In [None]:
kbo.groupby('팀')['승률'].max() # 팀 승률 중 제일 높은거 보여줌

팀
KIA    0.608
KT     0.500
LG     0.552
NC     0.560
SK     0.615
넥센     0.521
두산     0.646
롯데     0.563
삼성     0.486
키움     0.601
한화     0.535
Name: 승률, dtype: float64

In [None]:
kbo.groupby(['연도','팀'])['승률','순위'].max() # 안나옴

In [None]:
grouped = kbo.groupby('팀') # 각 팀별 내용을 보여줌
for name,group in grouped:
    print(name)
    print(group)
    print('-'*5)

KIA
      연도  순위    팀  경기수   승   패  무     승률   게임차
6   2019   7  KIA  144  62  80  2  0.437  25.5
14  2018   5  KIA  144  70  74  0  0.486   8.5
20  2017   1  KIA  144  87  56  1  0.608   0.0
-----
KT
      연도  순위   팀  경기수   승   패  무     승률   게임차
5   2019   6  KT  144  71  71  2  0.500  16.5
18  2018   9  KT  144  59  82  3  0.418  18.0
29  2017  10  KT  144  50  94  0  0.347  37.5
-----
LG
      연도  순위   팀  경기수   승   패  무     승률   게임차
3   2019   4  LG  144  79  64  1  0.552   9.0
17  2018   8  LG  144  68  75  1  0.476  10.0
25  2017   6  LG  144  69  72  3  0.489  17.0
-----
NC
      연도  순위   팀  경기수   승   패  무     승률   게임차
4   2019   5  NC  144  73  69  2  0.514  14.5
19  2018  10  NC  144  58  85  1  0.406  20.0
23  2017   4  NC  144  79  62  3  0.560   7.0
-----
SK
      연도  순위   팀  경기수   승   패  무     승률   게임차
2   2019   3  SK  144  88  55  1  0.615   0.0
11  2018   2  SK  144  78  65  1  0.545   0.0
24  2017   5  SK  144  75  68  1  0.524  12.0
-----
넥센
      연도  순위   팀  경기수   승  

In [None]:
grouped.get_group('한화') # 한화의 정보를 보여줌

Unnamed: 0,연도,순위,팀,경기수,승,패,무,승률,게임차
8,2019,9,한화,144,58,86,0,0.403,30.5
12,2018,3,한화,144,77,67,0,0.535,1.5
27,2017,8,한화,144,61,81,2,0.43,25.5


- 판다스 인 액션
    - 셜록 홈즈는 아서 코난 도일의 첫 번째 고전 단편 소설 <보헤미아 왕국의 스캔들>에서 조수인 존 왓슨에게 이렇게 조언합니다. "데이터를 얻기 전에 이론부터 세우는 것은 중대한 실수입니다. 사실에 맞는 이론을 세우지 않고 이론에 맞게 사실을 왜곡하는 것은 아주 어리석은 일이죠."

    - 이코노미스트(The Economist)는 2017년 의견서에 '세상에 가장 가치있는 자원은 더 이상 석유가 아니라 데이터'라고 언급하였습니다.

    - 데이터는 근거이며, 근거는 상호 연결된 세계에서 점점 더 복잡해지는 문제를 해결하는 기업, 정부, 기관과 개인에게 매우 중요합니다.

    - 유엔 사무총장 안토니오 구테흐스는 정확한 데이터를 '좋은 정책과 의사 결정의 생명선'이라고 표현

    - 데이터 랭글링 : 다양한 데이터 소스의 데이터를 통합하고 쉽게 액세스하고 분석할 수 있도록 정리하는 프로세스.

    - 파이썬의 창시자인 귀도 반 로섬은 "파이썬으로 코딩하는 즐거움은 적은 양의 명확한 코드로 많은 동작을 표현하는 짧고 간결하며 가독성 있는 자료구조 보는 데에 있습니다.

In [None]:
import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/paskhaver/pandas-in-action/master/chapter_01_introducing_pandas/movies.csv', index_col='Title')
df

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Avengers: Endgame,1,Buena Vista,"$2,796.30",2019
Avatar,2,Fox,"$2,789.70",2009
Titanic,3,Paramount,"$2,187.50",1997
Star Wars: The Force Awakens,4,Buena Vista,"$2,068.20",2015
Avengers: Infinity War,5,Buena Vista,"$2,048.40",2018
...,...,...,...,...
Yogi Bear,778,Warner Brothers,$201.60,2010
Garfield: The Movie,779,Fox,$200.80,2004
Cats & Dogs,780,Warner Brothers,$200.70,2001
The Hunt for Red October,781,Paramount,$200.50,1990


- 객체는 데이터를 저장하는 컨테이너라고 생각하면 좋음.
- 서로 다른 객체는 서로 다른 유형의 데이터에 최적화되어 있으며  
서로 다른 방식으로 상호작용함.
- 판다스는 한 가지 유형의 객체(DataFrame)를 사용하여 다중 열의 데이터셋을 저장하고  
다른 유형의 객체(Series)를 사용하여 단일 열 데이터셋에 저장. DataFrame은 엑셀의 다중 열 테이블과 유사.
- Rank(순위), Title(제목), Stuido(제작사), Gross(총수익), Year(개봉연도)
- 두 번째 행에는 첫 번째 레코드 또는 첫 번째 영화의 데이터가 나열됨.

In [None]:
df.head()

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Avengers: Endgame,1,Buena Vista,"$2,796.30",2019
Avatar,2,Fox,"$2,789.70",2009
Titanic,3,Paramount,"$2,187.50",1997
Star Wars: The Force Awakens,4,Buena Vista,"$2,068.20",2015
Avengers: Infinity War,5,Buena Vista,"$2,048.40",2018


In [None]:
df.tail()

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Yogi Bear,778,Warner Brothers,$201.60,2010
Garfield: The Movie,779,Fox,$200.80,2004
Cats & Dogs,780,Warner Brothers,$200.70,2001
The Hunt for Red October,781,Paramount,$200.50,1990
Valkyrie,782,MGM,$200.30,2008


In [None]:
df.shape

(782, 4)

In [None]:
df.size

3128

In [None]:
df.dtypes # dtypes 보다 info()함수가 더 나음

Rank       int64
Studio    object
Gross     object
Year       int64
dtype: object

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 782 entries, Avengers: Endgame to Valkyrie
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Rank    782 non-null    int64 
 1   Studio  782 non-null    object
 2   Gross   782 non-null    object
 3   Year    782 non-null    int64 
dtypes: int64(2), object(2)
memory usage: 30.5+ KB


In [None]:
df.iloc[499]

Rank           500
Studio         Fox
Gross     $288.30 
Year          2018
Name: Maze Runner: The Death Cure, dtype: object

- 모두가 사랑하는 눈물 없이 볼 수 없는 영화 포레스트 검프(Forrest Gump)의 행 값을 추출
- 

In [None]:
df.loc['Forrest Gump']

Rank            119
Studio    Paramount
Gross      $677.90 
Year           1994
Name: Forrest Gump, dtype: object

- 인덱스 레이블에는 중복 항목이 있을 수 있음.

In [None]:
df.loc['101 Dalmatians']

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101 Dalmatians,425,Buena Vista,$320.70,1996
101 Dalmatians,708,Buena Vista,$215.90,1961


In [None]:
df.sort_values(by='Year', ascending=False).head()

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Avengers: Endgame,1,Buena Vista,"$2,796.30",2019
John Wick: Chapter 3 - Parabellum,458,Lionsgate,$304.70,2019
The Wandering Earth,114,China Film Corporation,$699.80,2019
Toy Story 4,198,Buena Vista,$519.80,2019
How to Train Your Dragon: The Hidden World,199,Universal,$519.80,2019


In [None]:
df.sort_values(by=['Studio', 'Year']).head()

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
The Blair Witch Project,588,Artisan,$248.60,1999
101 Dalmatians,708,Buena Vista,$215.90,1961
The Jungle Book,755,Buena Vista,$205.80,1967
Who Framed Roger Rabbit,410,Buena Vista,$329.80,1988
Dead Poets Society,636,Buena Vista,$235.90,1989


In [None]:
df.sort_index().head()

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
"10,000 B.C.",536,Warner Brothers,$269.80,2008
101 Dalmatians,708,Buena Vista,$215.90,1961
101 Dalmatians,425,Buena Vista,$320.70,1996
2 Fast 2 Furious,632,Universal,$236.40,2003
2012,93,Sony,$769.70,2009


- 하나 이상의 기준으로 열 필터링

In [None]:
df['Studio'] =='Universal'

Title
Avengers: Endgame               False
Avatar                          False
Titanic                         False
Star Wars: The Force Awakens    False
Avengers: Infinity War          False
                                ...  
Yogi Bear                       False
Garfield: The Movie             False
Cats & Dogs                     False
The Hunt for Red October        False
Valkyrie                        False
Name: Studio, Length: 782, dtype: bool

In [None]:
df[df['Studio']== 'Universal']

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Jurassic World,6,Universal,"$1,671.70",2015
Furious 7,8,Universal,"$1,516.00",2015
Jurassic World: Fallen Kingdom,13,Universal,"$1,309.50",2018
The Fate of the Furious,17,Universal,"$1,236.00",2017
Minions,19,Universal,"$1,159.40",2015
...,...,...,...,...
The Break-Up,763,Universal,$205.00,2006
Everest,766,Universal,$203.40,2015
Patch Adams,772,Universal,$202.30,1998
Kindergarten Cop,775,Universal,$202.00,1990


- Index_col 옵션을 선택 안했을 경우.

In [None]:
# import pandas as pd

# df = pd.read_csv('https://raw.githubusercontent.com/paskhaver/pandas-in-action/master/chapter_01_introducing_pandas/movies.csv')
# df

In [None]:
# df[df['Title'] == 'Forrest Gump'] #타이틀

- 2015년에 개봉한 영화를 필터링 할 수 있음.(Universal)

In [None]:
df[((df['Studio']=='Universal') & (df['Year']==2015))] # & 비트로 해야됨 and 아님

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Jurassic World,6,Universal,"$1,671.70",2015
Furious 7,8,Universal,"$1,516.00",2015
Minions,19,Universal,"$1,159.40",2015
Fifty Shades of Grey,165,Universal,$571.00,2015
Pitch Perfect 2,504,Universal,$287.50,2015
Ted 2,702,Universal,$216.70,2015
Everest,766,Universal,$203.40,2015
Straight Outta Compton,776,Universal,$201.60,2015


In [None]:
df[((df['Studio']=='Universal') | (df['Year']==2015))] # | 이거 왜? 

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Star Wars: The Force Awakens,4,Buena Vista,"$2,068.20",2015
Jurassic World,6,Universal,"$1,671.70",2015
Furious 7,8,Universal,"$1,516.00",2015
Avengers: Age of Ultron,9,Buena Vista,"$1,405.40",2015
Jurassic World: Fallen Kingdom,13,Universal,"$1,309.50",2018
...,...,...,...,...
The Break-Up,763,Universal,$205.00,2006
Everest,766,Universal,$203.40,2015
Patch Adams,772,Universal,$202.30,1998
Kindergarten Cop,775,Universal,$202.00,1990


- 1983년에서 1986 사이에 개봉한 영화를 필터링 하는 예제

In [None]:
mid_80s = df['Year'].between(1983,1986) # between, range로 대체 가능하다는데 찾아보셈
df[mid_80s]

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Return of the Jedi,222,Fox,$475.10,1983
Back to the Future,311,Universal,$381.10,1985
Top Gun,357,Paramount,$356.80,1986
Indiana Jones and the Temple of Doom,403,Paramount,$333.10,1984
Crocodile Dundee,413,Paramount,$328.20,1986
Beverly Hills Cop,432,Paramount,$316.40,1984
Rocky IV,467,MGM,$300.50,1985
Rambo: First Blood Part II,469,TriStar,$300.40,1985
Ghostbusters,485,Columbia,$295.20,1984
Out of Africa,662,Universal,$227.50,1985


- 인덱스에서 영화 제목을 소문자로 바꾸고 제목에 'drak'라는 단어가 있는 모든 영화를 찾는 예제

In [None]:
has_dark_in_title = df.index.str.lower().str.contains('dark')
df[has_dark_in_title]

Unnamed: 0_level_0,Rank,Studio,Gross,Year
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Transformers: Dark of the Moon,23,Paramount,"$1,123.80",2011
The Dark Knight Rises,27,Warner Brothers,"$1,084.90",2012
The Dark Knight,39,Warner Brothers,"$1,004.90",2008
Thor: The Dark World,132,Buena Vista,$644.60,2013
Star Trek Into Darkness,232,Paramount,$467.40,2013
Fifty Shades Darker,309,Universal,$381.50,2017
Dark Shadows,600,Warner Brothers,$245.50,2012
Dark Phoenix,603,Fox,$245.10,2019


- 어떤 제작사가 제작한 영화의 총 수익이 가장 높은지를 알아보자.

- 원본 csv에서 달러 기호와 쉼표 기호와 심표 기호를 유지하기 위해
열의 값을 텍스트로 가져옴.
- 열의 값을 십진수로 변환하려면 두 가지 기호('$',',')를 모두 제거하고
빈 텍스트로 바꾸어야 함.

In [None]:
df['Gross'].str.replace(
    "$","",regex=False
).str.replace(",","",regex=False)

Title
Avengers: Endgame               2796.30 
Avatar                          2789.70 
Titanic                         2187.50 
Star Wars: The Force Awakens    2068.20 
Avengers: Infinity War          2048.40 
                                  ...   
Yogi Bear                        201.60 
Garfield: The Movie              200.80 
Cats & Dogs                      200.70 
The Hunt for Red October         200.50 
Valkyrie                         200.30 
Name: Gross, Length: 782, dtype: object

- 참고 : 정규표현식 (https://hamait.tistory.com/342)

In [None]:
df['Gross']=(
    df['Gross']
 .str.replace("$","",regex=False)
.str.replace(",","",regex=False)
.astype(float))

In [None]:
df['Gross'].mean() #평균값

439.0308184143222

- 영화 제작사 당 총 흥행 수익을 계산하는 문제
  - 먼저 제작사를 식별하고 각 제작사에 속한 영화(또는 행)을 버킷(bucket)으로 지정해야함
이 과정을 grouping이라고 함.

In [None]:
studios = df.groupby('Studio')

In [None]:
studios['Gross'].count().sort_values(ascending=False).head()

Studio
Warner Brothers    132
Buena Vista        125
Fox                117
Universal          109
Sony                86
Name: Gross, dtype: int64

In [None]:
studios['Gross'].sum().head()

Studio
Artisan                     248.6
Buena Vista               73585.0
CL                          228.1
China Film Corporation      699.8
Columbia                   1276.6
Name: Gross, dtype: float64

In [None]:
studios['Gross'].sum().sort_values(ascending=False).head()

Studio
Buena Vista        73585.0
Warner Brothers    58643.8
Fox                50420.8
Universal          44302.3
Sony               32822.5
Name: Gross, dtype: float64