## Series

In [1]:
import pandas as pd

In [2]:
# Series 생성
series1 =pd.Series([1,2,3,4,5])
print(series1)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [3]:
# Index 지정하고 Series 생성
series2 = pd.Series([1,2,3,4,5], index = ['일','이','삼','사','오'])
print(series2)

일    1
이    2
삼    3
사    4
오    5
dtype: int64


In [4]:
population = pd.Series([9904312,3448737,2890451,2466052],index = ['서울','부산','인천','대구'])
print(population)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [5]:
#  값,인덱스,타입 = values,index,dtype
print(population.values)
print(population.index)
print(population.dtype)

[9904312 3448737 2890451 2466052]
Index(['서울', '부산', '인천', '대구'], dtype='object')
int64


In [6]:
# 컬럼 이름
population.name='인구'
print(population)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [7]:
# 인덱스 이름
population.index.name = '도시'
print(population)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [8]:
# 시리즈 연산
print(population/1000000)

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64


In [9]:
# 시리즈 인덱싱
print(population['서울'])
print(population[1])
print(population['부산':'대구'])
print(population[1:3])

9904312
3448737
도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [10]:
# list를 활용한 인덱싱
# 원하는 순서로 원하는 만큼 출력 가능.
print(population[['서울','부산']])
print(population[['부산','부산','서울']])

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64
도시
부산    3448737
부산    3448737
서울    9904312
Name: 인구, dtype: int64


In [11]:
# boolean 인덱싱 - numoy와 동일하게 사용
print(population[population >= 2500000])

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [12]:
print(population[population <= 5000000])

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [13]:
print(population[2500000 <= population][population <= 5000000])
print(population[(2500000 <= population) & (population <= 5000000)])

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [14]:
# 딕셔너리로 시리즈를 생성하면 인덱스가 자동으로 부여
#  key = index, value = 값
data = {'서울':9631482, '부산':3393191, '인천':2632035, '대전':1490158}
population2 = pd.Series(data)
print(population2)

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64


In [15]:
# Series 연산
# population,population2 2015,2010 인구
# 증가 인구 계산
bs = population - population2
print (bs)
# notnull() : 값이 없으면 false, 값이 있으면 true
# ismull() : notnull()과 반대
print(bs[bs.notnull()])
print(bs[bs.isnull()])

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64
대구   NaN
대전   NaN
dtype: float64


In [16]:
# 2015년도와 2010년도의 인구 증가율 계산
# 없는 값은 출력 X
# 인구 증가율  (2015 - 2010)/2010*100
rs = (population - population2)/population2*100
print(rs[rs.notnull()].astype(str)+'%')

부산    1.6369841839141974%
서울     2.832689714833086%
인천     9.818106522139713%
dtype: object


In [17]:
# 갱신
rs['대구'] = 1.41
# 추가
rs['광주'] = 2.08
# 제거
del rs['대전']
print(rs)

대구    1.410000
부산    1.636984
서울    2.832690
인천    9.818107
광주    2.080000
dtype: float64


## DataFrame

In [18]:
# Dictionary 로 DataFrame 만들기
# Key : column name , value : 값
dict = {'2015': [9904312,3448737,2890451,2466052],'2010':[9631482,3393191,2632035,2431774]}
df = pd.DataFrame(dict)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [19]:
# index 설정 방법
# DataFrame 생성 후 index 설정
df.index = ['서울','부산','인천','대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [20]:
# DataFrame 생성시 index 지정, column name 지정
dict = [[9904312,3448737,2890451,2466052],[9631482,3393191,2632035,2431774]]
ind = ['2015','2010']
col = ['서울','부산','인천','대구']
df2 = pd.DataFrame(dict,index = ind,columns = col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [21]:
dict = [[9904312,9631482],[3448737,3393191],[2890451,2632035],[2466052,2431774]]
col = ['2015','2010']
ind = ['서울','부산','인천','대구']
df3 = pd.DataFrame(dict,index = ind,columns = col)
df3

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [22]:
# .transpose() = .T(DataFrame 만 가능)
df4 = df2.transpose()
df4

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [23]:
print(df4.index)
print(df4.columns)

Index(['서울', '부산', '인천', '대구'], dtype='object')
Index(['2015', '2010'], dtype='object')


In [24]:
# column 기준 값 추가
# 기존에 가지고 있던 column 명을 입력하면 수정이 이루어짐
df4['2005']=[9762546,3515247,2517680,2450000]
df4

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3515247
인천,2890451,2632035,2517680
대구,2466052,2431774,2450000


In [25]:
# DataFrame 인덱싱(column) & 슬라이싱(index)
# column 기준
print(df4['2015'])
print(df4[['2015']])
print(df4[['2015','2005']])
# index 기준
print(df4['서울':'인천'])
# 혼합
print(df4['2015']['서울'])
print(df4['2015']['서울':'인천'])
print(df4[['2015','2010']]['서울':'인천'])
# 잘 안씁니다....

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64
       2015
서울  9904312
부산  3448737
인천  2890451
대구  2466052
       2015     2005
서울  9904312  9762546
부산  3448737  3515247
인천  2890451  2517680
대구  2466052  2450000
       2015     2010     2005
서울  9904312  9631482  9762546
부산  3448737  3393191  3515247
인천  2890451  2632035  2517680
9904312
서울    9904312
부산    3448737
인천    2890451
Name: 2015, dtype: int64
       2015     2010
서울  9904312  9631482
부산  3448737  3393191
인천  2890451  2632035


In [26]:
# 인덱서 : iloc, loc
#  iloc : index 번호 사용
# loc : 지정한 index 사용
df4.loc['서울':'부산','2015':'2010']

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [27]:
df4.iloc[:2,:2]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [28]:
df4

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3515247
인천,2890451,2632035,2517680
대구,2466052,2431774,2450000


In [29]:
# boolean 인덱싱
df4[df4 >= 5000000]

Unnamed: 0,2015,2010,2005
서울,9904312.0,9631482.0,9762546.0
부산,,,
인천,,,
대구,,,


In [30]:
df4 >= 5000000

Unnamed: 0,2015,2010,2005
서울,True,True,True
부산,False,False,False
인천,False,False,False
대구,False,False,False


In [31]:
df4.loc[df4['2010']>=2500000]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3515247
인천,2890451,2632035,2517680


In [32]:
df4['2010']>=2500000

서울     True
부산     True
인천     True
대구    False
Name: 2010, dtype: bool

In [33]:
df4[df4['2010']>=2500000]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3515247
인천,2890451,2632035,2517680


In [34]:
# csv 불러오기
pn = pd.read_csv('population_number.csv',encoding = "euc-kr",index_col = '도시')
pn

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [35]:
# 값의개수 세기 : count(열별로 Data 개수를 세어 준다), value_counts(값에 따라 세어준다)
print(pn.count())
print(pn.count()['지역'])
print(pn.loc[:,'지역'].value_counts())

지역      4
2015    4
2010    3
2005    2
2000    4
dtype: int64
4
수도권    2
경상권    2
Name: 지역, dtype: int64


In [36]:
# 정렬 : sort_values() : 값을 기준으로 정렬 default 오름차순, ascending 속성 = false 내림차순
# by 속성 해당 column 을 값을 기준으로 정렬 후 나머지 column도 그 순서대로 정렬
print(pn.loc[:,'2010'].sort_values())
print(pn.loc[:,'2010'].sort_values(ascending = False))
print(pn.sort_values(by = '2010'))

도시
대구    2431774.0
인천    2632035.0
서울    9631482.0
부산          NaN
Name: 2010, dtype: float64
도시
서울    9631482.0
인천    2632035.0
대구    2431774.0
부산          NaN
Name: 2010, dtype: float64
     지역     2015       2010       2005     2000
도시                                             
대구  경상권  2466052  2431774.0  2456016.0  2473990
인천  수도권  2890451  2632035.0        NaN  2466338
서울  수도권  9904312  9631482.0  9762546.0  9853972
부산  경상권  3448737        NaN        NaN  3655437


In [37]:
# by 속성의 기준이 복수일 경우 첫번째부터 차례대로 적용된다.
print(pn.sort_values(by = ['지역','2010']))

     지역     2015       2010       2005     2000
도시                                             
대구  경상권  2466052  2431774.0  2456016.0  2473990
부산  경상권  3448737        NaN        NaN  3655437
인천  수도권  2890451  2632035.0        NaN  2466338
서울  수도권  9904312  9631482.0  9762546.0  9853972


In [38]:
# 정렬 : sort_index() : 인덱스를 기준으로 정렬
print(pn.sort_index())
print(pn.sort_index(ascending = False))

     지역     2015       2010       2005     2000
도시                                             
대구  경상권  2466052  2431774.0  2456016.0  2473990
부산  경상권  3448737        NaN        NaN  3655437
서울  수도권  9904312  9631482.0  9762546.0  9853972
인천  수도권  2890451  2632035.0        NaN  2466338
     지역     2015       2010       2005     2000
도시                                             
인천  수도권  2890451  2632035.0        NaN  2466338
서울  수도권  9904312  9631482.0  9762546.0  9853972
부산  경상권  3448737        NaN        NaN  3655437
대구  경상권  2466052  2431774.0  2456016.0  2473990


In [39]:
score = pd.read_csv('score.csv',encoding = 'EUC-KR',index_col ='과목')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [40]:
# 1. 학급별 과목의 점수 총계
a = score.sum()
a

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [41]:
# 2. 순위에 맞게 출력
score.sum().sort_values(ascending = False)

2반    388
3반    295
1반    271
4반    243
dtype: int64

In [42]:
score.loc['반합계'] = a
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26
반합계,271,388,295,243


In [43]:
b = score.T.sum()
b

과목
수학      201
영어      282
국어      253
사회      298
과학      163
반합계    1197
dtype: int64

In [44]:
score['합계'] = b
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163
반합계,271,388,295,243,1197


In [45]:
score['평균'] = score.T[:'4반'].mean()
score.loc['반평균'] = score[:'과학'].mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75
반합계,271.0,388.0,295.0,243.0,1197.0,299.25
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [46]:
# 과목별로 가장 큰값과 가장 작은값의 차이를 구하기
score.T.loc[:'4반',:'과학'].max()-score.T.loc[:'4반',:'과학'].min()

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [47]:
def max_min(x):
    return x.max()-x.min()

In [48]:
max_min(score.T.loc[:'4반',:'과학'])

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [49]:
score.T.loc[:'4반',:'과학'].apply(max_min)

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [50]:
data_dic = {'A':[1,3,3,4,4], 'B':[1,2,2,3,3], 'C':[1,2,4,4,5]}
df5 = pd.DataFrame(data_dic)
df5

Unnamed: 0,A,B,C
0,1,1,1
1,3,2,2
2,3,2,4
3,4,3,4
4,4,3,5


In [51]:
df6 = df5.apply(pd.value_counts)
df6

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [52]:
df6.fillna(0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [53]:
# category 데이터 만들기
ages = [0,2,10,21,23,37,31,61,20,41,32,100]
bins = [0,15,25,35,60,99]
labels = ['미성년자','청년','중년','장년','노년']

In [54]:
cat = pd.cut(x = ages,bins = bins,labels = labels)
cat

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [55]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])

In [56]:
print(df1)
print(df2)
print(df3)

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
    A   B   C   D
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7
      A    B    C    D
8    A8   B8   C8   D8
9    A9   B9   C9   D9
10  A10  B10  C10  D10
11  A11  B11  C11  D11


In [57]:
result = pd.concat([df1,df2,df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [58]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [59]:
result2 = pd.concat([result,df4],axis = 1)
result2

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
4,A4,B4,C4,D4,,,
5,A5,B5,C5,D5,,,
6,A6,B6,C6,D6,B6,D6,F6
7,A7,B7,C7,D7,B7,D7,F7
8,A8,B8,C8,D8,,,
9,A9,B9,C9,D9,,,


In [60]:
pd.concat([df1,df4],axis=1)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [61]:
pd.concat([df1,df4],axis=1,join = 'inner')

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [62]:
pd.concat([df1,df4],axis=1,join = 'outer')

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [63]:
# 인덱스(컬럼) 초기화
pd.concat([df1,df4],axis=1,ignore_index = True)

Unnamed: 0,0,1,2,3,4,5,6
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [64]:
pd.concat([df1,df4],axis=1,ignore_index = False)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [65]:
df5 = pd.DataFrame({'key': ['K0','K2','K3','K4'],
'A':['A0','A1','A2','A3'],
'B':['B0','B1','B2','B3']})


df6 = pd.DataFrame({'key': ['K0','K1','K2','K3'],
'C':['C0','C1','C2','C3'],
'D':['D0','D1','D2','D3']})

In [66]:
df5

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K2,A1,B1
2,K3,A2,B2
3,K4,A3,B3


In [67]:
df6

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [68]:
pd.merge(df5,df6,on = 'key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3


In [69]:
pd.merge(df5,df6,on = 'key',how = 'outer')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3
3,K4,A3,B3,,
4,K1,,,C1,D1


In [70]:
pd.merge(df5,df6,on = 'key',how = 'inner')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3


In [71]:
pd.merge(df5,df6,on = 'key',how = 'left')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3
3,K4,A3,B3,,


In [72]:
pd.merge(df5,df6,on = 'key',how = 'right')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,,,C1,D1
2,K2,A1,B1,C2,D2
3,K3,A2,B2,C3,D3
