In [1]:
import pandas as pd

In [6]:
# Series생성 , 인덱스 지정해서 생성하기
pop = pd.Series([9904312,3448737,2890451,2466052], 
          index = ['서울','부산','인천','대구'])
pop

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [9]:
## 값 확인하기 : values
print(pop.values)
## 인덱스 확인하기 : index
print(pop.index)
## 타입 확인하기 : dtype
print(pop.dtype)
## 크기 확인하기
len(pop)

[9904312 3448737 2890451 2466052]
Index(['서울', '부산', '인천', '대구'], dtype='object')
int64


4

In [14]:
# 열 이름 달기
pop.name = "인구"
# 행 이름 달기
pop.index.name = "도시"
pop

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

인덱싱

In [23]:
# 인덱싱 / 슬라이싱
print(pop["부산"],pop[1],"\n")
print(pop[1:3],"\n\n",pop["부산":"대구"]) 

3448737 3448737 

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64 

 도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [27]:
# 불리언인뎅싱 
print(pop >= 3000000,"\n")
pop[pop>=3000000]

도시
서울     True
부산     True
인천    False
대구    False
Name: 인구, dtype: bool 



도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [29]:
# 펜시 인덱싱           기존과 순서가 다르게
pop[["서울","인천","부산"]]

도시
서울    9904312
인천    2890451
부산    3448737
Name: 인구, dtype: int64

딕셔너리를 사용해서 시리즈 생성

In [31]:
dic_data = {"서울":9631482,"부산":3393191,"인천":2632035,"대전":1490158}
pop2 = pd.Series(dic_data)
pop2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

연산

In [34]:
# 시리즈끼리 연산 : 인덱스 값들을 기준으로 연산함
## 같은 인덱스가 없으면 계산을 하지못해 NaN을 출력
tmp = pop - pop2
tmp

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [39]:
# isnull : null(NaN) 이면 True 아니면 false
# notnull : 반대
tmp[tmp.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

Series 데이터 갱신, 추가, 삭제

In [42]:
# 갱신
tmp["부산"] = 700
tmp

대구         NaN
대전         NaN
부산       700.0
서울    272830.0
인천    258416.0
dtype: float64

In [43]:
# 추가 : 없는 인덱스
tmp["광주"] = 99999
tmp

대구         NaN
대전         NaN
부산       700.0
서울    272830.0
인천    258416.0
광주     99999.0
dtype: float64

In [44]:
# 삭제 : del
del tmp["대전"]
tmp

대구         NaN
부산       700.0
서울    272830.0
인천    258416.0
광주     99999.0
dtype: float64

# DataFrame 

In [57]:
# 딕셔너리를 사용해서 DataFrame 만들기
data = {
    '2015' : [9904312,3448737,2890451,2466052],
    '2010' : [9631482,3393191,2632035,2431774]
}
df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [58]:
# 인덱스 수정
df.index = ['서울','부산','인천','대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [59]:
# 리스트를 사용해서 DataFrame 만들기
data = [
    [9904312,3448737,2890451,2466052],
    [9631482,3393191,2632035,2431774]
]
ind = ['2015','2010']
col = ['서울','부산','인천','대구']
df2 = pd.DataFrame(data, index = ind, columns = col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [67]:
# 행과 열을 바꿔서 다시 만들기
# T : 전치함수
df2 = df2.T
df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [68]:
# values, index, colums : 값, 인덱스, 컬럼 확인
print(df2.values)
print(df2.index)
print(df2.columns)

[[9904312 9631482]
 [3448737 3393191]
 [2890451 2632035]
 [2466052 2431774]]
Index(['서울', '부산', '인천', '대구'], dtype='object')
Index(['2015', '2010'], dtype='object')


인덱싱

In [69]:
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [75]:
# 인덱싱 : 열에서만 가능
df['2015']

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [76]:
# 슬라이싱 : 행에서만 가능
df['서울':"부산"]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [77]:
# 인덱서 : 원하는 행과 열을 기준으로 데이터 출력 가능
# df.loc[ 행 , 열 ]
# loc : 직접 지정한 행,열 값
# iloc : 행,열의 인덱스 값 사용
# 행, 열공간에 인덱싱, 슬라이싱, 불리언인뎅싱, 펜시인덱싱 모두 사용 가능
# [ 하나의 값 ] 만 입력하면 행에 대한 정보로 인식

In [79]:
df.loc['인천','2010']

2632035

In [80]:
df.iloc[2,1]

2632035

In [81]:
df.loc["부산"]

2015    3448737
2010    3393191
Name: 부산, dtype: int64

In [82]:
df.loc[:,"2015"]

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

예제 : 2010년의 인구수가 250만 이상인 데이터 출력

In [106]:
df[df['2010'] > 2500000]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035


In [1]:
import pandas as pd

In [131]:
data = {
    '2015' : [9904312,3448737,2890451,2466052],
    '2010' : [9631482,3393191,2632035,2431774]
}
ind = ['서울','부산','인천','대구']
df = pd.DataFrame(data, index = ind)
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


DataFrame 값 추가, 삭제, 수정

In [169]:
# 열 추가 or 수정
df['2005'] = [9762546,3512547,2517680,2400000]
df

ValueError: Length of values (4) does not match length of index (5)

In [133]:
# 행 추가 or 수정
df.loc["광주"]=[1564813,1547812,1517680]
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2400000
광주,1564813,1547812,1517680


In [134]:
# 하나의 데이터 수정
# 대구행의 2010열 값 수정
df.loc["대구",'2010'] = 2
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2,2400000
광주,1564813,1547812,1517680


In [135]:
# 데이터 삭제하기 : df.drop(삭제 할 행) // df.drop(열, axis=1)
df.drop('2005',axis =1,inplace=True)  # inplace : 삭제 후 저장
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2
광주,1564813,1547812


,로 구분되어 있는 파일 ( , 엑셀 ) 읽어오기

In [175]:
pop_data = pd.read_csv("population_number.csv",
                       encoding='euc-kr',
                      index_col = '도시')
pop_data

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


1995 컬럼 생성  
비어있는 값 아무거나 채우기  
광주 행 생성, 값 추가

In [176]:
pop_data['1995'] = [10000000,4000000,2500000,2500000]
pop_data.loc['부산','2010'] = 3500000
pop_data.loc['부산','2005'] = 3500000
pop_data.loc['인천','2005'] = 3500000
pop_data.loc['광주'] = ['전라권',1,2,3,4,5]

In [177]:
pop_data

Unnamed: 0_level_0,지역,2015,2010,2005,2000,1995
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972,10000000
부산,경상권,3448737,3500000.0,3500000.0,3655437,4000000
인천,수도권,2890451,2632035.0,3500000.0,2466338,2500000
대구,경상권,2466052,2431774.0,2456016.0,2473990,2500000
광주,전라권,1,2.0,3.0,4,5


정렬

In [178]:
# 인덱스 기준 정렬 : sort_index()  // 컬럼 기준은 axis=1
pop_data.sort_index()

Unnamed: 0_level_0,지역,2015,2010,2005,2000,1995
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주,전라권,1,2.0,3.0,4,5
대구,경상권,2466052,2431774.0,2456016.0,2473990,2500000
부산,경상권,3448737,3500000.0,3500000.0,3655437,4000000
서울,수도권,9904312,9631482.0,9762546.0,9853972,10000000
인천,수도권,2890451,2632035.0,3500000.0,2466338,2500000


In [181]:
# 데이터 기준 정렬 : sort_values()
# by = 기준 값
pop_data.sort_values(by = '2000',ascending=False)

Unnamed: 0_level_0,지역,2015,2010,2005,2000,1995
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972,10000000
부산,경상권,3448737,3500000.0,3500000.0,3655437,4000000
대구,경상권,2466052,2431774.0,2456016.0,2473990,2500000
인천,수도권,2890451,2632035.0,3500000.0,2466338,2500000
광주,전라권,1,2.0,3.0,4,5


In [182]:
pop_data.sort_values(by=["지역",'2010'])

Unnamed: 0_level_0,지역,2015,2010,2005,2000,1995
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3500000.0,3500000.0,3655437,4000000
대구,경상권,2466052,2431774.0,2456016.0,2473990,2500000
서울,수도권,9904312,9631482.0,9762546.0,9853972,10000000
인천,수도권,2890451,2632035.0,3500000.0,2466338,2500000
광주,전라권,1,2.0,3.0,4,5


##### 실습 
- 슬랙 사진처럼 score.csv파일 불러오기
- 1. 과목별 합계 열 생성
- 2. 평균 추가
- 3. 반평균 행 추가

In [206]:
score = pd.read_csv("score.csv", encoding="euc-kr",index_col="과목")
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [212]:
score["합계"]=score.loc[:,'1반':'4반'].sum(axis=1)
score["평균"]=score["합계"]/4
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


In [214]:
score.loc["반평균"] = score[:].mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [221]:
score.loc[:'과학','1반':'4반'].max(axis=1)-score.loc[:'과학','1반':'4반'].min(axis=1)

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [222]:
#하나씩의 행을 뽑아와서 계산하기 : apply()
# 행이나 열 단위로 복잡한 처리(함수 제작)를 할 때 사용

In [226]:
def max_min(x):
    return x.max() - x.min()

In [227]:
score.loc[:'과학',:'4반'].apply(max_min, axis=1)

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [234]:
# 카테고리 데이터 만들기
ages = [0,2,15,21,23,37,31,61,20,41,32,100]

In [232]:
범위 = [0,15,25,35,60,99]
이름 = ['미성년자','청년','중년','장년','노년']

In [237]:
# cut() : 카테고리 데이터를 만들어 줌
cate = pd.cut(ages, 범위, labels =이름)
 

In [241]:
age_df = pd.DataFrame(cate.tolist())
age_df

Unnamed: 0,0
0,
1,미성년자
2,미성년자
3,청년
4,청년
5,장년
6,중년
7,노년
8,청년
9,장년


In [244]:
# 결측치 = 공간은 있지만 값은 없음 ( NaN 등 )
# 채우기 : fillna(채울 값)
age_df.fillna(value = "범위 밖", inplace=True)

In [246]:
age_df

Unnamed: 0,0
0,범위 밖
1,미성년자
2,미성년자
3,청년
4,청년
5,장년
6,중년
7,노년
8,청년
9,장년


In [247]:
# 값의 개수 : value_counts()
age_df.value_counts()

청년      3
미성년자    2
범위 밖    2
장년      2
중년      2
노년      1
dtype: int64

#### 데이터 병합

In [2]:
import pandas as pd

In [20]:
# 데이터 병합 : concat, merge
# concat - 인덱스, 컬럼을 기준으로 데이터를 합침
# merge - 값을 기준으로 데이터를 합침

concat

In [7]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                   'B': ['B0', 'B1', 'B2', 'B3'],
                   'C': ['C0', 'C1', 'C2', 'C3'],
                   'D': ['D0', 'D1', 'D2', 'D3']},
                  index=[0, 1, 2, 3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                   'B': ['B4', 'B5', 'B6', 'B7'],
                   'C': ['C4', 'C5', 'C6', 'C7'],
                   'D': ['D4', 'D5', 'D6', 'D7']},
                  index=[4, 5, 6, 7])
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                   'B': ['B8', 'B9', 'B10', 'B11'],
                   'C': ['C8', 'C9', 'C10', 'C11'],
                   'D': ['D8', 'D9', 'D10', 'D11']},
                  index=[8, 9, 10, 11])
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                   'D': ['D2', 'D3', 'D6', 'D7'],
                   'F': ['F2', 'F3', 'F6', 'F7']},
                  index=[2, 3, 6, 7])

In [5]:
pd.concat([df1,df2,df3], ignore_index = True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [9]:
pd.concat([df1,df4])

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [15]:
pd.concat([df1,df4],axis=1,join='inner')  # NaN값은 안나옴

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [16]:
# lefthoin, rightjoin은 없지만 원하는 인덱스를 기준으로 재배치 가능
# reindex(원하는 인덱스)
pd.concat([df1,df4],axis=1).reindex(df4.index)

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [17]:
pd.concat([df1,df4],axis=1).reindex([1,2,3,4])

Unnamed: 0,A,B,C,D,B.1,D.1,F
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
4,,,,,,,


In [18]:
# axis=0, 열에대해 인덱싱하면 recolumn 같은 느낌
pd.concat([df1,df4])[df4.columns]

Unnamed: 0,B,D,F
0,B0,D0,
1,B1,D1,
2,B2,D2,
3,B3,D3,
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


merge

In [19]:
df5 = pd.DataFrame({'key': ['K0','K2','K3','K4'],
'A':['A0','A1','A2','A3'],
'B':['B0','B1','B2','B3']})
df6 = pd.DataFrame({'key': ['K0','K1','K2','K3'],
'C':['C0','C1','C2','C3'],
'D':['D0','D1','D2','D3']})

In [25]:
pd.merge(df5,df6, on='key' , how ='right') ##df6의 key기준, default는 outer

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,,,C1,D1
2,K2,A1,B1,C2,D2
3,K3,A2,B2,C3,D3


#### 실습
- 연도별 관서명 별 발생건수 총합 구하고
- 범죄 증감율 : (금년-작년)/작년*100   구하기

In [38]:
df2015 = pd.read_csv("2015.csv", encoding="euc-kr", index_col="관서명")
df2016 = pd.read_csv("2016.csv", encoding="euc-kr", index_col="관서명")
df2017 = pd.read_csv("2017.csv", encoding="euc-kr", index_col="관서명")

In [83]:
bol1 = (df2015["구분"] == "발생건수")
sum2015 = df2015[bol1].loc[:,"살인":"폭력"].sum(axis=1)
bol2 = (df2016["구분"] == "발생건수")
sum2016 = df2016[bol2].loc[:,"살인":"폭력"].sum(axis=1)
bol3 = (df2017["구분"] == "발생건수")
sum2017 = df2017[bol3].loc[:,"살인":"폭력"].sum(axis=1)

df=pd.concat([sum2015,sum2016,sum2017],axis=1,join="inner")
df.columns = ["2015총계",'2016총계','2017총계']
df["2015-2016 증감율"] = (df["2016총계"]-df["2015총계"])/df["2015총계"]*100
df["2016-2017 증감율"] = (df["2017총계"]-df["2016총계"])/df["2016총계"]*100


df= df[["2015총계",'2015-2016 증감율','2016총계','2016-2017 증감율','2017총계']]
df

Unnamed: 0_level_0,2015총계,2015-2016 증감율,2016총계,2016-2017 증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020
