# pandas - 구조적 데이터 처리를 위한 라이브러리

In [2]:
!pip install pandas



In [None]:
import numpy as np
import pandas as pd

1. 시리즈 생성

In [None]:
s = pd.Series([1, 3, 5, 6, 8])
s

In [8]:
s.index

RangeIndex(start=0, stop=5, step=1)

In [None]:
s.index

In [9]:
s.values

array([1, 3, 5, 6, 8], dtype=int64)

In [10]:
s2 = pd.Series([1,2,3,'a','b','c'])
s2

0    1
1    2
2    3
3    a
4    b
5    c
dtype: object

In [11]:
#딕셔너리로 시리즈 생성시 키가 인덱스로 사용됨
s3 = pd.Series({'name':'aaa', 'tel':'111', 'addr':'asdfasd'})
s3

name        aaa
tel         111
addr    asdfasd
dtype: object

In [12]:
s4 = pd.Series({'kor':65, 'eng':78, 'math':89})
s4

kor     65
eng     78
math    89
dtype: int64

2. DataFrame 생성  
*df = pd.DataFrame(data, [,index, columns])

In [13]:
data = [[1,2,3],[4,5,6],[7,8,9]]
d1 = pd.DataFrame(data)
d1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [14]:
my_index = ['row1', 'row2', 'row3']
my_col = ['col1', 'col2', 'col3']
d2 = pd.DataFrame(data, index=my_index, columns=my_col)
d2

Unnamed: 0,col1,col2,col3
row1,1,2,3
row2,4,5,6
row3,7,8,9


In [15]:
d2.index

Index(['row1', 'row2', 'row3'], dtype='object')

In [16]:
d2.columns

Index(['col1', 'col2', 'col3'], dtype='object')

In [17]:
d2.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]], dtype=int64)

3. 데이터 연산

In [18]:
a=pd.Series([1,2,3,4])
b=pd.Series([5,6,7,8])
a+b

0     6
1     8
2    10
3    12
dtype: int64

In [19]:
a-b

0   -4
1   -4
2   -4
3   -4
dtype: int64

In [20]:
a*b

0     5
1    12
2    21
3    32
dtype: int64

In [21]:
b/a

0    5.000000
1    3.000000
2    2.333333
3    2.000000
dtype: float64

In [22]:
a=pd.Series([1,2,3])
b=pd.Series([5,6,7,8])
a+b

0     6.0
1     8.0
2    10.0
3     NaN
dtype: float64

In [23]:
d1 = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]})
d1

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [24]:
d2 = pd.DataFrame({'A':[11,22], 'B':[33,44], 'C':[55,66]})
d2

Unnamed: 0,A,B,C
0,11,33,55
1,22,44,66


In [25]:
d1+d2

Unnamed: 0,A,B,C
0,12.0,37.0,62.0
1,24.0,49.0,74.0
2,,,


In [26]:
names = ['aaa', 'bbb', 'ccc']
d = {'국어':[54,65,76], '영어':[67,56,45], '수학':[98,78,76], '사회':[98,76,45], '과학':[89,97,56]}
d3 = pd.DataFrame(d, index=names)
d3

Unnamed: 0,국어,영어,수학,사회,과학
aaa,54,67,98,98,89
bbb,65,56,78,76,97
ccc,76,45,76,45,56


4. 통계함수  
sum():합  
mean(): 평균  
std(): 표준 편차  
var(): 분산  
min(): 최소값  
max(): 최대값  
cumsum(): 누적합  
cumprod(): 누적곱

In [27]:
d3.sum()

국어    195
영어    168
수학    252
사회    219
과학    242
dtype: int64

In [28]:
d3.mean()  #컬럼별 평균

국어    65.000000
영어    56.000000
수학    84.000000
사회    73.000000
과학    80.666667
dtype: float64

In [29]:
d3.mean(axis=1) #행별로 평균

aaa    81.2
bbb    74.4
ccc    59.6
dtype: float64

In [30]:
d3.describe()

Unnamed: 0,국어,영어,수학,사회,과학
count,3.0,3.0,3.0,3.0,3.0
mean,65.0,56.0,84.0,73.0,80.666667
std,11.0,11.0,12.165525,26.627054,21.733231
min,54.0,45.0,76.0,45.0,56.0
25%,59.5,50.5,77.0,60.5,72.5
50%,65.0,56.0,78.0,76.0,89.0
75%,70.5,61.5,88.0,87.0,93.0
max,76.0,67.0,98.0,98.0,97.0


5. 요소 추출  
head(n): 위에서 n줄 추출  
tail(n): 아래에서 n줄 추출

In [31]:
d = np.arange(100).reshape(10,10)
d2 = pd.DataFrame(d)
d2

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0,1,2,3,4,5,6,7,8,9
1,10,11,12,13,14,15,16,17,18,19
2,20,21,22,23,24,25,26,27,28,29
3,30,31,32,33,34,35,36,37,38,39
4,40,41,42,43,44,45,46,47,48,49
5,50,51,52,53,54,55,56,57,58,59
6,60,61,62,63,64,65,66,67,68,69
7,70,71,72,73,74,75,76,77,78,79
8,80,81,82,83,84,85,86,87,88,89
9,90,91,92,93,94,95,96,97,98,99


In [32]:
d2.head(5)#기본이 5줄0~4

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0,1,2,3,4,5,6,7,8,9
1,10,11,12,13,14,15,16,17,18,19
2,20,21,22,23,24,25,26,27,28,29
3,30,31,32,33,34,35,36,37,38,39
4,40,41,42,43,44,45,46,47,48,49


In [33]:
d2.head(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0,1,2,3,4,5,6,7,8,9
1,10,11,12,13,14,15,16,17,18,19
2,20,21,22,23,24,25,26,27,28,29


In [36]:
d2.tail()#역순 기본이 5줄

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
5,50,51,52,53,54,55,56,57,58,59
6,60,61,62,63,64,65,66,67,68,69
7,70,71,72,73,74,75,76,77,78,79
8,80,81,82,83,84,85,86,87,88,89
9,90,91,92,93,94,95,96,97,98,99


In [37]:
d2.tail(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
7,70,71,72,73,74,75,76,77,78,79
8,80,81,82,83,84,85,86,87,88,89
9,90,91,92,93,94,95,96,97,98,99


In [38]:
d2[2:5]#인덱스 범위 지정 추출

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
2,20,21,22,23,24,25,26,27,28,29
3,30,31,32,33,34,35,36,37,38,39
4,40,41,42,43,44,45,46,47,48,49


In [39]:
d2.loc[3]#인덱스 이름으로 한 줄 추출

0    30
1    31
2    32
3    33
4    34
5    35
6    36
7    37
8    38
9    39
Name: 3, dtype: int32

In [40]:
s = ['a','b','c','d','e','f','g','h','i','j']
s2 = ['c_a','c_b','c_c','c_d','c_e','c_f','c_g','c_h','c_i','c_j']
d3 = pd.DataFrame(d, index=s, columns=s2)
d3

Unnamed: 0,c_a,c_b,c_c,c_d,c_e,c_f,c_g,c_h,c_i,c_j
a,0,1,2,3,4,5,6,7,8,9
b,10,11,12,13,14,15,16,17,18,19
c,20,21,22,23,24,25,26,27,28,29
d,30,31,32,33,34,35,36,37,38,39
e,40,41,42,43,44,45,46,47,48,49
f,50,51,52,53,54,55,56,57,58,59
g,60,61,62,63,64,65,66,67,68,69
h,70,71,72,73,74,75,76,77,78,79
i,80,81,82,83,84,85,86,87,88,89
j,90,91,92,93,94,95,96,97,98,99


In [41]:
d3.loc['c':'h']

Unnamed: 0,c_a,c_b,c_c,c_d,c_e,c_f,c_g,c_h,c_i,c_j
c,20,21,22,23,24,25,26,27,28,29
d,30,31,32,33,34,35,36,37,38,39
e,40,41,42,43,44,45,46,47,48,49
f,50,51,52,53,54,55,56,57,58,59
g,60,61,62,63,64,65,66,67,68,69
h,70,71,72,73,74,75,76,77,78,79


In [42]:
d3['c_b']

a     1
b    11
c    21
d    31
e    41
f    51
g    61
h    71
i    81
j    91
Name: c_b, dtype: int32

In [43]:
#인덱스 c에서 f까지 c_b 컬럼만 추출 
d3['c_b']['c':'f']

c    21
d    31
e    41
f    51
Name: c_b, dtype: int32

In [44]:
d3.loc['e']['c_e']#[인덱스][컬럼명]:요소 한개 추출

44

In [45]:
d3.loc['e','c_e']

44

In [46]:
d3['c_e']['e']#[열명][인덱스명]

44

In [47]:
d3['c_e'][1]#인덱스는 위치값으로 표현 가능

14

In [48]:
d3['c_e'].loc['f']

54

In [49]:
d3.T#전치: 행렬을 뒤집음 (index와 collom을 서로 변경)

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
c_a,0,10,20,30,40,50,60,70,80,90
c_b,1,11,21,31,41,51,61,71,81,91
c_c,2,12,22,32,42,52,62,72,82,92
c_d,3,13,23,33,43,53,63,73,83,93
c_e,4,14,24,34,44,54,64,74,84,94
c_f,5,15,25,35,45,55,65,75,85,95
c_g,6,16,26,36,46,56,66,76,86,96
c_h,7,17,27,37,47,57,67,77,87,97
c_i,8,18,28,38,48,58,68,78,88,98
c_j,9,19,29,39,49,59,69,79,89,99


6. 데이터 통합  
append(): 세로로 통합  
join(): 가로로 통합  
merge(): 특정 열을 기준으로 가로로 통합

In [None]:
d1 = pd.DataFrame({'A':[78,67,54,34], 'B':[87,67,65,34]})
d2 = pd.DataFrame({'A':[76,54], 'B':[87,56]})
d1.append(d2)

Unnamed: 0,A,B
0,78,87
1,67,67
2,54,65
3,34,34
0,76,87
1,54,56


In [None]:
d1.append(d2, ignore_index=True)

Unnamed: 0,A,B
0,78,87
1,67,67
2,54,65
3,34,34
4,76,87
5,54,56


In [None]:
d3 = pd.DataFrame({'C':[65,43,32]})
d3

Unnamed: 0,C
0,65
1,43
2,32


In [None]:
d1.join(d3)

Unnamed: 0,A,B,C
0,78,87,65.0
1,67,67,43.0
2,54,65,32.0
3,34,34,


In [None]:
d1 = pd.DataFrame({'판매월':['1월','2월','3월','4월'], 'A':[54,65,76,78], 'B':[87,65,54,43]})
d1

Unnamed: 0,판매월,A,B
0,1월,54,87
1,2월,65,65
2,3월,76,54
3,4월,78,43


In [None]:
d2 = pd.DataFrame({'판매월':['1월','2월','3월','4월'], 'C':[54,43,32,54], 'D':[98,87,76,45]})
d2

Unnamed: 0,판매월,C,D
0,1월,54,98
1,2월,43,87
2,3월,32,76
3,4월,54,45


In [None]:
d1.merge(d2)

Unnamed: 0,판매월,A,B,C,D
0,1월,54,87,54,98
1,2월,65,65,43,87
2,3월,76,54,32,76
3,4월,78,43,54,45


*merge()함수 how옵션  
left: 왼쪽을 모두 선택. 오른쪽은 지정된 열만  
right: 오른쪽 모두 선택. 왼쪽은 지정된 열만  
outer: 왼쪽, 오른쪽 모두 다  
inner: 지정된 열의 공통된 값만

In [None]:
d2 = pd.DataFrame({'판매월':['3월','4월','5월', '6월'], 'C':[54,43,32,54], 'D':[98,87,76,45]})
d2

Unnamed: 0,판매월,C,D
0,3월,54,98
1,4월,43,87
2,5월,32,76
3,6월,54,45


In [None]:
d1.merge(d2)#how 기본 값: inner

Unnamed: 0,판매월,A,B,C,D
0,3월,76,54,54,98
1,4월,78,43,43,87


In [None]:
d1.merge(d2, how='left')

Unnamed: 0,판매월,A,B,C,D
0,1월,54,87,,
1,2월,65,65,,
2,3월,76,54,54.0,98.0
3,4월,78,43,43.0,87.0


In [None]:
d1.merge(d2, how='right')

Unnamed: 0,판매월,A,B,C,D
0,3월,76.0,54.0,54,98
1,4월,78.0,43.0,43,87
2,5월,,,32,76
3,6월,,,54,45


In [None]:
d1.merge(d2, how='outer')

Unnamed: 0,판매월,A,B,C,D
0,1월,54.0,87.0,,
1,2월,65.0,65.0,,
2,3월,76.0,54.0,54.0,98.0
3,4월,78.0,43.0,43.0,87.0
4,5월,,,32.0,76.0
5,6월,,,54.0,45.0


7. 파일 입출력  
read_csv(파일명): csv 파일에서 읽기  
DataFrame.to_csv(파일명): 데이터 프레임 내용을 파일에 작성

In [50]:
%%writefile a.csv
이름,국어,영어,수학
aaa,43,54,65
bbb,7,67,87
ccc,54,65,76

Writing a.csv


In [51]:
#csv 파일 로드
pd.read_csv('a.csv')

Unnamed: 0,이름,국어,영어,수학
0,aaa,43,54,65
1,bbb,7,67,87
2,ccc,54,65,76


In [52]:
pd.read_csv('a.csv', index_col='이름')

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
aaa,43,54,65
bbb,7,67,87
ccc,54,65,76


In [53]:
# 데이터 프레임 데이터를 파일로 쓰기
d1.to_csv('b.csv')

In [58]:
# unicode...utf-8...에러 나면
# engine='python'  추가
# 그래도 안되면 csv 파일을 메모장에서 열어서 encoding을 utf-8로 변환하여 새이름으로 저장
bicycle_data = pd.read_csv('bicycle.csv', engine='python')  
bicycle_data

FileNotFoundError: [Errno 2] No such file or directory: 'bicycle.csv'

In [60]:
bicycle_data['노선명']

NameError: name 'bicycle_data' is not defined

In [64]:
data2 = pd.read_csv('bicycle_utf8.csv', engine='python', index_col='노선명')
data2

Unnamed: 0_level_0,자전거도로종류,기점,종점,주요경유지,방향,총연장,일반도로폭,자전거도로폭,설치연도,도로재질,비고,데이터기준일
노선명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
동일로,자전거및보행자겸용도로,장평교교차로,군자교교차로,중곡빗물펌프장,양방,1.5(3.0),30,4,1996,고압블럭,표지,2022-01-26
광나루로56길,자전거및보행자겸용도로,테크노마트,광남중고교입구교차로,프라임아파트,양방,0.5(1.0),35,3.5,1996,고압블럭,표지,2022-01-26
아차산로70길,자전거및보행자겸용도로,광남중고교 입구교차로,광남중입구,한강시민공원연결로,양방,0.5(1.0),20,3.0(2.0),2007,고압블럭,표지,2022-01-26
능동로,자전거및보행자겸용도로,용곡삼거리,군자역사거리,중곡역,양방,1.4(2.8),25,4.0(2.0),1999,투수콘/블럭,표지,2022-01-26
능동로,자전거및보행자겸용도로,군자역사거리,어린이대공원역,세종대학교,양방,1.2(2.4),25,4.0(2.0),1996/2020,투수콘/화강석,라인표지,2022-01-26
능동로,자전거및보행자겸용도로,어린이대공원역,건대입구역,건국대학교병원,편방,0.85,35,4.0(2.0),2005/2006,점토블럭,표지,2022-01-26
능동로,자전거및보행자겸용도로,건대입구역,뚝섬유원지역,신양초교,편방,0.95,25,4.0(2.0),2002/2020,점토블럭,표지,2022-01-26
광나루로,자전거및보행자겸용도로,화양사거리,어린이대공원역(5번출구),화양삼거리,편방,0.6,30,4,2015,투수콘/ 블럭,표지,2022-01-26
광나루로,자전거및보행자겸용도로,어린이대공원역,구의사거리,어린이회관,편방,1,30,3.5,1997/2020,투수콘/ 블럭,표지,2022-01-26
광나루로,자전거및보행자겸용도로,구의사거리,광진구민방위교육센터,올림픽대교북단교차로,편방,1.4,30,3.5,1997,투수콘/ 블럭,표지,2022-01-26


In [65]:
data2.loc['동일로']

자전거도로종류    자전거및보행자겸용도로
기점              장평교교차로
종점              군자교교차로
주요경유지          중곡빗물펌프장
방향                  양방
총연장           1.5(3.0)
일반도로폭               30
자전거도로폭               4
설치연도              1996
도로재질              고압블럭
비고                  표지
데이터기준일      2022-01-26
Name: 동일로, dtype: object

In [67]:
'''
함수 만들기
노선명을 파람으로 받아서 (자전거도로종류	기점	종점	주요경유지) 정보 반환

'''

data2.loc['동일로']['자전거도로종류':'주요경유지']

자전거도로종류    자전거및보행자겸용도로
기점              장평교교차로
종점              군자교교차로
주요경유지          중곡빗물펌프장
Name: 동일로, dtype: object

In [97]:
def infor(name):
    data3 = data2.loc[name].T
    return data3.loc['자전거도로종류'].T

In [85]:
def getInfo(name):
    data3 = data2.loc[name].T 
    return data3.loc['자전거도로종류':'주요경유지'].T

In [98]:
res = infor('아차산로')
res

노선명
아차산로    자전거및보행자겸용도로
아차산로    자전거및보행자겸용도로
아차산로    자전거및보행자겸용도로
아차산로    자전거및보행자겸용도로
아차산로    자전거및보행자겸용도로
아차산로    자전거및보행자겸용도로
Name: 자전거도로종류, dtype: object

In [None]:
res.loc[res.index[0]]

In [None]:
res.index.size

6

In [None]:
res.values

array([['자전거및보행자겸용도로', '성수사거리', '자양사거리', '건대입구역'],
       ['자전거및보행자겸용도로', '자양사거리', '올림픽대교북단교차로', '구의역'],
       ['자전거및보행자겸용도로', '올림픽대교 북단교차로', '광장사거리', '극동아파트'],
       ['자전거및보행자겸용도로', '광장사거리', '장로회신학대학교 입구', '광장신동아파밀리에아파트'],
       ['자전거및보행자겸용도로', '광진청소년센터', '동북아스위트힐아파트', '광진구보훈회관'],
       ['자전거및보행자겸용도로', '동북아스위트힐', '구리시 경계', '그랜드워커힐 서울']], dtype=object)

In [None]:
res.columns

Index(['자전거도로종류', '기점', '종점', '주요경유지'], dtype='object')

In [None]:
def printInfo(name, info):
    print('검색된 '+name+' 노선 정보\n\n')
    cols = info.columns
    vals = info.values
    for i in vals:
        for j in range(0, 4):
            print(cols[j], ':', i[j])
        print('================')
        

In [None]:
name = '아차산로'
res = getInfo(name)
printInfo(name, res)

검색된 아차산로 노선 정보


자전거도로종류 : 자전거및보행자겸용도로
기점 : 성수사거리
종점 : 자양사거리
주요경유지 : 건대입구역
자전거도로종류 : 자전거및보행자겸용도로
기점 : 자양사거리
종점 : 올림픽대교북단교차로
주요경유지 : 구의역
자전거도로종류 : 자전거및보행자겸용도로
기점 : 올림픽대교 북단교차로
종점 : 광장사거리
주요경유지 : 극동아파트
자전거도로종류 : 자전거및보행자겸용도로
기점 : 광장사거리
종점 : 장로회신학대학교 입구
주요경유지 : 광장신동아파밀리에아파트
자전거도로종류 : 자전거및보행자겸용도로
기점 : 광진청소년센터
종점 : 동북아스위트힐아파트
주요경유지 : 광진구보훈회관
자전거도로종류 : 자전거및보행자겸용도로
기점 : 동북아스위트힐
종점 : 구리시 경계
주요경유지 : 그랜드워커힐 서울
