In [1]:
# pandas 라이브러리 불러오기
import pandas as pd

In [2]:
# Series -> 인덱스와 값으로 구성되어 있는 형태
population = pd.Series([9904312, 3448737, 2890451, 2466052])
population

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64

In [3]:
# Series 생성시 인덱스 동시에 지정하기 
population = pd.Series([9904312, 3448737, 2890451, 2466052], 
                       index=['서울','부산','인천','대구'])
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [4]:
# Series의 값만 확인
print(population.values)
# Series의 인덱스만 확인
print(population.index)

[9904312 3448737 2890451 2466052]
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [5]:
population.dtype

dtype('int64')

In [6]:
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [8]:
# series에 이름 지정하기
population.name = '인구'
population.index.name = '도시'
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [9]:
population/1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [10]:
population[1]

3448737

In [11]:
# 인덱싱을 진행 할 때, 인덱스의 실제 값으로 사용이 가능하다!
population['부산']

3448737

In [12]:
# 인덱스를 활용하여 서울, 대구, 부산 값 한번에 가져오기! -> 인덱싱
population[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [13]:
population[['서울', '대구', '부산']]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [14]:
population >= 2500000

도시
서울     True
부산     True
인천     True
대구    False
Name: 인구, dtype: bool

In [15]:
population[population >= 2500000]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [16]:
# 인구수가 250만 이상 500만 이하의 도시 찾기! -> 부산, 인천
population[(population >= 2500000) & (population <=5000000)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [18]:
# 전체 데이터에서 부산, 인천 -> 슬라이싱 사용
population[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [20]:
# 인덱스의 실제 값으로 슬라이싱을 할 때, 끝 미만이라는 개념은 없다!
population['부산':'인천']

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

# dict자료구조 활용해서 Series 생성하기

In [3]:
# 포켓몬이름 : 능력치
data = {'피카츄':9631,'꼬부기':3393,'파이리':1490,'이상해씨':2632}
pokemon = pd.Series(data)
pokemon

피카츄     9631
꼬부기     3393
파이리     1490
이상해씨    2632
dtype: int64

In [4]:
#레벨업한 데이터가 들어있는 pokemon_up Series
data2 = {'피카츄':9904,'꼬부기':3448,'이브이':2466,'뮤':2890}
pokemon_up = pd.Series(data2)
pokemon_up

피카츄    9904
꼬부기    3448
이브이    2466
뮤      2890
dtype: int64

In [5]:
#올라간 능력치를 계산
#인덱스명이 달랐을 때 Series는 어떻게 연산한 결과값을 돌려줄까?
attack = pokemon_up - pokemon
attack

꼬부기      55.0
뮤         NaN
이브이       NaN
이상해씨      NaN
파이리       NaN
피카츄     273.0
dtype: float64

In [9]:
#비어있지 않은 데이터들만 보고싶다면?
attack.notnull()
#비어있지 않은 데이터들만 인덱싱
attack[attack.notnull()]
#비어있는 데이터들만 보고싶다면?
attack[attack.isnull()]

뮤      NaN
이브이    NaN
이상해씨   NaN
파이리    NaN
dtype: float64

In [14]:
#Series 데이터 수정, 추가, 삭제
attack['파이리'] = 1616 #기존에 있던 인덱스 명칭에 값을 덮어씌우기
attack['리자몽'] = 8888 #기존에 없는 인덱스 명칭을 활용하여 값 추가 가능
del attack['파이리'] #삭제하는 방법
attack

꼬부기       55.0
뮤          NaN
이브이        NaN
이상해씨       NaN
피카츄      273.0
리자몽     8888.0
dtype: float64

# DataFrame 
- 행과 열로 구성되어있는 2차원 자료구조

In [16]:
#dict자료구조 활용해서 dataframe 생성하기
data3 = {'2015':[9904312,3448737,2890451,2466052],
        '2010' :[9631482,3393191,2632035,2431774]
        }
df = pd.DataFrame(data3)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [17]:
#데이터프레임 인덱스 명칭 바꾸기
df.index = ['서울','부산','인천','대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [19]:
data4 = [[9904312,3448737,2890451,2466052],
         [9631482,3393191,2632035,2431774]]
ind = ['2015','2010']
col = ['서울','부산','인천','대구']
df2 = pd.DataFrame(data4, index = ind, columns = col)
df2.T #데이터프레임 전치시키기

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [22]:
#1.데이터프레임에서 값만 확인하기
df2.values
#2.데이터프레임에서 인덱스만 확인하기
df2.index
#3.데이터프레임에서 컬럼만 확인하기
df2.columns

Index(['서울', '부산', '인천', '대구'], dtype='object')

## 데이터프레임 인덱싱 & 슬라이싱

In [27]:
df['2015'] #Series형태로 가져오게 됨
df[['2015','2010']] #DataFrame형태로 가져오게 됨
#새로운 컬럼을 추가하고 싶다면?
df['2005'] = [9762546,3512547,2517680,2456016]
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [43]:
df[0:2]
#인덱스 명으로 슬라이싱 **주의할 점! 내가 가져올 구간까지!
df['서울':'부산']
#dataframe에서 행과 열단위로 슬라이싱 해오고 싶을때는 인덱서 사용
df.loc['부산':'인천','2015':'2010']
#loc인덱서에서는 반드시 실제 인덱스명 or 컬럼명칭을 사용!!!!!!!!
#iloc인덱서 ---> 인덱스 번호를 가지고 슬라이싱 가능!
df.iloc[1:3,0:2]
df.iloc[3] #행단위로 가지고 와진다! Series자료구조 형태로 가져와짐!

2015    2466052
2010    2431774
2005    2456016
Name: 대구, dtype: int64

In [47]:
#boolean인덱싱
df[df['2010']>=2500000]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [50]:
#csv파일 읽어오기
population = pd.read_csv('population_number.csv',index_col='도시'
                         ,encoding='euc-kr')
population

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [53]:
#정렬하기
#인덱스 값을 기준으로 정렬
population.sort_index()
#데이터를 기준으로 정렬
population.sort_values(by = '2010',ascending = False)

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437


In [54]:
#population 지역, 2010년 인구수 기준으로 오름차순 정렬
population.sort_values(by = ['지역','2010'])

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972


In [70]:
#score변수에 score.csv파일 읽어오기, index 과목 col 잡아주세요!
score = pd.read_csv('score.csv',index_col='과목',encoding = 'euc-kr')

In [71]:
score
#학급별 점수 총합
score.sum()
#학급별 순위(점수가 높은 반부터 위에서 아래로 내림차순 정렬!)
score.sum().sort_values(ascending = False)

2반    388
3반    295
1반    271
4반    243
dtype: int64

In [72]:
#과목별 합계구하기
score.sum(axis=1) #축을 가로방향으로 설정하기
#score '합계' 컬럼을 추가해서 과목별 합계를 붙여주세요!
score['합계'] = score.sum(axis=1)
score
#Q1. 과목별 평균을 계산해서 '평균' 컬럼을 추가해주세요.
#평균구하는 함수 -> mean()
score['평균'] = score.loc[:,:'4반'].mean(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [73]:
#Q2. 반평균을 계산해서 '반평균' 행을 추가해주세요.
score.loc['반평균']= score.mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [75]:
#1. 전체 반에서 과목별로 가장 높은 점수를 구해서 maxScore 담아주세요
#Series자료구조 형태로 나올거에요~
maxScore = score.iloc[:5,:4].max(axis = 1)
#2. 전체 반에서 과목별로 가장 낮은 점수를 구해서 minScore 담아주세요
minScore = score.loc[:'Web',:'4반'].min(axis = 1)
#3.maxScore - minScore 구해주세요.
maxScore - minScore

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

### apply함수
- 행 or 열단위로 복잡한 함수를 사용하고 싶을 때 적용
- df.apply(함수, axis = 0 or 1)

In [76]:
#큰값에서 작은값을 빼주는 우리만의 함수 max_min 생성
def max_min(x):
    return x.max() - x.min()

In [77]:
score.loc[:'Web',:'4반'].apply(max_min, axis = 1)

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

In [6]:
df = pd.DataFrame({'A':[1,3,3,4,4],
                   'B':[1,2,2,3,3],
                   'C':[1,2,4,4,5]})
df
#데이터프레임 or Series안에 값(value)이 몇번 들어가 있는지 확인하기
df['A'].value_counts()
#apply함수 사용해서 value_counts기능 사용해보기!
df2 = df.apply(pd.value_counts)
df2

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [7]:
#NaN 결측치 값이 존재할 때 해당하는 값을 원하는 값으로 대체하기
df2.fillna(0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


## 카테고리 생성하기 

In [16]:
#나이 데이터로 카테고리 생성
#1. 데이터
ages = [0,2,10,15,21,23,37,61,20,41,100,32]
#2. bins(범주) 범주 지정할 때 맨 앞데이터 지정을 주의할 것!!!!!
bins = [-1,19,35,60,100] 
#3. 카테고리 범주의 명칭
labels = ['미성년자','청년','중년','노년']
# 0~19 ---> 미성년자
# 20~35 ---> 청년
# 36~60 ---> 중년
# 61~100 ---> 노년
cat = pd.cut(ages,bins,labels=labels)
type(cat)
cat.categories

Index(['미성년자', '청년', '중년', '노년'], dtype='object')

In [20]:
#ages 데이터 데이터프레임 생성
age_df = pd.DataFrame(ages, columns = ['ages'])
age_df['카테고리'] = cat
age_df
# 카테고리별로 나이 개수 확인
age_df['카테고리'].value_counts()

미성년자    4
청년      4
중년      2
노년      2
Name: 카테고리, dtype: int64

## 데이터프레임 병합하기 

- concat([데이터프레임1,데이터프레임2])

In [21]:
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3'],
                    'C':['C0','C1','C2','C3']
                   }, index = [0,1,2,3])

df2 = pd.DataFrame({'A':['A4','A5','A6','A7'],
                    'B':['B4','B5','B6','B7'],
                    'C':['C4','C5','C6','C7']},
                  index= [4,5,6,7])

df3 = pd.DataFrame({'A':['A8','A9','A10','A11'],
                    'B':['B8','B9','B10','B11'],
                    'C':['C8','C9','C10','C11']},
                  index= [8,9,10,11])


In [23]:
#다중 인덱스 부여하기(계층적으로 데이터 관리)
pd.concat([df1,df2,df3], keys = ['x','y','z'])

Unnamed: 0,Unnamed: 1,A,B,C
x,0,A0,B0,C0
x,1,A1,B1,C1
x,2,A2,B2,C2
x,3,A3,B3,C3
y,4,A4,B4,C4
y,5,A5,B5,C5
y,6,A6,B6,C6
y,7,A7,B7,C7
z,8,A8,B8,C8
z,9,A9,B9,C9


In [26]:
#행 방향으로 병합하기(오른쪽 방향으로)
df4 = pd.DataFrame({'B':['B2','B3','B6','B7'],
                    'D':['D2','D3','D6','D7'],
                    'F':['F2','F3','F6','F7']
                   }, index = [2,3,6,7])
pd.concat([df1,df4],axis=1) #fulljoin의 형태다!
pd.concat([df1,df4],axis=1, join = 'inner')

Unnamed: 0,A,B,C,B.1,D,F
2,A2,B2,C2,B2,D2,F2
3,A3,B3,C3,B3,D3,F3


In [30]:
pd.concat([df1,df4], ignore_index = True)
#기존의 인덱스 번호를 무시하고 새로운 번호를 부여하는 방법

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,,
1,A1,B1,C1,,
2,A2,B2,C2,,
3,A3,B3,C3,,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


- merge(데이터프레임1, 데이터프레임2)

In [37]:
df5 = pd.DataFrame({'key':['K0','K1','K2','K3'],
                    'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3']})

df6 = pd.DataFrame({'key':['K0','K2','K3','K4'],
                    'C':['C0','C1','C2','C3'],
                    'D':['D0','D1','D2','D3']})

In [36]:
pd.merge(df5,df6,on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [39]:
pd.merge(df5,df6,how='right',on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C1,D1
2,K3,A3,B3,C2,D2
3,K4,,,C3,D3


In [44]:
df1 = df1.drop(3) #내가 원하는 행 데이터 삭제하기


In [45]:
df1

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [57]:
#1. 데이터 3개 불러오기(2015,2016,2017)
#불러오는 것 정도는 위에 코드보면서 차근차근 해볼 것
#index설정을 관서명으로 주시면 좋습니다.
data2015 = pd.read_csv('2015.csv',index_col='관서명',encoding = 'euc-kr')
data2016 = pd.read_csv('2016.csv',index_col='관서명',encoding = 'euc-kr')
data2017 = pd.read_csv('2017.csv',index_col='관서명',encoding = 'euc-kr')

In [58]:
#2. 특정년도에만 존재하고 있는 경찰청 삭제
#광주지방경찰청 --> 삭제
data2017 = data2017.drop('광주지방경찰청')

In [59]:
#3. 년도별 데이터 총합 구하기(새로운 컬럼 추가)
data2015['총합'] = data2015.sum(axis = 1)
data2016['총합'] = data2016.sum(axis = 1)
data2017['총합'] = data2017.sum(axis = 1)

In [62]:
#4-1. 구분이 발생건수인 값들만 가져오기(구분==발생건수)
temp2015 = data2015[data2015['구분']=='발생건수']
temp2016 = data2016[data2016['구분']=='발생건수']
temp2017 = data2017[data2017['구분']=='발생건수']

In [66]:
#4-2.총합을 기준으로 데이터 자르기(Series형태로 자르세요~)
s2015 = temp2015.loc[:,'총합']
s2016 = temp2016.loc[:,'총합']
s2017 = temp2017.loc[:,'총합']
s2017.name = '2017총계'
s2016.name = '2016총계'
s2015.name = '2015총계'

In [67]:
#5. 증감율 계산
#금년-작년/작년 *100
plus2016 = (s2016 - s2015)/s2015 * 100
plus2016.name = '2015-2016 증감율'
plus2017 = (s2017 - s2016)/s2016 * 100
plus2017.name = '2016-2017 증감율'

In [68]:
#6. 데이터프레임 병합
result = pd.concat([s2015,plus2016,s2016,plus2017,s2017],axis = 1)
result

Unnamed: 0_level_0,2015총계,2015-2016 증감율,2016총계,2016-2017 증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020
