In [2]:
import pandas as pd

### Series 생성

In [3]:
population = pd.Series([99023434456,55675643,78979676])
population

0    99023434456
1       55675643
2       78979676
dtype: int64

In [4]:
population[2]

78979676

### index 지정하여 Series  생성
- Series(index)

In [5]:
population = pd.Series([34344526,55675643,78979637,39393939],
                       index = ['서울', '부산', '인천', '대구'])
population

서울    34344526
부산    55675643
인천    78979637
대구    39393939
dtype: int64

### Series 값 확인

In [6]:
population.values

array([34344526, 55675643, 78979637, 39393939], dtype=int64)

### Series 인덱스 확인

In [7]:
population.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

### Series value에 이름 지정

In [8]:
population.name = '인구'
population

서울    34344526
부산    55675643
인천    78979637
대구    39393939
Name: 인구, dtype: int64

### Series index에 이름 지정

In [9]:
population.index.name = '도시'
population

도시
서울    34344526
부산    55675643
인천    78979637
대구    39393939
Name: 인구, dtype: int64

### Series 연산

In [10]:
population / 10000000

도시
서울    3.434453
부산    5.567564
인천    7.897964
대구    3.939394
Name: 인구, dtype: float64

### Series 인덱싱
- 자동으로 부여된 index 번호
- 직접 부여한 index

In [11]:
population[1]

55675643

In [12]:
population['부산']

55675643

 - 여러개의 값 인덱싱

In [13]:
population[[0,2]]

도시
서울    34344526
인천    78979637
Name: 인구, dtype: int64

### Series Boolean 인덱싱

In [14]:
population[population >= 2500000 & (population <=5000000) ]

도시
서울    34344526
부산    55675643
인천    78979637
대구    39393939
Name: 인구, dtype: int64

In [15]:
population[population >= 2500000 | (population <=5000000) ]

도시
서울    34344526
부산    55675643
인천    78979637
대구    39393939
Name: 인구, dtype: int64

### Series 슬라이싱
- 부산 인천 대구 값 가져오기
- 자동 부여된 index 번호 사용
- 직접 부여한 index 사용

In [16]:
population[1:4]

도시
부산    55675643
인천    78979637
대구    39393939
Name: 인구, dtype: int64

In [17]:
# 직접 부여한 index 사용
population["부산":"대구"]

도시
부산    55675643
인천    78979637
대구    39393939
Name: 인구, dtype: int64

### Series 데이터 만들기
- 딕셔너리 사용

In [18]:
population

도시
서울    34344526
부산    55675643
인천    78979637
대구    39393939
Name: 인구, dtype: int64

In [19]:
data = {'서울':1231234, '부산':8998384, '인천':2483948, '대구':4758373}
pd.Series(data)

서울    1231234
부산    8998384
인천    2483948
대구    4758373
dtype: int64

In [20]:
# population2 변수에
# 서울 : 9631482
# 부산 : 3393191
# 인천 : 2632035
# 대구 : 1490158
# 딕셔너리 형태로

In [21]:
data = {'서울':9631482, '부산':3393191, '인천':2632035, '대구':1490158}
population2 = pd.Series(data)
population2

서울    9631482
부산    3393191
인천    2632035
대구    1490158
dtype: int64

In [22]:
# 2015년 : population
# 2020년 : population2
# 2015년과 2010년의 인구수 차이를 출력

In [23]:
ds = population-population2
ds

도시
서울    24713044
부산    52282452
인천    76347602
대구    37903781
dtype: int64

In [24]:
# 2015년도와 2010년도의 인구 증가율(%) 계싼
# 인구 증가율 = (2015-2010) / 2010 * 100

In [25]:
rs = (population - population2) / population2 * 100
rs

도시
서울     256.586100
부산    1540.804865
인천    2900.706184
대구    2543.608195
dtype: float64

### null인 값 찾기
- isnull()

In [26]:
rs.isnull()

도시
서울    False
부산    False
인천    False
대구    False
dtype: bool

In [27]:
rs[rs.notnull()]

도시
서울     256.586100
부산    1540.804865
인천    2900.706184
대구    2543.608195
dtype: float64

### Series 데이터 갱신, 추가, 삭제

In [28]:
rs

도시
서울     256.586100
부산    1540.804865
인천    2900.706184
대구    2543.608195
dtype: float64

In [29]:
rs["부산"]=1.6
rs["대구"]=1.41
rs["광주"]=1.8
rs

도시
서울     256.586100
부산       1.600000
인천    2900.706184
대구       1.410000
광주       1.800000
dtype: float64

In [30]:
# 삭제 del
# 서울 삭제
del rs["서울"]

In [31]:
rs[rs.notnull()]

도시
부산       1.600000
인천    2900.706184
대구       1.410000
광주       1.800000
dtype: float64

### DataFrame 을 만드는 방법

In [32]:
data = {
    "2015":[9904312, 3448737, 2890451, 2466052],
    "2010":[9631482, 3393191, 2632035, 2431774]
}
df=pd.DataFrame(data)

In [33]:
df.index = ['서울', '부산', '인천', '대구']

### Dataframe 인덱스 지정하여 생성

In [34]:
data = [[9904312, 3448737, 2890451, 2466052],
       [9631482, 3393191, 2632035, 2431774]]

ind = ['2015', '2010']
col = ['서울','부산', '인천', '대구']
df2 = pd.DataFrame(data, index = ind, columns = col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


### 행 열 바꿔서 생성

In [35]:
#인덱스 활용
data = {'2015':[9904321,3448737, 2890451, 2466052],
       '2010' :[9631482, 3393191, 2632035, 2431774]
       }

ind = ['서울','부산', '인천', '대구']
df3 = pd.DataFrame(data, index = ind)
df3

Unnamed: 0,2015,2010
서울,9904321,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [36]:
#리스트 활용
data2 = [[2345923, 939392],
       [3930293, 3999949],
        [1233456, 4930932],
         [9877334, 2355434]
        ]

ind2 = ['서울', '부산', '인천', '대구']
col2 = ['2015', '2010']
df3 = pd.DataFrame(data2, index = ind2, columns = col2)
df3

Unnamed: 0,2015,2010
서울,2345923,939392
부산,3930293,3999949
인천,1233456,4930932
대구,9877334,2355434


### Dataframe 함수 바꾸기

In [37]:
df2.T # Transform

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [38]:
df2.T.T #또 바꾸기

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


### DataFrame 값 확인
- values

In [39]:
df2.values

array([[9904312, 3448737, 2890451, 2466052],
       [9631482, 3393191, 2632035, 2431774]], dtype=int64)

### DataFrame index 확인
- .index

In [40]:
df2.index

Index(['2015', '2010'], dtype='object')

### DataFrame column 확인
- .columns

In [41]:
df2.columns

Index(['서울', '부산', '인천', '대구'], dtype='object')

### DataFrame 열 인덱싱
- Series 형식으로 받아오기

In [42]:
df2['서울']

2015    9904312
2010    9631482
Name: 서울, dtype: int64

- DataFrame 형식으로 받아오기

In [43]:
df2[['서울']]

Unnamed: 0,서울
2015,9904312
2010,9631482


In [44]:
df2[['서울', '부산', '대구']]

Unnamed: 0,서울,부산,대구
2015,9904312,3448737,2466052
2010,9631482,3393191,2431774


In [45]:
df2[['대구', '부산', '서울']]

Unnamed: 0,대구,부산,서울
2015,2466052,3448737,9904312
2010,2431774,3393191,9631482


### DataFRame 새로운 컬럼 만들기
- 2005

In [46]:
df['2005'] = [9762546, 3512547, 2517680, 2456016]
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


### 슬라이싱

In [47]:
df[0:2]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [48]:
df['서울': '부산']

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [49]:
### DataFrame 행/열 동시에 인덱싱/슬라이싱
 - iloc 인덱스 (자동부여된 인덱스 번호)
 - loc인덱서 (직접 부여한 인덱스 이름)

IndentationError: unexpected indent (<ipython-input-49-969f187744f1>, line 2)

In [None]:
df

In [None]:
df.iloc[0:3,0:2]

In [None]:
df.iloc[2]

### DataFrame Boolean 인덱싱

In [None]:
df[df['2010']>=2500000]

### csv 파일 불러오기

In [None]:
population_number = pd.read_csv('population_number.csv',encoding = 'euc_kr')
population_number

### 인덱스 지정해서 받아오기

In [None]:

population_number = pd.read_csv('population_number.csv',encoding = 'euc_kr', index_col = '도시')
population_number


- values_counts()함수
- 각각의 값이 나온 횟수를 세어주는 함수

In [None]:
population_number['지역'].value_counts()

### 인덱스를 기준으로 정렬하기

In [None]:
population_number['2010'].sort_index()

In [None]:
population_number['2010'].sort_index(ascending=False)

In [None]:
population_number.sort_values(by =['지역','2010'])

- score 변수에 담아주기
- 과목 컬럼을 인덱스로 사용하기
- 인코딩 해주기

In [None]:
score = pd.read_csv('score.csv', encoding = 'euc_kr')
score


### 학급별 총계

In [None]:
score.sum()

### 학급별 순위

In [None]:
score.sum().sort_values(ascending=False)

### 과목별 총계

In [None]:
score.sum(axis=1)

### 과목별 합계 DataFrame에 추가하기

In [None]:
score["합계"]=score.sum(axis=1)
score

### 합계 컬럼 지우기

In [None]:
score.drop('합계', axis=1)


In [None]:
score["합계"]=score.sum(axis=1)
score

In [None]:
score

### 연습문제 3-1)평균 칼럼 추가
- 1반 ~ 4반 데이터의 평균
- iloc, loc 인덱서 사용

In [None]:
# 1.1~4반 데이터 가져오기
# 2.과목별 데이터의 평균구하기
# 3.평균 칼럼 추가해서 2번 데이터 집어넣기

In [None]:
# 1. loc 이용
score.loc[:,:"4반"]

In [None]:
# 2. (axis=1 을 추가해서 행의 방향으로 계산한다.)
score.loc[:,:"4반"].mean(axis=1)

In [None]:
# 3.
score["평균"] = score.loc[:,:"4반"].mean(axis=1)
score

### 연습문제 3-2)행 추가하기
- 반평균

In [None]:
# score.loc['반평균'] = score.loc[:, :"평균"].mean(axis=0)

score.loc['반평균'] = score.mean()
score

### test 행 추가

In [None]:
score.loc["test"] = [1,2,3,4,None, None, None]

In [None]:
score

In [None]:
score.fillna(10)

### 행 삭제
- 기본값
- axis = 1 (열 삭제)

In [None]:
# score = score.drop('반평균') 
score.drop('test', inplace = True) # 자동으로 변수에서 데이터 수정 가능

In [None]:
score

In [None]:
score = score.drop([score.columns[0]], axis=1)

In [None]:
score

### max(), min() 함수

In [None]:
score.max()

In [None]:
# 과목에 대한 점수의 최대값
score.max(axis = 1)

In [None]:
score.min()

In [None]:
score.min(axis=1)

In [None]:
#score = score.drop('반평균') 


### 과목별 최대

In [None]:
score

In [None]:
maxArr = score.loc[:"과학",:"4반"].max(axis=1)
maxArr

In [None]:
minArr = score.loc[:"과학", :"4반"].min(axis=1)
minArr

### Apply 함수

### 함수 만들기
- 최대값과 최소값의 차이를 계산

In [None]:
def max_min(x):
    return x.max() - x.min()

In [None]:
score.loc[:'과학', :'4반'].apply(max_min, axis=1)

### 카테고리

In [None]:
ages = [0,2,10,21,23,37,31,61,20,41,32,100, 99]

bins = [0,15,25,35,60,99]

labs = ['미성년자', '청년', '중년', '장년', '노년']

cats = pd.cut(ages, bins, labels = labs)

### ages 라는 컬럼이름을 가진 Dataframe 생성
- 인덱스 자동부여된 번호 사용
- 데이터는 ages 변수사용

In [None]:
ageArr = pd.DataFrame(ages, columns=["ages"])
ageArr

- age_cat 컬럼 추가
- 카테고리로 나눈 데이터 사용

In [None]:
ageArr["age_cat"] = pd.cut(ages, bins, labels=labs)
ageArr

### age_cats 에서 항목별 개수 출력하기

In [None]:
ageArr["age_cat"].value_counts()

### 데이터 프레임 합치기

In [None]:
df1 = pd.DataFrame({'A' : ['A0', 'A1', 'A2', 'A3'],
       'B' : ['B0', 'B1', 'B2', 'B3'],
        'C' : ['C0', 'C1', 'C2', 'C3'],
        'D' : ['D0', 'D1', 'D2', 'D3']},
      index = [0,1,2,3])
df1

In [None]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])

- concat()

In [None]:
result = pd.concat([df1, df2, df3])
result

In [None]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])

In [None]:
pd.concat([df1, df4], axis=1)

In [None]:
pd.concat([df1, df4], axis=0)

In [None]:
# 같은 인덱스 값만 출력
# join = inner
# join 기본값 = outer , 전체 데이터(인덱스) 출력, 비어있는 값 NaN으로 출력
pd.concat([df1, df4], axis=1, join = 'inner')

In [None]:
# 하나의 데이터프레임의 인덱스를 기준으로 합치기
# join_axes 인덱스가 같은 값만 출력
#pd.concat([df1, df4], axis=1, join_axes = [df1.index])


#reindex
pd.concat([df1, df4], axis=1).reindex(df1.index)


In [None]:
#인덱스번호 자동 부여
#ignore_index = True
pd.concat([df1, df4], ignore_index = True)

In [None]:
df4 = pd.DataFrame({'Key': ['K0', 'K2', 'K3', 'K4'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    })

df5 = pd.DataFrame({'Key': ['K0', 'K1', 'K2', 'K3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3'],
                    })

### 데이터 합치기
- merge()
- 컬럼을 기준으로 데이터프레임을 합친다

In [None]:
df5

In [None]:
pd.merge(df4, df5, on='Key')

In [None]:
pd.merge(df4, df5, on='Key', how = 'left')

In [None]:
pd.merge(df4, df5, on='Key', how = 'right')

### <연습문제 5>
- 2015~2017년 광주광역시 범죄현황 데이터를 이용해 전년 대비 지역별 범죄 증감율을 구해보자.
- (금년-작년)/작년 * 100

In [57]:
df2015 = pd.read_csv('2015.csv', encoding = 'euc-kr', index_col = '관서명')

In [58]:
df2016 = pd.read_csv('2016.csv', encoding = 'euc-kr', index_col = '관서명')

In [59]:
df2017 = pd.read_csv('2017.csv', encoding = 'euc-kr', index_col = '관서명')

In [74]:
df2015

In [72]:
df2016

In [73]:
df2017

### 1. 구분칼럼에서 발생건수 데이터만 가져오기
### 2. 관서명 별로 발생건수의 합 구하기
### 3. 발생건수 합 칼럼만 자르기
### 4. 연도별 증감률 데이터 만들기
### 5. 모든 데이터 합치기

### 1. 구분칼럼에서 발생건수 데이터만 가져오기

In [63]:
### boolean 인덱싱 활용
df2015 = df2015[df2015['구분']=='발생건수']
df2016 = df2016[df2016['구분']=='발생건수']
df2017 = df2017[df2017['구분']=='발생건수']

In [75]:
df2017

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,2015총계,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366,13949,27898
광주지방경찰청,발생건수,0,0,0,0,0,0,0
광주동부경찰서,발생건수,3,5,77,624,1090,1799,3598
광주서부경찰서,발생건수,0,7,196,1142,2293,3638,7276
광주남부경찰서,발생건수,0,4,68,577,898,1547,3094
광주북부경찰서,발생건수,3,5,215,1546,2176,3945,7890
광주광산경찰서,발생건수,3,12,169,927,1909,3020,6040


### 2. 관서명 별로 발생건수의 합 구하기
- df2015는 2015총계 칼럼 생성
- df2016는 2016총계 칼럼 생성
- df2017는 2017총계 칼럼 생성

In [65]:
df2015['2015총계'] = df2015.sum(axis=1)
# df2015
df2016['2016총계'] = df2016.sum(axis=1)
df2017['2017총계'] = df2017.sum(axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2015['2015총계'] = df2015.sum(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2016['2016총계'] = df2016.sum(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2017['2017총계'] = df2017.sum(axis=1)


### 3.발생건수 합 칼럼만 자르기 

In [66]:
c1 = df2015.loc[:,'2015총계']
c3 = df2016.loc[:,'2016총계']
c5 = df2017.loc[:, '2017총계']

### 4. 연도별 증감률 데이터 만들기
- (금년-작년)/작년 * 100

In [68]:
#2015-2016 증감률
c2 = (c3 - c1) / c1 * 100
c2.name = '2015-2016증감률' # 칼럼 이름 달기

In [69]:
#2016-2017 증감률
c4 = (c5-c3)/c3*100
c4.name = '2016-2017 증감률'

### 5. 모든 데이터 합치기

In [70]:
# concat
total = pd.concat([c1, c2, c3, c4, c5], join='inner')

In [71]:
total

관서명
광주지방경찰청계    37660.000000
광주동부경찰서      4710.000000
광주서부경찰서      9440.000000
광주남부경찰서      4234.000000
광주북부경찰서     10932.000000
광주광산경찰서      8344.000000
광주지방경찰청계      -18.130643
광주동부경찰서       -12.186837
광주서부경찰서       -17.542373
광주남부경찰서       -11.903637
광주북부경찰서       -24.112697
광주광산경찰서       -17.473634
광주지방경찰청계    30832.000000
광주동부경찰서      4136.000000
광주서부경찰서      7784.000000
광주남부경찰서      3730.000000
광주북부경찰서      8296.000000
광주광산경찰서      6886.000000
광주광산경찰서       -12.285797
광주남부경찰서       -17.050938
광주동부경찰서       -13.007737
광주북부경찰서        -4.893925
광주서부경찰서        -6.526208
광주지방경찰청              NaN
광주지방경찰청계       -9.516087
광주지방경찰청계    27898.000000
광주지방경찰청         0.000000
광주동부경찰서      3598.000000
광주서부경찰서      7276.000000
광주남부경찰서      3094.000000
광주북부경찰서      7890.000000
광주광산경찰서      6040.000000
dtype: float64