## pandas
- Panel Datas의 약자이다.

###  pandas에서 제공하는 데이터 구조
- Series 데이터 구조 : 1차원
    - 인덱스(index) + 값(value)
- DataFrame 데이터 구조 : 2차원
    - 행과 열을 가지는 표와 같은 형태
    - 서로 다른 종류의 자료형을 저장할 수 있다. 
    - ★1차원의 Series가 모여서 2차원의 DataFrame이 된다.★

In [140]:
# pandas 라이브러리 불러오기
import pandas as pd

### Series 데이터 구조 
- 1차원 형태의 데이터 구조
- 인덱스와 값이 1:1로 구성되어 있는 형태

In [141]:
# Series 생성하기 (리스트 활용)
lst1 = [9904312,3448737,2890451,1466052]
# 인덱스가 자동 부여되어 데이터를 알아보기 힘드므로 다루기 어렵다.
pd.Series(lst1)

0    9904312
1    3448737
2    2890451
3    1466052
dtype: int64

In [142]:
# Series 생성과 동시에 인덱스를 지정하면서 생성

pop = pd.Series(lst1,index = ['서울', '부산', '인천', '광주'])
pop                        # 형태(1:1 대응)가 딕셔너리와 흡사하다
# 인덱스 // value

서울    9904312
부산    3448737
인천    2890451
광주    1466052
dtype: int64

### Series 데이터 확인하기

In [143]:
# Series의 값 확인
# 시리즈명.values

pop.values

array([9904312, 3448737, 2890451, 1466052], dtype=int64)

In [144]:
# Series의 인덱스 값 확인
# 시리즈명.index

pop.index                              # 객체 ⊃ (int, str, boul)

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [145]:
# Series 데이터들의 타입 확인
# 시리즈명.dtype

pop.dtype
# 오로지 value 값의 타입만 알려준다.

dtype('int64')

In [146]:
# Series에 이름 지정
# 이름을 지정해주면 시리즈가 훨신 직관적으로 알아먹기 쉽게 표현된다 -> 컬럼명
# 시리즈명.name = '지어줄 이름'
# 추후에 지어준 이름으로 시리즈를 직접 불러올 수 있다.

pop.name = '인구수'
pop

서울    9904312
부산    3448737
인천    2890451
광주    1466052
Name: 인구수, dtype: int64

In [147]:
# Series 데이터의 인덱스에도 이름 지정이 가능
# 인덱스에도 마찬가지로 이름을 지정해주면 직관적인 표현이 가능
# 시리즈명.index.name = '지어줄 이름'

pop.index.name = '도시'
pop

도시
서울    9904312
부산    3448737
인천    2890451
광주    1466052
Name: 인구수, dtype: int64

### Series 연산
- 요소별로 연산이 가능하다 (value값이 array형태임)

In [148]:
pop / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
광주    1.466052
Name: 인구수, dtype: float64

### Series 인덱싱 & 슬라이싱
- 인덱싱 : 무엇인가를 '가리킨다'라는 뜻
- 슬라이싱 : 무엇인가를 '잘라낸다'라는 뜻

In [149]:
# 데이터 확인
pop

도시
서울    9904312
부산    3448737
인천    2890451
광주    1466052
Name: 인구수, dtype: int64

In [150]:
# 광주 인구수 출력
pop[3]

1466052

In [151]:
# 인덱스 번호에 명칭을 부여해줬기 때문에 실제 명칭을 넣어서도 인덱싱이 가능
pop['광주']

1466052

In [152]:
# 인구수를 출력하되, 인덱스 이름까지 같이 가져오는 방법
pop[['부산']]      # 시리즈 자체를 출력

도시
부산    3448737
Name: 인구수, dtype: int64

In [153]:
# 인덱스 번호를 이용해서 서울, 광주, 부산 값 한번에 가져오기
# -> 한 번에 여러 값 인덱싱하기!
# 인덱싱에서 쓰이는 대괄호[] 안에 콤마(,)가 존재하면 
# 행과 열을 나타내는 2차원 인덱싱 & 슬라이싱이 된다
# 복수개의 데이터를 넣어줄 때는 반드시 감싸주어야 한다.

pop[[0, 1, 3]]
pop[['서울','부산','광주']]

도시
서울    9904312
부산    3448737
광주    1466052
Name: 인구수, dtype: int64

In [154]:
# 슬라이싱
# 부산 ~ 인천까지 범위 데이터 가져오기  -> 세가지 방법

# 1. 슬라이싱 -> [시작값 : 끝값 +1]
print(pop[1:3])         # index 번호 사용

# 2. index 번호는 각각 이름을 갖고 있다. -> 이름을 가지고 슬라이싱
print(pop['부산' : '인천'])    # index 이름을 사용할 때는 +1을 해줄 필요가 없다. (끝값 포함)

# 3. 여러 값 인덱싱으로 가져오기
print(pop[[1,2]])

도시
부산    3448737
인천    2890451
Name: 인구수, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구수, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구수, dtype: int64


In [155]:
pop[[1, 2]]

도시
부산    3448737
인천    2890451
Name: 인구수, dtype: int64

In [156]:
pop['부산':'인천']

도시
부산    3448737
인천    2890451
Name: 인구수, dtype: int64

In [157]:
pop[['부산', '인천']]

도시
부산    3448737
인천    2890451
Name: 인구수, dtype: int64

### Series 불리언 인덱싱

In [158]:
# 인구수가 250만 이상인 도시들만 출력해보자.
pop >= 2500000   # 논리 연산 결과(boolean 자료형) --> 불리언 인덱싱의 재료!

도시
서울     True
부산     True
인천     True
광주    False
Name: 인구수, dtype: bool

In [159]:
# 어느 데이터에서 걸러줄 것인지 감싸서 불리언 인덱싱 진행!
pop[pop >= 2500000]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구수, dtype: int64

In [160]:
# 인구수가 250만 이상이면서 500만 이하인 도시 찾기! (다중조건 불리언 인덱싱)
# and -> &
# or -> /

pop[(pop >= 2500000) & (pop <=5000000)]

도시
부산    3448737
인천    2890451
Name: 인구수, dtype: int64

### 딕셔너리 자료형으로 Series 생성
- 딕셔너리는 key와 value로 구성
- key값은 index
- value값은 value

In [161]:
# 딕셔너리 데이터 생성
data ={'서울' : 9631482,
       '부산' : 3393191,
       '인천' : 2632035,
       '대전' : 1490158}

# 딕셔너리 데이터로 Series 생성
pop2 = pd.Series(data)

In [162]:
pop2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [163]:
# 2015년 도시별 인구
print(pop.index)
print(pop.values)

Index(['서울', '부산', '인천', '광주'], dtype='object', name='도시')
[9904312 3448737 2890451 1466052]


In [164]:
# 2010년 도시별 인구
print(pop2.index)
print(pop2.values)

Index(['서울', '부산', '인천', '대전'], dtype='object')
[9631482 3393191 2632035 1490158]


In [165]:
# 인구 증가율 계산 (과거 대비 현재에 얼만큼 인구가 증가했는지)
# 최근 - 과거

popu = pop - pop2
popu

# NaN : Not a Number -> 결측치 = null

광주         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [166]:
# isnull() : 결측치만 보고 싶을 때

popu.isnull()   # 결과값이 불리언 자료형 -> 재료

광주     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [167]:
popu[popu.isnull()]   # 불리언 인덱싱 -> 결측치만 보겠다!

광주   NaN
대전   NaN
dtype: float64

In [168]:
# notnull() : 결측치가 아닌 정상 데이터만 보고 싶을 때

popu.notnull()   # 불리언 자료형

광주    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [169]:
popu[popu.notnull()]    # 결측치가 아닌 값만 보겠다!

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [170]:
# 2015년도 (pop)와 2010년(pop2)의 인구수 증가율(%)
# (최근 - 과거)/ 과거 * 100 = 증가율(%)

rs = popu/pop2 *100
rs

광주         NaN
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### Series 데이터 추가, 수정, 삭제

In [171]:
# 추가 및 수정
# '대구'라는 인덱스에 1.41 값을 추가해보자
# 시리즈명['인덱스'] = 추가/수정할 값  -> 딕셔너리에 값 추가할 때와 같은 방식

rs['대구'] = 1.41
rs

광주         NaN
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [172]:
# 삭제 
# '대전' 인덱스 삭제
# del 시리즈명['삭제할 인덱스']

del rs['대전']
rs

광주         NaN
부산    1.636984
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [173]:
# 추가 및 수정
# '광주' 인덱스에 2.13 값을 추가해보자

rs['광주'] = 2.13
rs

광주    2.130000
부산    1.636984
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

### DataFrame
- Series 데이터 구조는 1차원
- DataFrame은 행과 열로 구성되어 있는 2차원 데이터 구조 (표 형태)
- 1차원의 Series가 모여서 2차원의 DataFrame이 된다.

In [174]:
# 딕셔너리 자료형으로 DataFrame 생성

data2 = {"2015" : [9904312, 3448737 , 2890451, 2446052],
         "2010" : [9631482, 3393191, 2632035, 2431774]}

# key : 컬럼
# value : value (데이터)
# 인덱스는 자동으로 지정됨!

# DataFrame 생성과 동시에 인덱스 명칭 지정해주기
df = pd.DataFrame(data2, index = ['광주', '광주', '광주','광주'])
df

Unnamed: 0,2015,2010
광주,9904312,9631482
광주,3448737,3393191
광주,2890451,2632035
광주,2446052,2431774


In [175]:
# DataFrame 인덱스 명칭 부여하는 두번째 방법 -> 수정 가능
df.index = ['서울', '부산', '인천', '광주']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
광주,2446052,2431774


In [176]:
# 리스트 자료형으로 DataFrame 생성 (2차원)
# 데이터프레임에 들어가는 모든 값들을 하나하나 지정해 주어야 함

# value가 될 리스트(2차원)
data3 = [[9668465,3391946,2942828,1450062],
        [10312545,3567910,2758296,1454636]]
# index가 될 리스트
ind = ['2020', '2010']
# columns가 될 리스트
col = ['서울', '부산', '인천', '광주']

df1 = pd.DataFrame(data3, index = ind, columns = col)
df1

Unnamed: 0,서울,부산,인천,광주
2020,9668465,3391946,2942828,1450062
2010,10312545,3567910,2758296,1454636


In [177]:
# 행과 열을 바꾸고 싶다면...?
# 데이터의 형식(행은 몇 개, 열은 몇 개)을 맞춰서 기재해줘야 함

# --> 이럴 필요 없이 행과 열을 바꿔주는 함수 하나만 사용하면 된다!



# 데이터프레임 전치 시키기 -> 행과 열의 위치를 바꿔줌 (Transpose)
df1 = df1.T    # 전치 시킨 결과가 저장되지 않는다. -> 전치 시킨 후 갱신해줘야 한다.

In [178]:
df1  

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


### 데이터프레임 구조 확인
- values : 값, 데이터 확인
- index : 인덱스 확인
- columns : 컬럼 확인

In [179]:
# DataFrame의 값 확인
df.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2446052, 2431774]], dtype=int64)

In [180]:
# DataFrame의 인덱스 확인
df.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [181]:
# DataFrame 의 컬럼 확인
df.columns

Index(['2015', '2010'], dtype='object')

### DataFrame 행, 열 데이터 추가, 수정, 삭제

In [182]:
# 새로운 컬럼(열, 시리즈)을 추가하고 싶다면?        # Cell > Run All Above
df  # 딕셔너리처럼 추가 => 이름[key] = [values]
df['2005'] = [9762546,3512547,2517680,1456016]
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


### 삭제
 - drop() 함수 사용

In [183]:
# DataFrame 삭제 : drop() 함수
# df명.drop('삭제할 인덱스명')

df.drop('부산')

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


In [184]:
df       # 저장되지 않았다 ---> 갱신해주어야 한다

df = df.drop('부산')
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


In [185]:
# 인덱스 번호로 삭제
df.drop(df.index[0])     # == df.drop('서울')

# df.index를 활용해서 데이터프레임의 index만 모아서 보는 방법을 활용한 것

Unnamed: 0,2015,2010,2005
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


In [186]:
# 매번 갱신해서 삭제하는 것이 번거로우므로, 함수 내부에 있는 속성을 이용해보자
# inplace = True : 즉시 적용하겠다!
# inplace = False : 즉시 적용하지 않겠다! (기본값)

df.drop('서울',inplace = True)
df

Unnamed: 0,2015,2010,2005
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


In [187]:
# 열 방향 삭제 -> 2005년도 데이터 삭제
# axis : 축
# axis = 0 --> 행 기준 (기본값)
# axis = 1 --> 열 기준

df.drop('2005', axis = 1 )

Unnamed: 0,2015,2010
인천,2890451,2632035
광주,2446052,2431774


#### DataFrame 수정

In [188]:
# 수정하고 싶은 열(시리즈) 이름 변경
# rename(columns = {'수정하고 싶은 컬럼 이름':'수정할 컬럼 이름'})
df.rename(columns = {'2010':'2000'})

df   # 저장 X -> 갱신 필요 (inplace 속성을 가지고 있다.)

Unnamed: 0,2015,2010,2005
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


In [189]:
# 행(인덱스) 이름 변경하기
# rename(index = {'전' : '후'})

df.rename(index = {'광주':'대전'})  # inplace 속성이 있어야만 갱신이 가능하다
df

Unnamed: 0,2015,2010,2005
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


### DataFrame 인덱싱 & 슬라이싱

In [190]:
# 다시 데이터 적어주기
data3 = {'2020' : [9668465,3391946,2942828,1450062],
                 '2010' : [10312545,3567910,2758296,1454636],
                 '2005' : [9762546,3512547,2517680,1456016]}

# DataFrame 생성과 동시에 인덱스 지정
df3 = pd.DataFrame(data3, index = ['서울','부산','인천','광주'])
df3

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


In [191]:
# 슬라이싱
# 0행 ~ 2행 슬라이싱

df3[0:3]    # 행 슬라이싱

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680


In [192]:
# 지정해둔 이름(인덱스 명칭)으로도 슬라이싱 가능!

df3['서울':'인천']

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680


In [109]:
df3['서울']  # 인덱싱 --> 오류!

KeyError: '서울'

In [110]:
# DataFrame에서 인덱싱 -> 시리즈를 불러올 때 사용 중
df3['2020'] # 시리즈 이름을 넣어서 인덱싱

# 시리즈의 이름(컬럼)은 순서가 없다

서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 2020, dtype: int64

In [111]:
df3['2020' : '2010'] # 컬럼에는 순서가 없다 -> 슬라이싱 불가능

KeyError: '2020'

In [112]:
# 데이터프레임에서 열 단위 인덱싱, 행 단위 슬라이싱 가능
# 열 단위 슬라이싱, 행 단위 인덱싱 -> 불가능
# 각각의 활용법이 겹치는 현상이 발생

### 데이터플레임에서 행과 열단위로 슬라이싱 하고 싶을 때 -> 인덱서★

#### loc / iloc 인덱서
- loc 인덱서 : 실제 인덱스 이름, 컬럼 이름을 사용해서 슬라이싱
- iloc 인덱서 : 인덱스 번호를 이용해서 슬라이싱

In [193]:
# 부산 ~ 인천 (행 단위), 2020 ~ 2010 (열 단위) 데이터 슬라이싱 -> loc 인덱서
# df명.loc[행, 열]

df3.loc['부산': '인천', '2020' : '2010']

Unnamed: 0,2020,2010
부산,3391946,3567910
인천,2942828,2758296


In [194]:
# 인덱스 번호를 사용해서 슬라이싱 -> iloc 인덱서 사용
# iloc[행(슬라이싱 할 때 끝값 +1), 열(슬라이싱 할 때 끝값 +1)]

df3.iloc[1:3, 0:2]

Unnamed: 0,2020,2010
부산,3391946,3567910
인천,2942828,2758296


In [195]:
# 행 단위 인덱싱 -> 1차원

df3.loc['서울']  # loc 인덱서를 이용해서 행단위 인덱싱
# DataFrame의 특징 : 행을 우선 검색한다.
# 인덱서를 이용해서 행 단위 인덱싱을 하면 Series 형태로 출력

2020     9668465
2010    10312545
2005     9762546
Name: 서울, dtype: int64

#### boolean 인덱싱

In [196]:
# 2010년 데이터 중에서 인구가 250만 이상인 데이터만 가져오기 

df3['2010'] > 2500000  # 불리언 인덱싱의 재료

서울     True
부산     True
인천     True
광주    False
Name: 2010, dtype: bool

In [197]:
# 불리언 인덱싱의 재료가 시리즈 결과값이 나왔으므로 
# 출력도 시리즈 형태로 해줘야 원하는 결과값을 얻을 수 있다!
# 재료뿐만 아니라 실제 데이터도 시리즈 형태로 맞춰주어야 한다.

df3['2010'][df3['2010'] > 2500000]

서울    10312545
부산     3567910
인천     2758296
Name: 2010, dtype: int64

In [198]:
df3 >= 3500000  # --> True False 값으로 나옴

Unnamed: 0,2020,2010,2005
서울,True,True,True
부산,False,True,True
인천,False,False,False
광주,False,False,False


In [199]:
# 열 기준을 정해주지 않으면 전체 데이터에 대한 논리연산을 진행한다.
# --> False값은 NaN(결측치) 값으로 출력
df3[df3 >= 3500000]

Unnamed: 0,2020,2010,2005
서울,9668465.0,10312545.0,9762546.0
부산,,3567910.0,3512547.0
인천,,,
광주,,,


### DataFrame 실습
- 도시별 인구수 데이터
- population.csv

In [200]:
import pandas as pd

# 데이터 읽어오기
# pandas에서는 csv 파일을 읽어오는 기능을 가지고 있다.
# index_col = 컬럼을 인덱스로 활용하겠다는 속성
# 한글이나 특수문자 때문에 글자가 깨졌을 대 or 파일이 불러와지지 않을 때
# encoding 방식 : euc-kr / utf-8 / cp949 --> 호환성의 차이

pop = pd.read_csv('population.csv', index_col = '도시', encoding = 'utf-8')
pop

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016


### DataFrame 정렬

In [201]:
# 불러온 데이터가 수도권, 경상권, 전라권이 섞여있으므로 정렬
# sort_index : 인덱스를 기준으로 정렬
# ascending : 오름차순 <-> descending : 내림차순

pop = pop.sort_index(ascending = False)
pop

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,수도권,2942828,2925815.0,,2600495
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
대구,경상권,2418436,2466052.0,2431774.0,2456016
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [202]:
# index를 기준으로 정렬? -> value 값을 기준으로 정렬하고 싶을 때

pop['2010'].sort_values(ascending = False)

# NaN(결측치)은 오름차순이나 내림차순에 영향을 받지 않고 무조건 가장 하단에 정렬된다.

도시
서울    10312545.0
대구     2431774.0
광주     1454636.0
인천           NaN
부산           NaN
Name: 2010, dtype: float64

In [203]:
# 전체 데이터에서 값을 기준으로 정렬하고 싶을 때
# 기준을 정해주는 방법 : by 속성
pop.sort_values(by = '2010')

# 2010년(컬럼)을 기준으로 정렬이 된 것이기 때문에 전체 정렬이 아니다!

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016
서울,수도권,9668465,10022181.0,10312545.0,10167344
인천,수도권,2942828,2925815.0,,2600495
부산,경상권,3391946,,,3628293


In [204]:
# 여러 컬럼(열 기준)을 통해서 정렬 방법
pop.sort_values(by = ['지역', '2010'])  # [선 정렬, 후 정렬]

# 지역을 기준으로 가나다 순 정렬을 해주고 그 다음 2010년 데이터를 정렬했다.

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2418436,2466052.0,2431774.0,2456016
부산,경상권,3391946,,,3628293
서울,수도권,9668465,10022181.0,10312545.0,10167344
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745


### DataFrame을 사용한 실습
- 반별 과목 점수 데이터
- score.csv

In [205]:
# score.csv 파일 불러온 후 score라는 변수 안에 데이터 저장
import pandas as pd

score = pd.read_csv('score.csv', index_col = '과목', encoding = 'cp949')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [206]:
# 1. 반별 합계 구하기 (c_sum)
# 합계 : sum()
# 행끼리 더하기

c_sum = score.sum()  # -> 시리즈 결과값 출력

In [207]:
# 2. 과목별 합계 구하기 (s_sum)
# 열끼리 더하기

s_sum = score.sum(axis = 1)

In [208]:
# score.drop('합계',  axis = 1,inplace = True)
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [209]:
# 과목별 총합 데이터를 score라는 데이터프레임에 추가! -> '합계'라는 컬럼 생성
# score['합계1'] = [201, 282, 253,298,163]
# score
score['합계'] = s_sum   # == score.sum(axis = 1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [210]:
# 과목별 평균 구하기
# 합계 컬럼 우측에 '평균' 컬럼 추가!
# 평균 : mean()

# score['평균'] = score.mean(axis = 1)  --> 아님!!!!

In [211]:
a = score.loc[:, '1반':'4반']
score['평균'] = a.mean(axis = 1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [212]:
# 선생님 풀이
# score.iloc[:, :4]
# s_mean = score.iloc[:, :4].mean(axis = 1)
# s_mean
# score['평균'] = s_mean
# score

In [213]:
# 반별 평균 구하기 + '반평균'이라는 행 추가하기!
score['반평균'] = c_sum
score.drop('반평균', inplace = True, axis = 1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [215]:
c_avg = score.iloc[:, :6].mean()
score.loc['반평균'] = c_avg
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [216]:
# 형변환(데이터 타입 변환) : astype
# astype()을 사용할건데, 갱신이 바로 되지 않는 함수 -> inplace 속성 없음!
score.astype('int64')
score = score.astype('int64') # 갱신
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50
DB,76,92,45,69,282,70
자바,47,92,45,69,253,63
크롤링,92,81,85,40,298,74
Web,11,79,47,26,163,40
반평균,54,77,59,48,239,59


In [217]:
# 반별로 가장 높은/낮은 점수 구하기
# axis = 0
# 가장 큰 값 : max()
# 가장 작은 값 : ,min()

score.max()

1반     92
2반     92
3반     85
4반     69
합계    298
평균     74
dtype: int64

In [218]:
score.min()

1반     11
2반     44
3반     45
4반     26
합계    163
평균     40
dtype: int64

In [220]:
# 과목별 가장 높은/낮은 점수 구하시
# axis = 1

score.max(axis = 1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
반평균    239
dtype: int64

In [221]:
score.min(axis = 1)

과목
파이썬    39
DB     45
자바     45
크롤링    40
Web    11
반평균    48
dtype: int64

In [234]:
# 합계, 반평균 등 당장 알고싶지 않은 데이터까지 포함
# 과목별로 최대/최소값만 잘라서 구해보자
# 인덱서 사용 -> iloc, loc
score_max = score.iloc[:5, :4].max(axis = 1)
score_max

과목
파이썬    73
DB     92
자바     92
크롤링    92
Web    79
dtype: int64

In [235]:
score_min = score.iloc[:5, :4].min(axis = 1)
score_min

과목
파이썬    39
DB     45
자바     45
크롤링    40
Web    11
dtype: int64

In [236]:
score_maxx = score.loc['파이썬':'Web', '1반':'4반'].max(axis = 1)
score_maxx

과목
파이썬    73
DB     92
자바     92
크롤링    92
Web    79
dtype: int64

In [238]:
score_minn = score.loc['파이썬':'Web', '1반':'4반'].min(axis = 1)
score_minn

과목
파이썬    39
DB     45
자바     45
크롤링    40
Web    11
dtype: int64

In [239]:
# 반별 최대/최소 점수 구하기
class_max = score.loc['파이썬':'Web', '1반':'4반'].max()
class_min = score.loc['파이썬':'Web', '1반':'4반'].min()
print(class_max)
print(class_min)

1반    92
2반    92
3반    85
4반    69
dtype: int64
1반    11
2반    44
3반    45
4반    26
dtype: int64


### 카테고리 생성하기 
- 카테고리컬 데이터 생성

In [240]:
# 나이 데이터로 카테고리를 생성해보자
# 1. 데이터
ages = [0, 2, 10, 15, 21, 23, 37, 61, 20, 41, 100, 52, 78]

# 2. 범주 (나눠줄 기준)
bins = [0, 19, 47, 60, 99]

# 구간           ( -> 포함X / ] -> 포함
# 0 ~ 19 : 미성년자 (0 ~ 19]   0 초과 19 이하
# 20 ~ 47 : 청년 
# 48 ~ 60 : 중년
# 61 ~ 99 : 노년

# 3. 범주별 카테고리의 이름
labels = ['미성년자', '청년', '중년', '노년']

cate = pd.cut(ages, bins, labels = labels)
cate

# 생성된 카테고리의 정보를 알려준다.
# 1. [데이터의 카테고리화 된 각각의 결과물]
# 2. 데이터의 길이(개수)
# 3. 범주의 개수

[NaN, '미성년자', '미성년자', '미성년자', '청년', ..., '청년', '청년', NaN, '중년', '노년']
Length: 13
Categories (4, object): ['미성년자' < '청년' < '중년' < '노년']

In [241]:
age_df = pd.DataFrame(ages, columns = ['나이'])
age_df

Unnamed: 0,나이
0,0
1,2
2,10
3,15
4,21
5,23
6,37
7,61
8,20
9,41


In [243]:
age_df['연령대'] = cate
age_df

Unnamed: 0,나이,연령대
0,0,
1,2,미성년자
2,10,미성년자
3,15,미성년자
4,21,청년
5,23,청년
6,37,청년
7,61,노년
8,20,청년
9,41,청년


In [244]:
# 카테고리별 나이 수 확인하기
age_df['연령대'].value_counts()

연령대
청년      5
미성년자    3
노년      2
중년      1
Name: count, dtype: int64

### DataFrame 병합하기  : concat( ) 함수
- concat([df1, df2, ...])
- 여러 개의 DataFrame을 하나의 DataFrame으로 만들어주는 함수

In [245]:
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                                       'B':['B0','B1','B2','B3'],
                                       'C':['C0','C1','C2','C3']},
                                                    index = [0,1,2,3])

df2 = pd.DataFrame({'A':['A4','A5','A6','A7'],
                                        'B':['B4','B5','B6','B7'],
                                        'C':['C4','C5','C6','C7']},
                                                      index= [4,5,6,7])

df3 = pd.DataFrame({'A':['A8','A9','A10','A11'],
                                        'B':['B8','B9','B10','B11'],
                                        'C':['C8','C9','C10','C11']},
                                                      index= [8,9,10,11])

In [247]:
print(df1)
print(df2)
print(df3)

    A   B   C
0  A0  B0  C0
1  A1  B1  C1
2  A2  B2  C2
3  A3  B3  C3
    A   B   C
4  A4  B4  C4
5  A5  B5  C5
6  A6  B6  C6
7  A7  B7  C7
      A    B    C
8    A8   B8   C8
9    A9   B9   C9
10  A10  B10  C10
11  A11  B11  C11


In [250]:
# concat()함수를 사용하여 DataFrame 병합

pd.concat([df1, df2, df3])

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4
5,A5,B5,C5
6,A6,B6,C6
7,A7,B7,C7
8,A8,B8,C8
9,A9,B9,C9


In [251]:
# 다중 인덱스 부여하기 ( 섞여있는 데이터프레임을 계층적으로 관리하기 위해)
pd.concat([df1, df2, df3], keys = ['df1', 'df2','df3'])

Unnamed: 0,Unnamed: 1,A,B,C
df1,0,A0,B0,C0
df1,1,A1,B1,C1
df1,2,A2,B2,C2
df1,3,A3,B3,C3
df2,4,A4,B4,C4
df2,5,A5,B5,C5
df2,6,A6,B6,C6
df2,7,A7,B7,C7
df3,8,A8,B8,C8
df3,9,A9,B9,C9


In [252]:
# 행 방향 병합
# 이번에는 열 방향 병합! -> axis = 1
pd.concat([df1, df2, df3], axis = 1)

Unnamed: 0,A,B,C,A.1,B.1,C.1,A.2,B.2,C.2
0,A0,B0,C0,,,,,,
1,A1,B1,C1,,,,,,
2,A2,B2,C2,,,,,,
3,A3,B3,C3,,,,,,
4,,,,A4,B4,C4,,,
5,,,,A5,B5,C5,,,
6,,,,A6,B6,C6,,,
7,,,,A7,B7,C7,,,
8,,,,,,,A8,B8,C8
9,,,,,,,A9,B9,C9


In [253]:
df4 = pd.DataFrame({'B':['B2','B3','B6','B7'],
                                        'D':['D2','D3','D6','D7'],
                                        'F':['F2','F3','F6','F7']},
                                                   index = [2,3,6,7])
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [254]:
pd.concat([df1, df2, df3, df4], axis = 1)

Unnamed: 0,A,B,C,A.1,B.1,C.1,A.2,B.2,C.2,B.3,D,F
0,A0,B0,C0,,,,,,,,,
1,A1,B1,C1,,,,,,,,,
2,A2,B2,C2,,,,,,,B2,D2,F2
3,A3,B3,C3,,,,,,,B3,D3,F3
4,,,,A4,B4,C4,,,,,,
5,,,,A5,B5,C5,,,,,,
6,,,,A6,B6,C6,,,,B6,D6,F6
7,,,,A7,B7,C7,,,,B7,D7,F7
8,,,,,,,A8,B8,C8,,,
9,,,,,,,A9,B9,C9,,,


In [255]:
# 열끼리 병합하기 (df1, df4)
pd.concat([df1, df4], axis = 1)

Unnamed: 0,A,B,C,B.1,D,F
0,A0,B0,C0,,,
1,A1,B1,C1,,,
2,A2,B2,C2,B2,D2,F2
3,A3,B3,C3,B3,D3,F3
6,,,,B6,D6,F6
7,,,,B7,D7,F7


![image.png](attachment:image.png)

In [256]:
# outer join 속성 (합집합) : 기본값
# inner join 속성 (교집합) 
pd.concat([df1, df4], axis = 1, join = 'inner')

Unnamed: 0,A,B,C,B.1,D,F
2,A2,B2,C2,B2,D2,F2
3,A3,B3,C3,B3,D3,F3


In [257]:
# 행끼리 병합했을 때
pd.concat([df1, df4], join = 'inner')

Unnamed: 0,B
0,B0
1,B1
2,B2
3,B3
2,B2
3,B3
6,B6
7,B7


In [258]:
# 기존 인덱스를 무시하고 새로운 인덱스 번호를 부여하는 방법
pd.concat([df1, df4])

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,,
1,A1,B1,C1,,
2,A2,B2,C2,,
3,A3,B3,C3,,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [260]:
# ignore_index = True : 기존 인덱스 번호를 무시하고 새로 부여하겠다!
pd.concat([df1, df4], ignore_index = True)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,,
1,A1,B1,C1,,
2,A2,B2,C2,,
3,A3,B3,C3,,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7
