### pandas
 - Panel Datas의 약자이다.

#### pandas에서 제공하는 데이터 구조
- Series 데이터 구조 : 1차원
- 인덱스(index) + 값(value)
- DataFrame 데이터 구조 : 2차원
- 서로 다른 종류의 자료형을 저장할 수 있다.
- 1차원의 Series가 모여 2차원의 DataFrame이 된다.

In [1]:
# pandas 라이브러리 불러오기

import pandas as pd

### Series 데이터 구조
 - 1차원 형태의 데이터 구조
 - 인덱스와 값이 1:1로 구성되어있는 형태

In [2]:
# Series 생성하기 (리스트 활용)
# 인덱스가 자동으로 부여되어 데이터가 어떤 데이터인지 알아보기 어렵다.

pop = pd.Series([9904312,3448737,2890451,1466052])
pop

0    9904312
1    3448737
2    2890451
3    1466052
dtype: int64

In [3]:
pop = pd.Series([9904312,3448737,2890451,1466052], 
                index = ['서울', '부산', '인천', '광주'])
pop

서울    9904312
부산    3448737
인천    2890451
광주    1466052
dtype: int64

### Series 데이터 확인하기

In [4]:
# Series의 값 확인하기
# Series이름.values

pop.values

array([9904312, 3448737, 2890451, 1466052], dtype=int64)

In [5]:
# Series의 인덱스 확인하기
# Series이름.index

pop.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [6]:
# Series 데이터들의 타입 확인하기
# Series이름.dtype

pop.dtype

# 오로지 value 값의 타입만 알려준다.

dtype('int64')

In [8]:
# Series에 이름을 지정
# 이름을 지정해주면 시리즈가 훨씬 직관적으로 알아먹기 쉽게 표현된다.

# 지어준 이름을 직접 불러올 수도 있다.
# Series이름.name = '지어줄 이름'

pop.name = '인구수'
pop

서울    9904312
부산    3448737
인천    2890451
광주    1466052
Name: 인구수, dtype: int64

In [11]:
# Series 데이터의 인덱스에 이름 지정
# 인덱스에도 마찬가지로 이름을 부여해주면 훨씬 직관적으로 표현된다.
# Series이름.index.name = '지어줄 이름'
pop.index.name = '도시'
pop

도시
서울    9904312
부산    3448737
인천    2890451
광주    1466052
Name: 인구수, dtype: int64

### Series 연산
 - 요소별 연산이 가능하다.

In [12]:
# pop / 100만
pop / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
광주    1.466052
Name: 인구수, dtype: float64

### Series 인덱싱 & 슬라이싱

In [14]:
# 광주의 인구수를 출력해보자
pop[3]

1466052

In [16]:
# 인덱스 위치에 명칭을 부여해주었기 때문에 실제 값을 넣어서 사용해도 된다.
pop['광주']

1466052

In [18]:
# 인덱스 이름까지 가져오는 방법(시리즈 자체를 출력)
pop[['광주']]

도시
광주    1466052
Name: 인구수, dtype: int64

In [22]:
# 인덱스 번호를 이용해서 서울, 광주, 부산 값 한번에 가져오기
# -> 한 번에 여러 값 인덱싱 하기!
# 인덱싱에 쓰이는 대괄호[] 안에 콤마(,) 하나만 존재한다면 행, 열을 나타내는 2차원 인덱싱
# 복수개의 데이터를 출력해줄때에는 반드시 대괄호로 감싸주어야 한다

pop[[0,3,1]]
pop[['서울', '광주', '부산']]

도시
서울    9904312
광주    1466052
부산    3448737
Name: 인구수, dtype: int64

In [26]:
# 부산 ~ 인천 범위 데이터 가져오기 -> 세가지 방법

# 슬라이싱 - [시작값 : 끝값(포함X)]
pop[1:3] # 첫 번째 방법 : index 번호 사용

# 두 번째 방법 : index 이름 사용 - [시작값 : 끝값(포함O)]
pop['부산':'인천']

# 세 번째 방법 : 여러 값을 인덱싱
pop[[1, 2]]

도시
부산    3448737
인천    2890451
Name: 인구수, dtype: int64

### Series 불리언 인덱싱

In [28]:
# 인구수가 250만 이상인 도시들만 출력해보자

pop >= 2500000 # 논리연산 결과(boolean 자료형)

# 불리언 인덱싱의 재료

도시
서울     True
부산     True
인천     True
광주    False
Name: 인구수, dtype: bool

In [29]:
pop[pop >= 2500000] # 불리언 인덱싱

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구수, dtype: int64

In [31]:
# 인구수가 250만 이상이면서, 500만 이하인 도시 찾기 (다중조건 불리언인덱싱)
# and -> &
# or -> |

pop[(pop >= 2500000) & (pop <= 5000000)]

도시
부산    3448737
인천    2890451
Name: 인구수, dtype: int64

### 딕셔너리 자료형으로 Series 생성
- 딕셔너리는 key와 value로 구성
- key값은 index
- value값은 value

In [35]:
data ={'서울' : 9631482,
       '부산' : 3393191,
       '인천' : 2632035,
       '대전' : 1490158}

# 딕셔너리 데이터를 Series로 변환
pop2 = pd.Series(data)
pop2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [37]:
# 2015년도의 도시별 인구
pop

도시
서울    9904312
부산    3448737
인천    2890451
광주    1466052
Name: 인구수, dtype: int64

In [38]:
# 2010년도의 도시별 인구
pop2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [39]:
# 인구 증가율 계산 (과거 대비 현재에 얼만큼 인구가 증가했는지)
# 최근 - 과거

popu = pop - pop2
popu

# NaN : 결측치

광주         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [40]:
# isnull() : 결측치를 보고싶을 때

popu.isnull() # 불리언 자료형 -> 불리언 인덱싱의 재료

광주     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [41]:
# 불리언 인덱싱 -> popu에서 결측치를 가진 데이터만 보고싶다!

popu[popu.isnull()]

광주   NaN
대전   NaN
dtype: float64

In [42]:
# 결측치가 아닌 정상 데이터만 보고싶을 때 : notnull()

popu.notnull() # 불리언 자료형

광주    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [43]:
popu[popu.notnull()] # popu에서 결측치가 아닌 정상 데이터만 보고싶다!

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [45]:
# 2015년도 인구와 2010년도 인구의 증가율(%)을 구해보자!
# 증가율 : (최근 - 과거) / 과거 * 100

rs = (pop - pop2) / pop2 * 100
rs

광주         NaN
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [48]:
rs.round()

광주      NaN
대전      NaN
부산    1.637
서울    2.833
인천    9.818
dtype: float64

In [65]:
def k_sum(*args):
    return sum(args)

In [66]:
k_sum(1,2,3,4,5)

15

### Series 데이터 추가, 수정, 삭제

In [56]:
# 추가 및 삭제
# '대구' 인덱스에 1.41 값을 추가해보자
# 딕셔너리 키 접근 = 값 대입 과 같은 표기법
# 시리즈명['인덱스'] = 추가/수정 할 값

rs['대구'] = 1.41
rs

광주         NaN
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [57]:
# 삭제
# '대전' 인덱스 삭제해보자
# del 시리즈명['삭제할 인덱스명']

del rs['대전']
rs

광주         NaN
부산    1.636984
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [58]:
# '광주' 인덱스 수정 -> 2.13 이라는 값으로 수정
# 시리즈명['인덱스명'] = 수정할 값

rs['광주'] = 2.13
rs

광주    2.130000
부산    1.636984
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

### DataFrame
 - 2차원의 데이터 구조(표 형태 -> 행과 열로 구성되어 있다)
 - 여러개의 Series(1차원) 데이터들이 모여서 구성

In [69]:
# 딕셔너리 자료형으로 DataFrame 생성

# 딕셔너리 생성
data = {"2015" : [9904312, 3448737 , 2890451, 2446052],
        "2010" : [9631482, 3393191, 2632035, 2431774]  }

# key : 컬럼
# value : 데이터(튜플)
# 인덱스가 자동으로 지정됨!

# DataFrame 생성과 동시에 인덱스 명칭 지정해주기
df = pd.DataFrame(data, index = ['서울', '부산', '인천', '대전'])
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대전,2446052,2431774


In [70]:
# DataFrame 인덱스 명칭 바꿔주기
# index 활용
df.index = ['서울', '부산', '인천', '광주']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
광주,2446052,2431774


In [74]:
# 리스트 자료형으로 DataFrame 생성 (2차원)
# 데이터프레임에 들어가는 모든 값들을 하나하나 지정해줘야함(2차원데이터, 인덱스, 컬럼)
# value가 될 리스트 (2차원)
data2 = [[9668465,3391946,2942828,1450062],
        [10312545,3567910,2758296,1454636]]

# index가 될 리스트
ind = ['2020', '2010']

# column이 될 리스트
col = ['서울','부산','인천','광주']

df1 = pd.DataFrame(data2, index = ind, columns = col)
df1

Unnamed: 0,서울,부산,인천,광주
2020,9668465,3391946,2942828,1450062
2010,10312545,3567910,2758296,1454636


In [77]:
# 행과 열을 바꾸고싶다,,?
# 데이터의 형식(행은 몇개, 열은 몇개)을 맞춰서 기재해줘야 함

# 데이터프레임 전치시키기 - 행과 열의 위치를 바꿔줌 (Transpose)

df1 = df1.T
df1

# 전치 시킨 후 다시 변수에 대입해주어야 적용이 된다.

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [78]:
df1

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


### 데이터 프레임 구조 확인
 - values : 값, 데이터 확인
 - index : 인덱스 확인
 - columns : 컬럼 확인

In [79]:
df.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2446052, 2431774]], dtype=int64)

In [80]:
df.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [81]:
df.columns

Index(['2015', '2010'], dtype='object')

### DataFrame 인덱싱, 슬라이싱

In [83]:
# DataFrame 인덱싱
df['2015']
# Series 형태로 출력됨
# DataFrame이 2개 이상의 Series의 경합으로 구성되어 있기 때문

서울    9904312
부산    3448737
인천    2890451
광주    2446052
Name: 2015, dtype: int64

In [84]:
# 만약 내가 2차원으로 보고싶다 -> DataFrame 형태로 인덱싱 하고싶다면?
df[['2015']]

Unnamed: 0,2015
서울,9904312
부산,3448737
인천,2890451
광주,2446052


In [86]:
# 두 개의 열을 인덱싱 (여러개의 시리즈 가져오기)

df[['2010', '2015']]
# 가져온 데이터(시리즈)가 두 개이다.
# 2차원으로 인덱싱 해야하며, 시리즈가 2개 이상 모였으니 DataFrame 형태로 출력돼야한다.

Unnamed: 0,2010,2015
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
광주,2431774,2446052


### DataFrame 행, 열 데이터 추가, 수정, 삭제

In [87]:
# 새로운 컬럼(열, 시리즈)을 추가하고 싶다면?

df['2005'] = [9762546,3512547,2517680,1456016]
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


###  삭제
 - drop() 함수 사용
 - 삭제한 결과를 변수명에 다시 대입해야만 결과가 저장된다.

In [89]:
# DataFrame 삭제 : drop()
# df명.drop('삭제하고싶은 인덱스명')
df.drop('부산')

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


In [91]:
# 인덱스 번호로 삭제
df.drop(df.index[0])

Unnamed: 0,2015,2010,2005
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


In [93]:
# 매번 삭제할때마다 대입해줘야 하나요? 삭제와 동시에 적용하고 싶으면 -> inplace
# inplace = True : 삭제와 동시에 즉시 적용!
# inplace = False : 즉시 적용하지 않겠다 (기본값)

df.drop('부산', inplace = True)

In [94]:
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


In [96]:
# '2005'년도 시리즈 삭제

df.drop('2005', axis = 1)
# drop() 함수의 axis(축) 기본값은 0 (행 방향)
# 열 방향으로 삭제하고 싶을 때는 축 설정을 해줘야한다. axis = 1

Unnamed: 0,2015,2010
서울,9904312,9631482
인천,2890451,2632035
광주,2446052,2431774


### DataFrame 수정

In [101]:
# 수정하고 싶은 열(시리즈) 이름 변경
# rename(column = {'수정하고싶은 데이터' : '수정할 데이터'})
df.rename(columns = {'2010':'2000'}, inplace = True)
# rename() 함수에도 inplace 속성이 존재한다 -> 즉시 적용X
df

Unnamed: 0,2015,2000,2005
서울,9904312,9631482,9762546
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


In [103]:
# 행(인덱스) 이름 변경하기
# rename(index = {'전' : '후'})
df.rename(index = {'광주':'대전'}, inplace = True)
df

Unnamed: 0,2015,2000,2005
서울,9904312,9631482,9762546
인천,2890451,2632035,2517680
대전,2446052,2431774,1456016


### DataFrame 슬라이싱

In [104]:
data3 = {'2020' : [9668465,3391946,2942828,1450062],
         '2010' : [10312545,3567910,2758296,1454636],
         '2005' : [9762546,3512547,2517680,1456016]}

# DataFrame 생성과 동시에 인덱스 지정
df3 = pd.DataFrame(data3, index = ['서울','부산','인천','광주'])
df3

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


In [106]:
# 슬라이싱
# 1행 ~ 3행 슬라이싱 - 인덱스 번호 사용

df3[0:3]

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680


In [107]:
# 지정해둔 이름(인덱스 명칭)으로도 슬라이싱이 가능하다!
df3['서울':'인천']

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680


In [110]:
# df3['서울'] -> 불가능(행 인덱싱)
# df3['2020':'2010'] -> 불가능(열 슬라이싱)

KeyError: '2020'

- 데이터프레임에서 행 인덱싱, 열 슬라이싱 X
- 각각의 활용법이 겹치는 현상 발생함
- df[] : 열 인덱싱의 의미로 쓰이기 때문에 행 인덱싱 불가능
- df[:] : 행 슬라이싱의 의미로 쓰이기 때문에 열 슬라이싱 불가능

### ★★데이터프레임에서 행과 열 단위로 슬라이싱 하고싶을 때는 인덱서 활용

##### loc/iloc 인덱서
 - loc인덱서 : 실제 인덱스이름, 컬럼 이름 사용해서 슬라이싱
 - iloc인덱서 : 인덱스 벌호를 사용해서 슬라이싱

In [112]:
# 부산 ~ 인천 (행 단위), 2020 ~ 2010 (열 단위) 슬라이싱 -> loc[] 인덱서 활용
df3.loc['부산':'인천','2020':'2010']

Unnamed: 0,2020,2010
부산,3391946,3567910
인천,2942828,2758296


In [113]:
df3

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


In [114]:
# 인덱스 번호를 사용해서 슬라이싱 -> iloc[] 인덱서 사용
# 부산 ~ 인천(행), 2010 ~ 2005(열) 데이터 슬라이싱 (iloc 인덱서 활용)

df3.iloc[1:3 , 1:]

Unnamed: 0,2010,2005
부산,3567910,3512547
인천,2758296,2517680


### boolean 인덱싱

In [121]:
a = df3['2010']
a

서울    10312545
부산     3567910
인천     2758296
광주     1454636
Name: 2010, dtype: int64

In [122]:
# 2010년 데이터 중에서 250만 이상인 데이터만 가져오기
# 시리즈 출력!

df3['2010'] >= 2500000 # 불리언 자료형 -> 불리언 인덱싱의 재료

서울     True
부산     True
인천     True
광주    False
Name: 2010, dtype: bool

In [127]:
df3['2010'][df3['2010'] >= 2500000]

서울    10312545
부산     3567910
인천     2758296
Name: 2010, dtype: int64

In [129]:
# 2010년 데이터 중에서 350만 이상인 데이터만 가져오기
df3['2010']>3500000
# 2020년 데이터, 2005년 데이터 같이 보고싶다?
df3[df3['2010']>3500000]

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547


In [131]:
# 전체 데이터에서 인구가 350만 이상인 데이터만 출력?
df3[df3 > 3500000]

# 열 기준을 정해주지 않으면 전체 데이터를 기준으로 논리연산 진행!
# -> False인 값이 있다면 NaN(결측치)로 출력

Unnamed: 0,2020,2010,2005
서울,9668465.0,10312545.0,9762546.0
부산,,3567910.0,3512547.0
인천,,,
광주,,,


### DataFrame 실습
 - 도시별 인구수 데이터
 - population.csv

In [132]:
# 데이터 읽어오기
# pandas에서 제공하는 csv 파일 읽어오는 기능 -> pd.read_csv()
# encoding 방식 : utf-8 / euc-kr / cp949 --> 호환성 차이
# index_col : 해당 컬럼을 인덱스로 활용하겠다는 속성

pop = pd.read_csv('population.csv', encoding = 'utf-8', index_col = '도시')
pop

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016


### 데이터프레임 정렬

In [134]:
# 인덱스를 기준으로 정렬( sort_index() )
# 기본값이 오름차순
# 내림차순 : ascending = False

pop.sort_index(ascending = False)
# pop.sort_values() : value 값을 기준으로 정렬하는 것도 가능하다!

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,수도권,2942828,2925815.0,,2600495
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
대구,경상권,2418436,2466052.0,2431774.0,2456016
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [139]:
# 정렬할 때 2개 이상의 컬럼으로도 정렬이 가능하다!
pop.sort_values(by = ['지역','2010'])

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2418436,2466052.0,2431774.0,2456016
부산,경상권,3391946,,,3628293
서울,수도권,9668465,10022181.0,10312545.0,10167344
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745


### DataFrame 실습 2
 - 반별 과목점수 데이터
 - score.csv

In [159]:
# score 데이터 읽어오기 ('과목'컬럼을 인덱스로 설정)
score = pd.read_csv('score.csv', encoding = 'cp949', index_col = '과목')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [160]:
# 반별 합계 구하기
# 합계 : sum()
# 행끼리 더하기 -> 결과가 어느 방향으로 나오는지? 가로 방향(행 추가)

score.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [161]:
# 과목별 합계 구하기
# 열끼리 더하기 -> 세로 방향 (열 추가)
# axis = 1

score.sum(axis = 1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [162]:
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [158]:
# 과목별 총합 데이터 score에 추가 -> '합계' 컬럼 생성
score['합계'] = score.sum(axis = 1)
score
# 계속 실행하게 되면 합계값이 계속 커진다(전체 데이터에 sum() 함수를 적용하고 있기 때문)

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,2613
DB,76,92,45,69,3666
자바,47,92,45,69,3289
크롤링,92,81,85,40,3874
Web,11,79,47,26,2119


In [170]:
# 합계를 구하고 싶은 범위만! -> 슬라이싱
# 데이터프레임에서 행, 열의 슬라이싱 -> 인덱서
score['합계'] = score.loc['파이썬':'Web', '1반':'4반'].sum(axis = 1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [172]:
# 과목별 평균 구하기
# 평균 : mean()
score['평균'] = score.iloc[:,:4].mean(axis = 1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [174]:
# 반별 평균 구하기 + '반평균' 행 추가하기
score.loc['반평균'] = score.iloc[:,:].mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [175]:
# 타입 바꾸기 astype
# astype()은 적용하려면 대입을 해줘야한다! inplace 속성이 없다.
score = score.astype('int64')
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50
DB,76,92,45,69,282,70
자바,47,92,45,69,253,63
크롤링,92,81,85,40,298,74
Web,11,79,47,26,163,40
반평균,54,77,59,48,239,59


In [176]:
# 반별로 가장 높은/낮은 점수 구하기
# 가장 큰 값 : max()
# 가장 작은 값 : min()

score.max()
# 과목별 최대, 최소값 -> axis = 1

1반     92
2반     92
3반     85
4반     69
합계    298
평균     74
dtype: int64

In [177]:
score.min()

1반     11
2반     44
3반     45
4반     26
합계    163
평균     40
dtype: int64

### 카테고리 생성하기
 - 카테고리컬 데이터

In [178]:
# 나이 데이터로 카테고리 생성하기!
# 1. 데이터
ages = [0,2,10,15,21,23,37,61,20,41,100,52,78]

# 2. 범주 (나눠줄 기준)
bins = [0, 19, 47, 60, 99]

# 구간
# 초과 ~ 이하
# 0 ~ 19 : 미성년자
# 20 ~ 47 : 청년
# 48 ~ 60 : 중년
# 61 ~ 99 : 노년

# 3. 카테고리에 사용할 범주 명칭 (이름)
labels = ['미성년자', '청년', '중년', '노년']

cate = pd.cut(ages, bins, labels = labels)
cate

[NaN, '미성년자', '미성년자', '미성년자', '청년', ..., '청년', '청년', NaN, '중년', '노년']
Length: 13
Categories (4, object): ['미성년자' < '청년' < '중년' < '노년']

 - 생성된 카테고리의 정보를 알려준다.
  1. [데이터의 카테고리화 된 각각의 결과들]
  2. 데이터의 길이(개수)
  3. 범주의 개수