# pandas
- pandas에서 제공하는 데이터 구조
    - 1차원 배열 형태의 데이터 구조 --> Series
    - 2차원 배열 형태의 데이터 구조 --> DataFrame

### 데이터 조작 및 분석을 위한 라이브러리이다.
- Series : 1차원
    - 인덱스(index) + 값(value)
- DataFrame : 2차원
    - 행과 열을 가지는 표와 같은 형태
    - 서로 다른 종류의 자료형을 저장할 수 있음

In [3]:
# pandas 불러오기
import pandas as pd

In [4]:
# Series 생성

population = pd.Series([9668465, 3391946,2942828,1450062])
population

0    9668465
1    3391946
2    2942828
3    1450062
dtype: int64

In [5]:
# 인덱스 지정해서 생성하기(Series)

population = pd.Series([9668465, 3391946,2942828,1450062],
                                       index = ['서울', '부산', '인천', '광주'])
population

서울    9668465
부산    3391946
인천    2942828
광주    1450062
dtype: int64

In [6]:
# 1. Series 값 확인
population.values

array([9668465, 3391946, 2942828, 1450062], dtype=int64)

In [7]:
# 2. Series 인덱스 확인
population.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [8]:
# 3. Series 타입 확인
population.dtype

dtype('int64')

In [9]:
# Series에 이름 지정
population.name = "인구"
population.index.name = "도시"

In [10]:
population

도시
서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 인구, dtype: int64

In [11]:
# Series 연산
population / 1000000

도시
서울    9.668465
부산    3.391946
인천    2.942828
광주    1.450062
Name: 인구, dtype: float64

### Series 인덱싱, 슬라이싱
- 인덱싱 : 무엇인가를 '가리킨다'는 의미
- 슬라이싱 : 무엇인가를 '잘라낸다'는 의미

In [12]:
# 인덱싱 --> 인덱스 번호를 직접 입력
population[1]

3391946

In [13]:
# 인덱싱 --> 인덱스 명칭을 직접 입력
population["광주"]

1450062

In [14]:
# Series 인덱싱
# 다중 인덱스 접근하는 다중 인덱싱
# 인덱스 번호로 접근하는 방법
population[[0,3,1]]

도시
서울    9668465
광주    1450062
부산    3391946
Name: 인구, dtype: int64

In [15]:
# Series 인덱싱
# 다중 인덱스 접근하는 다중 인덱싱
# 인덱스 명칭으로 접근하는 방법
population[["서울","광주","부산"]]

도시
서울    9668465
광주    1450062
부산    3391946
Name: 인구, dtype: int64

In [16]:
# # Series Boolean 인덱싱

population[population >= 2500000]

도시
서울    9668465
부산    3391946
인천    2942828
Name: 인구, dtype: int64

In [17]:
# 1. 인구수가 300만 이상의 도시는?

population[population>=3000000]

도시
서울    9668465
부산    3391946
Name: 인구, dtype: int64

In [18]:
# 2. 인구수가 250만 이상이면서 500만 이하인 도시는?
# 논리 연산자 "기호"를 사용해야 한다.
# 다중 불리언 인덱싱

population[(population >= 2500000) & (population<=5000000)]

도시
부산    3391946
인천    2942828
Name: 인구, dtype: int64

In [19]:
# Series 슬라이싱
population[1:3]

도시
부산    3391946
인천    2942828
Name: 인구, dtype: int64

In [20]:
# 딕셔너리 객체로 Series 생성

data = {'피카츄':9631, '꼬부기':3393,
        '파이리':1490, '이상해씨':2632}

pokemon = pd.Series(data)
pokemon

피카츄     9631
꼬부기     3393
파이리     1490
이상해씨    2632
dtype: int64

In [21]:
data2 = {'피카츄' : 9904, '꼬부기':3448,
                '이브이' : 2466, '뮤' : 2890}

pokemon_up = pd.Series(data2)
pokemon_up

피카츄    9904
꼬부기    3448
이브이    2466
뮤      2890
dtype: int64

In [22]:
# 레벨업해서 올라간 공격력을 계산

attack = pokemon_up - pokemon
attack

꼬부기      55.0
뮤         NaN
이브이       NaN
이상해씨      NaN
파이리       NaN
피카츄     273.0
dtype: float64

In [23]:
# 비어있지 않은 데이터만 보려면?
# .notnull() --> 결측치가 아닌 부분만 추출해서 boolean 타입으로 (True) 변환
# --> 즉, boolean 인덱싱 가능!
attack[attack.notnull()]

꼬부기     55.0
피카츄    273.0
dtype: float64

In [24]:
# 비어있는 데이터들만 보려면?
# .isnull() --> 결측치가 존재하는 부분만 추출해서 boolean 타입으로(True) 변환
# --> 즉, boolean 인덱싱 가능!
attack[attack.isnull()]

뮤      NaN
이브이    NaN
이상해씨   NaN
파이리    NaN
dtype: float64

In [25]:
# 레벨업해서 올라간 공격력의 증가율(%)을 계산
# 레벨업해서 올라간 공격력(attack) /  초기상태(pokemon) * 100

rp = attack / pokemon * 100
rp

꼬부기     1.620984
뮤            NaN
이브이          NaN
이상해씨         NaN
파이리          NaN
피카츄     2.834597
dtype: float64

In [26]:
rp[rp.notnull()]

꼬부기    1.620984
피카츄    2.834597
dtype: float64

In [27]:
# Series 데이터 갱신, 추가, 삭제

# 원래 데이터 출력
attack

# 파이리라는 인덱스에 NaN값 채우기
attack['파이리'] = 1616
attack['리자몽'] = 8888

# 이상해씨라는 인덱스 삭제하기
del attack['이상해씨']

In [28]:
attack

꼬부기      55.0
뮤         NaN
이브이       NaN
파이리    1616.0
피카츄     273.0
리자몽    8888.0
dtype: float64

### DataFrame

In [29]:
# 데이터프레임 생성하기~
data = {'2020':[9668465, 3391946, 2942828, 1450062],
        '2010':[10312545, 3567910, 2758296, 1454636]}

df = pd.DataFrame(data)
df

Unnamed: 0,2020,2010
0,9668465,10312545
1,3391946,3567910
2,2942828,2758296
3,1450062,1454636


In [30]:
# 데이터프레임 인덱스 수정

df.index = ['서울', '부산', '인천', '광주']

In [31]:
# 데이터프레임 생성할 때 인덱스 바로 지정해서 생성하는 방법
data = {'2020':[9668465, 3391946, 2942828, 1450062],
        '2010':[10312545, 3567910, 2758296, 1454636]}

df = pd.DataFrame(data, index = ['서울', '부산', '인천', '광주'])
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [32]:
# 데이터프레임 인덱스 지정해서 생성하는 방법 (list 구조 활용)
data2 = [[9668465, 3391946, 2942828, 1450062],
         [10312545, 3567910, 2758296, 1454636]]

# 인덱스는
ind = ['2020', '2010']

# 컬럼은
col = ['서울', '부산', '인천', '광주']

# DataFrame(값이 들어있는 데이터, index = 인덱스명, columns = 컬럼명)
df2 = pd.DataFrame(data2, index = ind, columns=col)
df2

Unnamed: 0,서울,부산,인천,광주
2020,9668465,3391946,2942828,1450062
2010,10312545,3567910,2758296,1454636


In [33]:
# 데이터 프레임 전치하기
df2.T

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [34]:
# 1. 데이터프레임 값 확인
df.values

# 2. 데이터프레임 인덱스 확인
df.index

# 3. 데이터프레임 컬럼 확인
df.columns

Index(['2020', '2010'], dtype='object')

### DataFrame 인덱싱, 슬라이싱
- 인덱싱 : 무엇인가를 '가리킨다'는 의미
- 슬라이싱 : 무엇인가를 '잘라낸다'는 의미

In [35]:
# 데이터 프레임 열 인덱스 확인하기(열 인덱싱)
df['2020']

서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 2020, dtype: int64

In [36]:
df[['2020', '2010']]

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [38]:
# 데이터 프레임 슬라이싱
# index 번호
df[0:1]

Unnamed: 0,2020,2010
서울,9668465,10312545


In [39]:
# index 값(문자)
# 문자를 직접적으로 기재해주면 끝 값 포함한다

df['서울':'부산']

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910


In [42]:
# 세로운 컬럼(열) 생성
df['2005'] = [9762546, 3512547, 2517680, 2456016]

In [None]:
# DataFrame 인덱서 --> loc[], iloc[]
# loc[] : index의 값(문자)를 사용
# iloc[] : index의 번호(정수)를 사용
# df명, loc[행, 열]
# 인덱서[행] : 해당 행의 모든 열을 출력, 해당 행 출력

In [44]:
df.loc['부산': '인천', '2010':'2005']

Unnamed: 0,2010,2005
부산,3567910,3512547
인천,2758296,2517680


In [47]:
df.loc[:, '2005']

서울    9762546
부산    3512547
인천    2517680
광주    2456016
Name: 2005, dtype: int64

In [None]:
# iioc[] 인덱서 사용해서 데이터 가져오기
df.iloc[1:3,:2]

In [None]:
# 데이터 프레임 불리언 인덱싱
# 2010년 인구수가 250만 이상인 전체 데이터
# 1. 2010 컬럼이의 데이터만 가져와서 비교하기

In [49]:
 df[df['2010'] >=  2500000]

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680


In [50]:
df

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,2456016


In [52]:
df['2010'][df['2010']>=2500000]

서울    10312545
부산     3567910
인천     2758296
Name: 2010, dtype: int64

In [57]:
# read_csv("파일명.확장자")
# encoding = 'utf-8' --> 한글 인코딩 방식(EUC-KR 상위호환)
population_number = pd.read_csv("population.csv", encoding = 'utf-8', index_col ='도시')
population_number

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016


In [60]:
# 각각의 값이 나온 횟수를 세어주는 기능
# 데이터이름.value_counts()
# 2010컬럼(열) 값의 빈도수 보기
# 결측치(NaN)은 세어주지 않는다!
population_number['2010'].value_counts()

10312545.0    1
1454636.0     1
2431774.0     1
Name: 2010, dtype: int64

In [None]:
# 정렬
# sort_index() : 인덱스 값을 기준으로 정렬
# sort_values() : 데이터(값)을 기준으로 정렬

In [62]:
# 기본 default 값은 오름차순(가나다, 1234, acending = True)
# ascending = False --> 내림차순
population_number.sort_index(ascending=False)

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,수도권,2942828,2925815.0,,2600495
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
대구,경상권,2418436,2466052.0,2431774.0,2456016
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [66]:
# 데이터 값을 기준으로 정렬(오름차순)
# population_number['2010'].sort_values(ascending=False) --> 내림차순
population_number['2010'].sort_values()

도시
광주     1454636.0
대구     2431774.0
서울    10312545.0
부산           NaN
인천           NaN
Name: 2010, dtype: float64

In [67]:
# 컬럼을 기준으로 정렬 (by 속성)
population_number.sort_values(by='2010')

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495


In [68]:
# 여러 컬럼(열)을  통해 정렬하는 방법
population_number.sort_values(by=['지역','2010']) # 정렬 후, 다시 정렬

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2418436,2466052.0,2431774.0,2456016
부산,경상권,3391946,,,3628293
서울,수도권,9668465,10022181.0,10312545.0,10167344
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745


### score 데이터 실습

In [72]:
# score 데이터 불러오기
# cp949 : utf-8보다 더 상위호환 인코딩 방법
score = pd.read_csv("score.csv", encoding='cp949', index_col='과목')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [75]:
# 세로 방향의 데이터 총 합
# .sum() --> 디폴트 값 exis = 0
# axis --> 축(방향)
score.sum(axis = 0) 

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [76]:
# .sum(axis=1) : 가로방향 데이터 총합
score.sum(axis = 1) 

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [None]:
# 과목별 총합 데이터 df에 추가 -> 합계 컬럼(열) 생성

In [91]:
score['합계'] = score.sum(axis = 1)
# 합계 값이 계속 갱신됨...
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,1206
DB,76,92,45,69,1692
자바,47,92,45,69,1518
크롤링,92,81,85,40,1788
Web,11,79,47,26,978


In [95]:
# 합계 중첩되지 않음! 해당 범위를 직접 지정해줬기 때문에
score['합계'] = score.iloc[:,0:4].sum(axis = 1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [99]:
score['평균'] = score.loc[:,'1반':'4반'].mean(axis = 1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [100]:
# 컬럼 지우는 방법
# .drop('컬럼(열)이름', axis=1)

# 결괏값만 출력해줌(적용이 안된 상태)
score.drop('합계', axis = 'columns')

Unnamed: 0_level_0,1반,2반,3반,4반,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,50.25
DB,76,92,45,69,70.5
자바,47,92,45,69,63.25
크롤링,92,81,85,40,74.5
Web,11,79,47,26,40.75


In [102]:
# 갱신하고 싶을 때 원래 데이터에 덮어 씌워주기
score = score.drop('합계', axis = 'columns')

In [104]:
# 최댓값 구하는 함수
# .max(axis=0 기본 값(행 방향))
score.max(axis=1)

과목
파이썬    73.0
DB     92.0
자바     92.0
크롤링    92.0
Web    79.0
dtype: float64

In [105]:
# 최솟값 구하는 함수
# .min(axis=0 기본 값(행 방향))
score.min()

1반    11.00
2반    44.00
3반    45.00
4반    26.00
평균    40.75
dtype: float64

In [117]:
# 과목별의 최댓값만 구하기
# loc, iloc --> [행,열]
score.loc[:'Web',:'4반'].max(axis=1)

과목
파이썬    73
DB     92
자바     92
크롤링    92
Web    79
dtype: int64

In [118]:
# 과목별의 최솟값만 구하기
score.loc[:'Web', :'4반'].min(axis=1)

과목
파이썬    39
DB     45
자바     45
크롤링    40
Web    11
dtype: int64

In [119]:
# 과목별 최댓값과 최솟값의 차이
maxArr = score.loc[:'Web',:'4반'].max(axis=1)
minArr = score.loc[:'Web', :'4반'].min(axis=1)

In [120]:
maxArr-minArr

과목
파이썬    34
DB     47
자바     47
크롤링    52
Web    68
dtype: int64

### apply() 함수
- 행이나 열 단위로 더 복잡한 처리를 할 때 사용
- pandas 객체 함수를 적용하는 방법

In [121]:
# 과목별 최댓값과 최솟값의 차이를 구해주는 함수 만들기
def max_min(x): 
    return x.max() - x.min()

In [123]:
# apply 변환
# .apply(불러올 함수명, 처리할 기준점(축 axis))
score.loc[:'Web',:'4반'].apply(max_min, axis=1)

과목
파이썬    34
DB     47
자바     47
크롤링    52
Web    68
dtype: int64

### 카테고리 생성하기

In [128]:
#데이터
ages = [0,2,10,21,23,38,31,61,20,45,65,12,38,
        99,3,51,51,31,100,20,21,46,55]
# 구간
#초과 ~ 이하
# 1~15 16~25 26~35 36~60 61~99
bins = [0,15,25,35,60,99]
# 이름
label = ['미성년자' , '청년' , '중년' , '장년' , '노년']

In [130]:
# .cut() : 카테고리화 시켜주는 함수(판다스가 제공)
# cut(값, 지정할 범위, labels = 범위에 대한 라벨)
cats = pd.cut(ages, bins, labels=label)

In [131]:
# 각 항목(값)별 개수 확인
cats.value_counts()

미성년자    4
청년      5
중년      2
장년      7
노년      3
dtype: int64

In [134]:
# 데이터의 길이를 알려주는 함수 -> len()
len(ages)

23

In [135]:
# 데이터 프레임으로 만들어 보자!
age = pd.DataFrame(ages, columns=['나이'])

In [138]:
# 연령대 컬럼 추가
age['연령대'] = cats

Unnamed: 0,나이,연령대
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,38,장년
6,31,중년
7,61,노년
8,20,청년
9,45,장년


In [139]:
age

Unnamed: 0,나이,연령대
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,38,장년
6,31,중년
7,61,노년
8,20,청년
9,45,장년
