# pandas
### pandas에서 제공하는 데이터 구조
    - 1차원 배열 형태의 데이터 구조 (Series)
    = 2차원 배열 형태의 데이터 구조 (DataFrame)

### 데이터 조작 및 분석을 위한 라이브러리
    - Series : 1차원 (index + value)
    - DataFrame : 2차원 (행과 열을 가짐)

In [1]:
# pandas 불러오기
import pandas as pd

In [2]:
population = pd.Series([9668465, 3391946, 2942828, 1450062])
population

0    9668465
1    3391946
2    2942828
3    1450062
dtype: int64

In [3]:
# 인덱스 지정하여 생성
population = pd.Series([9668465, 3391946, 2942828, 1450062],
                      index = ['서울', '부산', '인천', '광주'])
population

서울    9668465
부산    3391946
인천    2942828
광주    1450062
dtype: int64

In [4]:
population.values

array([9668465, 3391946, 2942828, 1450062], dtype=int64)

In [5]:
population.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [6]:
population.dtype

dtype('int64')

In [7]:
population.name = "인구"
population.index.name = "도시"
population

도시
서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 인구, dtype: int64

In [8]:
population.values.sum()

17453301

In [9]:
# 1. indexing (인덱스 번호)
population[1]

3391946

In [10]:
# 2. indexing (인덱스 키)
population['부산']

3391946

In [11]:
# 3. indexing (Series) 다중 인덱스로 인덱싱
population[[0,3,1]]

도시
서울    9668465
광주    1450062
부산    3391946
Name: 인구, dtype: int64

In [12]:
# 4. indexing (Series) 다중 키값으로 인덱싱
population[['광주', '부산']]

도시
광주    1450062
부산    3391946
Name: 인구, dtype: int64

In [13]:
population[population >= 3000000]

도시
서울    9668465
부산    3391946
Name: 인구, dtype: int64

In [14]:
population[(population >= 2500000) & (population <= 5000000)]

도시
부산    3391946
인천    2942828
Name: 인구, dtype: int64

In [15]:
# slicing
population[1:3]

도시
부산    3391946
인천    2942828
Name: 인구, dtype: int64

In [16]:
data = { '피카츄':9631, '꼬부기':3393,
         '파이리':1490, '이상해씨':2632 }
pokemon = pd.Series(data)
pokemon.index.name = "포켓몬"
pokemon.name = "도감"
pokemon

포켓몬
피카츄     9631
꼬부기     3393
파이리     1490
이상해씨    2632
Name: 도감, dtype: int64

In [17]:
data2 = {'피카츄' : 9904, '꼬부기' : 3448,
         '이브이' : 2466, '뮤' : 2890}
pokemon_up = pd.Series(data2)
pokemon_up

피카츄    9904
꼬부기    3448
이브이    2466
뮤      2890
dtype: int64

In [18]:
attack = pokemon_up - pokemon
attack

꼬부기      55.0
뮤         NaN
이브이       NaN
이상해씨      NaN
파이리       NaN
피카츄     273.0
dtype: float64

In [19]:
attack[attack.notnull()]

꼬부기     55.0
피카츄    273.0
dtype: float64

In [20]:
attack[attack.isnull()]

뮤      NaN
이브이    NaN
이상해씨   NaN
파이리    NaN
dtype: float64

In [21]:
rp = attack / pokemon *100
rp[rp.notnull()]

꼬부기    1.620984
피카츄    2.834597
dtype: float64

In [22]:
attack['파이리'] = 1616
attack['리자몽'] = 8888

del attack['이상해씨']
attack

꼬부기      55.0
뮤         NaN
이브이       NaN
파이리    1616.0
피카츄     273.0
리자몽    8888.0
dtype: float64

### DataFrame

In [23]:
data = {'2020':[9668465, 3391946, 2942828, 1450062],
        '2010':[10312545, 3567910, 2758296, 1454636]}
df = pd.DataFrame(data)
df

Unnamed: 0,2020,2010
0,9668465,10312545
1,3391946,3567910
2,2942828,2758296
3,1450062,1454636


In [24]:
df.index = ['서울', '부산', '인천', '광주']
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [25]:
df = pd.DataFrame(data, index = ['서울', '부산', '인천', '광주'])
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [26]:
# 인덱스 지정해서 생성하는 방법 (list 구조 활용)
data2 = [[9668465, 3391946, 2942828, 1450062],
         [10312545, 3567910, 2758296, 1454636]]
data2
ind = ['2020', '2010']
col = ['서울', '부산', '인천', '광주']
df2 = pd.DataFrame(data, col, ind)
df2

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [27]:
df.values
df.index
df.columns

Index(['2020', '2010'], dtype='object')

### DataFrame Indexing Slicing

In [28]:
# row indexing
df[['2020']]

Unnamed: 0,2020
서울,9668465
부산,3391946
인천,2942828
광주,1450062


In [29]:
df[['2020', '2010']]

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [34]:
# Transpose
df.T

Unnamed: 0,서울,부산,인천,광주
2020,9668465,3391946,2942828,1450062
2010,10312545,3567910,2758296,1454636


In [40]:
# index 번호
df[0:1]

Unnamed: 0,2020,2010
서울,9668465,10312545


In [42]:
# index (value) 문자 기입시 끝값 포함.
df['서울' : '광주']

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [44]:
df['2005'] = [9762546, 3512547, 2517680, 2456016]
df.T

Unnamed: 0,서울,부산,인천,광주
2020,9668465,3391946,2942828,1450062
2010,10312545,3567910,2758296,1454636
2005,9762546,3512547,2517680,2456016


In [52]:
# DataFrame 인덱서 -> loc[], iloc[]
# loc[] : index의 값(문자)를 사용
# iloc[] : index의 번호(정수)를 사용
df.loc['부산':'인천', '2010':'2005']

Unnamed: 0,2010,2005
부산,3567910,3512547
인천,2758296,2517680


In [57]:
df.loc[:,'2005']

서울    9762546
부산    3512547
인천    2517680
광주    2456016
Name: 2005, dtype: int64

In [58]:
df['2005']

서울    9762546
부산    3512547
인천    2517680
광주    2456016
Name: 2005, dtype: int64

In [62]:
df.iloc[1:3,0:2]

Unnamed: 0,2020,2010
부산,3391946,3567910
인천,2942828,2758296


In [64]:
# DataFrame boolean indexing
df

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,2456016


In [69]:
df['2010'][df['2010']>=2500000]

서울    10312545
부산     3567910
인천     2758296
Name: 2010, dtype: int64

In [88]:
# Encoding = 'utf-8' --> 한글 인코딩 방식 (EUC-KR의 상위호환)
population_num = pd.read_csv("population.csv",encoding='utf-8', index_col = '도시');
population_num

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016


In [90]:
# 각각의 값이 나온 횟수를 세어주는 기능
# 데이터 이름.value_counts()
# 2010 컬럼 값의 빈도수 보기
# 결측치(NaN)은 세지 않음
population_num['2010'].value_counts()

10312545.0    1
1454636.0     1
2431774.0     1
Name: 2010, dtype: int64

In [95]:
# Align
# sort_index() : 인덱스 값을 기준으로 정렬
# sort_values() : 값을 기준으로 정렬
# ascending = True (default) -> 오름차순
# ascending = False -> 내림차순
population_num.sort_index(ascending = False)

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,수도권,2942828,2925815.0,,2600495
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
대구,경상권,2418436,2466052.0,2431774.0,2456016
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [103]:
population_num['2010'].sort_values(ascending = False)

도시
서울    10312545.0
대구     2431774.0
광주     1454636.0
부산           NaN
인천           NaN
Name: 2010, dtype: float64

In [106]:
# 컬럼을 기준으로 정렬 (by 속성)
population_num.sort_values(by = '2010', ascending = False)

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
대구,경상권,2418436,2466052.0,2431774.0,2456016
광주,전라권,1450062,1474636.0,1454636.0,1401745
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495


In [111]:
# 여러 컬럼을 놑해 정렬 하는 방법
# 정렬 후 다시 정렬
population_num.sort_values(by = ['2010', '지역'])

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495


In [200]:
# cp949 : utf-8 보다 상위 호환의 인코딩 방식
score = pd.read_csv("score.csv", encoding = 'cp949', index_col = '과목')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [188]:
# axis(축 방향) : default = 0
# axis = 1 (열)
score.sum(axis = 1)

과목
파이썬    1005
DB     1410
자바     1265
크롤링    1490
Web     815
dtype: int64

In [202]:
score['합계'] = score.iloc[:,0:4].sum(axis = 1)
score['평균'] = score.loc[:,'1반':'4반'].mean(axis = 1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [218]:
# drop('column명', axis = 'rows' -> default)
score.drop('합계',axis = 1)

Unnamed: 0_level_0,1반,2반,3반,4반,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,50.25
DB,76,92,45,69,70.5
자바,47,92,45,69,63.25
크롤링,92,81,85,40,74.5
Web,11,79,47,26,40.75


In [233]:
maxArr = score.loc[:'Web',:'4반'].max(axis = 1)

In [234]:
minArr = score.loc[:'Web',:'4반'].min(axis = 1)

In [235]:
maxArr - minArr

과목
파이썬    34
DB     47
자바     47
크롤링    52
Web    68
dtype: int64

### apply() 함수
    - 행이나 열 단위로 더 복잡한 처리를 할 때 사용
    - Pandas 객체 함수를 적용하는 방법
    - Ex01. 함수 생성 : 과목별 최댓값 - 과목별 최솟값

In [245]:
def max_min(x):
    return x.max() - x.min()

In [246]:
# apply 변환
score.loc[:'Web',:'4반'].apply(max_min,axis = 'columns')

과목
파이썬    34
DB     47
자바     47
크롤링    52
Web    68
dtype: int64

### 카테고리 생성

In [249]:
#데이터
ages = [0,2,10,21,23,38,31,61,20,45,65,12,38,
        99,3,51,51,31,100,20,21,46,55]
# 구간
#초과 ~ 이하
# 1~15 16~25 26~35 36~60 61~99
bins = [0,15,25,35,60,99]
# 이름
label = ['미성년자' , '청년' , '중년' , '장년' , '노년']

In [251]:
#.cut() : 카테고리화 시켜주는 함수 (Pandas 제공)
# cut(값, 지정할 범위, labels = 범위에 대한 라벨)
cats = pd.cut(ages, bins, labels=label)

In [252]:
# 항목별 개수 확인
cats.value_counts()

미성년자    4
청년      5
중년      2
장년      7
노년      3
dtype: int64

In [253]:
# 데이터의 길이를 알려주는 함수
len(ages)

23

In [259]:
age = pd.DataFrame(ages, columns = ['나이'])
#연령대 추가
age['연령대'] = cats
age

Unnamed: 0,나이,연령대
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,38,장년
6,31,중년
7,61,노년
8,20,청년
9,45,장년
