### Pandas
- Panel Datas 

#### Pandas에서 제공하는 데이터 구조
1. Series : 1차원
- 인덱스(index)와 value
- column name(컬럼명) 존재하지 않음

2. DataFrame : 2차원
- 행과 열을 가지는 표와 같은 형태
- 서로 다른 자료형 저장 가능
- 1차원의 시리즈가 모여 2차원의 데이터프레임 구조가 된다

In [2]:
# Pandas 라이브러리 로딩(가져오기)

import pandas as pd

### Series Data Structure

In [None]:
# Series 생성하기 (리스트 활용)
# 인덱스는 0부터 자동으로 부여된다

population = pd.Series([9904312,3448737,2890451,1466052])
print(population)

In [None]:
# 인덱스 이름을 지정해서 Series 생성하기
#  인덱스값과 데이터 value 개수가 같아야 함 (1:1로 대응되는 자료구조)

population = pd.Series([9904312,3448737,2890451,1466052], 
                      index = ["서울", "부산", "인천", "광주"])
print(population)

#### Series 데이터 확인

In [None]:
# Series 값 확인
# 시리즈명(변수명).values

population.values
# Series의 데이터 values는 ndArray(넘파이 배열) 형태이다

In [None]:
# Series 인덱스 값 확인
# 시리즈명(변수명).index

population.index
# dtype = 'object' => 문자열 의미

In [None]:
# Series 이름 지정
# 사용이유?? => 이름을 지정해주면 시리즈를 직관적으로 이해할 수 있다

# 시리즈명.name = '지어줄 이름'
population.name = '인구수'
population

In [None]:
# Series Index에 이름 지정
# 시리즈명.index.name = '지어줄 이름'

population.index.name = '도시'
population

#### Series 데이터 구조의 연산
- 요소별로 데이터 연산이 진행된다

In [None]:
# Series 데이터 구조는 넘파이배열 기반 --> 요소별 연산이 가능하다!!!!
population / 1000000

#### Series 인덱싱 & 슬라이싱

In [None]:
population

In [None]:
# 광주의 인구수 출력하기

# 인덱스 번호 인덱싱
print(population[3])

# 인덱스명을 통해서도 인덱싱 가능!
print(population['광주'])

In [None]:
# 인덱싱을 활용해서 여러 개의 데이터 추출
# 서울, 광주, 부산 순으로 데이터 가져오기
print(population[[0,3,1]])
print(population[['서울','광주','부산']])

#### 슬라이싱

In [None]:
# Series명[시작인덱스:끝인덱스+1]
# 인덱스 번호로 슬라이싱
# 부산 ~ 인천
print(population[1:3])

# 인덱스 이름으로 슬라이싱 -> +1 개념이 없으므로 가져오고자 하는 이름 작성
# 부산 ~ 인천
print(population['부산' : '인천'])

### Series 불리언 인덱싱
- 원하는 조건에 해당하는 데이터를 가져올 때 사용
- 시리즈명[조건]

In [None]:
# 인구수가 250만 이상인 도시들만 출력해보기
population >= 2500000 # 논리연산 결과임(boolean 자료형) 인덱싱 한 거 아님 ㅇㅇ
population[population>=2500000]

In [None]:
# 인구수가 250만 이상이면서 500만 이하인 도시 출력
# and - &
# or - |
population[(population>=2500000) & (population<=500000)]

### 딕셔너리 자료형 Series 생성
- { key : value }
- key 값은 index
- value 값은 value 

#### 포켓몬...

In [8]:
# 포켓몬 : 능력치
data = { "파이리"  : 9631, 
"꼬부기" : 3383,
 "잠만보" : 1046,
 "오박사" : 3
}
data

pocketmon = pd.Series(data)
pocketmon

파이리    9631
꼬부기    3383
잠만보    1046
오박사       3
dtype: int64

In [7]:
# 레벨업한 데이터가 들어있는 pocketmon_up 만들기
data2 = {'리자드' : 9999, "어니부기" : 4500, "잠만보" : 3000, "오박사" : 5}
pocketmon_up = pd.Series(data2)
pocketmon_up

리자드     9999
어니부기    4500
잠만보     3000
오박사        5
dtype: int64

In [10]:
# 올라간 능력치 계산하기
up = pocketmon_up - pocketmon
up

# 인덱스명이 다르면 Series 연산하게 되면 NaN (Not a Number=결측치) 출력

꼬부기        NaN
리자드        NaN
어니부기       NaN
오박사        2.0
잠만보     1954.0
파이리        NaN
dtype: float64

- 결측치(NaN)가 있는 Series 데이터 처리하는 방법

In [16]:
# 비어있지 않은 데이터들만 출력한다면??? -> notnull() 사용
up.notnull()

# 비어있지 않은 데이터만 인덱싱해서 출력 -> 불리언 인덱싱
print(up[up.notnull()])

오박사       2.0
잠만보    1954.0
dtype: float64


In [15]:
# 비어있는 데이터만 보고 싶다면??? -> isnull() 사용
up.isnull()

# 비어있는 데이터만 인덱싱해서 출력 -> 불리언인덱싱
print(up[up.isnull()])

꼬부기    NaN
리자드    NaN
어니부기   NaN
파이리    NaN
dtype: float64


In [20]:
# 레벨업해서 올라간 능력치의 증가율(%) 계산해보기
# (올라간 데이터 - 원래 데이터) / 원래데이터 * 100
print(pocketmon_up)
print(pocketmon)

ch = (pocketmon_up - pocketmon) / pocketmon * 100

리자드     9999
어니부기    4500
잠만보     3000
오박사        5
dtype: int64
파이리    9631
꼬부기    3383
잠만보    1046
오박사       3
dtype: int64


### Series 데이터 갱신, 추가, 삭제 방법

In [23]:
# Series 데이터 값 추가
# 기존에 없던 인덱스 명칭 활용하여 value 추가 가능
# Series명['추가하고 싶은 인덱스명'] = value

ch['피카츄'] = 55
ch

꼬부기            NaN
리자드            NaN
어니부기           NaN
오박사      66.666667
잠만보     186.806883
파이리            NaN
피카츄      55.000000
dtype: float64

In [24]:
# Series 데이터 값 수정
# 기존에 있는 인덱스명을 활용하여 value 수정 가능
# Series명['수정하고 싶은 인덱스명'] = value

ch['오박사'] = 30
ch

꼬부기            NaN
리자드            NaN
어니부기           NaN
오박사      30.000000
잠만보     186.806883
파이리            NaN
피카츄      55.000000
dtype: float64

In [25]:
# Series 데이터 값 삭제
# del
del ch['오박사']
ch

꼬부기            NaN
리자드            NaN
어니부기           NaN
잠만보     186.806883
파이리            NaN
피카츄      55.000000
dtype: float64

In [None]:
# 인덱스 이름 수정하는 방법
# ch.rename({'파이리': '뮤츠'})
# 데이터 자체에는 변화 없음. 데이터 변경하려면 재대입 필요ㅇㅇ

#### DataFrame
- 행, 열로 구성된 2차원 데이터 구조(엑셀 표 형태)
- 1차원의 Series들이 모여 2차원이 된 형태

In [29]:
# 딕셔너리 자료형으로 DataFrame 생성

# 딕셔너리 생성
data = {"2015" : [9904312, 3448737 , 2890451, 2446052],
              "2010" : [9631482, 3393191, 2632035, 2431774]}

# key -> 컬럼명(열이름)
# value -> value(데이터)
# 인덱스는 자동으로 지정됨

# 데이터 프레임 생성
df = pd.DataFrame(data, index=['서울', '부산', '인천', '광주'])  # df : dataframe
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
광주,2446052,2431774


In [31]:
# 리스트 자료형으로 DataFrame 생성
# 데이터프레임에 들어가는 모든 값들을 일일이 지정해줘야 함

# value가 될 리스트 2차원으로 만들기
data1 = [[9668465,3391946,2942828,1450062],
                [10312545,3567910,2758296,1454636]]

# index가 될 리스트
ind = ['2020', '2010']

# 컬럼명이 될 리스트
col = ['서울', '부산', '인천', '광주']

df1 = pd.DataFrame(data1, index = ind, columns = col)
df1

Unnamed: 0,서울,부산,인천,광주
2020,9668465,3391946,2942828,1450062
2010,10312545,3567910,2758296,1454636


In [34]:
# 데이터프레임 전치시키기 - 행, 열 위치를 바꿔줌(Transpose)
# 전치시킨 후 다시 변수에 재대입 해주어야 한다

df1 = df1.T
df1

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


### 데이터프레임 구조 확인
- values : 값, 데이터 확인
- index : 인덱스 확인
- columns : 컬럼명 확인

In [35]:
df.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2446052, 2431774]], dtype=int64)

In [36]:
df.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [37]:
df.columns

Index(['2015', '2010'], dtype='object')

### DataFrame 인덱싱, 슬라이싱

In [41]:
# DataFrame 열 인덱싱
df['2015'] # 1차원 형태 인덱싱
df[['2015']] # 2차원 형태로 인덱싱

# Series 형태로 출력됨
# DataFrame 은 여러개의 Series로 구성이 되어 있기 때문

Unnamed: 0,2015
서울,9904312
부산,3448737
인천,2890451
광주,2446052


In [45]:
# 두 개의 컬럼 출력하기

# 2010, 2015 순서대로 가져오기
df[['2010', '2015']] # df['2010', '2015'] -> error 발생

Unnamed: 0,2010,2015
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
광주,2431774,2446052


### DataFrame 행, 열 데이터 추가, 수정, 삭제

#### 추가

In [48]:
df['2005'] = [9762546,3512547,2517680,1456016]
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


#### 삭제
- drop() 메소드
- 삭제한 결과를 변수명에 재대입 해줘야 결과값이 저장된다

In [59]:
# df.drop('삭제할 인덱스명') => 행 삭제..

# df.drop('부산')

# inplace : 변경값을 저장할 때 사용 -제자리에, ~할 준비가 되어있는 
# inplace = True : 변경값을 저장하겠다
#                 False : 변경값을 저장하지 않겠다 ( 기본값)

# df.drop('부산', inplace = True)
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


In [56]:
# 2005년도 열 데이터 삭제
# drop() 메소드 axis 기본값은 0 : 행방향
# 열방향으로 삭제하고 싶을 때는 축 설정을 해주어야 한다 (axis = 1)

df.drop('2005', axis = 1)

Unnamed: 0,2015,2010
서울,9904312,9631482
인천,2890451,2632035
광주,2446052,2431774


#### 수정

In [60]:
# 컬럼 이름 수정하기
# rename(columns = { '수정하고 싶은 데이터': '수정할 데이터'}) 

df.rename(columns= { '2010': '2000' }, inplace = True) # 값을 저장하고 싶다면 inplace = True 설정해준다

Unnamed: 0,2015,2000,2005
서울,9904312,9631482,9762546
인천,2890451,2632035,2517680
광주,2446052,2431774,1456016


In [61]:
# 인덱스 이름 변경하기

# rename(index = { '수정하고 싶은 데이터': '수정할 데이터'}) 

df.rename(index= { '광주': '대전' }, inplace = True)
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
인천,2890451,2632035,2517680
대전,2446052,2431774,1456016


In [62]:
data3 = {'2020' : [9668465,3391946,2942828,1450062],
                 '2010' : [10312545,3567910,2758296,1454636],
                 '2005' : [9762546,3512547,2517680,1456016]}

# DataFrame 생성과 동시에 인덱스 지정
df3 = pd.DataFrame(data3, index = ['서울','부산','인천','광주'])
df3

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


In [None]:
# dataframe은 슬라이싱 -> 행, 인덱싱 -> 열 기준

In [63]:
# 행 슬라이싱
# 0~2행 슬라이싱
df3[0:3]

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680


In [64]:
# 인덱스 명칭으로 슬라이싱
df3['서울' : '인천']

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680


- df[] : 인덱싱은 column으로만 인덱싱 가능
- df[ : ] : 슬라이싱은 index로만 슬라이싱 가능

### 행과 열 단위로 인덱싱, 슬라이싱을 하는 인덱서

#### loc/iloc 인덱서 
- loc 인덱서 : 인덱스/컬럼명 사용해서 데이터 추출
    df명.loc[] 
    
- iloc인덱서 : 인덱스/컬럼 번호 사용해서 데이터 추출
    df명.iloc[] <br>
( * iloc : integer location)

In [67]:
df3.loc[ '서울': '부산' ]

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547


In [70]:
# 부산~인천까지(행), 2020~2010(열) 데이터 슬라이싱 -> loc[]
df3.loc['부산':'인천', '2020':'2010']

Unnamed: 0,2020,2010
부산,3391946,3567910
인천,2942828,2758296


In [71]:
# 인덱스/컬럼 번호 사용해서 슬라이싱 -> iloc[]
# 부산~ 인천(행),  2010~2005(열)
df3.iloc[1:3, 1:3]

Unnamed: 0,2010,2005
부산,3567910,3512547
인천,2758296,2517680


### DataFrame 실습
- 도시별 인구수 데이터
- population.csv

In [75]:
# 데이터 불러오기
pop = pd.read_csv('population.csv', index_col = '도시')
pop

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016


#### 데이터프레임 정렬

In [76]:
# 인덱스 기준으로 정렬 : df명.sort_index()
# 기본 오름차순 정렬(가나다/abc/1234)
# 내림차순으로 변경 : ascending = False
pop.sort_index(ascending=False)

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,수도권,2942828,2925815.0,,2600495
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
대구,경상권,2418436,2466052.0,2431774.0,2456016
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [79]:
# 값을 기준으로 정렬하는 방법
# df명.sort_values(by = '컬럼명')

pop.sort_values(by = '2010')

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495


In [80]:
# 여러 컬럼을 통해 정렬 진행
# 지역을 기준으로 정렬하고 그 다음에 2010년 정렬된다
pop.sort_values(by = ['지역','2010']) # [선정렬, 후정렬]

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2418436,2466052.0,2431774.0,2456016
부산,경상권,3391946,,,3628293
서울,수도권,9668465,10022181.0,10312545.0,10167344
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745


### DataFrame 실습2
- 반별 과목 점수 데이터

In [91]:
# score 데이터 가져오기 (과목 컬럼을 인덱스로 설정)
score = pd.read_csv('score.csv', encoding='euc-kr', index_col = '과목') #  encoding='cp949'
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [96]:
# 반별 합계 구하기
# sum()
# axis = 0 (기본값) : 행끼리 더하기
score.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [98]:
# 과목별 합계 구하기
# 열끼리 더하기
# axis = 1

score.sum(axis=1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [None]:
# 과목별 총합 데이터 score 변수에 추가 -> ' 합계' 컬럼 생성

In [101]:
score['합계'] = score.sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [103]:
# 과목별 평균구하기
# 평균 : mean()
# 평균 컬럼 생성하기 (합계를 제외하고 계산되어야 함)
score['평균'] = score.mean(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,80.4
DB,76,92,45,69,282,112.8
자바,47,92,45,69,253,101.2
크롤링,92,81,85,40,298,119.2
Web,11,79,47,26,163,65.2


In [107]:
score2 = score.iloc[0:, 0:4 ]
score2

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [108]:
score_avg = score2.mean(axis=1)
print(score_avg)

과목
파이썬    50.25
DB     70.50
자바     63.25
크롤링    74.50
Web    40.75
dtype: float64

In [112]:
score['평균'] = score_avg
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75
