### Pandas
- 1차원 배열 형태의 데이터 구조 : Series
- 2차원 배열 형태의 데이터 구조 : DataFrame 

- Series : 1 차원 -> 인덱스(index) + 값(value)
- DataFrame : 2 차원 -> 인덱스(index) + 행과 열을 가지는 표와 같은 형태 

### 라이브러리 불러오기

In [1]:
import numpy as np
import pandas as pd

### Series 생성 

In [2]:
names=pd.Series(['김철수','홍길동','신짱구','둘리','흰둥이','유리'])
names

0    김철수
1    홍길동
2    신짱구
3     둘리
4    흰둥이
5     유리
dtype: object

In [3]:
data = {'이름':['김철수','신짱구','유리'],
       '나이': [5,5,1]}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이
0,김철수,5
1,신짱구,5
2,유리,1


### Series 생성

In [4]:
population = pd.Series([9904234145463,21321231312321,231321231,3213212133])
population

0     9904234145463
1    21321231312321
2         231321231
3        3213212133
dtype: int64

In [5]:
# 인덱스를 지정해주기 
population = pd.Series([9904234145463,21321231312321,231321231,3213212133],
                      index =['서울','부산','인천','대구'])
population

서울     9904234145463
부산    21321231312321
인천         231321231
대구        3213212133
dtype: int64

### Series 데이터 확인

- values : 값을 확인 
- index :  인덱스 확인
- dtype : 데이터 타입확인 

In [6]:
print(f"Series 값 확인 : {population.values}")
print(f"Series 인덱스 확인 : {population.index}")
print(f"Series 데이터 타입 확인 : {population.dtype}")

Series 값 확인 : [ 9904234145463 21321231312321      231321231     3213212133]
Series 인덱스 확인 : Index(['서울', '부산', '인천', '대구'], dtype='object')
Series 데이터 타입 확인 : int64


### Series에 이름 지정 
- name : 시리즈에 이름을 지정
- index.name : 인덱스에 이름 달기

In [7]:
# Series에 이름 지정
population.name = '인구수'
# 인덱스에 이름 지정 
population.index.name = '도시'
population

도시
서울     9904234145463
부산    21321231312321
인천         231321231
대구        3213212133
Name: 인구수, dtype: int64

### Series 연산

In [8]:
population - 1000000

도시
서울     9904233145463
부산    21321230312321
인천         230321231
대구        3212212133
Name: 인구수, dtype: int64

### Series 인덱싱, 슬라이싱

- 인덱싱(Indexing) : 무언가를 '가르킨다'는 의미
- 슬라이싱(Slicing) : 무언가를 '잘라낸다'는 의미

In [9]:
population['서울']

9904234145463

In [10]:
population[2]

  population[2]


231321231

### 인덱서 활용
- loc[ ]인덱서 : 실제 인덱스명 컬럼명을 사용하여 가지고 올때사용
- iloc[ ]인덱서 : 인덱스 번호를 사용하여 가지고 올떄 사용

### Pandas에서 제공하는 인덱서 활용
- loc[]인덱서 : 실제 인덱스명 or 컬럼명을 사용하여 가지고 올 때 사용
- iloc[]인덱서 : 인덱스 번호를 사용하여 가지고 올 때 사용

In [11]:
population

도시
서울     9904234145463
부산    21321231312321
인천         231321231
대구        3213212133
Name: 인구수, dtype: int64

In [12]:
population.loc['서울']

9904234145463

In [13]:
population.loc['인천']

231321231

In [14]:
population.iloc[1]

21321231312321

In [15]:
names

0    김철수
1    홍길동
2    신짱구
3     둘리
4    흰둥이
5     유리
dtype: object

In [16]:
names.iloc[1:5]

1    홍길동
2    신짱구
3     둘리
4    흰둥이
dtype: object

In [17]:
population.iloc[1:3]

도시
부산    21321231312321
인천         231321231
Name: 인구수, dtype: int64

In [18]:
population.loc['부산':'인천']

도시
부산    21321231312321
인천         231321231
Name: 인구수, dtype: int64

### loc[]인덱서가 끝값을 포함하는 이유 : 직관적 , 유용하다 

### Series Boolean 인덱싱

In [19]:
names

0    김철수
1    홍길동
2    신짱구
3     둘리
4    흰둥이
5     유리
dtype: object

In [20]:
# 불리언 인덱싱 -> true값만을 출력 
names=='신짱구'

0    False
1    False
2     True
3    False
4    False
5    False
dtype: bool

In [21]:
names[names == '신짱구']

2    신짱구
dtype: object

In [22]:
population >=9904234145463

도시
서울     True
부산     True
인천    False
대구    False
Name: 인구수, dtype: bool

In [23]:
population[population>=9904234145463]

도시
서울     9904234145463
부산    21321231312321
Name: 인구수, dtype: int64

### Series 데이터 추가, 변경, 제거 

In [24]:
population

도시
서울     9904234145463
부산    21321231312321
인천         231321231
대구        3213212133
Name: 인구수, dtype: int64

In [25]:
# Series 값 추가
# 변수[인덱스] = 값 
population['광주']=1500000

In [26]:
population

도시
서울     9904234145463
부산    21321231312321
인천         231321231
대구        3213212133
광주           1500000
Name: 인구수, dtype: int64

In [27]:
#Series 값 수정
population['대구']= 2400000
population

도시
서울     9904234145463
부산    21321231312321
인천         231321231
대구           2400000
광주           1500000
Name: 인구수, dtype: int64

In [28]:
#삭제 del
del population['광주']
population

도시
서울     9904234145463
부산    21321231312321
인천         231321231
대구           2400000
Name: 인구수, dtype: int64

### DataFrame 생성

In [29]:
#딕셔너리 객체로 DataFrame 생성
data = {"2015":[9904312,3448737,2890451,2466052],
        "2010":[9631482,3393191,2632035,2431774]}
df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [30]:
# 인덱스 수정
df.index = ['서울','부산','인천','대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


### DataFrame 값 확인
- values : 값 확인
- index : 인덱스 확인
- columns : 컬럼 확인

In [31]:
df.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]])

In [32]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [33]:
df.columns

Index(['2015', '2010'], dtype='object')

In [34]:
# list 데이터를 사용해서 dataframe 생성
data2 = [[9904312,3448737,2890451,2466052],[9631482,3393191,2632035,2431774]]
ind = ["2015","2010"]
col=['서울','부산','인천','대구']
df2 = pd.DataFrame(data2,index=ind,columns=col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [35]:
data3 = [[9904312,9631482],[3448737,3393191],[2890451,2632035],[2466052,2431774]]
col = ["2015","2010"]
ind=['서울','부산','인천','대구']
df3 = pd.DataFrame(data3,index=ind,columns=col)
df3

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [36]:
# 행과열을 바꾸는 기능 (전치)
# 변수.T
df3 = df3.T
df3

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


### DataFrame 인덱싱 , 슬라이싱

In [37]:
df3[['서울']]

Unnamed: 0,서울
2015,9904312
2010,9631482


In [38]:
# 열 생성 / 수정

df3['광주'] = [1400000,1500000]
df3

Unnamed: 0,서울,부산,인천,대구,광주
2015,9904312,3448737,2890451,2466052,1400000
2010,9631482,3393191,2632035,2431774,1500000


In [39]:
df3['광주'] = [1500000,1400000]
df3

Unnamed: 0,서울,부산,인천,대구,광주
2015,9904312,3448737,2890451,2466052,1500000
2010,9631482,3393191,2632035,2431774,1400000


In [41]:
# 행 생성
# 변수명.loc[] or iloc[] 인덱서 사용

df3.loc['2013'] = [100, 200, 300, 400, 500]
df3

Unnamed: 0,서울,부산,인천,대구,광주
2015,9904312,3448737,2890451,2466052,1500000
2010,9631482,3393191,2632035,2431774,1400000
2013,100,200,300,400,500


In [42]:
df3.loc['2013'] = [500, 400, 300, 200, 100]
df3

Unnamed: 0,서울,부산,인천,대구,광주
2015,9904312,3448737,2890451,2466052,1500000
2010,9631482,3393191,2632035,2431774,1400000
2013,500,400,300,200,100


### DataFrame Indexing, Slicing

In [43]:
df3.loc['2010':'2013','부산':'인천']

Unnamed: 0,부산,인천
2010,3393191,2632035
2013,400,300


### Recap

1. 인덱서 : 행과 열을 한번에 indexing, slicing 하는 function
- loc : index의 실제 값을 사용
- iloc : index의 고유 번호를 사용
- 변수.loc[행, 열] / 변수.iloc[행, 열]

- 변수.인덱서[행] : 해당하는 행을 출력
- 변수[컬럼명] : 해당하는 열을 출력


In [44]:
df3

Unnamed: 0,서울,부산,인천,대구,광주
2015,9904312,3448737,2890451,2466052,1500000
2010,9631482,3393191,2632035,2431774,1400000
2013,500,400,300,200,100


In [49]:
df3['대구'] >= 3400000

2015    False
2010    False
2013    False
Name: 대구, dtype: bool

In [50]:
df3[df3['대구'] >= 3400000]

Unnamed: 0,서울,부산,인천,대구,광주


In [51]:
df3 = df3.T

In [52]:
df3

Unnamed: 0,2015,2010,2013
서울,9904312,9631482,500
부산,3448737,3393191,400
인천,2890451,2632035,300
대구,2466052,2431774,200
광주,1500000,1400000,100


In [53]:
df3['2015'] >= 2500000

서울     True
부산     True
인천     True
대구    False
광주    False
Name: 2015, dtype: bool

In [54]:
df3[df3['2015'] >= 2500000]

Unnamed: 0,2015,2010,2013
서울,9904312,9631482,500
부산,3448737,3393191,400
인천,2890451,2632035,300


### Pandas에서 제공하는 데이터 구조
- Series : 1차원
- DataFrame : 2차원

# Axis
- 행과 열의 방향을 선택
- axis = 0 : 열 방향으로 진행
- axis = 1 : 행 방향으로 진행

In [55]:
df3

Unnamed: 0,2015,2010,2013
서울,9904312,9631482,500
부산,3448737,3393191,400
인천,2890451,2632035,300
대구,2466052,2431774,200
광주,1500000,1400000,100


In [59]:
df3.sum(axis=0)

2015    20209552
2010    19488482
2013        1500
dtype: int64

In [58]:
df3.sum(axis=1)

서울    19536294
부산     6842328
인천     5522786
대구     4898026
광주     2900100
dtype: int64

## DataFrame 요소 삭제(행 & 열)

In [60]:
df3

Unnamed: 0,2015,2010,2013
서울,9904312,9631482,500
부산,3448737,3393191,400
인천,2890451,2632035,300
대구,2466052,2431774,200
광주,1500000,1400000,100


In [61]:
# drop 키워드 사용
df3.drop('2013', axis=1)

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774
광주,1500000,1400000


In [62]:
# 평균 구하기
df3.mean(axis=0)

2015    4041910.4
2010    3897696.4
2013        300.0
dtype: float64

In [63]:
df3.mean(axis=1)

서울    6.512098e+06
부산    2.280776e+06
인천    1.840929e+06
대구    1.632675e+06
광주    9.667000e+05
dtype: float64

# CSV 파일 불러오기

In [65]:
data = pd.read_csv('score.csv', encoding='euc-kr',index_col='과목')
data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [66]:
# axis = 0 (열방향 합계)
data.sum(axis=0)

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [67]:
# axis = 1 (행방향 합계)
data.sum(axis=1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [73]:
data['합계'] = data.sum(axis=1)

In [74]:
data

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201.0
DB,76,92,45,69,282.0
자바,47,92,45,69,253.0
크롤링,92,81,85,40,298.0
Web,11,79,47,26,163.0


In [78]:
data.loc['평균'] = data.mean(axis=0)

In [79]:
data

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,
DB,76.0,92.0,45.0,69.0,282.0,
자바,47.0,92.0,45.0,69.0,253.0,
크롤링,92.0,81.0,85.0,40.0,298.0,
Web,11.0,79.0,47.0,26.0,163.0,
평균,54.2,77.6,59.0,48.6,239.4,


In [82]:
data.drop('평균', axis=1, inplace=True)

In [83]:
data

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45.0,44.0,73.0,39.0,201.0
DB,76.0,92.0,45.0,69.0,282.0
자바,47.0,92.0,45.0,69.0,253.0
크롤링,92.0,81.0,85.0,40.0,298.0
Web,11.0,79.0,47.0,26.0,163.0
평균,54.2,77.6,59.0,48.6,239.4
