### Pandas란?
데이터 처리와 분석에 최적화된 라이브러리
- 행과 열(테이블 형태)로 이루어진 데이터 객체를 만들어 다룰 수 있음
- 빅데이터를 처리하고 분석하는데 편리한 함수들을 제공

### Pandas 구조
- Series : 1차원 데이터들의 집합(index + value)
- DataFrame : 2차원의 행과 열로 이루어진 표 형태의 데이터 집합(1차원의 Series가 모여서 DF를 이룸)

![image.png](attachment:image.png)

### Pandas 라이브러리 불러오기

In [1]:
import pandas as pd

#### Series 생성
- 각 도시들의 인구수를 Series로 만들어보자!

In [2]:
# 인덱스를 따로 설정하지 않으면 좌측에 자동으로 인덱스 번호가 0번부터 생성됨
population = pd.Series([9904312,3448737,2890451,2466052])
population

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64

#### 인덱스를 지정하여 Series 생성

In [5]:
population = pd.Series([9904312,3448737,2890451,2466052], 
                      index = ['서울','부산','인천','대구'])
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [7]:
# 딕셔너리 형태로 Series 생성
population = pd.Series({"서울":9904312, "부산":3448737, "인천":2890451, "대구":2466052})
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

#### Series이름, 인덱스이름 지정

In [8]:
# Series 이름 설정
population.name = "인구"
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [9]:
# index 이름 설정
population.index.name = "도시"
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [10]:
# index 변경하기
population.index = ['1','2','3','4']
population

1    9904312
2    3448737
3    2890451
4    2466052
Name: 인구, dtype: int64

In [27]:
population = pd.Series([9904312,3448737,2890451,2466052], 
                      index = ['서울','부산','인천','대구'])
population.index.name= '도시'
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

#### Series 데이터 갱신, 추가 , 삭제

In [14]:
# 데이터 갱신
population['부산'] = 3500000
population

도시
서울    9904312
부산    3500000
인천    2890451
대구    2466052
dtype: int64

In [15]:
population['대전']=2400000
population

도시
서울    9904312
부산    3500000
인천    2890451
대구    2466052
대전    2400000
dtype: int64

In [16]:
del population['서울']
population

도시
부산    3500000
인천    2890451
대구    2466052
대전    2400000
dtype: int64

In [17]:
population.index = ['1','2','3','4']

In [18]:
population

1    3500000
2    2890451
3    2466052
4    2400000
dtype: int64

In [None]:
# 이름이 사라지네? index를 바꿨더니

#### DataFrame 생성

In [20]:
# 딕셔너리를 이용해서 생성하기!
data = {'2015':[9904312, 3448737, 2890451, 2466052],
        '2010':[9631482, 3393191, 2632035, 2431774]
       }

In [21]:
population_df = pd.DataFrame(data)
population_df
# Series와는 달리 key값이 컬럼명으로 들어감(Series에서는 key값이 index)

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [22]:
# 리스트를 이용하여 생성하기!
data = [[9904312, 3448737, 2890451, 2466052],
        [9631482, 3393191, 2632035, 2431774]]
ind = ['2015','2010']
col = ['서울','부산','인천','대구']

In [23]:
population_df2 = pd.DataFrame(data,index = ind,columns = col)
population_df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


#### 정리
-DF을 생성하는 방법은 2가지(딕셔너리 방식, 리스트 방식)
-딕셔너리 방식은 값이 위에서 아래로 들어가고, 리스트 방식은 보이는 위치에 그대로 들어감

In [24]:
# .T  : DF의 행과 열을 반대로 출력(역행렬,전치)
population_df2.T

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [26]:
population_df2=population_df2.T
population_df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


#### DF에 새로운 컬럼 추가하기

In [28]:
# 기존 DF에 없는 컬럼명을 대괄호 안에 넣어주고 값들을 대입해줌
population_df2['2005']=[9762546, 3512547, 2517680, 2456016]
population_df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


#### 컬럼 삭제

In [29]:
del population_df2['2005']
population_df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [37]:
population_df2['2005']=[9762546, 3512547, 2517680, 2456016]
population_df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


#### 행 또는 열 삭제

In [33]:
population_df2.drop('2005',axis = 1)
population_df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [38]:
# axis의 기본값은 0이며 행을 삭제함
# axis=1 은 열을 삭제
# inplace= True : 변경된 사항을 변수에 바로 적용시키는 명령


population_df2.drop('2005',axis = 1,inplace = True) # inplace는 이 값을 저장 할거냐?
population_df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


##### 실행을 두번시키면 drop이 두번 되기때문에 오류가 나는 것을 주의하자!!!!!!!

#### 정리
- del은 컬럼(열) 삭제
- drop은 행,열 방향 삭제(방향 설정 필요, axis=0 : 행, axis=1:열)

#### DF의 속성 확인
- 형태, 값, 인덱스, 컬럼명 확인

In [40]:
population_df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [39]:
# DF 형태 확인하기
# numpy의 배열과 같음
population_df2.shape

(4, 2)

In [41]:
# DF내의 데이터 값만 추출하기
population_df2.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

In [42]:
population_df2.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [43]:
population_df2.columns

Index(['2015', '2010'], dtype='object')

In [None]:
data = [[9904312, 3448737, 2890451, 2466052],
        [9631482, 3393191, 2632035, 2431774]]
ind = ['2015','2010']
col = ['서울','부산','인천','대구']

population_df2 = pd.DataFrame(data,index = ind,columns = col)
population_df2

In [44]:
data = [[175.3,66.2,27.0],[180.2,78.9,49.0],[178.6,55.1,35.0]]
ind = ['키','몸무게','나이']
col = ['홍길동','김사또','임꺽정']

people = pd.DataFrame(data,index = ind, columns=col)
people

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,66.2,27.0
몸무게,180.2,78.9,49.0
나이,178.6,55.1,35.0


In [None]:
data = {"키":[175.3, 180.2, 178.6],
        "몸무게":[66.2, 78.9, 55.1],
        "나이":[27.0, 49.0, 35.0]
       }

In [None]:
result = pd.DataFrame(data, index=["홍길동", "김사또", "임꺽정"])
result

In [45]:
people.T

Unnamed: 0,키,몸무게,나이
홍길동,175.3,180.2,178.6
김사또,66.2,78.9,55.1
임꺽정,27.0,49.0,35.0


#### Pandas 연산
- Series 연산

In [46]:
population = pd.Series([9904312, 3448737, 2890451, 2466052],
                       index=['서울', '부산', '인천', '대구']
                      )
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [50]:
population2 = pd.Series([9631482, 3393191, 2632035, 2431774],
                        index=['서울', '부산', '인천', '대전']
                       )
population2

서울    9631482
부산    3393191
인천    2632035
대전    2431774
dtype: int64

In [48]:
population/1000000

서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
dtype: float64

In [51]:
population- population2

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

#### 정리
- 인덱스가 다른 DF끼리는 값이 생성되지 않음
- NaN (Not a number) : 정해지지 않고 비어있는 값

### Pandas에서 데이터 접근을 위한 인덱싱, 슬라이싱
- 인덱스 번호로 접근 : 0부터 시작
- 인덱스 명으로 접근
- loc, iloc 인덱서 접근 : loc(인덱스 문자), iloc(인덱스 번호)
- 불리언 인덱싱 : True,False 값을 활용하여 조건에 맞는 데이터만 출력

- Series 인덱싱

In [52]:
score = pd.Series({'java' : 70,"python":95, "html/css":80,"ML":82})
score

java        70
python      95
html/css    80
ML          82
dtype: int64

In [53]:
# index 번호로 접근
score[1]

95

In [54]:
# index 명으로 접근
score['python']

95

In [55]:
# 인덱스 명칭 자체에 접근하고 싶을 때
score.index[1]

'python'

#### Series 슬라이싱

In [57]:
# python부터 ML까지 인덱스 번호로 접근
score[1:]

# 범위로 지정해주면 Series전체에 접근하기에 인덱스명까지 같이 출력됨

python      95
html/css    80
ML          82
dtype: int64

In [58]:
score.values[1:]

array([95, 80, 82], dtype=int64)

In [59]:
#인덱스에만 접근
score.index[1:]

Index(['python', 'html/css', 'ML'], dtype='object')

In [60]:
score['python':'ML'] #명칭으로 하면 끝까지 출력된다.

python      95
html/css    80
ML          82
dtype: int64

#### DF 인덱싱, 슬라이싱
- [  '  '  ]       [  ['  '  ]  ]안에 컬럼값
- 그냥 loc, iloc로 하자!

In [62]:
# 데이터 로드
# csv : comma seperated values
# encoding : 컴퓨터가 글자를 인식할 수 있게 해주는 과정
# 'euc-kr' : 한글 전용 인코딩 방식
score_data = pd.read_csv('data/score.csv', encoding='euc-kr', index_col='과목')
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


- DF 열(컬럼) 인덱싱

In [66]:
# 1반 컬럼에 접근
score_data['1반']

과목
수학    45
영어    76
국어    47
사회    92
과학    11
Name: 1반, dtype: int64

In [68]:
# []를 하나 더 씌우면 2차원(데이터프레임으로 출력)
score_data[['1반']]

Unnamed: 0_level_0,1반
과목,Unnamed: 1_level_1
수학,45
영어,76
국어,47
사회,92
과학,11


In [76]:
# 두 개 이상의 컬럼 인덱싱()
score_data[['1반','3반']]

Unnamed: 0_level_0,1반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
수학,45,73
영어,76,45
국어,47,45
사회,92,85
과학,11,47


#### DF 행 인덱싱
- 슬라이싱을 적용해야함
- [  :  ]

In [70]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [71]:
score_data[0:1]

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39


In [73]:
score_data['수학':'국어']

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69


In [74]:
score_data[0:3:2]

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
국어,47,92,45,69


#### 정리
- DF의 기본적인 열 접근은 대괄호와 컬럼명, 행 접근은 슬라이싱

#### loc, iloc 인덱서를 활용한 접근법
- 행과 열에 모두 접근 가능
- 기본적으로 loc, iloc는 행에 먼저 접근
- 추가적인 코드로 column에 접근
- loc (location) 은 문자로 접근
- iloc (integer loc) 는 숫자로 접근

In [78]:
score_data

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [80]:
# 각 반의 과학 점수에 접근
score_data.loc[['과학']]

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
과학,11,79,47,26


In [81]:
# 4반의 과학 점수 출력
score_data.loc['과학','4반']

26

In [83]:
# iloc를 활용하여 각 반의 과학 점수 출력
score_data.iloc[[4]]

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
과학,11,79,47,26


In [87]:
# iloc를 활용하여 4반의 과학 점수 출력
score_data.iloc[4,3]

26

In [88]:
score_data.iloc[[4,3]]

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
과학,11,79,47,26
사회,92,81,85,40


- 2반의 사회 점수에 loc, iloc를 각각 활용하여 접근해보세요~

In [90]:
score_data.loc['사회','2반']

81

In [91]:
score_data.iloc[3,1]

81

- 2반,3반의 국어, 사회 점수에 접근해보세요~!

In [94]:
score_data.loc[['국어','사회'],['2반','3반']]

Unnamed: 0_level_0,2반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
국어,92,45
사회,81,85


#### 불리언 인덱싱
- DF에서 특정한 조건에 맞는 데이터에만 접근하기 위한 인덱싱 방법

In [97]:
score_data = score_data.T
score_data

과목,수학,영어,국어,사회,과학
1반,45,76,47,92,11
2반,44,92,92,81,79
3반,73,45,45,85,47
4반,39,69,69,40,26


In [99]:
# 영어가 75점 이상인 데이터값 추출

# Step.1
# score_data의 영어점수 중에서 75점 이상인 데이터를 True로 출력
score_data['영어'] >= 75

1반     True
2반     True
3반    False
4반    False
Name: 영어, dtype: bool

In [100]:
# Step.2
# True에 해당하는 값의 행 전체 데이터를 반환
score_data[score_data['영어']>=75] # DF명[조건식]

과목,수학,영어,국어,사회,과학
1반,45,76,47,92,11
2반,44,92,92,81,79


In [102]:
score_data[score_data['영어']>=75][['영어']] # 영어란에 쌍괄호를 쓰게되면 뒤에 더 세분화해서 들어갈 수가 없어진다.

과목,영어
1반,76
2반,92


In [104]:
score_data[score_data['영어']>=75]['영어'][1] 

92