![image.png](attachment:image.png)
## 1. Pandas란?
- Panel datas의 약자
#### 데이터 처리와 분석에 최적화된 라이브러리
- 행과 열(테이블 형태)로 이루어진 데이터 객체를 만들어 다룰 수 있음
- 빅데이터를 처리하고 분석하는 데 편리한 함수들을 제공

### 2. Pandas에서 제공하는 데이터구조
- Series : 1차원 배열 형태로 방향이 하나인 데이터 구조
    - 인덱스(index) + 값(Value)
- DataFrame : 2차원의 행과 열로 이루어진 표 형태의 데이터 집합
    - (1차원의 Series가 모여서 DataFrame을 이룸)
![image-3.png](attachment:image-3.png)
![image-2.png](attachment:image-2.png)

### 3. Pandas 라이브러리 불러오기

In [1]:
import pandas as pd

### 3.1 Series 생성
- 각 도시들의 인구수를 Series로 만들어 보자!

In [2]:
# 인덱스를 따로 설정하지 않으면 좌측에 자동으로 인덱스 번호가 0번부터 생성됨
population = pd.Series([9904312, 3448737, 2890451, 2466052])
print(population)

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64


### 3.2 인덱스를 지정하여 Series 생성

In [3]:
population = pd.Series([9904312, 3448737, 2890451, 2466052], index=['서울','부산','인천','대구'])
print(population)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [4]:
# 딕셔너리 형태로 Series 생성
population = pd.Series({'서울' : 9904312, '부산' : 3448737, '인천' : 2890451, '대구' : 2466052})
print(population)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


### 3.3 Series 이름, 인덱스 이름 지정

In [5]:
# Series 이름 설정
population.name = "인구"
print(population)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [6]:
# index 이름 설정
population.index.name = "도시"
print(population)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [7]:
# index 변경하기
population.index = ['1', '2', '3', '4']
print(population)

1    9904312
2    3448737
3    2890451
4    2466052
Name: 인구, dtype: int64


In [8]:
population = pd.Series([9904312, 3448737, 2890451, 2466052], index=['서울','부산','인천','대구'])
print(population)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


### 3.4 Series 데이터 갱신, 추가, 삭제

In [9]:
# 데이터 갱신
population['부산'] = 3500000
print(population)

서울    9904312
부산    3500000
인천    2890451
대구    2466052
dtype: int64


In [10]:
# 데이터 추가
population['대전'] = 2400000
print(population)

서울    9904312
부산    3500000
인천    2890451
대구    2466052
대전    2400000
dtype: int64


In [11]:
# 데이터 삭제
del population['서울']
print(population)

부산    3500000
인천    2890451
대구    2466052
대전    2400000
dtype: int64


### 3.5 DataFrame 생성

In [12]:
# 딕셔너리를 이용해서 생성하기!
data = {
    '2015':[9904312, 3448737, 2890451, 2466052],
    '2010':[9631482, 3393191, 2632035, 2431774]
}

In [13]:
population_df = pd.DataFrame(data)
print(population_df)
# Series와 달리 key값이 칼럼명으로 들어감(Series에서는 key값이 index)

      2015     2010
0  9904312  9631482
1  3448737  3393191
2  2890451  2632035
3  2466052  2431774


In [14]:
# 리스트를 이용하여 생성하기!
data = [[9904312, 3448737, 2890451, 2466052],
        [9631482, 3393191, 2632035, 2431774]
       ]
ind = ['2015','2010']
col = ['서울','부산', '인천', '대구']

In [15]:
population_df2 = pd.DataFrame(data, index=ind, columns=col)
population_df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


### 3.6 정리
- DataFrame을 생성하는 방법은 2가지(딕셔너리 방식, 리스트 방식)
- 딕셔너리 방식은 값이 위에서 아래로 들어가고, 리스트 방식은 보이는 위치에 그대로 들어감

In [16]:
# .T : DataFrame의 행과 열을 반대로 출력(역행렬, 전치)
print(population_df2.T)  

       2015     2010
서울  9904312  9631482
부산  3448737  3393191
인천  2890451  2632035
대구  2466052  2431774


In [17]:
print(population_df2)

           서울       부산       인천       대구
2015  9904312  3448737  2890451  2466052
2010  9631482  3393191  2632035  2431774


In [18]:
population_df2 = population_df2.T
print(population_df2)

       2015     2010
서울  9904312  9631482
부산  3448737  3393191
인천  2890451  2632035
대구  2466052  2431774


### DataFrame에 새로운 컬럼 추가하기

In [19]:
# 기존 DataFrame에 없는 컬럼명을 대괄호 안에 넣어주고 값들을 대입해줌
population_df2['2005'] = [9762546, 3512547, 2517680, 2456016]
print(population_df2)

       2015     2010     2005
서울  9904312  9631482  9762546
부산  3448737  3393191  3512547
인천  2890451  2632035  2517680
대구  2466052  2431774  2456016


### 3.8 컬럼 삭제

In [20]:
del population_df2['2005'] # 없는 값을 지우면 Error!!

In [21]:
print(population_df2)

       2015     2010
서울  9904312  9631482
부산  3448737  3393191
인천  2890451  2632035
대구  2466052  2431774


In [22]:
population_df2['2005'] = [9762546, 3512547, 2517680, 2456016]
print(population_df2)

       2015     2010     2005
서울  9904312  9631482  9762546
부산  3448737  3393191  3512547
인천  2890451  2632035  2517680
대구  2466052  2431774  2456016


### 3.9 행 or 열 삭제

In [23]:
# axis의 기본값(default)은 0 이며 행을 삭제함
# axis = 1  은 열을 삭제
# inplace = True : 변경된 사항을 변수에 바로 적용시키는 명령
population_df2.drop('2005', axis=1, inplace=True) 
print(population_df2)

       2015     2010
서울  9904312  9631482
부산  3448737  3393191
인천  2890451  2632035
대구  2466052  2431774


### 정리
- del : 칼럼(열) 삭제
- drop : 행, 열 방향 삭제(방향 설정 필요, axis = 0 : 행, axis = 1 : 열)

### DataFrame의 속성 확인
- 형태, 값, 인덱스, 칼럼명 확인

In [24]:
# DataFrame 형태 확인하기
# numpy의 배열과 같음
print(population_df2.shape)

(4, 2)


In [25]:
# DataFrame의 데이터 값만 추출하기
print(population_df2.values)

[[9904312 9631482]
 [3448737 3393191]
 [2890451 2632035]
 [2466052 2431774]]


In [26]:
# DataFrame의 인덱스 확인
print(population_df2.index)

Index(['서울', '부산', '인천', '대구'], dtype='object')


In [27]:
# DataFrame의 컬럼명 확인
print(population_df2.columns)

Index(['2015', '2010'], dtype='object')


#### DataFrame을 이용하여 아래와 같은 결과를 구성하시오

In [28]:
people_dic = {
     '키' : [175.3, 180.2, 178.6],
     '몸무게' : [66.2, 78.9, 55.1],
     '나이' : [27.0, 49.0, 35.0]
 }
hwa = pd.DataFrame(people_dic, index=['홍길동','김사또','임꺽정'])
print(hwa)
print(hwa.T)

         키   몸무게    나이
홍길동  175.3  66.2  27.0
김사또  180.2  78.9  49.0
임꺽정  178.6  55.1  35.0
       홍길동    김사또    임꺽정
키    175.3  180.2  178.6
몸무게   66.2   78.9   55.1
나이    27.0   49.0   35.0


In [29]:
data = [[175.3, 66.2, 27.0], [180.2, 78.9, 49.0], [178.6, 55.1, 35.0]]
ind = ['홍길동','김사또','임꺽정']
col = ['키', '몸무게', '나이']
people_datas = pd.DataFrame(data, index = ind, columns = col)
print(people_datas)
print(people_datas.T)

         키   몸무게    나이
홍길동  175.3  66.2  27.0
김사또  180.2  78.9  49.0
임꺽정  178.6  55.1  35.0
       홍길동    김사또    임꺽정
키    175.3  180.2  178.6
몸무게   66.2   78.9   55.1
나이    27.0   49.0   35.0


### Pandas 연산
- Series연산

In [30]:
population = pd.Series([9904312, 3448737, 2890451, 2466052], index = ['서울','부산','인천','대구'])
print(population)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [31]:
population2 = pd.Series([9631482, 3393191, 2632035, 2431774], index = ['서울','부산','인천','대구'])
print(population2)

서울    9631482
부산    3393191
인천    2632035
대구    2431774
dtype: int64


In [32]:
print(population - population2)

서울    272830
부산     55546
인천    258416
대구     34278
dtype: int64


In [33]:
population3 = pd.Series([9631482, 3393191, 2632035, 2431774], index = ['서울','부산','인천','대전'])
print(population2)

서울    9631482
부산    3393191
인천    2632035
대구    2431774
dtype: int64


In [34]:
print(population - population3)

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64


### 정리
- 인덱스가 다른 DataFrame끼리는 값이 생성되지 않음
- NaN(Not a Number) : 정해지지 않고 비어있는 값

## Pandas에서 데이터 접근을 위한 인덱싱, 슬라이싱
- 인덱스 번호로 접근 : 0부터 시작
- 인덱스 명으로 접근
- loc, iloc 인덱서 접근 : loc(인덱스 문자), iloc(인덱스 번호)
- 불리언 인덱싱 : True, False 값을 활용하여 조건에 맞는 데이터만 출력

- Series 인덱싱

In [35]:
score = pd.Series({ 'java' : 70, 'python' : 95, 'html/css' : 80, 'ML' : 82}) # ML : Machine Learning
print(score)

java        70
python      95
html/css    80
ML          82
dtype: int64


In [36]:
# 인덱스 번호로 접근
print(score[1])

95


In [37]:
# 인덱스 명으로 접근
print(score['python'])

95


In [38]:
# 인덱스 명칭 자체에 접근하고 싶을 때
print(score.index[1])

python


### Series 슬라이싱

In [39]:
# python부터 ML까지 인덱스 번호로 접근
print(score[1:])

# 범위를 지정해주면 Series 전체에 접근하기 때문에 인덱스명까지 같이 출력됨

python      95
html/css    80
ML          82
dtype: int64


In [40]:
# 데이터 값에만 접근
print(score.values[1:])

[95 80 82]


In [41]:
# 인덱스에만 접근
print(score.index[1:])

Index(['python', 'html/css', 'ML'], dtype='object')


In [42]:
# 인덱스 명으로 접근(끝값도 포함)
print(score['python':'ML'])

python      95
html/css    80
ML          82
dtype: int64


## DataFrame 인덱싱, 슬라이싱

In [43]:
# 데이터 로드
# CSV (Comma Seperated Values, ,(쉼표)로 구문된 데이터)
# encoding : 컴퓨터가 글자를 인식할 수 있게 해주는 과정
# 'euc-kr' : 한글 전용 인코딩 방식
# index_col : 속성값에 해당하는 칼럼을 인덱스로 설정
score_data = pd.read_csv('data/score.csv', encoding = 'euc-kr', index_col = '과목')
print(score_data)

    1반  2반  3반  4반
과목                
수학  45  44  73  39
영어  76  92  45  69
국어  47  92  45  69
사회  92  81  85  40
과학  11  79  47  26


- DataFrame 열(컬럼) 인덱싱

In [44]:
# 1반 컬럼에 접근 : d열 1개만 인덱싱하여 출력하면 Series 형식으로 출력됨
print(score_data['1반'])

과목
수학    45
영어    76
국어    47
사회    92
과학    11
Name: 1반, dtype: int64


In [45]:
# 대괄호[]를 하나 더 씌우면 2차원(데이터프레임으로 출력)
print(score_data[['1반']])

    1반
과목    
수학  45
영어  76
국어  47
사회  92
과학  11


In [46]:
# 두 개 이상의 컬럼 인덱싱(반드시 대괄호[]를 두개 써 줘야함)
print(score_data[['1반','3반']])

    1반  3반
과목        
수학  45  73
영어  76  45
국어  47  45
사회  92  85
과학  11  47


### DataFrame 행 인덱싱
- 슬라이싱을 적용해야함

In [47]:
print(score_data[0:1])

    1반  2반  3반  4반
과목                
수학  45  44  73  39


In [48]:
print(score_data[0:2])

    1반  2반  3반  4반
과목                
수학  45  44  73  39
영어  76  92  45  69


In [49]:
print(score_data[0:3:2])

    1반  2반  3반  4반
과목                
수학  45  44  73  39
국어  47  92  45  69


In [50]:
print(score_data['수학':'영어':2])

    1반  2반  3반  4반
과목                
수학  45  44  73  39


### 정리
- 행과 열에 모두 접근 가능
- 기본적으로 loc, iloc  행에 먼저 접근
- loc는 문자로 접근, iloc는 숫자로 접근

In [51]:
print(score_data)

    1반  2반  3반  4반
과목                
수학  45  44  73  39
영어  76  92  45  69
국어  47  92  45  69
사회  92  81  85  40
과학  11  79  47  26


In [52]:
# 각 반의 과학 점수에 접근
print(score_data.loc['과학'])

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64


In [53]:
# 특정행의 특정 열에 접근 .loc[행이름, 열이름]
# 4반의 과학 점수 출력
print(score_data.loc['과학','4반'])

26


In [54]:
# iloc를 활용하여 각 반의 과학 점수 출력
print(score_data.iloc[4])

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64


In [55]:
# iloc를 활용하여 4반의 과학 점수 출력
print(score_data.iloc[4, 3])

26


#### 2반의 사회 점수에 loc, iloc를 각각 활용하여 접근해 보세요~!

In [56]:
print(score_data.loc['사회','2반'])
print(score_data.iloc[3, 1])

81
81


#### 2반, 3반의 국어, 사회 점수에 접근해 보세요~!

In [57]:
print(score_data.iloc[3,1:3])
print(score_data.loc['사회','2반':'3반'])

2반    81
3반    85
Name: 사회, dtype: int64
2반    81
3반    85
Name: 사회, dtype: int64


## 불리언 인덱싱
- DataFrame에서 특정한 조건에 맞는 데이터에만 접근하기 위한 인덱싱 방법

In [58]:
score_data = score_data.T
print(score_data)

과목  수학  영어  국어  사회  과학
1반  45  76  47  92  11
2반  44  92  92  81  79
3반  73  45  45  85  47
4반  39  69  69  40  26


In [59]:
# 영어가 75점 이상인 데이터값 추출

In [60]:
# Step.1
# score_data의 영어점수 중에서 75점 이상인 데이터를 True로 출력
print([score_data['영어'] >= 75])

# Step.2
# True에 해당하는 값의 행 전체 데이터를 반환

print(score_data[score_data['영어'] >= 75])  # DataFrame명[조건식]

# Step.3
print(score_data[score_data['영어'] >= 75]['영어'])

[1반     True
2반     True
3반    False
4반    False
Name: 영어, dtype: bool]
과목  수학  영어  국어  사회  과학
1반  45  76  47  92  11
2반  44  92  92  81  79
1반    76
2반    92
Name: 영어, dtype: int64


## 5. Pandas 유용한 함수들

### 정렬
- index 및 칼럼명 기준 정렬 : sort_index()
- 값 기준 정렬 : sort_values()

In [61]:
score_data = score_data.T
print(score_data)

    1반  2반  3반  4반
과목                
수학  45  44  73  39
영어  76  92  45  69
국어  47  92  45  69
사회  92  81  85  40
과학  11  79  47  26


- index 및 칼럼명 기준 정렬

In [62]:
# index 기준 정렬
# 한글일 경우 가나다 순
# 디폴트 값은 오름차순
print(score_data.sort_index())

    1반  2반  3반  4반
과목                
과학  11  79  47  26
국어  47  92  45  69
사회  92  81  85  40
수학  45  44  73  39
영어  76  92  45  69


In [63]:
# ascending : 오르다
# ascending = False : 내림차순 정렬
print(score_data.sort_index(ascending = False))

    1반  2반  3반  4반
과목                
영어  76  92  45  69
수학  45  44  73  39
사회  92  81  85  40
국어  47  92  45  69
과학  11  79  47  26


In [64]:
# 컬럼명 기준 정렬
# axis = 0 : 행 기준 / axis = 1 : 열 기준
# drop() : axis = 0 행 drop/ axis = 1 : 열 drop
# sort_index() : axis = 0 칼럼(세로 데이터 묶음) 정렬 / axis = 1 = 행(가로 데이터 묶음) 정렬
print(score_data.sort_index(axis = 1))
print(score_data.sort_index(axis = 1, ascending = False))

    1반  2반  3반  4반
과목                
수학  45  44  73  39
영어  76  92  45  69
국어  47  92  45  69
사회  92  81  85  40
과학  11  79  47  26
    4반  3반  2반  1반
과목                
수학  39  73  44  45
영어  69  45  92  76
국어  69  45  92  47
사회  40  85  81  92
과학  26  47  79  11


- value 기준 정렬

In [65]:
# DataFrame 컬럼이나 index가 여러개일 경우 그 기준을 설정해 주어야 함
print(score_data.sort_values(by = '3반')) # 3반 값들이 오름차순으로 정렬
# asceding = False : 내림차순 정렬
print(score_data.sort_values(by = '3반', ascending = False))

    1반  2반  3반  4반
과목                
영어  76  92  45  69
국어  47  92  45  69
과학  11  79  47  26
수학  45  44  73  39
사회  92  81  85  40
    1반  2반  3반  4반
과목                
사회  92  81  85  40
수학  45  44  73  39
과학  11  79  47  26
영어  76  92  45  69
국어  47  92  45  69


In [66]:
# axis = 1 : 행 방향(가로) 기준 정렬
print(score_data.sort_values('사회', axis = 1, ascending = False))

    1반  3반  2반  4반
과목                
수학  45  73  44  39
영어  76  45  92  69
국어  47  45  92  69
사회  92  85  81  40
과학  11  47  79  26


### 정리
- axis = 0(행 방향)일 경우는 기준을 컬럼명으로 잡음
- axis = 1(열 방향)일 경우는 기준을 인덱스로 잡음

In [67]:
# 3반 기준으로 정렬
print(score_data.sort_values(by = '3반'))

    1반  2반  3반  4반
과목                
영어  76  92  45  69
국어  47  92  45  69
과학  11  79  47  26
수학  45  44  73  39
사회  92  81  85  40


In [68]:
# 디폴트 값으로 오름차순
# 3반 기준으로 정렬 후, 그 중 같은 값들은 1반 기준으로 한번 더 정렬
print(score_data.sort_values(by = ['3반', '1반']))

    1반  2반  3반  4반
과목                
국어  47  92  45  69
영어  76  92  45  69
과학  11  79  47  26
수학  45  44  73  39
사회  92  81  85  40


### sum()
- axis 속성으로 행 총합, 또는 열 총합을 구할 수 있음
- .sum(axis = 0) 하나하나의 칼럼에 대해 각 행의 값 총합
- .sum(axis = 1) 하나하나의 열에 대해 각 열의 값 총합

In [69]:
print(score_data.sum()) # 기본적으로 axis = 0 이 기본값으로 주어져 있음

1반    271
2반    388
3반    295
4반    243
dtype: int64


In [70]:
print(score_data.sum(axis = 1))

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64


- 과목별 합계를 구하여 DataFrame의 맨 우측에 '총합' 컬럼을 추가해보세요~!

In [71]:
score_data['총합'] = score_data.sum(axis = 1)
print(score_data)

    1반  2반  3반  4반   총합
과목                     
수학  45  44  73  39  201
영어  76  92  45  69  282
국어  47  92  45  69  253
사회  92  81  85  40  298
과학  11  79  47  26  163


### .mean()
- 각 과목들의 평균을 구하고 DataFrame 우측에 '평균' 컬럼을 생성해보세요~!

In [72]:
score_data['평균'] = score_data.loc[:,'1반':'4반'].values.mean(axis = 1)
print(score_data)

    1반  2반  3반  4반   총합     평균
과목                            
수학  45  44  73  39  201  50.25
영어  76  92  45  69  282  70.50
국어  47  92  45  69  253  63.25
사회  92  81  85  40  298  74.50
과학  11  79  47  26  163  40.75


In [73]:
score_data['평균'] = score_data.iloc[:,:4].values.mean(axis = 1)
print(score_data)

    1반  2반  3반  4반   총합     평균
과목                            
수학  45  44  73  39  201  50.25
영어  76  92  45  69  282  70.50
국어  47  92  45  69  253  63.25
사회  92  81  85  40  298  74.50
과학  11  79  47  26  163  40.75


In [77]:
score_data['평균'] = score_data['총합']/4
print(score_data)

    1반  2반  3반  4반   총합     평균
과목                            
수학  45  44  73  39  201  50.25
영어  76  92  45  69  282  70.50
국어  47  92  45  69  253  63.25
사회  92  81  85  40  298  74.50
과학  11  79  47  26  163  40.75


## min(), max()

In [79]:
# 1반에서 가장 높은 점수
print(score_data['1반'].max())

92


In [81]:
# axis = 0 : 각 칼럼(반별)의 최대값
print(score_data[:].max())  # 기본(default)값 : axis = 0

1반     92.0
2반     92.0
3반     85.0
4반     69.0
총합    298.0
평균     74.5
dtype: float64


In [84]:
# 각 행(과목)의 최대값(총합, 평균 포함X)
print(score_data.iloc[:, :4].max(axis = 1))

과목
수학    73
영어    92
국어    92
사회    92
과학    79
dtype: int64


In [91]:
# 전체 반 중에서 가장 높은 수학 점수를 구해보세요~!
print(score_data.iloc[:1,:4].max(axis = 1))
print(score_data.loc[:'수학',:'4반'].max(axis = 1))

과목
수학    73
dtype: int64
과목
수학    73
dtype: int64


- 전체 과목 점수 중에서 과목별로 가장 큰 값과 작은 값의 차이를 구해보세요~!

In [94]:
sub_best = score_data.iloc[:,:4].max(axis = 1)
sub_worst = score_data.iloc[:,:4].min(axis = 1)
print(sub_best - sub_worst)

과목
수학    34
영어    47
국어    47
사회    52
과학    68
dtype: int64


In [96]:
sub_best = score_data.loc[:,:'4반'].max(axis = 1)
sub_worst = score_data.loc[:,:'4반'].min(axis = 1)
print(sub_best - sub_worst)

과목
수학    34
영어    47
국어    47
사회    52
과학    68
dtype: int64


### count()

In [103]:
print(score_data)

    1반  2반  3반  4반   총합     평균
과목                            
수학  45  44  73  39  201  50.25
영어  76  92  45  69  282  70.50
국어  47  92  45  69  253  63.25
사회  92  81  85  40  298  74.50
과학  11  79  47  26  163  40.75


In [104]:
print(score_data.count())

1반    5
2반    5
3반    5
4반    5
총합    5
평균    5
dtype: int64


In [105]:
print(score_data.count(axis = 1))

과목
수학    6
영어    6
국어    6
사회    6
과학    6
dtype: int64


### info()
- DataFrame에 대한 전체적인 정보를 출력