### Pandas
- 행과 열을 가지는 표와 같은 형태의 데이터를 다루는 라이브러리
    - Series : 인덱스와 데이터를 1:1로 대응하는 데이터타입 (1차원)
    - DateFrame : 행과 열을 가지는 표와 같은 형태 (2차원)

In [2]:
# 라이브러리 불러오기
import pandas as pd

In [3]:
# Series 작성할 때 대문자 확인 필수!
pd.Series([9668465,3391946,2942828,1450062])

0    9668465
1    3391946
2    2942828
3    1450062
dtype: int64

In [4]:
# Series 생성시 데이터만 넣으면 인덱스 자동 배정
# 인덱스명 지정도 가능!
population = pd.Series([9668465,3391946,2942828,1450062], 
                       index = ['서울','부산','인천','광주'])
population

서울    9668465
부산    3391946
인천    2942828
광주    1450062
dtype: int64

### Series 데이터 확인


In [6]:
# Series 의 값만 확인
population.values
# 넘파이 배열 형태로 출력됨 !! -> 요소별 연산 가능!

array([9668465, 3391946, 2942828, 1450062], dtype=int64)

In [7]:
# 인덱스만 확인
population.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [8]:
# 데이터타입
population.dtype
# index는 데이터가 아님! -> 실제 value의 타입만 출력

dtype('int64')

In [9]:
# Series 데이터 이름 지정
# 값에 이름달기
population.name = '인구'
# 인덱스에 이름 달기
population.index.name = '도시'
population

도시
서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 인구, dtype: int64

### 인덱싱 슬라이싱

In [11]:
# 부산의 인구수 추출
population['부산']

3391946

In [12]:
# 부산 ~ 광주
population['부산' : '광주']

도시
부산    3391946
인천    2942828
광주    1450062
Name: 인구, dtype: int64

In [13]:
# 부산, 서울, 광주 데이터 -> 인덱싱
# 인덱싱 -> 여러개의 인덱스 번호를 대괄호(리스트) 묶어서 출력
population[['부산', '서울', '광주']]

도시
부산    3391946
서울    9668465
광주    1450062
Name: 인구, dtype: int64

In [14]:
# 불리언인덱싱, 꼭 조건부터 작성하자
# 인구가 300만 이상인 도시를 출력
population[population >= 3000000]

도시
서울    9668465
부산    3391946
Name: 인구, dtype: int64

### 딕셔너리를 사용하여 Series 생성하기

In [16]:
data = {'서울' : 9668468, '부산' : 3391946, '인천' : 2942828, '광주' : 1450062}
pd.Series(data)
# key -> index
# value -> value

서울    9668468
부산    3391946
인천    2942828
광주    1450062
dtype: int64

In [17]:
# Series 에서 비어있지 않은 값들만 확인
population.notnull()

도시
서울    True
부산    True
인천    True
광주    True
Name: 인구, dtype: bool

In [18]:
# Series 에서 비어있는 값들만 확인
population.isnull()

도시
서울    False
부산    False
인천    False
광주    False
Name: 인구, dtype: bool

In [19]:
# 값이 비어있을때 특정 값으로 채워주는 함수
# fillna(값)

### DataFrame
- 행과 열로 구성되어있는 2차원 자료구조!

In [21]:
data = {'2020':[9668465,3391946,2942828,1450062],
        '2010' :[10312545,3567910,2758296,1454636]
        }
df = pd.DataFrame(data, index = ['서울', '부산', '인천', '광주'])
# key -> column
# value -> value
# 인덱스 자동배정!
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [22]:
# 리스트를 활용하여 DataFrame 생성하기~
data2 = [[9668465,3391946,2942828,1450062],
         [10312545,3567910,2758296,1454636]]

pd.DataFrame(data2)

Unnamed: 0,0,1,2,3
0,9668465,3391946,2942828,1450062
1,10312545,3567910,2758296,1454636


In [23]:
data2 = [[9668465,3391946,2942828,1450062],
         [10312545,3567910,2758296,1454636]]
ind = ['2020','2010']
col = ['서울','부산','인천','광주']
df2 = pd.DataFrame(data2, index = ind, columns = col)
df2

Unnamed: 0,서울,부산,인천,광주
2020,9668465,3391946,2942828,1450062
2010,10312545,3567910,2758296,1454636


In [24]:
# 행과 열을 서로 바꿔주는 기능
df2.T

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [25]:
# 데이터 구조 파악
# values : 데이터 확인
# index : 인덱스 확인
# columns : 컬럼 확인
# 행 : axis = 0, 열 : axis = 1
df.columns

Index(['2020', '2010'], dtype='object')

### DataFrame 인덱싱, 슬라이싱

In [27]:
# 2020년도 출력하기 - Series형태
df['2020']

서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 2020, dtype: int64

In [28]:
# DataFrame 형태로 출력하기
df[['2020']]

Unnamed: 0,2020
서울,9668465
부산,3391946
인천,2942828
광주,1450062


- DataFrame 추가하기~

In [30]:
# 추가 : 존재하지 않는 컬럼명 작성 데이터를 대입
df['2005'] = [9762546,3512547,2517680,1456016]
df

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


- DataFrame 수정하기~

In [32]:
# 수정 : 존재하는 컬럼명을 불러와서 데이터 대입
df['2005'] = [0, 0, 0, 0]
df

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,0
부산,3391946,3567910,0
인천,2942828,2758296,0
광주,1450062,1454636,0


- DataFrame 삭제하기~
    - drop() 

In [34]:
# 삭제 : 존재하는 컬럼명을 불러와서 데이터 삭제
df.drop('2005', axis = 1)
# drop 이라는 기능은 기본 축 설정이 0 (행) -> 1 (열) 로 변경

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [35]:
df

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,0
부산,3391946,3567910,0
인천,2942828,2758296,0
광주,1450062,1454636,0


In [36]:
# inplace : 삭제는 신중해야 하는 작업이기 때문에 저장하겠다는 의미
df.drop('2005', axis = 1, inplace = True)

In [37]:
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [38]:
data3 = {'2020':[9668465,3391946,2942828,1450062],
        '2010' :[10312545,3567910,2758296,1454636],
         '2005':[9762546,3512547,2517680,1456016]
        }
df3 = pd.DataFrame(data3,index = ['서울','부산','인천','광주'])
df3

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


In [39]:
df3['부산' : '인천', '2010' : '2005']

InvalidIndexError: (slice('부산', '인천', None), slice('2010', '2005', None))

![image.png](attachment:5bfae2dc-9c0b-492c-9aa3-755eca2f5c43.png)

### 인덱서 활용방법
- df명.loc[행범위, 열범위] -> 실제 인덱스명, 컬럼명사용
- df명.iloc[행범위, 열범위] -> 인덱스 번호 사용

In [40]:
# 부산 ~ 인천, 2010 ~ 2005 (loc 활용)
df3.loc['부산' : '인천', '2010' : '2005']

Unnamed: 0,2010,2005
부산,3567910,3512547
인천,2758296,2517680


In [42]:
# 부산 ~ 인천, 2010 ~ 2005 (iloc 활용)
df3.iloc[1 : 3, 1 : 3]

Unnamed: 0,2010,2005
부산,3567910,3512547
인천,2758296,2517680


In [44]:
# 행 인덱싱 방법
# 인덱서를 쓰고 하나의 값만 적으면 행우선 인덱싱
df3.iloc[0]

2020     9668465
2010    10312545
2005     9762546
Name: 서울, dtype: int64

In [45]:
# 인덱서를 쓰지 않으면 열인덱싱 -> 반드시 컬럼명으로 작성!!
df3['2005']

서울    9762546
부산    3512547
인천    2517680
광주    1456016
Name: 2005, dtype: int64

### 인덱싱, 슬라이싱 규칙
- df명['컬럼명'] -> 기본 인덱싱은 열인덱싱이 된다
- 슬라이싱을 진행할때는 반드시 인덱서(loc, iloc)사용
    - loc[행범위, 열범위]  -> 실제 인덱스명, 컬럼명
    - iloc[행범위, 열범위] -> 인덱스 번호
- 행인덱싱 -> df명.loc[행] -> 인덱서를 사용했을때 하나만 써주면 행에 대한 정보

In [47]:
# DatatFrame의 형태로 데이터 불러오는 방법
population = pd.read_csv('data/population_number.csv', index_col = '도시')
population

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,경기권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [48]:
# 정렬 (인덱스)
population.sort_index()
# 오름차순정렬 (0 ~, ㄱ ~ ㅎ, A ~ Z)

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
부산,경상권,3391946,,,3628293
서울,수도권,9668465,10022181.0,10312545.0,10167344
인천,경기권,2942828,2925815.0,,2600495


In [49]:
# 내림차순 정렬을 하고싶다면?
population.sort_index(ascending=False)

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,경기권,2942828,2925815.0,,2600495
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [50]:
# 데이터를 기준으로 정렬 -> by 키워드 사용하여 기준
population.sort_values(by = '2010')
# 기본 오름차순 정렬, 결측치는 최하단 배치

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,경기권,2942828,2925815.0,,2600495


In [51]:
# 데이터의 개수를 세어주는 함수
population.count()
# 결측치를 제외한 실제로 존재하는 값의 개수를 세어준다

지역      4
2020    4
2015    3
2010    2
2005    4
dtype: int64

In [52]:
# 결측치를 특정값으로 채워주는 함수 -> fillna()
# fillna()도 수정하기 때문에 inplace를 설정해줘야 함
population.fillna(0, inplace = True)
population

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,0.0,0.0,3628293
인천,경기권,2942828,2925815.0,0.0,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745


- score.csv 파일 읽어오기
  - 단, '과목' 컬럼을 인덱스로 설정!

In [54]:
score = pd.read_csv('data/score.csv', index_col = '과목', encoding = 'euc-kr')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [55]:
# 합계의 기본 설정값이 axis = 0 행끼리 연산
score.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [56]:
# 과목별 합계
score.sum(axis = 1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [66]:
# score.drop('합계', axis = 1, inplace = True)

In [60]:
score['합계'] = score.sum(axis = 1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [62]:
# 과목별 평균을 구해서 '평균' 컬럼 추가하기
# mean()
# 과목만 잘라와서 평균을 구해야한다!
score1 = score.loc[:, '1반' : '4반']
# score1
score['평균'] = score1.mean(axis = 1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


<!-- 풀이
score['평균'] = score.iloc[:, 0:4].mean(axis = 1)
-->

In [64]:
# 반별평균을 구하여 행추가 (반평균)
score.loc['반평균'] = score.loc[:, '1반' : '4반'].mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,,


<!-- 풀이
score.loc['반평균'] = score.mean()
score
합계와 평균의 값을 바꾸는 법
-->

In [None]:
# 수정방법 : 원래 있는 데이터 추출 -> 새로운 값 대입

In [70]:
score.loc['반평균', '합계' : '평균'] = '-'
score

  score.loc['반평균', '합계' : '평균'] = '-'


Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,-,-


In [89]:
# 과목별 가장 높은 점수(max_score)와 가장 낮은 점수(min_score)의 차이를 구하기!
# max_score - min_score
# .max() .min()
# max_score = score.iloc[:, :4].max()
# max_score
# min_score = score.iloc[:, :4].min()

<!-- 풀이
score.iloc[:5, :4]
score.loc['파이썬' : 'Web', '1반' : '4반'].min(axis = 1)
max_score-min_score
-->

In [91]:
score.iloc[:5, :4]
score.loc['파이썬' : 'Web', '1반' : '4반'].min(axis = 1)
max_score-min_score

1반    81.0
2반    48.0
3반    40.0
4반    43.0
dtype: float64

In [85]:
# 최댓값에서 최솟값을 빼주는 함수 생성
def max_min(x) :
    return x.max()-x.min()

### apply 함수
- DataFrame에 또다른 함수를 적용할때 사용
- 적용할 df명.apply(함수명, axis = 0 or 1)

In [93]:
score.iloc[:5, :4].apply(max_min, axis =1)

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

### 데이터 프레임 병합하기!
- concat([df, df2, df3])

In [96]:
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3'],
                    'C':['C0','C1','C2','C3']
                   }, index = [0,1,2,3])

df2 = pd.DataFrame({'A':['A4','A5','A6','A7'],
                    'B':['B4','B5','B6','B7'],
                    'C':['C4','C5','C6','C7']},
                  index = [0,1,2,3])

df3 = pd.DataFrame({'A':['A8','A9','A10','A11'],
                    'B':['B8','B9','B10','B11'],
                    'C':['C8','C9','C10','C11']},
                  index = [0,1,2,3])

In [115]:
pd.concat([df1, df2, df3])
# 컬럼이 같은 데이터끼리 병합

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
0,A4,B4,C4
1,A5,B5,C5
2,A6,B6,C6
3,A7,B7,C7
0,A8,B8,C8
1,A9,B9,C9


In [117]:
pd.concat([df1, df2, df3], axis = 1)
# 인덱스 번호가 같은 데이터끼리 병합

Unnamed: 0,A,B,C,A.1,B.1,C.1,A.2,B.2,C.2
0,A0,B0,C0,A4,B4,C4,A8,B8,C8
1,A1,B1,C1,A5,B5,C5,A9,B9,C9
2,A2,B2,C2,A6,B6,C6,A10,B10,C10
3,A3,B3,C3,A7,B7,C7,A11,B11,C11
