### Pandas
- 행과 열을 가지는 표와 같은 형태의 데이터를 다루는 라이브러리
    - Series : 인덱스와 데이터를 1:1 대응하는 데이터 타입 (1차원 데이터)
    - DataFrame : 행과 열을 가지는 표와 같은 형태 (2차원 데이터)

In [18]:
# 라이브러리 불러오기
import pandas as pd

In [3]:
# 인덱스 : 값 으로 이루어짐
pd.Series([9668465,3391946,2942828,1450062])

0    9668465
1    3391946
2    2942828
3    1450062
dtype: int64

In [5]:
# Serise 생성 시 데이터만 넣으면 인덱스 자동 배정
# 인덱스명 지정 가능!
population = pd.Series([9668465,3391946,2942828,1450062], index = ['서울','부산','인천','광주'])
population

서울    9668465
부산    3391946
인천    2942828
광주    1450062
dtype: int64

### Serise 데이터 확인

In [6]:
# Serise 의 값만 확인
population.values
# Serise data는 넘파이 배열 형태로 출력됨 -> 요소별 연산 가능!

array([9668465, 3391946, 2942828, 1450062], dtype=int64)

In [7]:
# 인덱스만 확인
population.index
# 그래프 그릴때 주로 많이 사용한다고함

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [8]:
# 데이터 타입 확인
population.dtype
# index 는 데이터가 아님! -> 실제 value의 타입만 출력됨

dtype('int64')

In [13]:
# Serise 데이터 이름 지정
# 값에 이름달기
population.name = '인구'
# index 에도 이름 달기
population.index.name = '도시'
population

도시
서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 인구, dtype: int64

### 인덱싱, 슬라이싱

In [16]:
# 부산의 인구수 추출
population['부산']
#population[1]

3391946

In [19]:
# 부산부터 광주까지 데이터 추출
population['부산':'광주']

도시
부산    3391946
인천    2942828
광주    1450062
Name: 인구, dtype: int64

In [27]:
# 부산 서울 광주 - 인덱싱
# 인덱싱 -> 여러개의 인덱스 번호를 대괄호(리스트형태)로 묶어서 출력
population[['부산','서울','광주']]

도시
부산    3391946
서울    9668465
광주    1450062
Name: 인구, dtype: int64

In [29]:
# 불리언인덱싱 - 조건을 먼저 기재 
population[population.values >= 3000000]

도시
서울    9668465
부산    3391946
Name: 인구, dtype: int64

### 딕셔너리를 사용하여 Serise 생성하기

In [31]:
# 딕셔너리 구조로 data 생성
data = {'서울':9668465,'부산':3391946,'인천':2942828,'광주':1150062}
pd.Series(data)
# key -> index
# value -> value

서울    9668465
부산    3391946
인천    2942828
광주    1150062
dtype: int64

In [33]:
# Serise 에서 비어있지 않은 값들만 확인하는 방법 
population.notnull()

도시
서울    True
부산    True
인천    True
광주    True
Name: 인구, dtype: bool

In [34]:
# 비어있는 값들만 확인
population.isnull()
# 머신러닝중 null값이 있을땐 null값을 꼭 채워줘야 한다.

도시
서울    False
부산    False
인천    False
광주    False
Name: 인구, dtype: bool

In [35]:
# 값이 비어있을 때 특정 값으로 채워주는 함수
# fillna(값)

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html
### DataFrame
- 

In [41]:
data = {'2020':[9668465,3391946,2942828,1450062],
        '2010' :[10312545,3567910,2758296,1454636]
        }
#df = pd.DataFrame(data) # 데이터만 주면 index가 자동 배정되지만 아래처럼 index를 주면 적용가능함
df = pd.DataFrame(data, index= ['서울','부산','인천','광주'])
# key - column
# value -> value
# index -> 자동배정!
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [42]:
# 리스트를 활용하여 DataFrame 생성하기
data2 = [[9668465,3391946,2942828,1450062],
        [10312545,3567910,2758296,1454636]]
pd.DataFrame(data2)# DataFrame 생성때 컬럼명과 인덱스명을 지정해주는게 좋다

Unnamed: 0,0,1,2,3
0,9668465,3391946,2942828,1450062
1,10312545,3567910,2758296,1454636


In [43]:
data2 = [[9668465,3391946,2942828,1450062],
        [10312545,3567910,2758296,1454636]]
ind = ['2020','2010']
col = ['서울','부산','인천','광주']
df2 = pd.DataFrame(data2, index = ind, columns = col) # idex, columns 를 지정해줄 수 도 있다.
df2

Unnamed: 0,서울,부산,인천,광주
2020,9668465,3391946,2942828,1450062
2010,10312545,3567910,2758296,1454636


In [45]:
# 행과 열을 서로 바꿔주는 기능 - T
df2.T

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [46]:
# 데이터 구조 파악
# values : 데이터 확인
# index : 인덱스 확인
# columns : 컬럼 확인
df.columns

Index(['2020', '2010'], dtype='object')

### 축 설정 - axis
![image.png](attachment:image.png)

### DataFrame 인덱싱, 슬라이싱

In [48]:
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [53]:
# Serise 형태로 출력
df['2020'] # Serise의 Name이 추출한 컬럼명인지 확인하기 - DataFrame으로 합쳐질때 컬럼명이 Serise Name으로 지정해줘야하는 것도 알고 있기!

서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 2020, dtype: int64

In [54]:
# DataFrame 형태로 출력하기
df[['2020']]

Unnamed: 0,2020
서울,9668465
부산,3391946
인천,2942828
광주,1450062


- DataFrame 추가하기~

In [58]:
# 데이터 추가하기 - 컬럼명 = 데이터 
# 추가 : 존재하지 않는 컬럼명을 작성하고 데이터 대입
df['2005'] = [9762546,3512547,2517680,1456016]
df

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


- DataFrame 수정하기

In [63]:
# 수정 : 존재하는 컬럼명을 불러와서 데이터 대입
df['2005'] = [0,0,0,0] # 기존 컬럼명 작성 후 데이터 대입 형식으로 작성
df

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,0
부산,3391946,3567910,0
인천,2942828,2758296,0
광주,1450062,1454636,0


- DataFrame 삭제
    - drop()
        -  axis= : 0 - 행, 1 - 열
        - inplace= : True - 저장

In [64]:
# 삭제
#df.drop('2005') # KeyError: "['2005'] not found in axis" 
df.drop('2005', axis=1) # KeyError: "['2005'] not found in axis" 
df
# drop() 이라는 기능은 기본 축 설정은 0행 ->  1열 로 변경해주어야 한다

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,0
부산,3391946,3567910,0
인천,2942828,2758296,0
광주,1450062,1454636,0


In [65]:
# inplace : 삭제는 신중해야 하는 작업이기때문에 저장하겠다는 의미
# 추가로 inplace 옵션을 True 로 주어 drop()함수를 실행
df.drop('2005', axis=1, inplace=True)


Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [66]:
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


![image.png](attachment:image.png)

### 인덱서 활용방법
- df명.loc[행범위,열범위] : loc 반드시 인덱스명, 컬럼명사용
- df명.iloc[행범위,열범위] : 인덱스 번호 사용

In [5]:
data3 = {'2020':[9668465,3391946,2942828,1450062],
        '2010' :[10312545,3567910,2758296,1454636],
        '2005':[9762546,3512547,2517680,1456016]
        }
df3 = pd.DataFrame(data3,index = ['서울','부산','인천','광주'])
df3

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


In [7]:
df3.loc['부산':'인천', '2010':'2005']

Unnamed: 0,2010,2005
부산,3567910,3512547
인천,2758296,2517680


In [11]:
df3.iloc[1 : 3 , 1 : 3]

Unnamed: 0,2010,2005
부산,3567910,3512547
인천,2758296,2517680


In [14]:
# 행 인덱싱 방법
# 인덱서를 쓰고 하나의 값만 적으면 행 우선 인덱싱 -> 행 인덱싱
df3.iloc[0]

2020     9668465
2010    10312545
2005     9762546
Name: 서울, dtype: int64

In [17]:
# 인덱서를 쓰지 않으면 열인덱싱 -> 반드시 컬럼명으로 작성!!
df3['2005']

서울    9762546
부산    3512547
인천    2517680
광주    1456016
Name: 2005, dtype: int64

### 인덱싱, 슬라이싱 규칙
- df명['컬럼명'] -> 기본 인덱싱은 열 인덱싱이 된다.
- 슬라이싱을 진행할 때는 반드시 인덱서 (loc, iloc)를 사용한다.
    - loc[행범위, 열범위] : 범위는 인덱스명과 컬럼명을 사용
    - iloc[행범위, 열범위] : 범위는 인덱스 번호를 사용한다
- 행 인덱싱을 하기 위해서는 -> df명.loc['행'] = 인덱서를 사용했을 때 값을 하나만 써주면 행에 대한 정보로 인식하고 행 정보를 추출하게 됨

In [21]:
# DataFrame 의 형태로 데이터 불러오는 방법
#pd.read_csv('./data/population_number.csv') # 인덱스를 도시 컬럼으로 활용하기 위해 아래처럼 inde_col에 해당 컬럼명을 지정해준다
population = pd.read_csv('./data/population_number.csv', index_col='도시')
population

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,경기권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [23]:
# 정렬 키워드 -> 인덱스를 통한 정렬
#population.sort_index() 
population.sort_index() 
# 기본 오름차순 정렬 ( 0 ~ , ㄱ ~ ㅎ, A ~ Z)

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
부산,경상권,3391946,,,3628293
서울,수도권,9668465,10022181.0,10312545.0,10167344
인천,경기권,2942828,2925815.0,,2600495


In [24]:
population.sort_index(ascending=False) # 인덱스 내림차순 정렬 하기위해 ascending에 False를 준다

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,경기권,2942828,2925815.0,,2600495
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [26]:
# 데이터를 기준으로 정렬 - by 키워드 사용하여 기준 설정
population.sort_values(by='2010') # 기준이 되는 컬럼명을 값으로 넣어준다.
# 기본 오름차순 정렬이지만 결측치는 최하단으로 배치

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,경기권,2942828,2925815.0,,2600495


In [27]:
# 데이터의 개수를 세어주는 함수
population.count() # 결측치 유무를 확인할때 사용한다.
# 결측치를 제외한 실제로 존재하는 값으 개수를 세어준다.

지역      4
2020    4
2015    3
2010    2
2005    4
dtype: int64

In [30]:
# 결측치를 특정 값으로 채워주는 함수 -> fillna()
#population.fillna(0) 데이터를 수정하는 것이기때문에 inplace=True 로 설정하여 수정해줘야한다
population.fillna(0, inplace=True)
population

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,0.0,0.0,3628293
인천,경기권,2942828,2925815.0,0.0,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [87]:
# score 파일 불러오기
score = pd.read_csv('./data/score.csv', index_col='과목', encoding='euc-kr')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [88]:
# 과목별 점수 합계
#score.sum() # axis는 모두 0이 기본값
score.sum(axis=1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [89]:
score['합계'] = score.sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [90]:
# 과목별 평균
score['평균'] = score.loc[:,'1반':'4반'].mean(axis=1)
score
# score['평균'] = score.iloc[:,0:4].mean(axis=1)
# score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [91]:
# 반별 평균 행을 추가 (행추가)
# score.loc['반평균'] = score.iloc[0: , 0:4].mean(axis=0)
# score
score.loc['반평균'] = score.mean(axis=0)

In [92]:
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [94]:
score.loc['반평균','합계':'평균'] = '-'
score

  score.loc['반평균','합계':'평균'] = '-'


Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,-,-


In [102]:
# 과목별 가장 높은 점수와 가장 낮은 점수의 차 구하기
max_score = score.iloc[:5, :4].max(axis=1)
min_score = score.loc['파이썬':'Web', '1반':'4반'].min(axis=1)
max_score - min_score


과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

In [104]:
# 최대값에서 최솟값을 빼주는 함수 구현
def max_min(x):
    return x.max() - x.min()

### apply 함수
- DataFrame에 또 다른 함수를 적용할 때 사용
- 적용할df명.apply(함수명, axsi = 0 또는 1)

In [105]:
score.iloc[:5, :4].apply(max_min, axis=1)

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

### DataFrame 병합하기!
- concat([df1,df2,df3])#여러개이기 때문에 리스트형식으로 묶어서 넣어주기

In [106]:
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3'],
                    'C':['C0','C1','C2','C3']
                }, index = [0,1,2,3])

df2 = pd.DataFrame({'A':['A4','A5','A6','A7'],
                    'B':['B4','B5','B6','B7'],
                    'C':['C4','C5','C6','C7']},
                index = [0,1,2,3])

df3 = pd.DataFrame({'A':['A8','A9','A10','A11'],
                    'B':['B8','B9','B10','B11'],
                    'C':['C8','C9','C10','C11']},
                index = [0,1,2,3])

In [112]:
pd.concat([df1, df2, df3])
# 컬럼이 같은 데이터끼리 병합

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
0,A4,B4,C4
1,A5,B5,C5
2,A6,B6,C6
3,A7,B7,C7
0,A8,B8,C8
1,A9,B9,C9


In [113]:
pd.concat([df1, df2, df3], axis=1)
# 인덱스 번호가 같은 데이터끼리 병합

Unnamed: 0,A,B,C,A.1,B.1,C.1,A.2,B.2,C.2
0,A0,B0,C0,A4,B4,C4,A8,B8,C8
1,A1,B1,C1,A5,B5,C5,A9,B9,C9
2,A2,B2,C2,A6,B6,C6,A10,B10,C10
3,A3,B3,C3,A7,B7,C7,A11,B11,C11
