### pandas 
- 행과 열을 가지는 표와 같은 형태의 데이터를 다루는 라이브러리
    - 데이터 구조
        - Series : 1차원 배열 형태(인덱스와 값을 1대1로 대응하는 형태)
        - DataFrame : 2차원 배열 형태(행과 열을 가지는 표와 같은 형태)

![image.png](attachment:bffd9363-2f84-46e1-ad8f-7d304ac62914.png)

![image.png](attachment:c193601b-253e-4a59-b457-d4fdedd1e65c.png)

In [142]:
# 외부 라이브러리 불러오기
import pandas as pd

# pandas 라이브러리를 import하고 pd라고 줄여서 부르겠다

In [143]:
# 1차원 Series 데이터 다뤄보기
s2= pd.Series([3,4,5])
s2

0    3
1    4
2    5
dtype: int64

In [144]:
# 인덱스 이름을 지정하면서 Series 생성하기 
pd.Series([3,4,5], index=['son', 'kim', 'park'])

son     3
kim     4
park    5
dtype: int64

In [145]:
# 딕셔너리 타입으로 생성하기
s1 = pd.Series({'son':3, 'kim':4, 'park':5})
s1

son     3
kim     4
park    5
dtype: int64

### Series 데이터에 이름 지정(데이터의 정보를 나타내주기)
- name
- index.name
    

In [146]:
# 시리즈 이름 지정하기
s1.name = '시리즈'
s1

son     3
kim     4
park    5
Name: 시리즈, dtype: int64

In [147]:
# 인덱스 전체 이름 지정 
s1.index.name = '성씨'
s1

성씨
son     3
kim     4
park    5
Name: 시리즈, dtype: int64

### Series 데이터 속성 확인
- 값 확인 : values
- 인덱스 값 확인 : index
- 데이터타입 확인 : dtype

In [148]:
# Series 값 확인
s1.values 

# 출력 결과 > 넘파이 배열 형태 > 요소별 연산이 가능하겠다!

array([3, 4, 5], dtype=int64)

In [149]:
# Series 인덱스 확인
s1.index

Index(['son', 'kim', 'park'], dtype='object', name='성씨')

In [150]:
s2.index

# 인덱스 값을 지정해주지 않았을 경우 인덱스 번호에 범위를 반환한다

RangeIndex(start=0, stop=3, step=1)

In [151]:
s1

성씨
son     3
kim     4
park    5
Name: 시리즈, dtype: int64

In [152]:
# Series 데이터 타입 확인
s1.dtype

# value 값을 기준으로 데이터 타입을 출력(반환)

dtype('int64')

In [153]:
pop = pd.Series({'서울':9602000, '부산':3344000, '광주':1488000, '대구':2419000})
pop.name = '2020 인구수'
pop.index.name = '도시'
pop

도시
서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [154]:
# Series 데이터 접근하기 -> 인덱싱, 슬라이싱
# 부산의 인구수 접근
# 방법 1. 변수명[인덱스 번호]
# 방법 2. 변수명[인덱스 값 이름]
pop[1]

  pop[1]


3344000

In [155]:
pop['부산']

3344000

In [156]:
# 여러개의 데이터를 인덱싱
# 서울, 광주, 부산 인구수 접근하기 -> 인덱스 값 이름으로 접근하기
pop[['서울','광주','부산']]

# 인덱스를 대괄호로 한번 더 감싼다!


도시
서울    9602000
광주    1488000
부산    3344000
Name: 2020 인구수, dtype: int64

In [157]:
# 슬라이싱
# 서울 ~ 광주 슬라이싱
# 방법 1 : 변수명[시작인덱스번호 : 끝인덱스번호 +1]
# 방법 2 : 
pop[0:3] 

도시
서울    9602000
부산    3344000
광주    1488000
Name: 2020 인구수, dtype: int64

In [158]:
# 방법 2 : 변수명[시작인덱스이름 : 끝인덱스이름]
pop['서울':'광주']

# 인덱스명으로 가져올 때는 가져오고싶은 끝 이름을 작성해주면 된다!

도시
서울    9602000
부산    3344000
광주    1488000
Name: 2020 인구수, dtype: int64

In [159]:
# Series 데이터 처리하기(수정, 추가, 삭제)

# 데이터 수정(갱신)
# 부산의 값을 3500000
pop['부산'] = 3500000
pop

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [160]:
# 데이터 추가 
# '제주' 670000
pop['제주'] = 670000
pop

# 딕셔너리와 유사하다(key값을 불러오듯이 인덱스를 불러오면 된다)
# 수정/ 추가 차이점 : 있는 키(인덱스) / 없는 키(인덱스)

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
제주     670000
Name: 2020 인구수, dtype: int64

In [161]:
# 데이터 삭제
# 방법 1. del 키워드 삭제
# 서울 데이터 삭제
# del 시리즈명[삭제하고싶은 인덱스명]
del pop['서울']
pop

도시
부산    3500000
광주    1488000
대구    2419000
제주     670000
Name: 2020 인구수, dtype: int64

In [162]:
# 방법 2. drop() 함수 활용
# 시리즈명.drop(삭제하고싶은 인덱스명)
pop.drop('제주')

도시
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [163]:
# 삭제라는 작업은 신중한 작업으로 drop() 함수를 사용한 셀에서만 삭제가 된다
pop

도시
부산    3500000
광주    1488000
대구    2419000
제주     670000
Name: 2020 인구수, dtype: int64

In [164]:
# 삭제한 결과를 바로 적용하고 싶다면 inplace 속성 활용 -> db에서 commit과 유사
pop.drop('제주', inplace = True)

In [165]:
pop

도시
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [166]:
# Series 데이터 연산
pop.values

array([3500000, 1488000, 2419000], dtype=int64)

In [167]:
pop // 1000000

도시
부산    3
광주    1
대구    2
Name: 2020 인구수, dtype: int64

### 불리언 인덱싱
- 조건에 맞는 데이터만 접근

In [168]:
pop

도시
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [169]:
# 인구가 200만 이상인 도시만 추출
pop >= 2000000

도시
부산     True
광주    False
대구     True
Name: 2020 인구수, dtype: bool

In [170]:
pop[pop >= 2000000]

도시
부산    3500000
대구    2419000
Name: 2020 인구수, dtype: int64

In [171]:
pop

도시
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [172]:
# 인구수가 200만 이상이면서 300만 이하의 도시 가져오기
pop

도시
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [173]:
pop[(pop >=2000000) & (pop <=3000000)]

도시
대구    2419000
Name: 2020 인구수, dtype: int64

### DataFrame
- 행과 열로 구성되어있는 2차원 데이터

In [174]:
# 데이터프레임 생성
pd.DataFrame([1,2,3])

# 단일 리스트에 값 입력해서 생성

Unnamed: 0,0
0,1
1,2
2,3


In [175]:
# 이중 리스트에 값 입력해서 생성
pd.DataFrame([['son',1],['kim',2],['park',3]])

Unnamed: 0,0,1
0,son,1
1,kim,2
2,park,3


In [176]:
# 딕셔너리에 값 입력해서 생성
data = {'2020':[9668465,3391946,2942828,1450062],
        '2010':[10312545,3567910,2758296,1454636]}
df = pd.DataFrame(data)
df

# key값은 열(column) 값으로 지정

Unnamed: 0,2020,2010
0,9668465,10312545
1,3391946,3567910
2,2942828,2758296
3,1450062,1454636


In [177]:
# DataFrame에 인덱스명 지정하기
# 생성할 때부터 인덱스명 지정
pd.DataFrame(data, index = ['서울', '부산', '인천', '광주'])

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [178]:
df

Unnamed: 0,2020,2010
0,9668465,10312545
1,3391946,3567910
2,2942828,2758296
3,1450062,1454636


In [179]:
# 인덱스 속성을 지정해서 인덱스명 추가
df.index = ['서울', '부산', '인천', '광주']
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [180]:
# DataFrame 전치(Transpose)
# 데이터프레임명.T
df.T

# 행과 열의 데이터를 바꾸는 역할

Unnamed: 0,서울,부산,인천,광주
2020,9668465,3391946,2942828,1450062
2010,10312545,3567910,2758296,1454636


### 데이터프레임 속성 확인하기
- values : 데이터 값 확인
- index : 인덱스 값 확인
- dtypes : 데이터 타입 확인
- columns: 컬럼 이름 확인

In [181]:
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [182]:
# 데이터프레임 값 확인
df.values

# 2차원 형태의 넘파이 배열 반환

array([[ 9668465, 10312545],
       [ 3391946,  3567910],
       [ 2942828,  2758296],
       [ 1450062,  1454636]], dtype=int64)

In [183]:
df.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [184]:
# 데이터프레임 데이터 타입 확인
df.dtypes

2020    int64
2010    int64
dtype: object

In [185]:
# 컬럼이름 확인
df.columns

Index(['2020', '2010'], dtype='object')

### DataFrame 접근하기(인덱싱, 슬라이싱)

In [186]:
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [187]:
# '서울' 인덱싱

In [188]:
# 2020 데이터 접근
df['2020']

# Series 형태로 출력

서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 2020, dtype: int64

In [189]:
# 2차원 형태(데이터프레임 형태)로 출력하고 싶어요 -> 대괄호 한번 더 감싸주기
df[['2020']]

Unnamed: 0,2020
서울,9668465
부산,3391946
인천,2942828
광주,1450062


In [190]:
# 슬라이싱
df[0:2]

# 인덱싱은 열을 기준으로 하고, 슬라이싱은 행을 기준으로 한다.

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910


### 인덱서
- DataFrame에서 인덱싱, 슬라이싱할 때 사용하는 도구
    - loc : 실제 인덱스명, 컬럼명을 사용해서 추출
        - 데이터프레임명.loc[행,열]
    - iloc : 인덱스 번호를 사용해서 추출
        - 데이터프레임명.iloc[행,열] 

In [191]:
#슬라이싱
data = {'2020':[9668465,3391946,2942828,1450062],
        '2010' :[10312545,3567910,2758296,1454636],
         '2005':[9762546,3512547,2517680,1456016]
        }
df2 = pd.DataFrame(data, index = ['서울','부산','인천','광주'])
df2

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


In [192]:
# 부산~인천, 2010~2005

# LOC[행,열] > 인덱스명, 컬럼명
df2.loc['부산':'인천', '2010':]

Unnamed: 0,2010,2005
부산,3567910,3512547
인천,2758296,2517680


In [193]:
# 부산~인천, 2010~2005

# iloc[행, 열] > 인덱스 번호
df2.iloc[1:3, 1:]

Unnamed: 0,2010,2005
부산,3567910,3512547
인천,2758296,2517680


In [194]:
# csv 파일 불러오기
# comma seperated values
# pd.read_csv('경로')

pop= pd.read_csv('data/population.csv', index_col = '도시')
pop
# 컬럼 중에서 하나를 인덱스로 지정하고 싶을 때 -> index_col

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016


In [195]:
# 1. 2020 데이터 추출(열 데이터, 인덱싱)
print(pop['2020'])
print(pop.loc[:,'2020'])
print(pop.iloc[:,1])

도시
서울    9668465
부산    3391946
인천    2942828
광주    1450062
대구    2418436
Name: 2020, dtype: int64
도시
서울    9668465
부산    3391946
인천    2942828
광주    1450062
대구    2418436
Name: 2020, dtype: int64
도시
서울    9668465
부산    3391946
인천    2942828
광주    1450062
대구    2418436
Name: 2020, dtype: int64


In [196]:
# 2. 광주 데이터 추출 (행 데이터, 인덱싱)

display(pop.loc[['광주']])
display(pop.iloc[[3]])
display(pop[3:4])

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745


Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745


Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [197]:
# 3. 부산~광주, 2020~2010 (슬라이싱)
display(pop.loc['부산':'광주', '2020':'2010'])
display(pop.iloc[1:4, 1:4])

Unnamed: 0_level_0,2020,2015,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3391946,,
인천,2942828,2925815.0,
광주,1450062,1474636.0,1454636.0


Unnamed: 0_level_0,2020,2015,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3391946,,
인천,2942828,2925815.0,
광주,1450062,1474636.0,1454636.0


In [198]:
# 데이터 정렬
pop

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016


In [199]:
# 인덱스를 기준으로 정렬
# 데이터프레임명.sort_index()

# 기본적으로는 오름차순(ㄱ~ㅎ, 0~, a~z)

pop.sort_index()

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016
부산,경상권,3391946,,,3628293
서울,수도권,9668465,10022181.0,10312545.0,10167344
인천,수도권,2942828,2925815.0,,2600495


In [200]:
# 내림차순
pop.sort_index()

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016
부산,경상권,3391946,,,3628293
서울,수도권,9668465,10022181.0,10312545.0,10167344
인천,수도권,2942828,2925815.0,,2600495


In [201]:
# 열 데이터에 접근해서 정렬 (2010)
pop['2020'].sort_values()

# 기본적으로는 오름차순
# 결측치(NaN)은 항상 제일 하단에 위치

도시
광주    1450062
대구    2418436
인천    2942828
부산    3391946
서울    9668465
Name: 2020, dtype: int64

In [202]:
pop['2020'].sort_values(ascending=False)

도시
서울    9668465
부산    3391946
인천    2942828
대구    2418436
광주    1450062
Name: 2020, dtype: int64

In [203]:
# 2차원 데이터프레임 형태에서 값을 기준으로 정렬할 때 by 속성 지정(기준)
pop.sort_values(by='2010')

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495


In [204]:
pop[['2010']].sort_values(by = '2010')

Unnamed: 0_level_0,2010
도시,Unnamed: 1_level_1
광주,1454636.0
대구,2431774.0
서울,10312545.0
부산,
인천,


### DataFrame 데이터 값 처리(추가, 수정, 삭제)

In [205]:
# 열 추가 
# 2000년도 데이터 추가
pop['2000'] = [9762546,3512547,2517680,1456016,2434585] # 4개 넣으면 오류남
pop

Unnamed: 0_level_0,지역,2020,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344,9762546
부산,경상권,3391946,,,3628293,3512547
인천,수도권,2942828,2925815.0,,2600495,2517680
광주,전라권,1450062,1474636.0,1454636.0,1401745,1456016
대구,경상권,2418436,2466052.0,2431774.0,2456016,2434585


In [206]:
# NaN값 추가하기
import numpy as np

In [207]:
# 열 추가
# 2000년도 데이터 추가
pop['2000'] = [9762546,3512547,2517680,1456016, np.nan] # NaN값을 추가하기 위해서는 numpy 라이브러리 import
pop

Unnamed: 0_level_0,지역,2020,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344,9762546.0
부산,경상권,3391946,,,3628293,3512547.0
인천,수도권,2942828,2925815.0,,2600495,2517680.0
광주,전라권,1450062,1474636.0,1454636.0,1401745,1456016.0
대구,경상권,2418436,2466052.0,2431774.0,2456016,


In [208]:
# 데이터 수정
# 2010년 데이터 수정
pop['2010'] = [10312545,3557512,2789541,1454636,2431774]
pop

Unnamed: 0_level_0,지역,2020,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9668465,10022181.0,10312545,10167344,9762546.0
부산,경상권,3391946,,3557512,3628293,3512547.0
인천,수도권,2942828,2925815.0,2789541,2600495,2517680.0
광주,전라권,1450062,1474636.0,1454636,1401745,1456016.0
대구,경상권,2418436,2466052.0,2431774,2456016,


In [209]:
# 데이터 삭제 -> 2000년도 데이터 삭제

In [211]:
# 데이터프레임명.drop()
pop.drop('2000')

# KeyError: "['2000'] not found in axis"
# 현재 설정된 축에서는 '2000'이라는 값을 찾을 수가 없다
# 튤팁(shift+tab) 확인 > 기본적으로 axis = 0 (행) > 열로 변경 > axis = 1

KeyError: "['2000'] not found in axis"

In [None]:
# 축 설정 변경
pop.drop('2000', axis = 1)

In [None]:
# 삭제한 결과를 바로 적용하고싶다면 inplace속성 활용
pop.drop('2000', axis =1, inplace=True)

In [None]:
pop

In [332]:
# score.csv 파일 불러오기 
# 변수명 score
# 컬럼 중 '과목' 인덱스 지정
# pd.read_csv('경로', 속성 지정)

score = pd.read_csv('data/score.csv', index_col = '과목', encoding = 'euc-kr')
score

# UnicodeDecodeError 발생 시!
# 한글 인코딩 문제 > encoding 속성 지정
# 'utf-8' or 'euc-kr' or 'cp949'

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [333]:
score_sum = score.sum(axis = 1)
score_mean = score.mean(axis = 1)

In [334]:
score['합계'] = score_sum
score['평균'] = score_mean
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [327]:
# 학급별 점수 총합 구해보기 
score.sum() 

# pandas에서도 내장함수(범용함수)를 사용할 수 있구나!

1반     271.00
2반     388.00
3반     295.00
4반     243.00
합계    1197.00
평균     299.25
dtype: float64

In [331]:
# 과목별 합계 구해서 DataFrame 추가('합계' 컬럼 추가)

# 1. 과목별 함계
# 축의 방향을 바꿔주면 과목별 합계를 구할 수 있지 않을까?
score_sum=score.sum(axis=1)
score_sum
# 2. '합계' 컬럼 추가
score['합계'] = score.sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,452.25,50.25
DB,76.0,92.0,45.0,69.0,634.5,70.5
자바,47.0,92.0,45.0,69.0,569.25,63.25
크롤링,92.0,81.0,85.0,40.0,670.5,74.5
Web,11.0,79.0,47.0,26.0,366.75,40.75
반평균,54.2,77.6,59.0,48.6,538.65,59.85


In [335]:
# drop() 함수를 사용하면 실행한 셀에서만 삭제!
score.drop('합계', axis =1).mean(axis =1)

과목
파이썬    50.25
DB     70.50
자바     63.25
크롤링    74.50
Web    40.75
dtype: float64

### 과목별 평균을 구해서 DataFrame에 추가('평균' 컬럼을 추가) -> mean()

In [336]:
score_mean

과목
파이썬    50.25
DB     70.50
자바     63.25
크롤링    74.50
Web    40.75
dtype: float64

In [337]:
# 과목별 합계 구해서 DataFrame 추가('합계' 컬럼 추가) -> mean()
# 1차원 Series 2차원 데이터프레임
score['평균']=score.loc[:,:'4반'].mean(axis=1)
score
# 1. 과목별 평균 계산

# 2. 1의 결과를 '평균' 칼럼에 추가


Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [339]:
# 반평균을 계산해서 '반평균' 행 추가

# 행 데이터 접근(인덱싱)? -> 변수 pop에서 '광주' 데이터 접근하기 참고!

# 1. 반 평균 구하기 -> mean()
#score.loc[:,:].mean()

# 2. '반평균' 행에 1번의 결과 추가 대입
score.loc["반평균"] = score.loc[:, :].mean()
score

# 3. 합계의 평균, 평균의 평균 -> '-'으로 수정


Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [343]:
score.loc['반평균':,'합계':'평균'] = ['-','-']
score

  score.loc['반평균':,'합계':'평균'] = ['-','-']
  score.loc['반평균':,'합계':'평균'] = ['-','-']


Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,-,-


### apply 함수 
- 행 or 열 단위로 복잡한 함수를 적용하고 싶을 때 사용
- df명.apply(함수명, 축 설정 axis = 0 or 1)

In [351]:
date_list = {'yyyy-mm-dd': ['2004-01-25', '2017-09-29', '2024-12-30']}

# DataFrame 만들기
data_df = pd.DataFrame(date_list)
data_df

# 년도만 추출해서 year 컬럼에 추출한 결과값 추가

Unnamed: 0,yyyy-mm-dd
0,2004-01-25
1,2017-09-29
2,2024-12-30


In [347]:
# split() : 문자열 함수 > 지정한 값을 기준으로 문자를 분리 > 리스트 형태로 반환
text = '2024-12-31'
text.split('-')

['2024', '12', '31']

In [349]:
# 년도 접근
text.split('-')[0]

'2024'

In [352]:
# 데이터에서 년도만 추출 > 모든 행에 적용
# 1. 년도 데이터만 추출하는 함수 만들기
def extract_year(text):
    return text.split('-')[0]

In [356]:
# 2. 적용하고자 하는 데이터 접근해서 함수 적용
data_df['yyyy-mm-dd'].apply(extract_year)

0    2004
1    2017
2    2024
Name: yyyy-mm-dd, dtype: object

In [357]:
# 3. 'year' 컬럼 추가 
data_df['year'] = data_df['yyyy-mm-dd'].apply(extract_year)
data_df

Unnamed: 0,yyyy-mm-dd,year
0,2004-01-25,2004
1,2017-09-29,2017
2,2024-12-30,2024


### value_counts 함수 
- DataFrame에 있는 데이터들의 개수를 세어주는 함수

In [None]:
df = pd.DataFrame(['A' : [1,3,3,4,4]})

In [359]:
df = pd.DataFrame({'A' : [1,3,3,4,4],
                  'B' : [1,2,2,3,3],
                  'C' : [1,2,4,4,5]})
df

Unnamed: 0,A,B,C
0,1,1,1
1,3,2,2
2,3,2,4
3,4,3,4
4,4,3,5


In [360]:
df['A'].value_counts()

# 모든 컬럼에 적용하고싶다면? apply 함수 사용

A
3    2
4    2
1    1
Name: count, dtype: int64

In [362]:
df

Unnamed: 0,A,B,C
0,1,1,1
1,3,2,2
2,3,2,4
3,4,3,4
4,4,3,5


In [363]:
result = df.apply(pd.value_counts)
result
# 각 데이터별로 합계를 구하다보니 결측치(NaN) 존재
# 결측치가 있을 때 데이터 분석에서 정확도가 떨어질 수 있음 > 데이터 전처리가 필요하다
# 여기에서 결측치가 0 > NaN값을 0으로 수정 > 직접 접근해서 수정하기에는 비효율적

  result = df.apply(pd.value_counts)


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [364]:
# fillna() 함수 : 결측치를 내가 원하는 값으로 변경
# df명.fillna(값)
result.fillna(0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [365]:
import numpy as np

### DataFrame 병합
- numpy 병합 -> np.concatenate
- pd.concat()

In [366]:
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3'],
                    'C':['C0','C1','C2','C3']
                   })

df2 = pd.DataFrame({'A':['A4','A5','A6','A7'],
                    'B':['B4','B5','B6','B7'],
                    'C':['C4','C5','C6','C7']}
                )

df3 = pd.DataFrame({'A':['A8','A9','A10','A11'],
                    'B':['B8','B9','B10','B11'],
                    'C':['C8','C9','C10','C11']}
                 )

In [368]:
pd.concat([df1,df2,df3])

# axis = 0 : 행의 방향으로 병합 / 컬럼 이름이 같은 데이터끼리 병합

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
0,A4,B4,C4
1,A5,B5,C5
2,A6,B6,C6
3,A7,B7,C7
0,A8,B8,C8
1,A9,B9,C9


In [369]:
# 기존의 인덱스 번호를 무시하고 인덱스 번호를 새롭게 부여하면서 병합
pd.concat([df1,df2,df3], ignore_index=True)

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4
5,A5,B5,C5
6,A6,B6,C6
7,A7,B7,C7
8,A8,B8,C8
9,A9,B9,C9


In [370]:
pd.concat([df1,df2,df3], axis = 1)

# axis = 1 : 열 방향으로 병합 / 인덱스가 같은 데이터끼리 병합

Unnamed: 0,A,B,C,A.1,B.1,C.1,A.2,B.2,C.2
0,A0,B0,C0,A4,B4,C4,A8,B8,C8
1,A1,B1,C1,A5,B5,C5,A9,B9,C9
2,A2,B2,C2,A6,B6,C6,A10,B10,C10
3,A3,B3,C3,A7,B7,C7,A11,B11,C11
