In [1]:
import pandas as pd


# <span style="color:lightgreen; font-weight:bold"> Pandas : <br>행과 열을 가지고 있는 데이터를 관리하기 위한 모듈 </span>

## <span style="color:lightyellow; font-weight:bold"> 1. Series <br>1차원으로 구성된 데이터</span>

In [40]:
# Series : 컬럼 1개의 데이터 ➜ 리스트를 활용하여 생성하며, 인덱스와 값으로 구성

# 1. Series 생성!
print("1. Series 생성!")
pd_ = pd.Series([1,2,3,4,5])
print("{}\n".format(pd_))

# 2. Series의 인덱스 지정!
print("2. Series의 인덱스 지정!")
pd_idx = pd.Series([1,2,3,4,5], index=['a','b','c','d','e'])
print("{}\n".format(pd_idx))

# dictionary 형태로 생성!
print("dictionary 형태로 생성!" )
pd_dict = pd.Series({'a':1, 'b':2, 'c':3, 'd':4, 'e':5})
print("{}\n".format(pd_dict))

1. Series 생성!
0    1
1    2
2    3
3    4
4    5
dtype: int64

2. Series의 인덱스 지정!
a    1
b    2
c    3
d    4
e    5
dtype: int64

dictionary 형태로 생성!
a    1
b    2
c    3
d    4
e    5
dtype: int64



#### <span style="color:lightgreen; font-weight:bold">  1) 데이터 속성 확인 </span>
>1. values : 데이터 값 확인
>2. index : 인덱스 확인
>3. dtypes : 데이터 타입 확인
>4. name : 자체에 이름 지정
>5. index.name : 인덱스에 이름 지정

In [41]:
# 1. values : 데이터 값 확인
print(pd_.values)
# 2. index : 인덱스 확인
print(pd_.index)
# 3. dtypes : 데이터 타입 확인
print(pd_.dtypes)

# 4. Series 자체에 이름 지정
pd_.name = "Number"

# 5. Series 인덱스에 이름을 지정하는 기능
pd_.index.name = "Index"

pd_

[1 2 3 4 5]
RangeIndex(start=0, stop=5, step=1)
int64


Index
0    1
1    2
2    3
3    4
4    5
Name: Number, dtype: int64

#### <span style="color:lightgreen; font-weight:bold"> 2) 데이터 편집 </span>
> 1. 수정, 추가, 삭제
> 2. 연산
> 3. 인덱스 / 슬라이싱

In [42]:
# 해당 데이터를 활용하여 population 변수에 Series 생성
# data : 9602000, 3344000, 1488000, 2419000
# index : 서울, 부산, 광주, 대구

population = pd.Series([9602000, 3344000, 1488000, 2419000], index=['서울', '부산', '광주', '대구'])

# Seried 이름 지정
population.name = "2020 인구수"
# Seried idx 지정
population.index.name = "도시"

population

도시
서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

>##### 1. 수정, 추가, 삭제

In [43]:
try:
    # Series 데이터의 수정, 추가, 삭제
    # 수정
    population["부산"] = 3500000
    # 추가
    population["제주"] = 6700000
    # 삭제 ( del, drop() )
    del population["서울"] # 삭제
    population.drop("제주") # 원하는 데이터를 일시적으로 빼고 보여줌
    population.drop("제주", inplace=True) # inplace=True : 영구 삭제
except:
    pass
population

도시
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

>##### 2. 연산

In [44]:
population / 1000000

도시
부산    3.500
광주    1.488
대구    2.419
Name: 2020 인구수, dtype: float64

>##### 3. 인덱스 / 슬라이싱

In [45]:
# 1. 인덱스
population['광주']

# 2. 인덱스 슬라이싱
population[0:2]
population["부산":"광주"]

# 3. boolean 인덱싱
population[(population >= 2000000) & (population < 3000000)]

도시
대구    2419000
Name: 2020 인구수, dtype: int64

## <span style="color:darksalmon; font-weight:bold"> 2. Daraframe <br>2차원으로 구성된 데이터 ➜ 테이블 형태(행과 열)의 데이터</span>

#### <span style="color:rgb(159, 226, 191); font-weight:bold">  Data Frame 생성 </span>


In [1]:
# Daraframe 생성하기
# 데이터의 값을 여러개 넣어서 생성하기 -> 2차원 리스트 사용하기
pd.DataFrame([['Big', 1],['AI', 2],["IoT", 3]], index=['6교육', '7교육', '8교육'])

NameError: name 'pd' is not defined

In [47]:
data = {'2020':[9668465, 3391946, 2942828, 1450062],
        '2021':[10312545, 3567910, 2758296, 1454636]}
df = pd.DataFrame(data)
idx = ["서울", "부산", "인천", "광주"]
df.index = idx
df

Unnamed: 0,2020,2021
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [48]:
df2 = pd.DataFrame(data, index=idx)
df2.T # 행, 열 변경하기
df3 = df2.T
df3

Unnamed: 0,서울,부산,인천,광주
2020,9668465,3391946,2942828,1450062
2021,10312545,3567910,2758296,1454636


#### <span style="color:rgb(159, 226, 191); font-weight:bold">  Data Frame에서 사용할 수 있는 속성 </span>
<ui>
<li> valus : 데이터 값 확인
<li> index : 인덱스 값 확인
<li> dtypes : 데이터 타입 확인
<li> columns : 컬럼 이름 확인
</ui>

In [49]:
df.values

array([[ 9668465, 10312545],
       [ 3391946,  3567910],
       [ 2942828,  2758296],
       [ 1450062,  1454636]], dtype=int64)

In [50]:
df.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [51]:
df.dtypes

2020    int64
2021    int64
dtype: object

In [52]:
df.columns

Index(['2020', '2021'], dtype='object')

#### <span style="color:rgb(159, 226, 191); font-weight:bold">  Data Frame 인덱싱/슬라이싱 </span>

In [53]:
# DF 인덱싱, 슬라이싱
df['2020']
df[['2020']]

Unnamed: 0,2020
서울,9668465
부산,3391946
인천,2942828
광주,1450062


In [54]:
# 인덱서 : DF에서 슬라이싱을 편하게 하기 위한 도구
# loc : 실제 인덱스 명을 사용하여 진행 - df.loc[행, 열]
# iloc : 인덱스의 번호를 사용하여 진행 - df.iloc[행, 열]

data = {'2020':[9668465, 3391946, 2942828,1450062],
        '2010':[10312545,3567910,2758296,1454636],
        '2005':[9762546,3512547,2517680,1456016]}
df3 = pd.DataFrame(data, index=idx)

In [55]:
df3.loc['서울':'인천', '2010':'2005']
df3.iloc[0:3, 1:3]

Unnamed: 0,2010,2005
서울,10312545,9762546
부산,3567910,3512547
인천,2758296,2517680


#### <span style="color:rgb(159, 226, 191); font-weight:bold">  read_csv (population) </span>

In [56]:
pop = pd.read_csv('data/population.csv', encoding='euc-kr', index_col=0)
pop

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [57]:
pop.loc['부산':'대구' , '도시':'2005']
pop.iloc[1:, 1:4]

Unnamed: 0_level_0,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3448737,,
인천,2890451,2632035.0,
대구,2466052,2431774.0,2456016.0


In [58]:
pop.sort_index(ascending=False) #데이터 정렬하기

pop['2005'].sort_values(ascending=False) # 특정 열을 사용하여 데이터 정렬하기

도시
서울    9762546.0
대구    2456016.0
부산          NaN
인천          NaN
Name: 2005, dtype: float64

In [59]:
pop['2005'] = [9762546,3512547,2517680,1456016] # 데이터 수정
pop.loc['부산', '2010'] = 3567910
pop

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546,9853972
부산,경상권,3448737,3567910.0,3512547,3655437
인천,수도권,2890451,2632035.0,2517680,2466338
대구,경상권,2466052,2431774.0,1456016,2473990


In [60]:
# 특정 열을 기준으로 전체 데이터를 정렬
pop.sort_values(by='2005', ascending=True)

# 2020년 데이터 추가
pop['2020'] = [9904312, 3448737, 2890451, 2466052]
pop

Unnamed: 0_level_0,지역,2015,2010,2005,2000,2020
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482.0,9762546,9853972,9904312
부산,경상권,3448737,3567910.0,3512547,3655437,3448737
인천,수도권,2890451,2632035.0,2517680,2466338,2890451
대구,경상권,2466052,2431774.0,1456016,2473990,2466052


In [61]:
# DF에서 데이터 삭제
# axis=0 : 행 삭제, axis=1 : 열 삭제
pop.drop('2020', axis=1, inplace=True)
pop

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546,9853972
부산,경상권,3448737,3567910.0,3512547,3655437
인천,수도권,2890451,2632035.0,2517680,2466338
대구,경상권,2466052,2431774.0,1456016,2473990


#### <span style="color:rgb(159, 226, 191); font-weight:bold">  read_csv (score)</span>

In [62]:
score = pd.read_csv('data/score.csv', encoding='euc-kr', index_col=0)
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [63]:
# 학급별 점수 총합
score.sum(axis=0)
# 과목별 점수 총합
score.sum(axis=1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [64]:
# score 과목별 합계를 '합계' 컬럼으로 추가
score['합계'] = score.sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [65]:
# '평균' 컬럼으로 과목별 평균 점수 추가
score['평균'] = score.loc[:, '1반':'4반'].mean(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


#### <span style="color:rgb(159, 226, 191); font-weight:bold">  apply 함수 </span>
>- 행 또는 열 단위로 복잡한 함수를 적용하고 싶을 때 사용하는 기능
>- pasbas에서 다른 함수를 적용할 때 주로 사용
>- DataFrame명 .apply(함수명)


In [66]:
date_list = [{'yyyy-mm-dd' : '2003-03-13'},
            {'yyyy-mm-dd' : '2017-10-20'},
            {'yyyy-mm-dd' : '2022-05-28'}]

date_df = pd.DataFrame(date_list)

In [67]:
# 텍스트를 분리하여 년도만 가져오는 함수 생성
def extract_year(data):
    return data.split("-")[0]

In [68]:
date_df['year'] = date_df['yyyy-mm-dd'].apply(extract_year)
date_df

Unnamed: 0,yyyy-mm-dd,year
0,2003-03-13,2003
1,2017-10-20,2017
2,2022-05-28,2022


In [69]:
df = pd.DataFrame( {'A':[1,3,3,4,4],
                    'B':[1,2,2,3,3],
                    'C':[1,2,4,4,5]} )
df

Unnamed: 0,A,B,C
0,1,1,1
1,3,2,2
2,3,2,4
3,4,3,4
4,4,3,5


In [70]:
# 실제 데이터의 갯수를 세어주는 함수
df['A'].value_counts()
df.apply(pd.value_counts)

A
3    2
4    2
1    1
Name: count, dtype: int64

In [73]:
result = df.apply(pd.value_counts)

  result = df.apply(pd.value_counts)


In [74]:
result.fillna(0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


#### <span style="color:rgb(159, 226, 191); font-weight:bold">  DataFrame 범주화 </span>

In [75]:
# 나이 데이터를 가지고 4개의 카테고리로 정리
# 0~19 미성년,   20~40 청년,   41~60 중년,   61~100 노년

# 데이터 준비
ages = [0, 2, 10, 15, 21, 23, 25, 44, 96, 60, 75, 33, 31, 55, 85]

# 카테고리 준비
labels = ['미성년자', '청년', '중년', '노년']

# 카테고리 정의 (시작은 +1를 수행 하기 때문에 0이 아니라 -1)
bins = [-1, 19, 40, 60, 100]

In [106]:
cate = pd.cut(x=ages, bins=bins, labels=labels)
cate

['미성년자', '미성년자', '미성년자', '미성년자', '청년', ..., '노년', '청년', '청년', '중년', '노년']
Length: 15
Categories (4, object): ['미성년자' < '청년' < '중년' < '노년']

In [108]:
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3'],
                    'C':['C0','C1','C2','C3']})

df2 = pd.DataFrame({'A':['A4','A5','A6','A7'],
                    'B':['B4','B5','B6','B7'],
                    'C':['C4','C5','C6','C7']})

df3 = pd.DataFrame({'A':['A8','A9','A10','A11'],
                    'B':['B8','B9','B10','B11'],
                    'C':['C8','C9','C10','C11']})

In [109]:
# DataFrame 병합 : concat
pd.concat([df1, df2, df3])

# # 병합 조건 추가
# pd.concat([df1, df2, df3], axis=1)

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
0,A4,B4,C4
1,A5,B5,C5
2,A6,B6,C6
3,A7,B7,C7
0,A8,B8,C8
1,A9,B9,C9
