## Pandas를 사용하는 이유
1) 데이터 분석 업무의 80% 정도가 데이터를 수집하고 정제하는 과정  
2) pandas 라이브러리는 데이터를 수집하고 정제하기에 적합함(2차원 데이터에 강점)  
3) pandas 라이브러리를 사용하면 공통된 형태로 데이터를 정리하기에 유용함  
4) 실행 속도가 빠른 편

### Pandas의 1차원 자료형 - Series
- 1차원적인 데이터 형식
- 파이썬의 딕션리와 유사함

In [1]:
import pandas as pd

In [2]:
a = {'a': 10, 'b': 20, 'c': 30, 'd': 40, 'e': 50}

In [3]:
a

{'a': 10, 'b': 20, 'c': 30, 'd': 40, 'e': 50}

In [4]:
type(a)

dict

In [5]:
b = pd.Series(a)

In [6]:
b

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [7]:
type(b)

pandas.core.series.Series

In [9]:
b.shape

(5,)

In [10]:
import numpy as np

In [11]:
aa = np.arange(3,10)

In [12]:
aa

array([3, 4, 5, 6, 7, 8, 9])

In [13]:
bb = pd.Series(aa)

In [14]:
bb    # 자동으로 숫자 인덱스가 붙는다.

0    3
1    4
2    5
3    6
4    7
5    8
6    9
dtype: int32

In [15]:
type(bb)

pandas.core.series.Series

In [16]:
bb.shape

(7,)

In [17]:
a

{'a': 10, 'b': 20, 'c': 30, 'd': 40, 'e': 50}

In [18]:
a.keys()

dict_keys(['a', 'b', 'c', 'd', 'e'])

In [19]:
a.values()

dict_values([10, 20, 30, 40, 50])

In [20]:
b

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [21]:
b.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [22]:
b.values

array([10, 20, 30, 40, 50], dtype=int64)

In [23]:
c = [10, 20, 30, 40, 50]

In [24]:
d = pd.Series(c)

In [25]:
d

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [26]:
type(d)

pandas.core.series.Series

In [27]:
d.shape

(5,)

In [28]:
d.index

RangeIndex(start=0, stop=5, step=1)

In [29]:
d.values

array([10, 20, 30, 40, 50], dtype=int64)

In [30]:
e = ['a','b','c','d','e']

In [31]:
f = [10, 20, 30, 40, 50]

In [32]:
g = pd.Series(f, index = e)

In [33]:
g

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [34]:
g['a']

10

In [35]:
g[0]

10

In [36]:
g['a':'d']  # 끝 포함O

a    10
b    20
c    30
d    40
dtype: int64

In [37]:
g[0:4]  # 끝 포함X

a    10
b    20
c    30
d    40
dtype: int64

### Pandas의 2차원 자료형 - DataFrame1
- 2차원적인 데이터 형식
- 행렬 구조를 가짐

In [38]:
import pandas as pd

In [39]:
a = {'a':[1,2,3], 'b':[1,3,5], 'c':[2,4,6], 'd':[3,6,9]}

In [40]:
a

{'a': [1, 2, 3], 'b': [1, 3, 5], 'c': [2, 4, 6], 'd': [3, 6, 9]}

In [41]:
df1 = pd.DataFrame(a)

In [42]:
df1

Unnamed: 0,a,b,c,d
0,1,1,2,3
1,2,3,4,6
2,3,5,6,9


In [43]:
type(df1)

pandas.core.frame.DataFrame

In [44]:
df1.shape

(3, 4)

In [45]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   a       3 non-null      int64
 1   b       3 non-null      int64
 2   c       3 non-null      int64
 3   d       3 non-null      int64
dtypes: int64(4)
memory usage: 224.0 bytes


In [46]:
import numpy as np

In [47]:
b = np.arange(12).reshape(3,4)

In [48]:
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [49]:
df2 = pd.DataFrame(b)

In [50]:
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [51]:
type(df2)

pandas.core.frame.DataFrame

In [52]:
df2.shape

(3, 4)

In [53]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       3 non-null      int32
 1   1       3 non-null      int32
 2   2       3 non-null      int32
 3   3       3 non-null      int32
dtypes: int32(4)
memory usage: 176.0 bytes


In [60]:
df = pd.DataFrame([[1,20,'서울'],[2,25,'대전']],
                 index = ['홍길동', '홍길순'],
                 columns = ['순서', '나이', '지역'])

In [61]:
df

Unnamed: 0,순서,나이,지역
홍길동,1,20,서울
홍길순,2,25,대전


In [62]:
type(df)

pandas.core.frame.DataFrame

In [63]:
df.shape

(2, 3)

In [64]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, 홍길동 to 홍길순
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   순서      2 non-null      int64 
 1   나이      2 non-null      int64 
 2   지역      2 non-null      object
dtypes: int64(2), object(1)
memory usage: 64.0+ bytes


In [65]:
df.index

Index(['홍길동', '홍길순'], dtype='object')

In [66]:
df.columns

Index(['순서', '나이', '지역'], dtype='object')

In [67]:
df.values

array([[1, 20, '서울'],
       [2, 25, '대전']], dtype=object)

In [68]:
df.index = ['사람 1','사람 2']

In [70]:
df

Unnamed: 0,순서,나이,지역
사람 1,1,20,서울
사람 2,2,25,대전


In [71]:
df.columns = ['연번','연령','도시']

In [72]:
df

Unnamed: 0,연번,연령,도시
사람 1,1,20,서울
사람 2,2,25,대전


In [73]:
df = df.rename(index = {'사람 1': '홍길동'})    # 이름 바꾸기, 딕셔너리 형태로 입력

In [74]:
df

Unnamed: 0,연번,연령,도시
홍길동,1,20,서울
사람 2,2,25,대전


In [77]:
df = df.rename(columns = {'연번': '순서', '연령': '나이'})

In [78]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전


### Pandas의 2차원 자료형 - DataFrame2
- 행 추가
- 열 추가
- 값 변경
- 행 삭제
- 열 삭제

In [79]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전


In [80]:
df.loc['사람 3'] = [3, 30, '부산']

In [81]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산


In [82]:
df.loc['사람 4'] = 0

In [83]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 4,0,0,0


In [84]:
df.loc['사람 1'] = df.loc['홍길동']

In [85]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 4,0,0,0
사람 1,1,20,서울


In [86]:
df['나이대'] = ['20대','20대','30대','0대','20대']

In [87]:
df

Unnamed: 0,순서,나이,도시,나이대
홍길동,1,20,서울,20대
사람 2,2,25,대전,20대
사람 3,3,30,부산,30대
사람 4,0,0,0,0대
사람 1,1,20,서울,20대


In [88]:
df['직업'] = '학생'

In [89]:
df

Unnamed: 0,순서,나이,도시,나이대,직업
홍길동,1,20,서울,20대,학생
사람 2,2,25,대전,20대,학생
사람 3,3,30,부산,30대,학생
사람 4,0,0,0,0대,학생
사람 1,1,20,서울,20대,학생


In [90]:
df.loc['사람 4', '순서'] = 4

In [91]:
df

Unnamed: 0,순서,나이,도시,나이대,직업
홍길동,1,20,서울,20대,학생
사람 2,2,25,대전,20대,학생
사람 3,3,30,부산,30대,학생
사람 4,4,0,0,0대,학생
사람 1,1,20,서울,20대,학생


In [92]:
df.iloc[3, 1] = 10   # 사람 4, 나이 선택

In [93]:
df

Unnamed: 0,순서,나이,도시,나이대,직업
홍길동,1,20,서울,20대,학생
사람 2,2,25,대전,20대,학생
사람 3,3,30,부산,30대,학생
사람 4,4,10,0,0대,학생
사람 1,1,20,서울,20대,학생


In [94]:
df.loc['사람 4', ['도시', '나이대']] = '광주', '10대'

In [95]:
df

Unnamed: 0,순서,나이,도시,나이대,직업
홍길동,1,20,서울,20대,학생
사람 2,2,25,대전,20대,학생
사람 3,3,30,부산,30대,학생
사람 4,4,10,광주,10대,학생
사람 1,1,20,서울,20대,학생


In [96]:
df.iloc[3, [1, 3]] = 40, '40대'

In [97]:
df

Unnamed: 0,순서,나이,도시,나이대,직업
홍길동,1,20,서울,20대,학생
사람 2,2,25,대전,20대,학생
사람 3,3,30,부산,30대,학생
사람 4,4,40,광주,40대,학생
사람 1,1,20,서울,20대,학생


In [98]:
df = df.drop('사람 4', axis = 0)    # 행 단위 삭제: axis = 0

In [99]:
df

Unnamed: 0,순서,나이,도시,나이대,직업
홍길동,1,20,서울,20대,학생
사람 2,2,25,대전,20대,학생
사람 3,3,30,부산,30대,학생
사람 1,1,20,서울,20대,학생


In [100]:
df = df.drop(['나이대','직업'], axis = 1)    # 열 단위 삭제: axis = 1

In [101]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,1,20,서울


### Pandas의 2차원 자료형 - DataFrame3
- 전체 복사
- 부분 복사

In [102]:
df2 = df

In [103]:
df2

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,1,20,서울


In [104]:
df2.loc['사람 1', '순서'] = 4

In [105]:
df2

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,4,20,서울


In [106]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,4,20,서울


In [107]:
df3 = df.copy()

In [108]:
df3

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,4,20,서울


In [109]:
df3.loc['사람 1','순서'] = 5

In [110]:
df3

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,5,20,서울


In [111]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,4,20,서울


In [112]:
hong = df.loc['홍길동']

In [113]:
hong

순서     1
나이    20
도시    서울
Name: 홍길동, dtype: object

In [114]:
type(hong)

pandas.core.series.Series

In [115]:
hong.shape

(3,)

In [116]:
gil = df.iloc[0]

In [117]:
gil

순서     1
나이    20
도시    서울
Name: 홍길동, dtype: object

In [118]:
type(gil)

pandas.core.series.Series

In [119]:
gil.shape

(3,)

In [120]:
df4 = df.loc[['홍길동','사람 1']]

In [121]:
df4

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 1,4,20,서울


In [122]:
type(df4)

pandas.core.frame.DataFrame

In [124]:
df5 = df.iloc[[0,3]]

In [125]:
df5

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 1,4,20,서울


In [126]:
df6 = df.loc['홍길동':'사람 3']    # 사람 3 포함

In [127]:
df6

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산


In [128]:
df7= df.iloc[0:3]    # 인덱스 3 전까지

In [129]:
df7

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산


In [130]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,4,20,서울


In [131]:
df8 = df[['나이']]    # 대괄호 2개를 써야 데이터프레임 구조 유지

In [132]:
df8

Unnamed: 0,나이
홍길동,20
사람 2,25
사람 3,30
사람 1,20


In [133]:
df9 = df['나이']    # 대괄호 1개만 쓰면 시리즈 구조

In [134]:
df9

홍길동     20
사람 2    25
사람 3    30
사람 1    20
Name: 나이, dtype: int64

In [135]:
type(df8)

pandas.core.frame.DataFrame

In [136]:
type(df9)

pandas.core.series.Series

In [137]:
df10 = df[['나이','도시']]

In [138]:
df10

Unnamed: 0,나이,도시
홍길동,20,서울
사람 2,25,대전
사람 3,30,부산
사람 1,20,서울


In [139]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,4,20,서울


In [140]:
df11 = df.loc[['홍길동','사람 1'],['나이','도시']]

In [141]:
df11

Unnamed: 0,나이,도시
홍길동,20,서울
사람 1,20,서울


In [142]:
df12 = df.iloc[[0,3],[1,2]]

In [143]:
df12

Unnamed: 0,나이,도시
홍길동,20,서울
사람 1,20,서울


### Pandas의 2차원 자료형 - DataFrame4
- 인덱스
- 정렬
- 전치
- 치환

In [144]:
a = {'이름':['홍길동','사람 1','사람 2'], '나이':[20,30,25], '도시':['서울','서울','대전']}

In [145]:
df = pd.DataFrame(a)

In [146]:
df

Unnamed: 0,이름,나이,도시
0,홍길동,20,서울
1,사람 1,30,서울
2,사람 2,25,대전


In [147]:
df2 = df.set_index(['이름'])

In [148]:
df2

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,20,서울
사람 1,30,서울
사람 2,25,대전


In [151]:
df3 = df2.set_index(['도시'])

In [152]:
df3

Unnamed: 0_level_0,나이
도시,Unnamed: 1_level_1
서울,20
서울,30
대전,25


In [153]:
df2

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,20,서울
사람 1,30,서울
사람 2,25,대전


In [154]:
df3 = df2.reset_index()

In [155]:
df3

Unnamed: 0,이름,나이,도시
0,홍길동,20,서울
1,사람 1,30,서울
2,사람 2,25,대전


In [156]:
df3 = df3.set_index(['도시'])

In [157]:
df3

Unnamed: 0_level_0,이름,나이
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,홍길동,20
서울,사람 1,30
대전,사람 2,25


In [158]:
df2

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,20,서울
사람 1,30,서울
사람 2,25,대전


In [159]:
df2 = df2.sort_index(ascending = True)    # 오름차순 정렬

In [160]:
df2

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
사람 1,30,서울
사람 2,25,대전
홍길동,20,서울


In [161]:
df2 = df2.sort_index(ascending = False)    # 내림차순 정렬

In [162]:
df2

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,20,서울
사람 2,25,대전
사람 1,30,서울


In [163]:
df2 = df2.sort_values(by = '나이', ascending = True)

In [164]:
df2

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,20,서울
사람 2,25,대전
사람 1,30,서울


In [165]:
df2 = df2.sort_values(by = '나이', ascending = False)

In [166]:
df2

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
사람 1,30,서울
사람 2,25,대전
홍길동,20,서울


In [167]:
df2 = df2.T    # 전치(Trnaspose)

In [168]:
df2

이름,사람 1,사람 2,홍길동
나이,30,25,20
도시,서울,대전,서울


In [169]:
df2 = df2.T

In [170]:
df2

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
사람 1,30,서울
사람 2,25,대전
홍길동,20,서울


In [171]:
df2['나이대'] = ['30대','20대','20대']

In [172]:
df2

Unnamed: 0_level_0,나이,도시,나이대
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
사람 1,30,서울,30대
사람 2,25,대전,20대
홍길동,20,서울,20대


In [173]:
df2 = df2.reset_index()

In [174]:
df2

Unnamed: 0,이름,나이,도시,나이대
0,사람 1,30,서울,30대
1,사람 2,25,대전,20대
2,홍길동,20,서울,20대


In [175]:
b = {'20대': 2, '30대': 3}

In [176]:
df2['나이대'] = df2['나이대'].map(b)    # map(딕셔너리)을 이용해서 정보 바꾸기

In [177]:
df2

Unnamed: 0,이름,나이,도시,나이대
0,사람 1,30,서울,3
1,사람 2,25,대전,2
2,홍길동,20,서울,2


In [178]:
df2.info()    # 나이대의 Dtype이 숫자형으로 바뀌었다.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   나이      3 non-null      object
 2   도시      3 non-null      object
 3   나이대     3 non-null      int64 
dtypes: int64(1), object(3)
memory usage: 224.0+ bytes
