<a href="https://colab.research.google.com/github/kim-dahun/python-study/blob/main/py14_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 패키지 임포트



In [1]:
import numpy as np
import pandas as pd


# Series

* 한 가지 타입의 여러 개의 값들을 저장할 수 있는 1차원 모양의 데이터 타입.(클래스)
* 축 레이블(axis label)을 가지고 있는 1차원 배열(ndarray)

In [2]:
s = pd.Series(data=[1,2,-3,-4,5,-6])

In [3]:
s.sum(axis=0)

-5

In [4]:
type(s)

pandas.core.series.Series

In [5]:
print(s)

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64


## Series 속성(attribute)

In [6]:
s.values # Series의 값들로 이루어진 ndarray

array([ 1,  2, -3, -4,  5, -6])

In [7]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [8]:
s = pd.Series(data=[1,2,3],index=['a','b','c'])

In [10]:
print(s)

a    1
b    2
c    3
dtype: int64


In [11]:
s.index

Index(['a', 'b', 'c'], dtype='object')

## indexing, slicing

* `iloc` : Integer Location 정수 인덱스(ndarray의 기본인덱스) 기반으로 원소를 참조하는 방법.
* `loc` : location. 레이블 기반의 원소 참조 또는 슬라이싱

In [14]:
np.random.seed(2)
s1 = pd.Series(data=np.random.randint(-10,10, size=6))

In [15]:
s1

0   -2
1    5
2    3
3   -2
4    1
5    8
dtype: int64

In [16]:
print(s1.iloc[0])
print(s1.iloc[-1])

-2
8


In [17]:
# iloc를 사용한 슬라이싱
print(s1.iloc[0:3]) # Series에서 첫 3개 원소 자르기

0   -2
1    5
2    3
dtype: int64


In [19]:
print(s1.iloc[-3:]) # Series에서 마지막 3개 원소 자르기

3   -2
4    1
5    8
dtype: int64


In [20]:
# loc를 사용한 인덱싱
print(s1.loc[0]) # Series의 첫번쨰 원소

-2


In [22]:
# -1, -2 인덱스는 없기 때문에 loc로는 음수인덱스 사용 불가. s1.loc[-1]

In [23]:
# loc를 사용한 슬라이싱
print(s1.loc[0:2])

0   -2
1    5
2    3
dtype: int64


In [24]:
np.random.seed(42)
s2 = pd.Series(data=np.random.randint(-10,11,size=6), index=['a','b','c','d','e','f'])

s2

a    -4
b     9
c     4
d     0
e    -3
f    10
dtype: int64

In [25]:
s2.iloc[0]

-4

In [26]:
s2.iloc[-1]

10

In [28]:
s2.iloc[:3]

a   -4
b    9
c    4
dtype: int64

In [29]:
s2.loc[:'c']

a   -4
b    9
c    4
dtype: int64

In [30]:
s2.loc['f']

10

In [31]:
s2.loc[['a','b','c']] # loc 속성을 사용한 fancy indexing

a   -4
b    9
c    4
dtype: int64

In [32]:
s2.iloc[[0,2,4]] # iloc 속성을 이용한 fancy indexing

a   -4
c    4
e   -3
dtype: int64

In [33]:
s2 > 0

a    False
b     True
c     True
d    False
e    False
f     True
dtype: bool

In [34]:
s2.loc[s2>0]

b     9
c     4
f    10
dtype: int64

# DataFrame

* 데이터를 2차원(행 row, 열 column) 형태로 저장하는 데이터 타입(클래스)
* 데이터 베이스의 테이블과 비슷한 구조.
* DataFrame 에서 컬럼은 Series 타입.

In [35]:
# dict

data = {
    'city' : ['서울'] * 3 + ['경기'] * 3,
    'year' : [2021,2022,2023] * 2,
    'pop' : np.random.random(size=6)
}

In [36]:
data

{'city': ['서울', '서울', '서울', '경기', '경기', '경기'],
 'year': [2021, 2022, 2023, 2021, 2022, 2023],
 'pop': array([0.15601864, 0.15599452, 0.05808361, 0.86617615, 0.60111501,
        0.70807258])}

In [38]:
x = pd.DataFrame(data = data)

In [39]:
x

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')


In [40]:
print(x)

  city  year       pop
0   서울  2021  0.156019
1   서울  2022  0.155995
2   서울  2023  0.058084
3   경기  2021  0.866176
4   경기  2022  0.601115
5   경기  2023  0.708073


In [41]:
x.shape #> (row 갯수, column 갯수)

(6, 3)

In [42]:
x.index #> 행 레이블(row label)

RangeIndex(start=0, stop=6, step=1)

In [44]:
x.columns

Index(['city', 'year', 'pop'], dtype='object')

# DataFrame에서 컬럼 선택

* `df['column_name']`
  * 항상 사용 가능
* `df.column_name`
  * 컬럼 이름이 Python 변수 이름 규칙에 맞지 않는 경우는 사용할 수 없음.
    * 변수 이름은 영문자, 숫자, underScore(_) 만 사용 가능.
    * 변수 이름은 숫자로 시작 불가능.
  * 컬럼 이름이 DataFrame 객체가 원래 가지고 있는 속성(필드, 메서드) 이름과 같은 경우에는 사용할 수 없음.

In [45]:
x['city']

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [46]:
x['pop']

0    0.156019
1    0.155995
2    0.058084
3    0.866176
4    0.601115
5    0.708073
Name: pop, dtype: float64

In [47]:
x.pop #> pop 컬럼 선택이 아니라, DataFrame의 pop 메서드를 사용

<bound method DataFrame.pop of   city  year       pop
0   서울  2021  0.156019
1   서울  2022  0.155995
2   서울  2023  0.058084
3   경기  2021  0.866176
4   경기  2022  0.601115
5   경기  2023  0.708073>

두 개 이상의 Column 선택 - fancy Indexing

In [49]:
x[['city','pop']]

Unnamed: 0,city,pop
0,서울,0.156019
1,서울,0.155995
2,서울,0.058084
3,경기,0.866176
4,경기,0.601115
5,경기,0.708073
