## Pandas

In [1]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd

## Series

### 1개의 컬럼 값으로 구성된 1차원 데이터 셋

In [16]:
data = ["A", "B", "C", "D"]
se = pd.Series(data)
se

0    A
1    B
2    C
3    D
dtype: object

In [17]:
se.index   # 데이터 개수 파악

RangeIndex(start=0, stop=4, step=1)

In [18]:
se.values   # 데이터 값

array(['A', 'B', 'C', 'D'], dtype=object)

In [19]:
# 인덱싱
print(se[1])
print(se[3])

B
D


In [20]:
# 슬라이싱
print(se[:3])
print(se[:])

0    A
1    B
2    C
dtype: object
0    A
1    B
2    C
3    D
dtype: object


In [21]:
# 컬럼 이름 변경
se.name = "alphabet"
se

0    A
1    B
2    C
3    D
Name: alphabet, dtype: object

In [22]:
# 인덱스 이름 설정
se.index.name = "No."
se

No.
0    A
1    B
2    C
3    D
Name: alphabet, dtype: object

In [23]:
# Series 생성시 index 지정하기
data = ["A", "B", "C", "D"]
se = pd.Series(data, index=['a', 'b', 'c', 'd'])
print(se)
print(se['a'])   # index 값으로 가져오기

a    A
b    B
c    C
d    D
dtype: object
A


In [24]:
data = ["A", "B", "C", "D"]
se = pd.Series(data)
se

0    A
1    B
2    C
3    D
dtype: object

In [25]:
# Series 생성 이후 index 지정하기
se.index = [1, 2, 3, 4]
print(se)

1    A
2    B
3    C
4    D
dtype: object


## DataFrame

In [None]:
import numpy as np

data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
column = ['D', 'E', 'F']

df = pd.DataFrame(data = data, index = ['A', 'B', 'C'], columns = column)
df

# df = pd.read_csv("data.csv")

In [27]:
# DataFrame 생성
data = {
    'country' : ["kor", "usa", "china", "japan"],
    'rank' : [1, 2, 3, 4],
    'grade' : ["A", "B", "C", "D"]
    }

df = pd.DataFrame(data)
df

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C
3,japan,4,D


In [28]:
# (1) DataFrame 생성시 인덱스 지정
df = pd.DataFrame(data, index = ["A", "B", "C", "D"])
df

Unnamed: 0,country,rank,grade
A,kor,1,A
B,usa,2,B
C,china,3,C
D,japan,4,D


In [30]:
# (2) df.index로 인덱스 지정
df.index = ["A", "B", "C", "D"]
df

Unnamed: 0,country,rank,grade
A,kor,1,A
B,usa,2,B
C,china,3,C
D,japan,4,D


In [31]:
# (3) df.set_index로 인덱스 지정
df = df.set_index('grade')
df

Unnamed: 0_level_0,country,rank
grade,Unnamed: 1_level_1,Unnamed: 2_level_1
A,kor,1
B,usa,2
C,china,3
D,japan,4


## 데이터 셀랙션

### DataFrame에서 값을 불러오는 방법

    ### 1.[]
    ### ex) df.컬럼, df.['컬럼'], df[1:3]
    
    ### 2. loc[인덱스명, 컬럼명] # 명칭(label) 기반 인덱싱
    ### - label이나 boolean array로 인덱싱하는 방법
    ### - 사람이 읽을 수 있는 라벨 값으로 특정 값들을 골라오는 방법
    
    ### 3. iloc[인덱스, 컬럼인덱스] # 위치(position) 기반 인덱싱

In [33]:
# DataFrame 생성
data = {
    'country' : ["kor", "usa", "china", "japan"],
    'rank' : [1, 2, 3, 4],
    'grade' : ["A", "B", "C", "D"]
    }
df = pd.DataFrame(data)
df

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C
3,japan,4,D


In [34]:
# (1) df.컬럼, df['컬럼']

## 하나의 컬럼 조희
df.country

0      kor
1      usa
2    china
3    japan
Name: country, dtype: object

In [35]:
df['country']

0      kor
1      usa
2    china
3    japan
Name: country, dtype: object

In [36]:
## 둘 이상의 컬럼 조회
print(df[['country', 'grade']])   # 대괄호 2번 감싸야 DF 형식이 된다.

  country grade
0     kor     A
1     usa     B
2   china     C
3   japan     D


In [37]:
# (2) loc[인덱스명, 컬럼명]

## 인덱스 값이 0인 행 조회
df.loc[0]

country    kor
rank         1
grade        A
Name: 0, dtype: object

In [38]:
## 2개 이상의 행 조회
df.loc[0:2]

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C


In [39]:
df.loc[[0, 2]]   # 인덱스 값 0, 2 행 가져오기

Unnamed: 0,country,rank,grade
0,kor,1,A
2,china,3,C


In [40]:
df.loc[0, 'grade']   # 행과 열의 좌표

'A'

In [41]:
df.loc[0:2, ['country', 'grade']]

Unnamed: 0,country,grade
0,kor,A
1,usa,B
2,china,C


In [42]:
df.loc[(df['grade']=="A") | (df['rank']>2)]

Unnamed: 0,country,rank,grade
0,kor,1,A
2,china,3,C
3,japan,4,D
