###### 판다스는 1차원 배열 형태의 시리즈 자료 구조와 2차원 배열 형태의 데이터 프레임 자료 구조를 지원한다. 데이터 프레임은 엑셀의 테이블과 비슷하게 행과 열로 만들어진다.

In [1]:
import pandas as pd
print(pd.__version__)

2.0.2


In [3]:
data1 = ['a','b','c','d','e']
print(data1)
print("자료형:", type(data1))

['a', 'b', 'c', 'd', 'e']
자료형: <class 'list'>


In [4]:
sr1 = pd.Series(data1)
print("자료형:", type(sr1))

자료형: <class 'pandas.core.series.Series'>


In [5]:
print(sr1)
# 문자열 데이터가 숫자형 인덱스와 짝을 이루는 형태
# dtype는 자료형을 나타내고, object는 문자열을 말한다.

0    a
1    b
2    c
3    d
4    e
dtype: object


In [6]:
# 시리즈의 객체 원소를 추출할 때는 loc인덱서를 사용한다.
sr1.loc[0]
# 첫번째 인덱스 0을 입력하면 'a' 값이 출력된다.

'a'

In [8]:
sr1.loc[1:3]
# 주의할점은 범위의 마지막 인덱스에 해당하는 원소도 포함되어 추출된다.

1    b
2    c
3    d
dtype: object

In [9]:
data2 = (1,2,3.14,100,-10)
sr2 = pd.Series(data2)
print(sr2)

0      1.00
1      2.00
2      3.14
3    100.00
4    -10.00
dtype: float64


In [10]:
# 1차원 구조의 시리즈를 여러 개 결합하면 데이터프레임을 만들 수 있다.
# 시리즈 2개를 원소로 갖는 딕셔너리를 정의하고,
# DataFrame 함수에 입력한다. 딕셔너리의 key에 해당하는 값이
# 각 열의 이름이 되고, 딕셔너리의 value에 해당하는 시리즈가 열의 데이터로 변환된다.
dict_data = {'c0':sr1, 'c1': sr2}
df1 = pd.DataFrame(dict_data)
df1

Unnamed: 0,c0,c1
0,a,1.0
1,b,2.0
2,c,3.14
3,d,100.0
4,e,-10.0


In [11]:
# 데이터 프레임의 2차원 구조(행,렬) 딕셔너리 key는 c0, c1이며
# 각각 sr1, sr2의 value를 갖는다.
type(df1)
# 데이터프레임의 열 이름은 columns 속성으로 추출한다.
# 딕셔너리 키인 c0과 c1이 데이터 프레임의
# 열 이름으로 변환됨을 알 수 있다. 

pandas.core.frame.DataFrame

In [12]:
df1.columns

Index(['c0', 'c1'], dtype='object')

In [14]:
df1.columns = ['string', 'number']
df1
# columns속성에 새로운 열의 이름의 배열을 지정하는 방식으로 열의 이름을 재구성할수 있다.

Unnamed: 0,string,number
0,a,1.0
1,b,2.0
2,c,3.14
3,d,100.0
4,e,-10.0


In [17]:
df1.index

RangeIndex(start=0, stop=5, step=1)

In [19]:
df1.index = ['r0','r1','r2','r3','r4']
df1
# 속성에 새로운 행 인덱스 배열을 지졍하여 다음과 같이 행 인덱스를 입력할 수 있다.

Unnamed: 0,string,number
r0,a,1.0
r1,b,2.0
r2,c,3.14
r3,d,100.0
r4,e,-10.0


In [21]:
df1.loc['r2','number']
# 데이터 프레임의 일부분을 추출할때 loc 인덱서를 사용한다.
# loc[행인덱스, 열이름] 형태로 입력하면 해당 위치의 원소를 추출한다.

3.14

In [23]:
df1.loc['r2':'r3','string':'number']
# loc 인덱서에 범위를 지정하는 방법
# 행 인덱스 옵션에 'r2':'r3' 범위를 지정하고
# 열 이름옵션에 'string':'number' 범위를 설정한다.

Unnamed: 0,string,number
r2,c,3.14
r3,d,100.0


In [24]:
df1.loc['r2':'r3','number']
# 위와 다르다는 것을 인지할 것
# loc 인덱서의 행 인덱스 옵션에 'r2':'r3' 범위를 지정하고
# 열 이름 옵션에 'number' 열을 추가하면
# r2부터 r3행이 선택되고 그중에 number열을 선택하여 출력한다.

r2      3.14
r3    100.00
Name: number, dtype: float64

In [25]:
df1.loc['r2','string':'number']
# loc인덱서의 행 인덱스 옵션에 'r2'를 지정하고
# 열 이름 옵션에 'string':'number'범위를 지정한다.
# 이 경우 string 열부터 number열까지 선택되고 r2행이 선택된다.
# **시리즈 객체가 추출된다.

string       c
number    3.14
Name: r2, dtype: object

In [26]:
df1.loc[:,'string']
# loc 인덱서의 행 인덱스 옵션에 모든(:) 행을 지정하고,
# 열 이름 옵션에 'string'열을 지정한다.
# 'string'열의 데이터가 모두 선택된다. 시리즈 객체가 추출된다.

r0    a
r1    b
r2    c
r3    d
r4    e
Name: string, dtype: object

In [28]:
df1.loc['r2':'r3', :]
# loc인덱서의 행 인덱스 옵션에 'r2':'r3' 범위를 지정하고
# 열 이름 옵션에 모든(:) 열을 지정한다.
# 행 2개, 열 2개인 데이터프레임이 추출된다.

Unnamed: 0,string,number
r2,c,3.14
r3,d,100.0


In [1]:
v = list(range(10))
print(v)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [3]:
[i for i in v]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [4]:
print("".join(str(i) for i in v))

0123456789


In [5]:
v = [list(range(10)), [10,11,12]]
print(v)

[[0, 1, 2, 3, 4, 5, 6, 7, 8, 9], [10, 11, 12]]


In [6]:
[j for i in v for j in i]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

In [8]:
v = 3
if v< 5 : print(0)
print(0 if v < 5 else 1)

0
0


In [9]:
v = 6
if v > 5 : print(1)
print(1 if v > 5 else 0)

1
1


In [13]:
v = 11
print(0 if v < 5 else 1 if v < 10 else 2)

2


In [14]:
v = list(range(10))
print(v)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [16]:
[i for i in v if i == 6]

[6]

In [18]:
for i in v:
    if i == 6:
        print(i)
    else:
        print("0")
# [i for i in v if i ==6 else 0]
[i if i == 6 else "0" for i in v]

0
0
0
0
0
0
6
0
0
0


['0', '0', '0', '0', '0', '0', 6, '0', '0', '0']