## Pandas의 데이터 형식

### 시리즈(Series) 형식

In [1]:
import pandas as pd

pd.Series([7,3,5,8])

0    7
1    3
2    5
3    8
dtype: int64

In [2]:
x = pd.Series([7,3,5,8], index=['서울','대구','부산','광주'])
print(x)
x['서울']

서울    7
대구    3
부산    5
광주    8
dtype: int64


7

In [3]:
x[['서울', '대구']]

서울    7
대구    3
dtype: int64

In [4]:
x.index

Index(['서울', '대구', '부산', '광주'], dtype='object')

In [5]:
print(sorted(x.index))
print(sorted(x.values))

['광주', '대구', '부산', '서울']
[3, 5, 7, 8]


In [6]:
x.reindex(sorted(x.index))
x

서울    7
대구    3
부산    5
광주    8
dtype: int64

In [7]:
x = pd.Series([3, 8, 5, 9], index=['서울', '대구', '부산', '광주'])
y = pd.Series([2, 4, 5, 1], index=['대구', '부산', '서울', '대전'])

x + y

광주     NaN
대구    10.0
대전     NaN
부산     9.0
서울     8.0
dtype: float64

In [8]:
medal = [1, 3, 2, 4, 2, 3]

x = pd.Series(medal)

print(pd.unique(x))

[1 3 2 4]


In [9]:
medal = ['민준', '현우', '서연', '동현', '서연', '현우']

x = pd.Series(medal)

print(pd.unique(x))

['민준' '현우' '서연' '동현']


In [12]:
age = {'민준': 23, '현우': 43, '서연': 12, '동현': 45}

x = pd.Series(age)
x

민준    23
현우    43
서연    12
동현    45
dtype: int64

In [13]:
names = ['민준', '서연', '현우', '민서', '동현', '수빈']

pdata = pd.Series(names)
print(pdata)

0    민준
1    서연
2    현우
3    민서
4    동현
5    수빈
dtype: object


In [14]:
a = pdata[3:6]
print(a.values)

['민서' '동현' '수빈']


In [15]:
print(a)

3    민서
4    동현
5    수빈
dtype: object


### 데이터프레임(DataFrame)

In [16]:
data = {
    'age': [23, 43, 12, 45],
    'name': ['민준', '현우', '서연', '동현'],
    'height': [175.3, 180.3, 165.8, 172.7]
}

x = pd.DataFrame(data, columns=['name', 'age', 'height'])
x

Unnamed: 0,name,age,height
0,민준,23,175.3
1,현우,43,180.3
2,서연,12,165.8
3,동현,45,172.7


In [17]:
x.name

0    민준
1    현우
2    서연
3    동현
Name: name, dtype: object

In [18]:
ary = [[1,2], [3,4], [5,6]]
data = pd.DataFrame(ary, columns=['First', 'Second'])
data

Unnamed: 0,First,Second
0,1,2
1,3,4
2,5,6


In [19]:
data.iloc[1]

First     3
Second    4
Name: 1, dtype: int64

In [20]:
data.iloc[:, 1]

0    2
1    4
2    6
Name: Second, dtype: int64

In [21]:
ary = [[1,2], [3,4], [5,6], [7,8], [9,10]]

data = pd.DataFrame(ary, columns=['First', 'Second'])
data.head(3)

Unnamed: 0,First,Second
0,1,2
1,3,4
2,5,6


In [22]:
data.tail(3)

Unnamed: 0,First,Second
2,5,6
3,7,8
4,9,10


In [23]:
bools = [False, True, True, False, True]
data.Second[bools]

1     4
2     6
4    10
Name: Second, dtype: int64

In [25]:
data

Unnamed: 0,First,Second
0,1,2
1,3,4
2,5,6
3,7,8
4,9,10


In [26]:
print(x.mean(axis=0))

age        30.750
height    173.525
dtype: float64
