In [12]:
import pandas as pd
import numpy as np

# 시리즈 만들기

In [2]:
series = pd.Series([1,2,3,4])
print(series)

0    1
1    2
2    3
3    4
dtype: int64


# 데이터프레임 만들기

In [4]:
df = pd.DataFrame(
    data={
        "name" : ["A", "B", "C"],
        "value" : [1,2,3]
    },
    index=[1, 2, 3],
    columns=["name", "value"]
)
print(df)

name  value
1    A      1
2    B      2
3    C      3


# 데이터프레임에서 시리즈 선택하기

In [9]:
# 위에서 생성한 시리즈 ( series ) 로 데이터프레임 생성하기
df2 = pd.DataFrame(series)
df2.index.name = "Index"
print(df2)

0
Index   
0      1
1      2
2      3
3      4


# index, values, keys 사용하기

In [5]:
print(series.index)
print(series.values)
print(series.keys)

RangeIndex(start=0, stop=4, step=1)
[1 2 3 4]
<bound method Series.keys of 0    1
1    2
2    3
3    4
dtype: int64>


# 시리즈의 mean, min, max, std 메서드 사용하기

In [13]:
s_mean = series.mean()
print(s_mean)

s_min = series.min()
print(s_min)

s_max = series.max()
print(s_max)

s_std = series.std()
print(s_std)

2.5
1
4
1.2909944487358056


# 시리즈와 불린 추출 사용하기

In [28]:
series_bool = [series > 1]
print(series_bool)

[Index
0    False
1     True
2     True
3     True
dtype: bool]


# 시리즈와 브로드캐스팅

In [29]:
print(series * 2)

Index
0    2
1    4
2    6
3    8
dtype: int64


# 데이터프레임과 불린 추출

In [33]:
df[df['value'] > 1]

Unnamed: 0,name,value
2,B,2
3,C,3


# 데이터프레임과 브로드캐스팅

In [39]:
df['value'] *= 2
df

Unnamed: 0,name,value
1,A,4
2,B,8
3,C,12


# 열의 자료형 바꾸기와 새로운 열 추가하기

In [48]:
# 자료형 바꾸기
print(df['value'].dtypes)
df['value'] = df['value'].apply(str)
print(df['value'].dtypes)

# 새로운 열 추가하기
df.shape
df['value2'] = df['value']
print(df)

object
object
  name value value2
1    A     4      4
2    B     8      8
3    C    12     12


# 시리즈, 데이터프레임의 데이터 섞어보기

In [54]:
import random

print(df['value'])
random.seed(50)
random.shuffle(df['value'])
print(df['value'])

1     4
2     8
3    12
Name: value, dtype: object
1     8
2     4
3    12
Name: value, dtype: object


# 데이터프레임의 열 삭제하기

In [60]:
df.drop('value2', axis=1)

Unnamed: 0,name,value
1,A,8
2,B,4
3,C,12


# 피클 형식으로 저장하기

In [61]:
values = df['value']
values.to_pickle('./value_series.pickle')

# CSV 불러오기

In [21]:
csv = pd.read_csv('scientists.csv')
print(csv)

Name        Born        Died  Age          Occupation
0     Rosaline Franklin  1920-07-25  1958-04-16   37             Chemist
1        William Gosset  1876-06-13  1937-10-16   61        Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90               Nurse
3           Marie Curie  1867-11-07  1934-07-04   66             Chemist
4         Rachel Carson  1907-05-27  1964-04-14   56           Biologist
5             John Snow  1813-03-15  1858-06-16   45           Physician
6           Alan Turing  1912-06-23  1954-06-07   41  Computer Scientist
7          Johann Gauss  1777-04-30  1855-02-23   77       Mathematician
