# 시리즈 만들기

In [6]:
import pandas as pd

In [2]:
s = pd.Series(['banana', 42])
print(s)

0    banana
1        42
dtype: object


In [3]:
#시리즈 생성 시에 문자열을 인덱스로 지정하려면 index 인자를 통해 사용하고자 하는 문자열을 리스트에 담아 전달한다.
s = pd.Series(['Wes McKinney', 'Creator of Pandas'])
print(s)

s = pd.Series(['Wes McKinney', 'Creator of Pandas'], index=['Person', 'Who'])
print(s)

ss = s.loc['Who']
print(ss)

0         Wes McKinney
1    Creator of Pandas
dtype: object
Person         Wes McKinney
Who       Creator of Pandas
dtype: object
Creator of Pandas


# 데이터프레임 만들기

In [10]:
#데이터프레임을 만들기 위해선 딕셔너리를 DataFrame클래스에 전달한다
scientists = pd.DataFrame({
    'Name' : ['Rosaline Franklin', 'William Gosset'],
    'Occupation' : ['Chemist', 'Statistician'],
    'Born' : ['1920-07-25', '1876-06-13'],
    'Died' : ['1958-04-16', '1937-10-16'],
    'Age' : [37, 61]
})
print(scientists)

                Name    Occupation        Born        Died  Age
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
1     William Gosset  Statistician  1876-06-13  1937-10-16   61


In [13]:
#데이터프레임을 만들기 위해선 딕셔너리를 DataFrame클래스에 전달한다
scientists = pd.DataFrame(
    data = {
        'Occupation' : ['Chemist', 'Statistician'],
        'Born' : ['1920-07-25', '1876-06-13'],
        'Died' : ['1958-04-16', '1937-10-16'],
        'Age' : [37, 61]},
    index = ['Rosaline Franklin', 'William Gosset'],
    columns = ['Occupation', 'Born', 'Age', 'Died']
    # Age와 Died의 순서를 바꿈. columns를 지정하지 않으면 Died-Age 순서지만 지정을 해줬으므로 두 column의 순서가 바뀐다
)
print(scientists)

print(scientists.loc['Rosaline Franklin'])

                     Occupation        Born  Age        Died
Rosaline Franklin       Chemist  1920-07-25   37  1958-04-16
William Gosset     Statistician  1876-06-13   61  1937-10-16
Occupation       Chemist
Born          1920-07-25
Age                   37
Died          1958-04-16
Name: Rosaline Franklin, dtype: object


In [12]:
#데이터프레임을 만들기 위해선 딕셔너리를 DataFrame클래스에 전달한다
#딕셔너리는 페어의 순서는 보장하지 않으므로 OrderedDict를 사용해 순서를 보장할 수 있다
from collections import OrderedDict

scientists = pd.DataFrame(OrderedDict([
    ('Name', ['Rosaline Franklin', 'William Gosset']),
    ('Occupation', ['Chemist', 'Statistician']),
    ('Born', ['1920-07-25', '1876-06-13']),
    ('Died', ['1958-04-16', '1937-10-16']),
    ('Age', [37, 61])]))
print(scientists)

                Name    Occupation        Born        Died  Age
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
1     William Gosset  Statistician  1876-06-13  1937-10-16   61


# 데이터프레임에서 시리즈 선택하기

In [14]:
#데이터프레임에서 시리즈를 선택하려면 loc속성에 인덱스를 전달하면 됨
first_row = scientists.loc['William Gosset']
print(first_row)

Occupation    Statistician
Born            1876-06-13
Age                     61
Died            1937-10-16
Name: William Gosset, dtype: object


# index, values, keys 사용하기

In [20]:
#index 속성 : 시리즈의 index가 들어가있다
print(first_row.index)

#values 속성 : 시리즈의 데이터가 들어가있다
print(first_row.values)

#keys 메소드 : index 속성과 동일
print(first_row.keys())

#index 속성 응용
print(first_row.index[0])

#keys 메소드 응용
print(first_row.keys()[0])

Index(['Occupation', 'Born', 'Age', 'Died'], dtype='object')
['Statistician' '1876-06-13' 61 '1937-10-16']
Index(['Occupation', 'Born', 'Age', 'Died'], dtype='object')
Occupation
Occupation


# 시리즈의 mean, min, max, std 메서드 사용하기

In [46]:
ages = scientists['Age']
print(ages)

#시리즈를 구성하는 데이터가 정수라면 mean, min, max, std 와 같은 통계메서드 사용 가능.
print(ages.mean())
print(ages.min())
print(ages.max())
print(ages.std())

Rosaline Franklin    37
William Gosset       61
Name: Age, dtype: int64
49.0
37
61
16.97056274847714


False

In [None]:
# pandas 각종 함수
#append : 2개 이상의 시리즈 연결
#describe : 요약 통계량 계산
#drop_duplicates : 중복값이 없는 시리즈 반환
#equals : 시리즈에 해당 값을 가진 요소가 있는지 확인
#get_values : 시리즈 값 구하기(values속성)
#isin : 시리즈에 값이 포함되어있는지 확인, 인자는 리스트 형식으로 넘겨준다
#min : 최솟값 반환
#max : 최댓값 반환
#mean : 산술 평균 반환
#std : 표준 편차 반환
#median : 중간값 반환
#replace : 특정 값을 가진 시리즈 값을 교체
#sample : 시리즈에서 임의의 값을 반환
#sort_values : 값을 정렬
#to_frame : 시리즈를 데이터프레임으로 변환

# 시리즈와 불린 추출 사용하기

In [8]:
sts = pd.read_csv('../data/scientists.csv')
ages = sts['Age']

print(ages.max())
print(ages.mean())

# 불린 추출
print(ages[ages > ages.mean()])

bool_val = [True, True, False, False, True, True, False, True]
print(ages[bool_val])

90
59.125
1    61
2    90
3    66
7    77
Name: Age, dtype: int64
0    37
1    61
4    56
5    45
7    77
Name: Age, dtype: int64


# 시리즈와 브로드캐스팅

In [54]:
# 시리즈처럼 여러 개의 값을 가진 데이터를 벡터라고 하고 단순 크기를 나타내는 데이터를 스칼라라고 함.
print(ages+ages)
print(ages*ages)


0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64
0    1369
1    3721
2    8100
3    4356
4    3136
5    2025
6    1681
7    5929
Name: Age, dtype: int64


In [56]:
#길이가 다른 벡터를 연산하면 같은 인덱스의 값만 연산한다.
print(pd.Series([1,100]))
print(ages+pd.Series([1,100]))

0      1
1    100
dtype: int64
0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64


In [57]:
#sort_index 메소드를 이용함. ascending인자로 False를 전달하여 인덱스 역순으로 데이터를 정렬했음
rev_ages = ages.sort_index(ascending=False)
print(rev_ages)

7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64


In [59]:
# 역순으로 정렬된 rev_ages와 ages를 연산하면 인덱스가 일치하는 것 끼리 계산한다.
print(ages * 2)
print(ages + rev_ages)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64
0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


# 데이터프레임과 불린 추출

In [15]:
print(sts[sts['Age']>sts['Age'].mean()])

#리스트로 참 거짓을 전달하여 데이터를 추출할 수 있다. 
#이 때 이 bool벡터의 길이가 데이터프레임의 행 길이보다 짧으면 bool벡터의 길이만큼만 연산한다
print(sts.loc[[True,True,False,True]])

                   Name        Born        Died  Age     Occupation
1        William Gosset  1876-06-13  1937-10-16   61   Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90          Nurse
3           Marie Curie  1867-11-07  1934-07-04   66        Chemist
7          Johann Gauss  1777-04-30  1855-02-23   77  Mathematician


IndexError: Item wrong length 4 instead of 8.

# 데이터프레임과 브로드캐스팅

# 열의 자료형 바꾸기와 새로운 열 추가하기

# 시리즈, 데이터프레임의 데이터 섞어보기

# 데이터프레임의 열 삭제하기

# 피클 형식으로 저장하기

# CSV 불러오기