# 시리즈 만들기

In [1]:
# pandas series 메서드에 리스트를 전달하여 series 생성
import pandas as pd

s = pd.Series(['banna', 42])
print(s)

0    banna
1       42
dtype: object


In [6]:
# 기본 index로 series 생성
s = pd.Series(['Wes McKinney', 'Creator of Pandas'])
print(s)
print('\n')

# 자체 문자열 index로 series 생성
s = pd.Series(['Wes McKinney', 'Creator of Pandas'], index = ['Person', 'Who'])
print(s)

0         Wes McKinney
1    Creator of Pandas
dtype: object


Person         Wes McKinney
Who       Creator of Pandas
dtype: object


# 데이터프레임 만들기
- 데이터프레임을 만들기 위해서는 딕셔너리를 Dataframe클래스에 전달해야 한다.
- 데이터프레임도 인덱스를 따로 지정하지 않으면 자동으로 생성한다.
- 인덱스(행)를 따로 지정하려면, `index`인자에 리스트를 전달하면 된다.
- 컬럼순서(열)을 따로 지정하려면, `column`인자에 리스트를 전달하면 된다.

In [10]:
scientists_dict = { 'Name': ['Rosaline Franklin', 'William Gosset'], 
                    'Occupation': ['Chemist', 'Statistician'], 
                    'Born': ['1920-07-25', '1876-06-13'], 
                    'Died': ['1958-04-16', '1937-10-16'], 
                    'Age': [37, 61]}

print(type(scientists_dict))
print(scientists_dict)

<class 'dict'>
{'Name': ['Rosaline Franklin', 'William Gosset'], 'Occupation': ['Chemist', 'Statistician'], 'Born': ['1920-07-25', '1876-06-13'], 'Died': ['1958-04-16', '1937-10-16'], 'Age': [37, 61]}


In [11]:
scientists = pd.DataFrame({ 
    'Name': ['Rosaline Franklin', 'William Gosset'], 
    'Occupation': ['Chemist', 'Statistician'], 
    'Born': ['1920-07-25', '1876-06-13'], 
    'Died': ['1958-04-16', '1937-10-16'], 
    'Age': [37, 61]})

print(type(scientists))
print(scientists)

<class 'pandas.core.frame.DataFrame'>
                Name    Occupation        Born        Died  Age
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
1     William Gosset  Statistician  1876-06-13  1937-10-16   61


In [12]:
scientists = pd.DataFrame( 
    data={'Occupation': ['Chemist', 'Statistician'], 
          'Born': ['1920-07-25', '1876-06-13'], 
          'Died': ['1958-04-16', '1937-10-16'],
          'Age': [37, 61]},
    index=['Rosaline Franklin', 'William Gosset'],
    columns=['Occupation', 'Born', 'Age', 'Died'])
    
print(scientists)

Occupation        Born  Age        Died
Rosaline Franklin       Chemist  1920-07-25   37  1958-04-16
William Gosset     Statistician  1876-06-13   61  1937-10-16


- Dictionary class는 데이터의 순서를 보장하지 않는다
- 이러한 문제를 해결하기 위한 방법은 바로 :
    - `collections`의 `OrderedDict`클래스를 이용하면 된다.

In [15]:
from collections import OrderedDict

scientists = pd.DataFrame(
                OrderedDict([ 
                    ('Name', ['Rosaline Franklin', 'William Gosset']),
                    ('Occupation', ['Chemist', 'Statistician']), 
                    ('Born', ['1920-07-25', '1876-06-13']), 
                    ('Died', ['1958-04-16', '1937-10-16']), 
                    ('Age', [37, 61])
                ])
            )
            
print(scientists)

Name    Occupation        Born        Died  Age
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
1     William Gosset  Statistician  1876-06-13  1937-10-16   61


# 데이터프레임에서 시리즈 선택하기

In [18]:
scientists = pd.DataFrame(
    data={'Occupation': ['Chemist', 'Statistician'], 
          'Born': ['1920-07-25', '1876-06-13'], 
          'Died': ['1958-04-16', '1937-10-16'],
          'Age': [37, 61]},
    index=['Rosaline Franklin', 'William Gosset'],
    columns=['Occupation', 'Born', 'Died', 'Age']) 

print(scientists)
print(type(scientists))
print('\n')

first_row = scientists.loc['William Gosset']
print(first_row)
print(type(first_row))

Occupation        Born        Died  Age
Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
William Gosset     Statistician  1876-06-13  1937-10-16   61
<class 'pandas.core.frame.DataFrame'>


Occupation    Statistician
Born            1876-06-13
Died            1937-10-16
Age                     61
Name: William Gosset, dtype: object
<class 'pandas.core.series.Series'>


# index, values, keys 사용하기
- index (속성) :  시리즈의 인덱스가 들어 있다
- values (속성) : 시리즈의 데이터가 들어 있다.
- keys (메서드) : index속성과 같은 역할을 수행한다.

In [19]:
print(first_row.index,'\n')
print(first_row.values,'\n')
print(first_row.keys())

Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object') 

['Statistician' '1876-06-13' '1937-10-16' 61] 

Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')


# 시리즈의 mean, min, max, std 메서드 사용하기

# 시리즈와 불린 추출 사용하기

# 시리즈와 브로드캐스팅

# 데이터프레임과 불린 추출

# 데이터프레임과 브로드캐스팅

# 열의 자료형 바꾸기와 새로운 열 추가하기

# 시리즈, 데이터프레임의 데이터 섞어보기

# 데이터프레임의 열 삭제하기

# 피클 형식으로 저장하기

# CSV 불러오기