## 시리즈와 데이터프레임 직접 만들기
### 데이터프레임과 시리즈는 리스트나 딕셔너리와 비슷하지만 데이터를 다루는데 특화되어 있다.

### 1.시리즈 만들기

In [1]:
import pandas as pd
s = pd.Series(['apple', 33]) # 인덱스는 보통 0부터 시작
print(s)

0    apple
1       33
dtype: object


In [2]:
list_data = ['2023-04-28', 3.14, 'enncore', 100, True]
s = pd.Series(list_data)
print(s)
print('\n')
print(type(s))

0    2023-04-28
1          3.14
2       enncore
3           100
4          True
dtype: object


<class 'pandas.core.series.Series'>


In [3]:
# 인덱스 배열은 변수 idx에 저장, 데이터 값 배열은 변수 val에 저장
idx = s.index
val = s.values
print(idx)
print('\n')
print(val)

RangeIndex(start=0, stop=5, step=1)


['2023-04-28' 3.14 'enncore' 100 True]


In [4]:
#딕셔너리를 Series() 함수에 전달하면 시리즈 객체로 변환
dict_data = {'a':1, 'b':2, 'c':3}
s = pd.Series(dict_data)
print(s)
print(type(s))

a    1
b    2
c    3
dtype: int64
<class 'pandas.core.series.Series'>


## 2. 시리즈를 생성할 - 문자열을 인덱스로 지정할 수도 있다.

### 문자열을 인덱스로 지정하려면 Series메서드의 index 인자를 통해 사용하고자하는문자열을 리스트에 담아 전달하면됩니다.

In [6]:
s = pd.Series(['Jane', 'student'], index=['Person', 'job'])
print(s)

Person       Jane
job       student
dtype: object


## 3. 딕셔너리로 데이터 프레임 생성하기
* 파이썬의 기본자료구조로 데이터프레임 생성이 가능합니다.
* 아래의 예제는 딕셔너리로 데이터프레임을 생성하는 예제입니다.
* 딕셔너리를 DataFrame클래스에 전달해야 함
* 데이터프레임의 컬럼은 모두 시리즈입니다. 아래예제는 5개의 시리즈로 구성된 데이터프레임입니다.

In [7]:
scientists = pd.DataFrame({
    'Name': ['Rosaline Franklin', 'William Gosset'],
    'Occupation': ['Chemist', 'Statistician'],
    'Born': ['1920-07-25', '1876-06-13'],
    'Died': ['1958-04-16', '1937-10-16'],
    'Age': [37, 61]})
scientists

Unnamed: 0,Name,Occupation,Born,Died,Age
0,Rosaline Franklin,Chemist,1920-07-25,1958-04-16,37
1,William Gosset,Statistician,1876-06-13,1937-10-16,61


#### columns 인자를 사용하면 데이터 프레임의 열 순서를 지정할 수 있다.(index,columns지정)

In [11]:
scientists = pd.DataFrame(
    data={'Occupation': ['Chemist', 'Statistician'],
             'Born': ['1920-07-25', '1876-06-13'],
             'Died': ['1958-04-16', '1937-10-16'],
             'Age': [37, 61]},
    index=['Rosaline Franklin', 'William Gosset'],
    columns=['Occupation', 'Born', 'Died', 'Age'])
scientists

Unnamed: 0,Occupation,Born,Died,Age
Rosaline Franklin,Chemist,1920-07-25,1958-04-16,37
William Gosset,Statistician,1876-06-13,1937-10-16,61


### 딕셔러리는 데이터의 순서를 보장하지 않습니다.
### 순서가 보장된 딕셔너리를 전달하려면 OrderedDict 클래스를 사용

In [13]:
from collections import OrderedDict

scientists = pd.DataFrame(OrderedDict([
    ('Name', ['Rosaline Franklin', 'William Gosset']),
    ('Occupation', ['Chemist', 'Statistician']),
    ('Born', ['1920-07-25', '1876-06-13']),
    ('Died', ['1958-04-16', '1937-10-16']),
    ('Age', [37, 61])
])
)
print(scientists)

                Name    Occupation        Born        Died  Age
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
1     William Gosset  Statistician  1876-06-13  1937-10-16   61


## 데이터프레임에서 시리즈 선택하기

In [14]:
scientists = pd.DataFrame(
    data={'Occupation': ['Chemist', 'Statistician'],
             'Born': ['1920-07-25', '1876-06-13'],
             'Died': ['1958-04-16', '1937-10-16'],
             'Age': [37, 61]},
    index=['Rosaline Franklin', 'William Gosset'],
    columns=['Occupation', 'Born', 'Died', 'Age'])
scientists

Unnamed: 0,Occupation,Born,Died,Age
Rosaline Franklin,Chemist,1920-07-25,1958-04-16,37
William Gosset,Statistician,1876-06-13,1937-10-16,61


In [15]:
first_row = scientists.loc['William Gosset']
print(type(first_row))

<class 'pandas.core.series.Series'>


In [16]:
print(first_row)

Occupation    Statistician
Born            1876-06-13
Died            1937-10-16
Age                     61
Name: William Gosset, dtype: object


# index, values 속성과 keys 메서드 사용하기

## 1. index 속성 사용하기

In [17]:
print(first_row.index)

Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')


## 2. values 속성 사용하기

In [18]:
print(first_row.values)

['Statistician' '1876-06-13' '1937-10-16' 61]


## 3. key 메서드 사용하기

In [20]:
#keys sms속성이 아닌 메서드. keys메서드는 index 속성과 같은 역할을 한다.
print(first_row.keys())

Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')


## 4. index 속성 응용하기

In [21]:
print(first_row.index[0])

Occupation


## 5. keys 메서드와 index 속성 응용하기

In [22]:
print(first_row.keys()[0])

Occupation


# 시리즈의 mean, min, max, std 메서드 사용하기

In [23]:
ages = scientists['Age']
print(ages)

Rosaline Franklin    37
William Gosset       61
Name: Age, dtype: int64


In [24]:
print(ages.mean()) #평균

49.0


In [25]:
print(ages.min()) #최소값

37


In [26]:
print(ages.max()) #최대값

61


In [27]:
print(ages.std()) #표준편차

16.97056274847714
