직접 입력해서 데이터프레임을 생성할 수도 있다. 이 방법은 작은 데이터 예제를 만들 때 특히 유용하다.

## 시리즈와 데이터프레임 만들기
### 시리즈 만들기
판다스의 시리즈는 파이썬의 기본 자료구조인 리스트와 비슷한 1차원자료구조이며 데이터프레임의 각 열을 나타내는 자료형이다. 한 열에 있는 모든 값은 자료형(dtype)이 같아야한다. 예를 들어 어떤 열에 숫자 1과 일련의 문자열 'pizza'가 있다면 이 열의 전체 자료형은 문자열이 된다.

데이터프레임은 각 키가 열의 이름이고 값이 시리즈인 딕셔너리로 볼 수 있다. 시리즈는 모든 요소의 자료형이 같아야 한다는 점을 제외하면 파이썬의 리스트와 매우 닯았다. 넘파이 라이브러리를 사용해 본 적이 있다면 이러한 자료구조가 ndarray와 같은 특징을 가진다고 이해하면 된다.

1. 시리즈를 만드는 가장 쉬운 방법은 파이썬의 리스트를 사용하는 것이다. 여러 가지 자료형이 섞인 리스트로 시리즈를 생성하면 모든 자료형을 포괄할 수 있는 가장 일반적인 자료형으로 시리즈의 dtype을 설정한다. 판다스에서 가장 일반적인 자료형은 파이썬의 문자열과 같은 object이다. 예를 들어 정수 42와 문자열 'banana'로 이루어진 리스트로 시리즈를 생성하면 dtype은 다음과 같이 object로 설정된다.

In [1]:
import pandas as pd

In [2]:
s = pd.Series(['banana', 42])
print(s)

0    banana
1        42
dtype: object


2. 출력 결과를 보면 시리즈의 왼쪽에 행 번호가 있다는 점을 확인할 수 있다. 이것이 시리즈의 인덱스이다. 시리즈에도 값에 이름을 할당할 수 있다. 다음과 같이 Series를 생성할 때 매개변수 index에 파이썬 리스트를 지정하면 행 이름 인덱스를 할당할 수 있다.

In [3]:
s = pd.Series(data = ["Wes McKinney", "Creator of Pandas"], index=["Person", "Who"])
print(s)

Person         Wes McKinney
Who       Creator of Pandas
dtype: object


### 데이터프레임 만들기

여러 번 언급했듯이 데이터프레임은 시리즈 객체를 모든 딕셔너리라고 생각할 수 있다. 실제로 데이터프레임을 생성하는 가장 일반적인 방법 역시 딕셔너리를 사용하는 것이다. 딕셔너리의 키로 열 이름을 표현하고 값으로 열 내용을 설정한다.

1. 다음과 같이 예제 데이터프레임 scientists를 생성하자.

In [5]:
scientists = pd.DataFrame({
    "Name" : ["Rosaline Franklin", "William Gosset"],
    "Occupation" : ["Chemist", "Statistician"],
    "Born" : ["1920-07-25", "1876-06-13"],
    "Died" : ["1958-04-16", "1937-10-16"],
    "Age" : [37, 61]
})
print(scientists)

                Name    Occupation        Born        Died  Age
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
1     William Gosset  Statistician  1876-06-13  1937-10-16   61


2. 데이터프레임 공식 문서를 보면 매개변수 columns를 사용하거나 열 순서를 지정할 수 있다. name 열의 값을 열 이름 인덱스로 사용하고 싶다면 매개변수 index에 해당 리스트를 지정하면 된다.

In [6]:
scientists = pd.DataFrame(
    data={
        "Occupation": ["Chemist", "Statistician"],
        "Born": ["1920-07-25", "1876-06-13"],
        "Died": ["1958-04-16", "1937-10-16"],
        "Age": [37, 61]
    },
    index=["Rosaline Franklin", "William Gosset"],
    columns=["Occupation",
             "Born",
             "Died",
             "Age"]
)
print(scientists)

                     Occupation        Born        Died  Age
Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
William Gosset     Statistician  1876-06-13  1937-10-16   61
