In [None]:
import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms

#### StatsModels의 샘플 데이터
StatsModels 패키지의 개발 목표 중 하나는 기존에 R을 사용하여 통계 분석 및 시계열 분석을 하던 사용자가 파이썬에서 동일한 분석을 할 수 있도록 하는 것이다. 따라서 R에서 제공하던 명령어 뿐만 아니라 Rdatasets 이라는 프로젝트를 통해 R에서 사용하던 1000개 이상의 표준 데이터셋도 동일하게 제공하기 위해 노력하고 있다. 자세한 사항은 다음 프로젝트 홈페이지에서 확인할 수 있다.

https://github.com/vincentarelbundock/Rdatasets

다음은 위 프로젝트에서 제공하는 데이터셋의 목록이다.

http://vincentarelbundock.github.io/Rdatasets/datasets.html

이 목록에 있는 데이터를 가져오려면 우선 "Package"이름과 "Item"을 알아낸 후 다음에 설명하는 `get_rdataset` 명령을 이용한다.

_예측이 잘되는 문제는 잘 풀리는 문제로 반복성이 있는 경우가 많다. 계산량, 방법 등의 이유로 잘풀리는 문제도 안풀리는 경우가 있다. 도메인 지식과 분석에 대한 지식이 필요하다._

#### get_rdataset 함수
StatsModels의 datasets 서브패키지에 있는 get_rdataset 함수를 사용하면 표준 데이터셋을 가져올 수 있다. 사용법은 다음과 같다.

`get_rdataset(item, [package="datasets"])`

`item`과 `package` 인수로 해당 데이터의 "Package"이름과 "Item"을 넣는다. "Package"이름이 datasets인 경우에는 생략할 수 있다. 

이 함수는 인터넷에서 데이터를 다운로드 받으므로 인터넷에 연결되어 있어야 한다.

이렇게 받은 데이터는 다음과 같은 속성을 가지고 있다. 데이터와 기타 내용을 포함한 객체로 되어 있다.

- `data`: 데이터를 담고 있는 데이터프레임
- `__doc__`: 데이터에 대한 설명 문자열. 이 설명은 R 패키지의 내용을 그대로 가져온 것이므로 예제 코드가 R로 되어 있어 파이썬에서 바로 사용할 수 없다.

In [1]:
# 샘플데이터의 예 1: 타이타닉 생존자
data = sm.datasets.get_rdataset("Titanic", package="datasets")
df = data.data
df.tail()

Unnamed: 0,Class,Sex,Age,Survived,Freq
27,Crew,Male,Adult,Yes,192
28,1st,Female,Adult,Yes,140
29,2nd,Female,Adult,Yes,80
30,3rd,Female,Adult,Yes,76
31,Crew,Female,Adult,Yes,20


In [2]:
print(data.__doc__)

+---------+-----------------+
| Titanic | R Documentation |
+---------+-----------------+

Survival of passengers on the Titanic
-------------------------------------

Description
~~~~~~~~~~~

This data set provides information on the fate of passengers on the
fatal maiden voyage of the ocean liner ‘Titanic’, summarized according
to economic status (class), sex, age and survival.

Usage
~~~~~

::

    Titanic

Format
~~~~~~

A 4-dimensional array resulting from cross-tabulating 2201 observations
on 4 variables. The variables and their levels are as follows:

+----+----------+---------------------+
| No | Name     | Levels              |
+----+----------+---------------------+
| 1  | Class    | 1st, 2nd, 3rd, Crew |
+----+----------+---------------------+
| 2  | Sex      | Male, Female        |
+----+----------+---------------------+
| 3  | Age      | Child, Adult        |
+----+----------+---------------------+
| 4  | Survived | No, Yes             |
+----+----------+------------------

In [3]:
# 샘플데이터의 예 2: 미국 강수량
data = sm.datasets.get_rdataset("precip")
print(data.__doc__)

+--------+-----------------+
| precip | R Documentation |
+--------+-----------------+

Annual Precipitation in US Cities
---------------------------------

Description
~~~~~~~~~~~

The average amount of precipitation (rainfall) in inches for each of 70
United States (and Puerto Rico) cities.

Usage
~~~~~

::

    precip

Format
~~~~~~

A named vector of length 70.

Note
~~~~

The dataset version up to Nov.16, 2016 had a typo in ``"Cincinnati"``'s
name. The examples show how to recreate that version.

Source
~~~~~~

Statistical Abstracts of the United States, 1975.

References
~~~~~~~~~~

McNeil, D. R. (1977) *Interactive Data Analysis*. New York: Wiley.

Examples
~~~~~~~~

::

    require(graphics)
    dotchart(precip[order(precip)], main = "precip data")
    title(sub = "Average annual precipitation (in.)")

    ## Old ("wrong") version of dataset (just name change):
    precip.O <- local({
       p <- precip; names(p)[names(p) == "Cincinnati"] <- "Cincinati" ; p })
    stopifnot(all