# 데이터 분석 시작

## 소개
이 장은 새로운 데이터셋을 처음으로 조사할 때 수행해야 할 과제들에 대해 알아보는 것으로 시작합니다.

## 데이터 분석 루틴 개발
데이터 분석에 대한 표준적인 방식은 없지만 대개 데이터셋을 처음 관찰할 때 수행할 일련의 루틴을 개발해두는 것이 좋습니다. 이는 새로운 데이터셋에 보다 빨리 익숙해지는 데 도움이 됩니다.

### 준비단계
**탐색적 데이터 분석(Exploratory Data Analysis, EDA)**는 데이터를 분석하는 모든 절차를 통칭해 부르는 용어입니다. 이 레시피는 EDA 중 작지만 근본적인 부분인 **메타 데이터(metadata)**의 수집과 단일 변량 기술 통계량을 루틴하고 체계적인 방법을 사용합니다. 여기서는 데이터셋을 DataFrame으로 처음 임포트 할 때 수행해야 할 일반적이고 공통적인 과제를 보여줍니다.
> 메타 데이터는 데이터셋을 설명하는 데이터입니다. 메타 데이터의 종류에는 열/행의 개수, 열 이름, 각 열의 데이터 형식, 데이터셋의 소스, 수집일, 서로 다른 열의 허용 가능 값 등이 있습니다.

> 단일 변량 기술 통계량은 데이터셋의 개별 변수(열)에 관한 요약 통계량이며, 다른 모든 변수에 대해 독립적이다.

### 방법
먼저 대학 데이터셋에 대한 메타 데이터를 수집하고 각 열에 대해 기본적 요약 통계량을 구합니다.

In [1]:
import pandas as pd
import numpy as np

In [2]:
#1
college = pd.read_csv('data/college.csv')
college.head()

Unnamed: 0,INSTNM,CITY,STABBR,HBCU,MENONLY,WOMENONLY,RELAFFIL,SATVRMID,SATMTMID,DISTANCEONLY,...,UGDS_2MOR,UGDS_NRA,UGDS_UNKN,PPTUG_EF,CURROPER,PCTPELL,PCTFLOAN,UG25ABV,MD_EARN_WNE_P10,GRAD_DEBT_MDN_SUPP
0,Alabama A & M University,Normal,AL,1.0,0.0,0.0,0,424.0,420.0,0.0,...,0.0,0.0059,0.0138,0.0656,1,0.7356,0.8284,0.1049,30300,33888.0
1,University of Alabama at Birmingham,Birmingham,AL,0.0,0.0,0.0,0,570.0,565.0,0.0,...,0.0368,0.0179,0.01,0.2607,1,0.346,0.5214,0.2422,39700,21941.5
2,Amridge University,Montgomery,AL,0.0,0.0,0.0,1,,,1.0,...,0.0,0.0,0.2715,0.4536,1,0.6801,0.7795,0.854,40100,23370.0
3,University of Alabama in Huntsville,Huntsville,AL,0.0,0.0,0.0,0,595.0,590.0,0.0,...,0.0172,0.0332,0.035,0.2146,1,0.3072,0.4596,0.264,45500,24097.0
4,Alabama State University,Montgomery,AL,1.0,0.0,0.0,0,425.0,430.0,0.0,...,0.0098,0.0243,0.0137,0.0892,1,0.7347,0.7554,0.127,26600,33118.5


In [3]:
#2 shape 속성을 사용해 DataFrame의 차원을 알아냅니다.
college.shape

(7535, 27)

In [4]:
#3 info 메서드를 사용해 각 열의 데이터 형식, 누락되지 않은 값 개수, 메모리 사용량을 나열합니다.
college.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7535 entries, 0 to 7534
Data columns (total 27 columns):
INSTNM                7535 non-null object
CITY                  7535 non-null object
STABBR                7535 non-null object
HBCU                  7164 non-null float64
MENONLY               7164 non-null float64
WOMENONLY             7164 non-null float64
RELAFFIL              7535 non-null int64
SATVRMID              1185 non-null float64
SATMTMID              1196 non-null float64
DISTANCEONLY          7164 non-null float64
UGDS                  6874 non-null float64
UGDS_WHITE            6874 non-null float64
UGDS_BLACK            6874 non-null float64
UGDS_HISP             6874 non-null float64
UGDS_ASIAN            6874 non-null float64
UGDS_AIAN             6874 non-null float64
UGDS_NHPI             6874 non-null float64
UGDS_2MOR             6874 non-null float64
UGDS_NRA              6874 non-null float64
UGDS_UNKN             6874 non-null float64
PPTUG_EF          

In [5]:
#4 수치 열의 요약 통계량을 구한 후, 내용을 쉽게 보기 위해 전치(transpose)합니다.
# 리스트에 기재된 데이터 형식을 가진 열만 나열합니다. 해당 단계에서는 숫자형식을 가지는 열만 추출합니다.
college.describe(include=[np.number]).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
HBCU,7164.0,0.014238,0.118478,0.0,0.0,0.0,0.0,1.0
MENONLY,7164.0,0.009213,0.095546,0.0,0.0,0.0,0.0,1.0
WOMENONLY,7164.0,0.005304,0.072642,0.0,0.0,0.0,0.0,1.0
RELAFFIL,7535.0,0.190975,0.393096,0.0,0.0,0.0,0.0,1.0
SATVRMID,1185.0,522.819409,68.578862,290.0,475.0,510.0,555.0,765.0
SATMTMID,1196.0,530.76505,73.469767,310.0,482.0,520.0,565.0,785.0
DISTANCEONLY,7164.0,0.005583,0.074519,0.0,0.0,0.0,0.0,1.0
UGDS,6874.0,2356.83794,5474.275871,0.0,117.0,412.5,1929.5,151558.0
UGDS_WHITE,6874.0,0.510207,0.286958,0.0,0.2675,0.5557,0.747875,1.0
UGDS_BLACK,6874.0,0.189997,0.224587,0.0,0.036125,0.10005,0.2577,1.0


In [6]:
#5 객체와 범주형 열에 대한 요약 통계량을 구합니다. 범주형 열에 대한 설명은 뒤에 다시 하겠습니다.
college.describe(include=[np.object, pd.Categorical]).T

Unnamed: 0,count,unique,top,freq
INSTNM,7535,7535,University of Massachusetts Medical School Wor...,1
CITY,7535,2514,New York,87
STABBR,7535,59,CA,773
MD_EARN_WNE_P10,6413,598,PrivacySuppressed,822
GRAD_DEBT_MDN_SUPP,7503,2038,PrivacySuppressed,1510


### 작동원리

메타 데이터를 구해할 때 기본적으로 info 메서드를 사용합니다. info 메서드를 사용하면 열의 이름, 누락되지 않은 값의 개수, 각 열의 데이터 형식 그리고 DataFrame의 개략적인 메모리 사용량을 알려줍니다.

describe() 메서드는 include 매개변수에 설정한 데이터 형식에 기초해 서로 다른 출력을 생성합니다. 디폴트 실행 시에 describe는 모든 수치열에 대해 요약 정보를 출력하며 모든 범주형 열은 삭제하여 출력합니다. 아래의 코드를 통해 확인 할 수 있습니다.

In [7]:
college.describe().info()

<class 'pandas.core.frame.DataFrame'>
Index: 8 entries, count to max
Data columns (total 22 columns):
HBCU            8 non-null float64
MENONLY         8 non-null float64
WOMENONLY       8 non-null float64
RELAFFIL        8 non-null float64
SATVRMID        8 non-null float64
SATMTMID        8 non-null float64
DISTANCEONLY    8 non-null float64
UGDS            8 non-null float64
UGDS_WHITE      8 non-null float64
UGDS_BLACK      8 non-null float64
UGDS_HISP       8 non-null float64
UGDS_ASIAN      8 non-null float64
UGDS_AIAN       8 non-null float64
UGDS_NHPI       8 non-null float64
UGDS_2MOR       8 non-null float64
UGDS_NRA        8 non-null float64
UGDS_UNKN       8 non-null float64
PPTUG_EF        8 non-null float64
CURROPER        8 non-null float64
PCTPELL         8 non-null float64
PCTFLOAN        8 non-null float64
UG25ABV         8 non-null float64
dtypes: float64(22)
memory usage: 1.4+ KB


넓은 의미에서 데이터는 연속형과 범주형으로 나뉩니다. **연속형 데이터**는 항상 수치며 키, 몸무게, 연봉처럼 가능한 값이 무한 개입니다. 범주형 데이터는 민족, 고용상태, 차 색깔처럼 가능한 값이 한정된 값을 표현합니다. **범주형 데이터**는 수치 형태나 글자 형태로 모두 나타낼 수 있습니다.

범주형 열은 대개 np.object 또는 pd.Categorical 형식을 가집니다.

### 추가사항
decribe 메서스를 수치값을 가진열에 적용하면 반환할 정확한 백분위수를 지정할 수 있습니다.
> 백분위수(Percentile. 百分位數)는 크기가 있는 값들로 이뤄진 자료를 순서대로 나열했을 때 백분율로 나타낸 특정 위치의 값을 이르는 용어이다. 일반적으로 크기가 작은 것부터 나열하여 가장 작은 것을 0, 가장 큰 것을 100으로 한다. 100개의 값을 가진 어떤 자료의 20 백분위수는 그 자료의 값들 중 20번째로 작은 값을 뜻한다. 50 백분위수는 중앙값과 같다.

In [8]:
college.describe(include=[np.number], percentiles=[.01, .05, .10]).T

Unnamed: 0,count,mean,std,min,1%,5%,10%,50%,max
HBCU,7164.0,0.014238,0.118478,0.0,0.0,0.0,0.0,0.0,1.0
MENONLY,7164.0,0.009213,0.095546,0.0,0.0,0.0,0.0,0.0,1.0
WOMENONLY,7164.0,0.005304,0.072642,0.0,0.0,0.0,0.0,0.0,1.0
RELAFFIL,7535.0,0.190975,0.393096,0.0,0.0,0.0,0.0,0.0,1.0
SATVRMID,1185.0,522.819409,68.578862,290.0,390.0,430.0,447.4,510.0,765.0
SATMTMID,1196.0,530.76505,73.469767,310.0,395.0,430.0,453.0,520.0,785.0
DISTANCEONLY,7164.0,0.005583,0.074519,0.0,0.0,0.0,0.0,0.0,1.0
UGDS,6874.0,2356.83794,5474.275871,0.0,14.0,31.65,49.0,412.5,151558.0
UGDS_WHITE,6874.0,0.510207,0.286958,0.0,0.0,0.013265,0.06879,0.5557,1.0
UGDS_BLACK,6874.0,0.189997,0.224587,0.0,0.0,0.0,0.00753,0.10005,1.0


### 데이터 딕셔너리
데이터 분석의 핵심 요소 중 하나는 **데이터 딕셔너리(data dictionary)**를 생성하고 유지하는 것입니다. 데이터 딕셔너리를 사용하는 가장 중요한 목적은 각 열의 이름이 가진 의미를 설명하는 것입니다. 아래는 대학 데이터셋의 데이터 딕셔너리입니다.

In [9]:
pd.read_csv('data/college_data_dictionary.csv')

Unnamed: 0,column_name,description
0,INSTNM,Institution Name
1,CITY,City Location
2,STABBR,State Abbreviation
3,HBCU,Historically Black College or University
4,MENONLY,0/1 Men Only
5,WOMENONLY,0/1 Women only
6,RELAFFIL,0/1 Religious Affiliation
7,SATVRMID,SAT Verbal Median
8,SATMTMID,SAT Math Median
9,DISTANCEONLY,Distance Education Only


## 데이터 형식 변경을 통한 메모리 절약

### 준비 단계
이 레시피에서는 대학 데이터셋 객체의 열 중 하나의 데이터 형식을 pandas의 범주형 데이터 형식으로 변경하므로써 메모리 사용량을 대폭 줄입니다.

In [36]:
#1 대학 데이터셋을 읽은 후 메모리 절약을 잘 보여줄 수 있는 데이터 형식을 가진 열을 선택합니다.
college = pd.read_csv('data/college.csv')
different_cols = ['RELAFFIL', 'SATMTMID', 'CURROPER', 'INSTNM', 'STABBR']
col2 = college.loc[:, different_cols]
col2.head()

Unnamed: 0,RELAFFIL,SATMTMID,CURROPER,INSTNM,STABBR
0,0,420.0,1,Alabama A & M University,AL
1,0,565.0,1,University of Alabama at Birmingham,AL
2,1,,1,Amridge University,AL
3,0,590.0,1,University of Alabama in Huntsville,AL
4,0,430.0,1,Alabama State University,AL


In [37]:
#2 각 열의 데이터 형식을 살펴봅니다.
col2.dtypes

RELAFFIL      int64
SATMTMID    float64
CURROPER      int64
INSTNM       object
STABBR       object
dtype: object

In [38]:
#3 memory_usage 메서드를 사용해 각 열의 메모리 사용량을 알아봅니다.
original_mem = col2.memory_usage(deep=True)
original_mem

Index           80
RELAFFIL     60280
SATMTMID     60280
CURROPER     60280
INSTNM      660240
STABBR      444565
dtype: int64

In [39]:
#4 RELAFFIL 열은 0과 1 값만을 가지므로 64비트를 사용할 필요가 없습니다. astype 메서드를 사용하여 8비트로 변환합니다.
col2['RELAFFIL'] = col2['RELAFFIL'].astype(np.int8)

In [40]:
#5 detypes 속성을 사용해 데이터 형식이 변경됐는지 확인합니다.
col2.dtypes

RELAFFIL       int8
SATMTMID    float64
CURROPER      int64
INSTNM       object
STABBR       object
dtype: object

In [41]:
#6 사용량이 많이 줄었음을 알 수 있습니다.
col2.memory_usage(deep=True)

Index           80
RELAFFIL      7535
SATMTMID     60280
CURROPER     60280
INSTNM      660240
STABBR      444565
dtype: int64

In [42]:
#7 메모리 절약을 위해 고유한 값이 별로 없는 객체의 데이터 형식을 범주형으로 변경할 것입니다. 그 전에 두 객체 열의 고윳값 개수를 확인해봅니다.
col2.select_dtypes(include=['object']).nunique()

INSTNM    7535
STABBR      59
dtype: int64

In [43]:
#8 STABBR 열이 범주형으로 변경하기 좋은 예입니다. 고유한 값이 전체의 1%도 되지 않기 때문입니다.
col2['STABBR'] = col2['STABBR'].astype('category')
col2.dtypes

RELAFFIL        int8
SATMTMID     float64
CURROPER       int64
INSTNM        object
STABBR      category
dtype: object

In [44]:
#9 다시 확인해 보면 STABBR의 메모리 사용량이 줄어든 것을 확인할 수 있습니다.
new_mem = col2.memory_usage(deep=True)
new_mem

Index           80
RELAFFIL      7535
SATMTMID     60280
CURROPER     60280
INSTNM      660699
STABBR       13576
dtype: int64

In [45]:
#10 원래의 메모리 사용량과 갱신된 메모리 사용량을 비교해봅시다. RELAFFIL 열은 원래의 1/8로 줄었고, STABBR는 원래 크기의 3% 수준으로 줄어들었습니다.
new_mem / original_mem

Index       1.000000
RELAFFIL    0.125000
SATMTMID    1.000000
CURROPER    1.000000
INSTNM      1.000695
STABBR      0.030538
dtype: float64

### 작동원리
pandas는 DataFrame 데이터에 사용되는 숫자값의 크기와 상관없이 디폴트로 정수와 실수에 64비트를 사용합니다. 데이터 딕셔너리의 설명에 따르면 RELAFFIL 열은 반드시 0 또는 1의 값만 가진다고 돼 있으므로 더 적은 크기의 정수 형식을 사용해도 됩니다.

INSTNM과 같은 객체 데이터 형식의 열은 pandas의 다른 데이터 형식과는 구분됩니다. pandas에서 같은 열에 위치한 데이터는 같은 데이터 형식을 가집니다. 그러나 열이 객체 데이터 형식일 경우는 그렇지 않습니다. 객체 열의 값은 어떤 형식이든 가능합니다. 때문에 객체 데이터 형식은 문자열, 수치, 시간, 심지어 리스트나 튜플과 같은 파이썬 객체를 값으로 가질 수도 있습니다. 그러나 대부분 객체 데이터 형식은 문자열을 가집니다.

따라서 객체 데이터 형식으로 된 열의 각 값의 메모리 용량 크기는 천차만별입니다. 이러한 특징으로 인해 다른 데이터 형식과 달리, 미리 정의된 메모리 사용량이 없습니다.

객체 열은 메모리를 가장 크게 줄일 가능성이 있는 데이터입니다. 단계 7처럼 우리는 메모리 사용량을 크게 줄일 수 있습니다.

### 추가 사항
객체 데이터 형식을 가지는 열이 정수 또는 실수 같은 단일값을 가진 열과 어떻게 다른지 좀 더 자세히 알아보기 위해 형식을 수정한 후 메모리 메모리 사용량의 변화를 살펴 보겠습니다. CURROPER와 INSTNM열은 각각 int64와 객체 데이터 형식입니다.

In [46]:
college[['CURROPER', 'INSTNM']].memory_usage(deep=True)

Index           80
CURROPER     60280
INSTNM      660699
dtype: int64

In [47]:
college.loc[0, 'CURROPER'] = 1000000
college.loc[0, 'INSTNM'] = college.loc[0, 'INSTNM'] + 'a'
college[['CURROPER', 'INSTNM']].memory_usage(deep=True)

Index           80
CURROPER     60280
INSTNM      660804
dtype: int64

CURROPER의 메모리 사용량은 그래로 남아 있습니다. 64비트 정수는 아주 큰 수를 담기에 충분하기 때문입니다. 반면에 INSTNM의 메모리 사용량은 글자 하나만 첨가했는데도 105 바이트나 증가했습니다.

In [20]:
movie = pd.read_csv('data/movie.csv')
movie2 = movie[['movie_title', 'imdb_score', 'budget']]
movie2.head()

Unnamed: 0,movie_title,imdb_score,budget
0,Avatar,7.9,237000000.0
1,Pirates of the Caribbean: At World's End,7.1,300000000.0
2,Spectre,6.8,245000000.0
3,The Dark Knight Rises,8.5,250000000.0
4,Star Wars: Episode VII - The Force Awakens,7.1,


In [21]:
movie2.nlargest(100, 'imdb_score').head()

Unnamed: 0,movie_title,imdb_score,budget
2725,Towering Inferno,9.5,
1920,The Shawshank Redemption,9.3,25000000.0
3402,The Godfather,9.2,6000000.0
2779,Dekalog,9.1,
4312,Kickboxer: Vengeance,9.1,17000000.0


In [22]:
movie2.nlargest(100, 'imdb_score').nsmallest(5, 'budget')

Unnamed: 0,movie_title,imdb_score,budget
4804,Butterfly Girl,8.7,180000.0
4801,Children of Heaven,8.5,180000.0
4706,12 Angry Men,8.9,350000.0
4550,A Separation,8.4,500000.0
4636,The Other Dream Team,8.4,500000.0


In [None]:
## 

In [23]:
movie = pd.read_csv('data/movie.csv')
movie2 = movie[['movie_title', 'title_year', 'imdb_score']]

In [24]:
movie2.sort_values('title_year', ascending=False).head()

Unnamed: 0,movie_title,title_year,imdb_score
3884,The Veil,2016.0,4.7
2375,My Big Fat Greek Wedding 2,2016.0,6.1
2794,Miracles from Heaven,2016.0,6.8
92,Independence Day: Resurgence,2016.0,5.5
153,Kung Fu Panda 3,2016.0,7.2


In [25]:
movie3 = movie2.sort_values(['title_year', 'imdb_score'], ascending=False)
movie3.head()

Unnamed: 0,movie_title,title_year,imdb_score
4312,Kickboxer: Vengeance,2016.0,9.1
4277,A Beginner's Guide to Snuff,2016.0,8.7
3798,Airlift,2016.0,8.5
27,Captain America: Civil War,2016.0,8.2
98,Godzilla Resurgence,2016.0,8.2


In [26]:
movie_top_year = movie3.drop_duplicates(subset='title_year')
movie_top_year.head()

Unnamed: 0,movie_title,title_year,imdb_score
4312,Kickboxer: Vengeance,2016.0,9.1
3745,Running Forever,2015.0,8.6
4369,Queen of the Mountains,2014.0,8.7
3935,"Batman: The Dark Knight Returns, Part 2",2013.0,8.4
3,The Dark Knight Rises,2012.0,8.5


In [27]:
movie = pd.read_csv('data/movie.csv')
movie2 = movie[['movie_title', 'imdb_score', 'budget']] 
movie_smallest_largest = movie2.nlargest(100, 'imdb_score').nsmallest(5, 'budget')
movie_smallest_largest

Unnamed: 0,movie_title,imdb_score,budget
4804,Butterfly Girl,8.7,180000.0
4801,Children of Heaven,8.5,180000.0
4706,12 Angry Men,8.9,350000.0
4550,A Separation,8.4,500000.0
4636,The Other Dream Team,8.4,500000.0


In [28]:
movie2.sort_values('imdb_score', ascending=False).head()

Unnamed: 0,movie_title,imdb_score,budget
2725,Towering Inferno,9.5,
1920,The Shawshank Redemption,9.3,25000000.0
3402,The Godfather,9.2,6000000.0
2779,Dekalog,9.1,
4312,Kickboxer: Vengeance,9.1,17000000.0


In [29]:
pd.core.common.is_list_like = pd.api.types.is_list_like
from pandas_datareader import data, wb
import fix_yahoo_finance as yf
yf.pdr_override()
import datetime

In [30]:
start = datetime.datetime(2017, 1, 1)
end = datetime.datetime(2017, 12, 31)
tsla = data.get_data_yahoo('tsla', start, end)
tsla

[*********************100%***********************]  1 of 1 downloaded


ValueError: zero-size array to reduction operation maximum which has no identity