### numpy와 pandas

numpy와 pandas는 python에서 데이터를 다루기 위해 거의 필수적으로 쓰이고 있는 패키지들이다. 이번 장에서는 이들의 핵심적인 기능들을 소개한다.

numpy는 Numerical Python의 약자로서 python에서 돌아가는 많은 계산/과학 패키지의 기본으로 널리 활용된다. 즉 pandas나 tensorflow 등 많은 패키지들이 그 기본 데이터 형태의 하나로 numpy에서 제공하는 데이터 구조와 기능들을 활용한다. numpy의 대표적인 데이터 구조는 ndarray라고 불리는 다차원 배열이다. 이것은 벡터, 매트릭스, 텐서와 같은 구조들을 용이하게 다루고 보다 빠르고 효율적인 계산을 가능하게 한다. numpy의 많은 기능들은 선형대수에 적합한 연산들을 제공한다. 

pandas는 R 등에서 제공하는 것과 유사한 데이터 프레임을 제공하여, 다양한 형태의 데이터를 손쉽게 다룰 수 있는 패키지이다. pandas의 대표적인 데이터 형태인 dataframe은 테이블 구조를 가진 이차원 형태고, 각 컬럼이 다른 형태의 데이터들을 저장할 수 있다. pandas를 활용하면 데이터 전처리를 포함해서, 형태를 바꾸고, 인덱싱을 하고, 필요한 부분 데이터를 뽑아내고, 데이터를 cleaning 하는 작업들을 손 쉽게 할 수 있다.

In [2]:
import numpy as np

위 구문처럼 numpy를 np라는 약자로 불러오는 것은 매우 표준적인 형태이므로, 비록 필수는 아니지만 이와 같은 방식을 권장한다. import는 패키지를 사용하기 전 아무때나, 그러나 가급적 코드의 맨 위에서 한 번만 실행하면 된다. 이후 np. 으로 시작하는 명령이나 오브젝트는 전부 numpy에 의존한다. 

### ndarray

ndarray는 numpy의 데이터 구조이다. 얼핏 보면 python의 list 형태와 비슷해 보이지만, list와는 다르게 ndarray는 한 가지 형태의 데이터만을 담아야 한다 (정수, 실수, 문자 등). ndarray는 list에 비해 더 적은 메모리와 더 빠른 연산을 가능케 하며, C나 C++, Fortran 등 다른 언어와 자료를 주고 받는 것이 가능하다. ndarray는 list로부터 np.array 명령을 통해 변환할 수 있다. 이 장에서 array라 부를 때는 보통 ndarray를 의미한다.

In [21]:
list1 = [3, 5.8, 17, 0, 1]
array1 = np.array(list1)

print('list1 =', list1, type(list1))
print('array1 =', array1, type(array1))
print('data type of array1 =', array1.dtype, '\n')

array2 = np.array([[1,2,3], [4,5,6]])
print('array 2 =', array2)
print('data type of array2 = ', array2.dtype)
print('dimension of array2 =', array2.ndim)
print('shape of array2 =', array2.shape)

list1 = [3, 5.8, 17, 0, 1] <class 'list'>
array1 = [  3.    5.8  17.    0.    1. ] <class 'numpy.ndarray'>
data type of array1 = float64 

array 2 = [[1 2 3]
 [4 5 6]]
data type of array2 =  int64
dimension of array2 = 2
shape of array2 = (2, 3)


위 예제에서 사용된 메서드 .dtype, .ndim, .shape은 각각 데이터 타입 (정수, 실수, 문자 등), array의 차원 (0차원: 스칼라, 1차원: 벡터, 2차원: 행렬, 3차원 이상: 텐서), 그리고 모양 (각 차원의 길이)을 나타내 준다. 특정 shape을 가진 0 혹은 1로 이루어진 array를 생성하려면 아래의 예제와 같이 하면 된다:

In [28]:
np.zeros(5)

array([ 0.,  0.,  0.,  0.,  0.])

In [24]:
np.zeros((2, 5))

array([[ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.]])

In [27]:
np.ones((3,3,3))

array([[[ 1.,  1.,  1.],
        [ 1.,  1.,  1.],
        [ 1.,  1.,  1.]],

       [[ 1.,  1.,  1.],
        [ 1.,  1.,  1.],
        [ 1.,  1.,  1.]],

       [[ 1.,  1.,  1.],
        [ 1.,  1.,  1.],
        [ 1.,  1.,  1.]]])

위의 예제들에서 np.zeros()는 해당 shape의 0들로 채워진 array를, np.ones()는 해당 shape의 1들로 채워진 array를 생성해 준다. 두 번째와 세 번째 셀에서 () 안에 또 하나의 ()가 들어가서 shape을 지정하는 것을 주목하자. 이것은 shape을 지정하는 인자 그 자체가 tuple 형태여야 하기 때문이다. 즉 인자 그 자체가 (2, 5)와 같이 ()로 둘러싸인 형태이기 때문에, np.zeros()안에 다시 괄호가 들어가는 형태가 되는 것이다. np.zeros(2, 5)와 같은 형태는 에러를 발생시킨다.

In [30]:
np.ones((3,3,3)).dtype

dtype('float64')

위의 예제에서 보듯이 0과 1이 그냥 정수가 아니라 0., 1. 과 같이 소수로 표현되고, .dtype을 통해서 데이터 타입을 봐도 역시 실수형 (float64) 형태로 지정된 것을 알 수 있다. 이것은 numpy가 기본적으로 실수형으로 array를 생성했기 때문인데, 만약 정수형태로 생성하려면 다음과 같이 데이터 타입을 정해주자.

In [31]:
np.ones((2,5), dtype=np.int32)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]], dtype=int32)

혹은 .astype 메서드를 이용해서 데이터 타입을 변환해 줄 수도 있다. 다음의 예제를 보자.

In [35]:
array3 = np.array([3.1, 5.8, 17.5, 1.0, -7.3, -5.5, -0.9])
array3_int = array3.astype(np.int32)
print(array3)
print(array3_int)

[  3.1   5.8  17.5   1.   -7.3  -5.5  -0.9]
[ 3  5 17  1 -7 -5  0]


이 실수 => 정수 변환에서 소수점 아래는 무조건 버려지는 것에 주목하자. 수학적으로 좀 더 정확히 반올림, 올림, 내림 등을 하려면 다음과 같이 할 수 있다. 단 .astype을 적용하기 전에 데이터 형태는 여전히 실수형태이다. 결과적으로 얻은 숫자들이 다 같지 않음에 유의하자.

In [39]:
print('round:', np.round(array3)) # 반올림
print('ceil:', np.ceil(array3)) # 올림
print('floor:', np.floor(array3)) # 내림

round: [  3.   6.  18.   1.  -7.  -6.  -1.]
ceil: [  4.   6.  18.   1.  -7.  -5.  -0.]
floor: [  3.   5.  17.   1.  -8.  -6.  -1.]


In [43]:
print('round:', np.round(array3).astype(np.int32)) # 반올림 후 정수형 변환
print('ceil:', np.ceil(array3).astype(np.int32)) # 올림 후 정수형 변환
print('floor:', np.floor(array3).astype(np.int32)) # 내림 후 정수형 변환

round: [ 3  6 18  1 -7 -6 -1]
ceil: [ 4  6 18  1 -7 -5  0]
floor: [ 3  5 17  1 -8 -6 -1]


numpy에서 가능한 데이터 타입은 다양하지만 대표적인 몇 가지는 다음과 같다 (데이터 타입 자체에는 np.가 붙지 않지만, 위의 예제에서 보듯이 실제로 적용하기 위해서는 np.가 붙어여 하기 때문에 아래와 같이 표현했다)

np.int8 (8-bit 정수형)<br>
np.int16 (16-bit 정수형)<br>
np.int32 (32-bit 정수형)<br>
np.int32 (64-bit 정수형)<br>

np.float16 (반정밀도 부동소수)<br>
np.float32 (단정밀도 부동소수)<br>
np.float64 (배정밀도 부동소수)<br>
np.float128 (4배정밀도 부동소수)<br>

np.bool (불 타입: True or False)<br>
np.object (python object 타입)<br>


In [45]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [51]:
np.arange(1.5, 6, 2)

array([ 1.5,  3.5,  5.5])

In [46]:
np.linspace(-1.5, 3.5, 10)

array([-1.5       , -0.94444444, -0.38888889,  0.16666667,  0.72222222,
        1.27777778,  1.83333333,  2.38888889,  2.94444444,  3.5       ])

위의 두 구문은 numpy에서 등간격 수열을 만들어 내는 대표적인 방법들이다. np.arange는 인자로 주어진 갯수만큼의 정수를 0에서부터 생성하거나, 특정 구간에서 정해진 간격만큼의 수열을 만들어 낸다. np.linspace는 첫번째 인자에서 정확하게 시작해서 두번째 인자에서 정확히 끝나며, 그 사이에 세번째 인자의 수만큼의 등간격 수열을 만들어 낸다. 

In [53]:
array2 = np.array([[1,2,3], [4,5,6]])
array2*2

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [56]:
array2 / 2

array([[ 0.5,  1. ,  1.5],
       [ 2. ,  2.5,  3. ]])

In [58]:
array2 ** 0.5

array([[ 1.        ,  1.41421356,  1.73205081],
       [ 2.        ,  2.23606798,  2.44948974]])

In [55]:
array2*array2

array([[ 1,  4,  9],
       [16, 25, 36]])

위 예제들과 같이 array에서의 곱셈, 나눗셈, 거듭제곱 등은 원소단위(element-wise)로 이루어진다. array끼리의 연산에서는 shape이 일치해야만 가능하며, 원소단위의 연산이 아닌 내적이나 매트릭스 곱의 경우는 다음과 같이 np.dot을 사용한다:

In [59]:
a = np.array([1, 2])
b = np.array([-1, 1])
np.dot(a, b)

1

In [62]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[-1, 1], [2, 0]])
np.dot(A, B)

array([[3, 1],
       [5, 3]])

ndarray의 인덱싱은 list와 비슷한 방식으로 이루어진다. 다차원 array의 경우 다음과 같은 두 가지 방식 모두 가능하다.

In [74]:
array2 = np.array([[1,2,3], [4,5,6]])
print(array2[0][2])
print(array2[0, 2])

3
3


아래의 예제는 ndarray의 특성 중에, 일부를 잘라낸 slicing에 변화를 줄 경우 그 변화가 원래의 ndarray에도 반영되는 예제를 보여준다.

In [75]:
array2_part = array2[0]
print(array2_part)

array2_part[:] = 100
print(array2)

[1 2 3]
[[100 100 100]
 [  4   5   6]]


본 교재에서는 numpy의 많은 함수와 메서드를 직접 사용하기 보다는, numpy 기반 위에 지어진 pandas나 tensorflow의 함수와 메서드를 더 많이 사용할 것이다. 하지만 numpy에서 자주 쓰이는 중요한 기능 중 하나로 난수 (random number) 생성이 있다. 이 기능들은 np.random 모듈에 포함되어 있다.

In [78]:
random_numbers = np.random.normal(size=10000)
print('mean =', np.mean(random_numbers))
print('std = ', np.std(random_numbers))

mean = 0.0104106793782
std =  1.00100304797


### pandas

pandas는 앞서 소개한 것처럼, 데이터를 손쉽게 다루기 위해 탄생한 패키지이다. 그 밑바탕에 numpy의 구조를 깔고 있으며 매우 유연하고 쉽게 복잡한 데이터 구조를 다룰 수 있다. pandas를 불러오기 위해서 다음과 같이 입력한다. 앞서 numpy에 대한 관습적인 약자가 np였던 것처럼, pandas는 pd 약자로 불러오는 경우가 일반적이다. 따라서 pd.으로 시작하는 모든 메서드나 오브젝트는 pandas에서 기인한다:

In [79]:
import pandas as pd

### Series

Series는 DataFrame과 더불어 pandas의 대표적인 자료 형태이다. 기본적으로는 1차원 배열과 유사하지만, index가 구체적으로 붙을 수 있다는 점이 다르다. 다음의 예시를 보자:

In [82]:
series1 = pd.Series([3, 9, -1.5, 4.8, 5.0], dtype=np.float64)
print(series1)

0    3.0
1    9.0
2   -1.5
3    4.8
4    5.0
dtype: float64


Series는 우선 pd.Series로 정의되는데, 첫 글자가 대문자가 되어야 함을 유의하자. 위의 예제에서 series1은 그냥 변수의 이름이므로 반드시 대문자로 시작할 필요는 없다. Series를 출력하면 두 개의 열로 출력되고, 첫번째 열은 인덱스(index), 두번째 열이 값(values)에 해당한다. 둘을 따로 출력하려면 다음과 같이 한다.

In [89]:
series1.index

RangeIndex(start=0, stop=5, step=1)

In [87]:
series1.values

array([ 3. ,  9. , -1.5,  4.8,  5. ])

In [103]:
series2 = pd.Series([3, 9, -1.5, 4.8, 5.0], index=['a', 'b', 'c', 'd', 'e'])
print(series2)

series2.index = ['A', 'B', 'C', 'D', 'E']
print(series2)

a    3.0
b    9.0
c   -1.5
d    4.8
e    5.0
dtype: float64
A    3.0
B    9.0
C   -1.5
D    4.8
E    5.0
dtype: float64


위의 예제처럼 index는 임의의 값을 붙일 수 있으며, 특히 문자(object) 또한 붙일 수 있다. 즉 이 경우는 index가 문자에 해당한다. 따라서 다음과 같은 방식으로 접근할 수 있다. 첫번째 줄처럼 하나의 index를 쓰면 값(value)를 리턴하지만, 두번째 줄처럼 [ ]안에 다시 [ ]를 써서 여러 개의 index를 쓸 경우에 결과 값은 다시 Series가 된다. 

In [98]:
print(series2['a'])
print(series2[['a', 'c']])

3.0
a    3.0
c   -1.5
dtype: float64


Series 오브젝트 자체와 index에는 각각 이름이 붙을 수 있다:

In [108]:
series2.name = 'alphabet numbers'
series2.index.name = 'alphabet'
print(series2)

alphabet
A    3.0
B    9.0
C   -1.5
D    4.8
E    5.0
Name: alphabet numbers, dtype: float64


### DataFrame

pandas의 또 다른 데이터 구조이자 가장 널리 쓰이는 데이터 구조인 DataFrame은 2차원 배열과 유사하고, 마치 Series가 옆으로 나란히 달라붙어 있는 구조라고 생각할 수 있다 (인덱스를 공유). 각각의 열(column)은 다른 형태의 데이터들을 담을 수 있고, 행(row)은 각 열에 해당하는 데이터의 여러 샘플 내지는 경우에 따라 시계열로 해석할 수도 있다. DataFrame을 가장 직접적으로 만드는 방법은 dict 데이터 형태를 변환하는 것이다:

In [124]:
dict_data = {'name': ['Alice', 'Bob', 'Tina'], 
             'gender': ['F', 'M', 'F'],
             'age': [23, 30, 28]}

print(dict_data)

df1 = pd.DataFrame(dict_data, 
                   columns=['name', 'gender', 'age'],
                   index=['1a', '2a', '3a'])
print(df1)

{'name': ['Alice', 'Bob', 'Tina'], 'gender': ['F', 'M', 'F'], 'age': [23, 30, 28]}
     name gender  age
1a  Alice      F   23
2a    Bob      M   30
3a   Tina      F   28


pd.DataFrame()의 첫번째 인자는 변환할 데이터이고, 두번째 인자 columns는 각 컬럼의 이름과 순서를 지정해 준다. 생략할 경우 dict의 'key'를 정렬하여 만들어 준다. 세번째 인자 index에서는 index의 이름을 구체적으로 붙여줄 수 있다. 생략할 경우 0, 1, 2, ... 와 같이 자동으로 index가 붙는다.

In [125]:
df1.columns

Index(['name', 'gender', 'age'], dtype='object')

In [126]:
df1['gender']

1a    F
2a    M
3a    F
Name: gender, dtype: object

In [127]:
df1.gender

1a    F
2a    M
3a    F
Name: gender, dtype: object

위와 같이 .columns 메서드를 통해 column의 이름을 확인할 수 있고, 개별 column을 뽑아내려면 위의 두 가지 방식 중 하나를 쓰면 된다. 결과는 Series가 된다. 

In [131]:
df1.ix['3a']

name      Tina
gender       F
age         28
Name: 3a, dtype: object

In [134]:
df1.ix[0:2]

Unnamed: 0,name,gender,age
1a,Alice,F,23
2a,Bob,M,30


특정 행(row)을 읽기 위해서는 .ix 메서드를 쓰고, 그 다음에 구체적인 행을 지정하면 된다. 비록 index의 이름을 정해줬다 하더라도, 위의 두번째 예제처럼 기본적인 index를 사용하여 여러 개의 행에 동시에 접근할 수 있다. 특정 행과 열의 원소에 접근하려면 아래와 같이 .ix[행, 열]과 같은 방법을 쓰면 된다.

In [139]:
df1.ix[2, 'name']

'Tina'

In [137]:
df1['City'] = ['LA', 'SF', 'NY']
df1

Unnamed: 0,name,gender,age,City
1a,Alice,F,23,LA
2a,Bob,M,30,SF
3a,Tina,F,28,NY


In [138]:
df1['Country'] = 'US'
df1

Unnamed: 0,name,gender,age,City,Country
1a,Alice,F,23,LA,US
2a,Bob,M,30,SF,US
3a,Tina,F,28,NY,US


위의 예제들처럼 새로운 컬럼을 추가하는 것은 간단하게 해당 컬럼에 새로운 값들을 대입하면 된다. 'City'의 예처럼 개별적으로 입력할 수도 있고, 'Country'의 예처럼 하나의 값을 대입하면 모든 행에 자동으로 적용된다.

In [146]:
df1.sort_values(by='age')

Unnamed: 0,name,gender,age,City,Country
1a,Alice,F,23,LA,US
3a,Tina,F,28,NY,US
2a,Bob,M,30,SF,US


위와 같이 특정 컬럼의 값을 기준은 sorting을 할 수 있다. 단 이렇게 해도 원래 DataFrame인 df1 자체는 바뀌지 않는다.

### Data Loading & Saving

지금까지의 예제에서는 직접 pandas Series와 DataFrame을 만들었지만, 대부분의 활용에 있어서는 외부의 데이터를 읽어 들여서 작업을 하게 될 것이다. 여기에서 .csv 등 외부 파일을 pandas에 읽어들이고, 편집 및 저장하는 방법을 배워 보자.

In [157]:
cs = pd.read_csv("https://ed-public-download.app.cloud.gov/downloads/Most-Recent-Cohorts-Scorecard-Elements.csv")

In [158]:
cs

Unnamed: 0,UNITID,OPEID,OPEID6,INSTNM,CITY,STABBR,INSTURL,NPCURL,HCM2,PREDDEG,...,RET_PTL4,PCTFLOAN,UG25ABV,MD_EARN_WNE_P10,GT_25K_P6,GRAD_DEBT_MDN_SUPP,GRAD_DEBT_MDN10YR_SUPP,RPY_3YR_RT_SUPP,C150_L4_POOLED_SUPP,C150_4_POOLED_SUPP
0,100654,100200,1002,Alabama A & M University,Normal,AL,www.aamu.edu/,galileo.aamu.edu/netpricecalculator/npcalc.htm,0,3,...,,0.8284,0.1049,30300,0.426,33888,347.789507913825,0.2370456303,,0.32451962616822
1,100663,105200,1052,University of Alabama at Birmingham,Birmingham,AL,www.uab.edu,www.collegeportraits.org/AL/UAB/estimator/agree,0,3,...,,0.5214,0.2422,39700,0.665,21941.5,225.183648722001,0.5006735519,,0.54610480182926
2,100690,2503400,25034,Amridge University,Montgomery,AL,www.amridgeuniversity.edu,www2.amridgeuniversity.edu:9091/,0,3,...,,0.7795,0.8540,40100,0.676,23370,239.844216240146,0.2904884319,,PrivacySuppressed
3,100706,105500,1055,University of Alabama in Huntsville,Huntsville,AL,www.uah.edu,finaid.uah.edu/,0,3,...,,0.4596,0.2640,45500,0.668,24097,247.305352106924,0.5278022948,,0.47240649606299
4,100724,100500,1005,Alabama State University,Montgomery,AL,www.alasu.edu,www.alasu.edu/cost-aid/forms/calculator/index....,0,3,...,,0.7554,0.1270,26600,0.36,33118.5,339.892198354698,0.1855174624,,0.2574049608355
5,100751,105100,1051,The University of Alabama,Tuscaloosa,AL,www.ua.edu/,financialaid.ua.edu/net-price-calculator/,0,3,...,,0.4010,0.0853,41900,0.67,23750,243.744122195271,0.5726116534,,0.66125080978088
6,100760,100700,1007,Central Alabama Community College,Alexander City,AL,www.cacc.edu,www.cacc.edu/clientuploads/financial_aid/NetPr...,0,2,...,0.5055,0.3977,0.3153,27500,0.459,16127,165.509956153395,0.2669565217,0.11515537679932,
7,100812,100800,1008,Athens State University,Athens,AL,www.athens.edu,https://24.athens.edu/apex/prod8/f?p=174:1:394...,0,3,...,,0.6296,0.6410,39000,0.666,18595,190.838819040887,0.4763636364,,
8,100830,831000,8310,Auburn University at Montgomery,Montgomery,AL,www.aum.edu,www.aum.edu/admissions/financial-information/p...,0,3,...,,0.5803,0.2930,35000,0.575,21335,218.959193559415,0.408952959,,0.24136439454691
9,100858,100900,1009,Auburn University,Auburn,AL,www.auburn.edu,www.auburn.edu/admissions/money-matters.html,0,3,...,,0.3494,0.0415,45700,0.725,21831,224.049597121893,0.7243539546,,0.69354208066896


위 데이터는 미국연방정부 데이터 공개 사이트인 data.gov에서 College Scorecard 데이터셋을 불러 온 것이다. pd.read_csv()는 컴퓨터에 저장된 .csv 파일을 경로/이름.csv로 직접 불러 올 수도 있고, 위의 예제처럼 .csv 파일이 올라와 있는 인터넷 주소를 직접 넣어서 불러 올 수도 있다. 탭(tab)으로 데이터가 구분되는 파일은 pd.read_table을 사용하거나, pd.read_csv('filename', sep='\t')과 같이 separator를 구분하는 옵션을 사용하며 된다. 불러온 DataFrame의 내용을 확인하는 방법은, Jupyter Notebook일 경우 그냥 DataFrame 변수의 이름 (여기서는 cs)를 입력하면 적절히 중간 부분을 생략한 초반부와 끝 부분의 데이터를 보여 준다. 특별히 개수를 지정해서 보고 싶으면 .head()와 .tail()을 사용하면 된다. 

In [160]:
cs.head(5)

Unnamed: 0,UNITID,OPEID,OPEID6,INSTNM,CITY,STABBR,INSTURL,NPCURL,HCM2,PREDDEG,...,RET_PTL4,PCTFLOAN,UG25ABV,MD_EARN_WNE_P10,GT_25K_P6,GRAD_DEBT_MDN_SUPP,GRAD_DEBT_MDN10YR_SUPP,RPY_3YR_RT_SUPP,C150_L4_POOLED_SUPP,C150_4_POOLED_SUPP
0,100654,100200,1002,Alabama A & M University,Normal,AL,www.aamu.edu/,galileo.aamu.edu/netpricecalculator/npcalc.htm,0,3,...,,0.8284,0.1049,30300,0.426,33888.0,347.789507913825,0.2370456303,,0.32451962616822
1,100663,105200,1052,University of Alabama at Birmingham,Birmingham,AL,www.uab.edu,www.collegeportraits.org/AL/UAB/estimator/agree,0,3,...,,0.5214,0.2422,39700,0.665,21941.5,225.183648722001,0.5006735519,,0.54610480182926
2,100690,2503400,25034,Amridge University,Montgomery,AL,www.amridgeuniversity.edu,www2.amridgeuniversity.edu:9091/,0,3,...,,0.7795,0.854,40100,0.676,23370.0,239.844216240146,0.2904884319,,PrivacySuppressed
3,100706,105500,1055,University of Alabama in Huntsville,Huntsville,AL,www.uah.edu,finaid.uah.edu/,0,3,...,,0.4596,0.264,45500,0.668,24097.0,247.305352106924,0.5278022948,,0.47240649606299
4,100724,100500,1005,Alabama State University,Montgomery,AL,www.alasu.edu,www.alasu.edu/cost-aid/forms/calculator/index....,0,3,...,,0.7554,0.127,26600,0.36,33118.5,339.892198354698,0.1855174624,,0.2574049608355


In [162]:
cs.tail(5)

Unnamed: 0,UNITID,OPEID,OPEID6,INSTNM,CITY,STABBR,INSTURL,NPCURL,HCM2,PREDDEG,...,RET_PTL4,PCTFLOAN,UG25ABV,MD_EARN_WNE_P10,GT_25K_P6,GRAD_DEBT_MDN_SUPP,GRAD_DEBT_MDN10YR_SUPP,RPY_3YR_RT_SUPP,C150_L4_POOLED_SUPP,C150_4_POOLED_SUPP
7698,48065701,869423,8694,Rasmussen College - Overland Park,Overland Park,KS,rasmussen.edu,,0,0,...,,,,,,21163,217.1939729692,0.2840145103,,
7699,48154401,4220901,42209,National Personal Training Institute of Cleveland,Highland Heights,OH,nptiohio.edu,,0,0,...,,,,,,6333,64.9950116152695,,,
7700,48387801,4223701,42237,Bay Area Medical Academy - San Jose Satellite ...,San Jose,CA,www.bamasf.com/,,0,0,...,,,,,,PrivacySuppressed,PrivacySuppressed,,,
7701,48400201,4228101,42281,High Desert Medical College,Lancaster,CA,www.highdesertmedicalcollege.org/,,0,0,...,,,,,,7502,76.992353882481,,,
7702,48414501,4232401,42324,Excel Learning Center-San Antonio South,San Antonio,TX,www.excel.edu,,0,0,...,,,,,,12125,124.437788699691,,,


In [164]:
cs.shape # 모양(크기)을 보여준다: (행의 수, 열의 수)

(7703, 122)

In [165]:
cs.columns # 컬럼의 이름들을 출력해 준다

Index(['UNITID', 'OPEID', 'OPEID6', 'INSTNM', 'CITY', 'STABBR', 'INSTURL',
       'NPCURL', 'HCM2', 'PREDDEG',
       ...
       'RET_PTL4', 'PCTFLOAN', 'UG25ABV', 'MD_EARN_WNE_P10', 'GT_25K_P6',
       'GRAD_DEBT_MDN_SUPP', 'GRAD_DEBT_MDN10YR_SUPP', 'RPY_3YR_RT_SUPP',
       'C150_L4_POOLED_SUPP', 'C150_4_POOLED_SUPP'],
      dtype='object', length=122)

In [167]:
cs.info() # 기본적인 정보를 보여준다

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7703 entries, 0 to 7702
Columns: 122 entries, UNITID to C150_4_POOLED_SUPP
dtypes: float64(103), int64(7), object(12)
memory usage: 7.2+ MB


In [168]:
cs.describe() # 숫자 값을 가지는 컬럼들에 대해 평균, 표준편차, 중간값 등의 통계를 보여준다

Unnamed: 0,UNITID,OPEID,OPEID6,HCM2,PREDDEG,CONTROL,LOCALE,HBCU,PBI,ANNHI,...,NPT43_PRIV,NPT44_PRIV,NPT45_PRIV,PCTPELL,RET_FT4,RET_FTL4,RET_PT4,RET_PTL4,PCTFLOAN,UG25ABV
count,7703.0,7703.0,7703.0,7703.0,7703.0,7703.0,7282.0,7282.0,7282.0,7282.0,...,3442.0,2758.0,2245.0,6966.0,2293.0,3843.0,1412.0,2208.0,6966.0,6828.0
mean,1663052.0,1891630.0,16293.90653,0.030637,1.799688,2.215371,19.620434,0.014282,0.013046,0.004944,...,20045.011912,22695.166425,25001.984855,0.532093,0.707081,0.686155,0.455639,0.564679,0.523092,0.411543
std,6566910.0,3383134.0,13883.577507,0.172344,1.023986,0.836528,9.366024,0.118658,0.113479,0.070142,...,6821.385416,6526.657809,7687.583619,0.225941,0.195645,0.180121,0.293325,0.26354,0.284088,0.229097
min,100654.0,100200.0,1002.0,0.0,0.0,1.0,-3.0,0.0,0.0,0.0,...,598.0,180.0,609.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,174242.0,344050.0,3436.5,0.0,1.0,1.0,12.0,0.0,0.0,0.0,...,15825.0,18406.0,19517.0,0.35885,0.6182,0.5679,0.25,0.382925,0.3333,0.2428
50%,230472.0,1054211.0,10490.0,0.0,2.0,2.0,21.0,0.0,0.0,0.0,...,19674.5,22507.5,24172.0,0.5233,0.7414,0.6906,0.45,0.50325,0.5849,0.40375
75%,447652.0,2811950.0,25988.0,0.0,3.0,3.0,22.0,0.0,0.0,0.0,...,24354.25,26746.75,28877.0,0.7143,0.8333,0.81575,0.6364,0.7895,0.747325,0.5764
max,48414500.0,82098820.0,42371.0,1.0,4.0,3.0,43.0,1.0,1.0,1.0,...,90971.0,91135.0,91135.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


In [169]:
cs['STABBR'].unique() # 특정 컬럼의 유일한 값들을 모아서 보여준다

array(['AL', 'IL', 'AK', 'AZ', 'NM', 'AR', 'CA', 'MN', 'CO', 'CT', 'NY',
       'DE', 'DC', 'VA', 'FL', 'GA', 'HI', 'ID', 'IN', 'TN', 'MI', 'IA',
       'KS', 'MO', 'KY', 'LA', 'ME', 'MD', 'MA', 'MS', 'MT', 'NE', 'NV',
       'NH', 'NJ', 'NC', 'ND', 'OH', 'WV', 'OK', 'OR', 'PA', 'RI', 'SC',
       'SD', 'TX', 'UT', 'VT', 'WA', 'WI', 'WY', 'AS', 'GU', 'MP', 'PR',
       'FM', 'PW', 'VI', 'MH'], dtype=object)

In [170]:
cs['STABBR'].value_counts() # 각 유일한 원소마다 얼마나 많은 데이터가 있는 지 보여 준다 

CA    795
TX    485
NY    467
FL    446
PA    405
OH    355
IL    305
NC    210
MI    209
MA    200
MO    200
VA    190
TN    186
GA    186
NJ    165
IN    162
MN    157
PR    151
OK    150
AZ    134
CO    129
WA    127
LA    124
WI    116
SC    113
KY    110
KS    103
CT    102
MD    101
AL     97
OR     95
IA     92
AR     89
UT     83
WV     74
MS     65
NM     52
NE     50
NV     46
ME     44
NH     42
ID     42
MT     32
SD     31
ND     30
VT     28
DC     26
RI     26
HI     26
DE     19
WY     11
AK     10
GU      3
VI      2
AS      1
MP      1
MH      1
PW      1
FM      1
Name: STABBR, dtype: int64