# UNIT 31 Pandas 데이터 구조에 익숙해지기

### 시리즈 예제 코드 #1

In [16]:
import pandas as pd

# 마지막 값이 잘못되었다. 조금 후에 수정해보자.

inflation = pd.Series((2.2, 3.4, 2.8, 1.6, 2.3, 2.7, 3.4, 3.2, 2.8, 3.8,
                      -0.4, 1.6, 3.2, 2.1, 1.5, 1.5))

inflation

# 인덱스가 자동으로 생성
# 첫번쨰 아이템의 레이블은 0
# 두번쨰 아이템의 레이블은 1
# 이런식으로 하나씩 증가하는 정수형 인덱스가 기본값

0     2.2
1     3.4
2     2.8
3     1.6
4     2.3
5     2.7
6     3.4
7     3.2
8     2.8
9     3.8
10   -0.4
11    1.6
12    3.2
13    2.1
14    1.5
15    1.5
dtype: float64

In [17]:
len(inflation)

16

In [19]:
# value 속성값은 시리즈 안의 모든 값 리스트

inflation.values

array([ 2.2,  3.4,  2.8,  1.6,  2.3,  2.7,  3.4,  3.2,  2.8,  3.8, -0.4,
        1.6,  3.2,  2.1,  1.5,  1.5])

In [20]:
# index 속성값은 시리즈의 인덱스를 의미

inflation.index

RangeIndex(start=0, stop=16, step=1)

In [21]:
# index.values 속성값은 모든 index값의 배열

inflation.index.values

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [24]:
# 배열이기 때문에 마지막의 잘못된 값 수정 가능

inflation.values[-1] = 1.6
inflation

0     2.2
1     3.4
2     2.8
3     1.6
4     2.3
5     2.7
6     3.4
7     3.2
8     2.8
9     3.8
10   -0.4
11    1.6
12    3.2
13    2.1
14    1.5
15    1.6
dtype: float64

### 시리즈 예제 코드 #2
#### - Series의 사용자 인덱스 생성방법(1)
- 딕셔너리 자료형 이용

In [7]:
import pandas as pd
import numpy as np

inflation = pd.Series({1999 : 2.2, 2000 : 3.4, 2001 : 2.8, 2002 : 1.6, 2003 : 2.3,
                       2004 : 2.7, 2005 : 3.4, 2006 : 3.2, 2007 : 2.8, 2008 : 3.8,
                       2009 : -0.4, 2010 : 1.6, 2011 : 3.2, 2012 : 2.1, 2013 : 1.5,
                       2014 : 1.6, 2015 : np.nan})
inflation

1999    2.2
2000    3.4
2001    2.8
2002    1.6
2003    2.3
2004    2.7
2005    3.4
2006    3.2
2007    2.8
2008    3.8
2009   -0.4
2010    1.6
2011    3.2
2012    2.1
2013    1.5
2014    1.6
2015    NaN
dtype: float64

#### - Series의 사용자 인덱스 생성방법(2)
- 새로운 인덱스 시퀀스를 생성하고 이를 기존의 시리즈에 붙임

In [6]:
import numpy as np

inflation = pd.Series((2.2, 3.4, 2.8, 1.6, 2.3, 2.7, 3.4, 3.2,
                      2.8, 3.8, -0.4, 1.6, 3.2, 2.1, 1.6, 1.5))
inflation.index = pd.Index(range(1999, 2015))
inflation[2015] = np.nan
inflation

1999    2.2
2000    3.4
2001    2.8
2002    1.6
2003    2.3
2004    2.7
2005    3.4
2006    3.2
2007    2.8
2008    3.8
2009   -0.4
2010    1.6
2011    3.2
2012    2.1
2013    1.6
2014    1.5
2015    NaN
dtype: float64

#### 시리즈와 인덱스에 이름 설정
- name 속성을 이용하여 이름 설정

In [9]:
inflation.index.name = "Year"
inflation.name = "%"
inflation

Year
1999    2.2
2000    3.4
2001    2.8
2002    1.6
2003    2.3
2004    2.7
2005    3.4
2006    3.2
2007    2.8
2008    3.8
2009   -0.4
2010    1.6
2011    3.2
2012    2.1
2013    1.5
2014    1.6
2015    NaN
Name: %, dtype: float64

#### 데이터 파악하기
- head()나 tail() 함수 이용

In [12]:
# head() 기본값 5개

inflation.head()

Year
1999    2.2
2000    3.4
2001    2.8
2002    1.6
2003    2.3
Name: %, dtype: float64

In [11]:
inflation.head(10)

Year
1999    2.2
2000    3.4
2001    2.8
2002    1.6
2003    2.3
2004    2.7
2005    3.4
2006    3.2
2007    2.8
2008    3.8
Name: %, dtype: float64

In [13]:
inflation.tail()

Year
2011    3.2
2012    2.1
2013    1.5
2014    1.6
2015    NaN
Name: %, dtype: float64

In [14]:
inflation.tail(10)

Year
2006    3.2
2007    2.8
2008    3.8
2009   -0.4
2010    1.6
2011    3.2
2012    2.1
2013    1.5
2014    1.6
2015    NaN
Name: %, dtype: float64

### 데이터프레임 예제 코드 #1
- 판다스의 CSV 읽기 함수를 이용하여 alco2009 데이터프레임 생성

In [3]:
# 주(state)별, 카테고리(맥주, 와인, 스피릿)별, 연도별 1인당 알코올 소비 데이터

import pandas as pd

alco2009 = pd.read_csv("niaaa-report2009.csv", index_col = "State")
alco2009

Unnamed: 0_level_0,Beer,Wine,Spirits
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alabama,1.2,0.22,0.58
Alaska,1.31,0.54,1.16
Arizona,1.19,0.38,0.74
Arkansas,1.07,0.17,0.6
California,1.05,0.55,0.73
Colorado,1.22,0.46,1.0
Connecticut,0.89,0.59,0.86
Delaware,1.31,0.57,1.25
District of Columbia,1.26,1.0,1.64
Florida,1.21,0.48,0.92


- value, index, columns를 직접 지정하는 방식
- 딕셔너리 타입으로 지정하는 방식

#### 위와 같은 코드 (데이터프레임 생성 방법 2)
alco2009 = pd.DataFrame([(1.20, 0.22, 0.58),
                        (1.31, 0.54, 1.16),
                        (1.19, 0.38, 0.74),
                        # ... 생략 ...# ],
                       columns = ("Beer", "Wine", "Spirits"),
                       index = ("Alabama", "Alaska", #...생략...#))

#### 데이터 파악하기

In [9]:
alco2009["Wine"].head()

State
Alabama       0.22
Alaska        0.54
Arizona       0.38
Arkansas      0.17
California    0.55
Name: Wine, dtype: float64

In [8]:
alco2009.Beer.tail()

State
Virginia         1.11
Washington       1.09
West Virginia    1.24
Wisconsin        1.49
Wyoming          1.45
Name: Beer, dtype: float64

#### 새로운 열 추가
- 새로운 열 추가 시 반드시 딕셔너리 구문 사용
- 열의 모든 행에 값을 대입하는 브로드캐스팅 기능 지원

In [10]:
alco2009["Total"] = 0
alco2009.head()

Unnamed: 0_level_0,Beer,Wine,Spirits,Total
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alabama,1.2,0.22,0.58,0
Alaska,1.31,0.54,1.16,0
Arizona,1.19,0.38,0.74,0
Arkansas,1.07,0.17,0.6,0
California,1.05,0.55,0.73,0


### 데이터프레임 예제 코드 #2
- 리스트를 이용해 Data Frame의 데이터 생성

In [12]:
import pandas as pd

pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]])

# 가로 0 1 2 = columns
# 세로 0 1 2 = index

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


### 데이터프레임 예제 코드 #3
- Numpy 배열 데이터를 입력해 DataFrame의 데이터 생성

In [13]:
import pandas as pd
import numpy as np

data_list = np.array([[10, 20, 30], [40, 50, 60], [70, 80, 90]])
pd.DataFrame(data_list)

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60
2,70,80,90


### 데이터프레임 예제 코드 #4
- Numpy 배열 데이터를 입력해 DataFrame의 데이터 생성
- index와 columns 지정 DataFrame 생성

In [22]:
import pandas as pd
import numpy as np

data = np.array([[1,2,3], [4,5,6], [7,8,9], [10,11,12]])
index_data = pd.date_range('2019-01-01', periods = 4)
columns_list = ['A', 'B', 'C']
pd.DataFrame(data, index = index_data, columns = columns_list)

Unnamed: 0,A,B,C
2019-01-01,1,2,3
2019-01-02,4,5,6
2019-01-03,7,8,9
2019-01-04,10,11,12


In [21]:
# date_range는 pandas의 함수 
# freq = '2D' 하면 2일씩 건너뜀. '3D' 하면 3일씩 건너뜀.

import pandas as pd
import numpy as np

data = np.array([[1,2,3], [4,5,6], [7,8,9], [10,11,12]])
index_data = pd.date_range('2019-01-01', periods = 4, freq='3D')
columns_list = ['A', 'B', 'C']
pd.DataFrame(data, index = index_data, columns = columns_list)

Unnamed: 0,A,B,C
2019-01-01,1,2,3
2019-01-04,4,5,6
2019-01-07,7,8,9
2019-01-10,10,11,12


### 데이터프레임 예제 코드 #5
- 딕셔너리 타입으로 2차원 데이터를 입력받아 DataFrame 생성
- 딕셔너리의 키(key)는 DataFrame에서 columns로 지정
- index는 자동생성

In [23]:
# 딕셔너리 타입의 데이터 생성

table_data = {'연도': [2015, 2016, 2016, 2017, 2017],
             '지사': ['한국', '한국', '미국', '한국', '미국'],
             '고객 수': [200, 250, 450, 300, 500]}
table_data

{'연도': [2015, 2016, 2016, 2017, 2017],
 '지사': ['한국', '한국', '미국', '한국', '미국'],
 '고객 수': [200, 250, 450, 300, 500]}

In [24]:
# 위에서 만든 딕셔너리를 이용해 DataFrame 형식의 데이터 생성

pd.DataFrame(table_data)

Unnamed: 0,연도,지사,고객 수
0,2015,한국,200
1,2016,한국,250
2,2016,미국,450
3,2017,한국,300
4,2017,미국,500


모르는 함수는 help(date_range) 처럼 검색해서 정보 볼 수 있음