## Todo

- 복습
- 선형대수

In [3]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

### Series

```
Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조다(어떤 NumPy 자료형이라도 담을 수 있다.)
그리고 색인(index)이라고 하는 배열의 데이터에 연관된 이름을 가지고 있다.
가장 간단한 Series객체는 배열 데이터로부터 생성할 수 있다.
```

In [5]:
obj = Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

```
Series 객체의 문자열 표현은 왼쪽에 색인을 보여주고 오른쪽에 해당 색인의 값을 보여준다.
앞의 예제에서는 데이터의 색인을 지정하지 않아서, 기본 색인 정수 0에서 N-1(N은데이터의 길이)까지의 숫자가 표시
Series의 배열과 색인 객체는 각각 values와 index속성을 통해 얻을 수 있다.
```


- Series의 배열과 색인 객체는 각각 values와 index속성을 통해 얻을 수 있다.


In [6]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [7]:
obj.index

RangeIndex(start=0, stop=4, step=1)

- 각각의 데이터를 지칭하는 색인을 지정해 Series객체를 생성해야 할 경우

In [9]:
obj = Series([4,7,-5,3], index=['d','b','a','c'])
obj

d    4
b    7
a   -5
c    3
dtype: int64

- 배열에서 값을 선택하거나 대입할 때는 색인을 이용해서 접근한다.

In [10]:
obj['a']

-5

In [13]:
obj[['c','a','d']]
obj

d    4
b    7
a   -5
c    3
dtype: int64

In [14]:
obj[obj>0]

d    4
b    7
c    3
dtype: int64

In [16]:
obj * 2

d     8
b    14
a   -10
c     6
dtype: int64

```
Series를 이해하는 다른 방법은 고정 길이의 정렬된 딕셔너리형이라고 이해하는 것이다.
Series는 색인 값에 데이터 값을 매핑하고 있으므로 파이썬의 딕셔너리형과 비슷하다.
Series객체는 파이썬의 딕셔너리형을 인자로 받아야 하는 많은 함수에서 딕셔너리형을 대체하여
사용할 수 있다.
```

In [23]:
'b' in obj

True

- 파이썬 딕셔너리로부터 Series객체를 생성할 수 있다.

In [24]:
 sdata = {'Ohio':35000,'Texas':71000,'Oregon':16000,'Utah':5000}

In [25]:
obj2 = Series(sdata)

In [26]:
obj2

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

- 사전 객체만 가지고 Series 객체를 생성하면 생성된 Series 객체의 색인은 사전의 키 값이 순서대로 들어간다.

In [27]:
states = ['California','Ohio','Oregon','Texas']

In [28]:
obj4 = Series(sdata, index=states)

In [29]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

- Series 객체와 Series의 색인은 모두 name 속성이 있다.

In [30]:
obj4.name = 'population'

In [31]:
obj4.index.name= 'state'

In [32]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

### DataFrame

```
DataFrame은 표 같은 스프레드시트 형식의 자료 구조로 여러 개의 컬럼이 있는데, 각 칼럼은 서로 다른 종류의 값(숫자,문자열,불리언등)을 담을 수 있다.
```

In [33]:
data = {
    'state': ['Ohio','Ohio','Ohio','Nevada','Nevada'],
    'year': [2000,2001,2002,2001,2002],
    'pop' : [1,7,3,2,2],
}

In [35]:
frame = DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1
1,Ohio,2001,7
2,Ohio,2002,3
3,Nevada,2001,2
4,Nevada,2002,2


- 순서대로 columns를 지정하면 원하는 순서를가진 DataFrame 객체가 생성된다.

In [37]:
DataFrame(data,columns=['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1
1,2001,Ohio,7
2,2002,Ohio,3
3,2001,Nevada,2
4,2002,Nevada,2


- Series와 마찬가지로 data에 없는 값을 넘기면 NA값이 저장된다.

In [38]:
frame2 = DataFrame(data,columns=['year','state','pop','debt'],index=['one','two',
                                                                    'three','four','five'])

In [39]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1,
two,2001,Ohio,7,
three,2002,Ohio,3,
four,2001,Nevada,2,
five,2002,Nevada,2,


- DataFrame의 칼럼은 딕셔너리 형식의 표기법으로 접근하거나 속성 형식으로 접근 할 수 있다.

In [40]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [41]:
frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

- 칼럼은 대입이 가능하다. 예를 들면 현재 비어있는 'debt'칼럼에 스칼라 값이나 배열의 값을 대입할 수 있다.

In [42]:
frame2.debt = 16.5

In [43]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1,16.5
two,2001,Ohio,7,16.5
three,2002,Ohio,3,16.5
four,2001,Nevada,2,16.5
five,2002,Nevada,2,16.5


In [47]:
frame2.debt = np.arange(5)

In [48]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1,0
two,2001,Ohio,7,1
three,2002,Ohio,3,2
four,2001,Nevada,2,3
five,2002,Nevada,2,4


```
리스트나 배열을 칼럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의길이와 같아야한다.
Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 없는 색인에는 값이 대입되지 않는다.

```

In [49]:
val = Series([1,5,7], index=['two','four','five'])
val

two     1
four    5
five    7
dtype: int64

In [50]:
frame2.debt = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1,
two,2001,Ohio,7,1.0
three,2002,Ohio,3,
four,2001,Nevada,2,5.0
five,2002,Nevada,2,7.0


```
없는 칼럼을 대입하면 새로운 칼럼이 생성된다.

파이썬 딕셔너리형에서와 마찬가지로 del예약어를 사용해서 칼럼을 삭제할 수 있다.
```

In [51]:
frame2['eastern'] = frame2.state == 'Ohio'

In [52]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1,,True
two,2001,Ohio,7,1.0,True
three,2002,Ohio,3,,True
four,2001,Nevada,2,5.0,False
five,2002,Nevada,2,7.0,False


In [55]:
del frame2['eastern']

- 삭제시 파이썬 형식을 따라야함

In [56]:
pop = {
    'Nevada':{2001:2,2002:2},
    'Ohio':{2000:1,2001:1,2002:3}
}

In [58]:
frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.0,1
2002,2.0,3
2000,,1


In [59]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.0,2.0,
Ohio,1.0,3.0,1.0


In [60]:
DataFrame(pop, index=[2001,2002,2003])

Unnamed: 0,Nevada,Ohio
2001,2.0,1.0
2002,2.0,3.0
2003,,


In [61]:
pdata = {
    'Ohio':frame3['Ohio'][:-1],
    'Nevada':frame3['Nevada'][:2]
}

In [None]:
DataFrame()