<br>

# 4강. 판다스(Pandas) 자료구조

----------
<br><br>

### 00. 판다스(Pandas) 자료구조 : 시리즈(Series) , 데이터 프레임(DataFrame)
### 01. 시리즈(Series)
### 02. 데이터 프레임(DataFrame)
<br><br>

------

<br><br>

판다스 공식문서 및 참고 링크
- https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html
- https://dandyrilla.github.io/2017-08-12/pandas-10min/
- https://doorbw.tistory.com/172


<br><br><br><br>

-------------------------------------


## 00. 판다스(Pandas) 자료구조

### 판다스(Pandas) : 파이썬에서 사용하는 데이터분석 라이브러리

- pandas에서는 기본적으로 정의되는 자료구조인 Series와 Data Frame을 사용. 
- 이 자료구조들은 빅데이터 분석에 있어서 높은 수준의 성능을 보여줌.

행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있다. 

안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구.

<br><br>

### 판다스 자료구조
### 1. 시리즈(Series) : 1차원
### 2. 데이터 프레임(Data Frame) : 다차원


<br>

``
사용법
``
pandas를 설치한 후, 아래와 같이 import

``as pd`` 앞으로 pandas 내부 메서드(함수)를 활용 할 때 pd로 줄여서 호출한다는 의미

In [2]:
import pandas as pd

<br><br><br><br>

------------

## 01. 시리즈(Series)

인덱스(index)와 값(value)을 쌍으로 갖는 데이터들로 이루어진다.

리스트와 비슷하지만, 인덱스를 순서가 아닌 값을 넣을 수 있는 데이터 타입

#### 시리즈 생성 :  .Series

In [3]:
series = pd.Series([1,3,5,7])
series

0    1
1    3
2    5
3    7
dtype: int64

#### 시리즈 값 확인 : .values 


In [4]:
series.values

array([1, 3, 5, 7], dtype=int64)

#### 인덱스 확인 :  .index 

In [7]:
series.index 

RangeIndex(start=0, stop=4, step=1)

In [9]:
# 시리즈는 리스트와 다르게 인덱스를 순서가 아닌 것으로 바꿀 수 있다.
series2 = pd.Series([1, 3, 5, 7], index=['d', 'b', 'a', 'c'])
series2

d    1
b    3
a    5
c    7
dtype: int64

In [20]:
series2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

#### 시리즈 사칙 연산

In [11]:
series2 + 1

d    2
b    4
a    6
c    8
dtype: int64

#### 시리즈끼리 사칙연산

In [16]:
series3 = pd.Series([10,1000,1000,10000])
series4 = pd.Series([1,2,3,4])

In [17]:
series3

0       10
1     1000
2     1000
3    10000
dtype: int64

In [45]:
series3 + series4

0       11
1     1002
2     1003
3    10004
dtype: int64

#### 서로 다른 위치에 있는 시리즈는 인덱스가 같으면, 저절로 값을 더 해준다.

In [46]:
series5 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])

In [47]:
print(series2)
print(series5)

d    1
b    3
a    5
c    7
dtype: int64
a    1
b    2
c    3
d    4
dtype: int64


In [42]:
merge = series2 + series5

In [43]:
merge

a     6
b     5
c    10
d     5
dtype: int64

#### 주의 : 시리즈 인덱스가 다를 경우 사칙연산 안됨.

In [44]:
print(series2)
print(series3)

d    1
b    3
a    5
c    7
dtype: int64
0       10
1     1000
2     1000
3    10000
dtype: int64


In [27]:
series2 + series3

0   NaN
1   NaN
2   NaN
3   NaN
a   NaN
b   NaN
c   NaN
d   NaN
dtype: float64

---

### 딕셔너리 자료형을 Series data로 만들기


Dictionary의 key가 Series의 index로 변환된다.

In [57]:
dic = {'국적': '한국', '이름': '홍길동', '주소': '대전광역시', '번호': '1234'}
dic

{'국적': '한국', '이름': '홍길동', '주소': '대전광역시', '번호': '1234'}

In [59]:
dic_Series = pd.Series(dic)
dic_Series 

국적       한국
이름      홍길동
주소    대전광역시
번호     1234
dtype: object

In [63]:
dic_Series.name = '홍길동 개인정보'
dic_Series.index.name = '정보'
dic_Series

정보
국적       한국
이름      홍길동
주소    대전광역시
번호     1234
Name: 홍길동 개인정보, dtype: object

---
<br><br>

## 02. 데이터프레임(DataFrame)

시리즈의 모음, 행과 열의 구조를 가진 데이터


데이터를 확인해 보면 엑셀과 같은 테이블 구조를 가진 데이터를 볼 수 있다.

### 데이터 프레임 생성

    1) dict 형태로 데이터 생성
    2) numpy array 데이터 생성

#### 1) dict 형태 데이터 생성

시리즈 처럼 변환 가능한 오브젝트를 갖고 있는 dict의 형태를 인자 넣어 만들어 줄 수 있다. 이 때, index는 자동으로 0부터 시작하여 1씩 증가하는 정수가 인덱스가 부여되고, dict의 키 받을 컬럼의 이름으로 사용하게 된다

In [85]:
data = {'name': ['woo', 'lee', 'choi', 'Kim', 'Park'],
        'student ID': [2015, 2016, 2017, 2018, 2020],
        'grade': [3.2, 1.7, 4.1, 2.5, 3.9]}
df = pd.DataFrame(data)
df

Unnamed: 0,name,student ID,grade
0,woo,2015,3.2
1,lee,2016,1.7
2,choi,2017,4.1
3,Kim,2018,2.5
4,Park,2020,3.9


In [86]:
df.dtypes  # 자료 속성 확인. 기본적으로 문자열은 str이 아니라 object.

name           object
student ID      int64
grade         float64
dtype: object

#### 2) Numpy array 생성

데이터 분석에서 다양하게 사용하는 Numpy는 다차원 구조를 가진 데이터를 처리하기 위한 용도로 만들어졌다. Numpy는 loop 프로그랴밍 없이 전체 배열에 대해서 수학 함수를 매우 빠른 속도로 수행할 수 있다. 주로 무작위 난수 생성, 선형대수에서 많이 사용한다. (numpy의 자세한 내용은 뒤에서 다룸.)

In [87]:
import numpy as np #numpy 모듈 명령어

In [88]:
dates = pd.date_range('20200314', periods=5)

In [89]:
df2 = pd.DataFrame(np.random.randn(5,4), index=dates, columns=list('ABCD'))

In [90]:
df2

Unnamed: 0,A,B,C,D
2020-03-14,0.732096,0.654155,-0.437181,-0.705007
2020-03-15,-1.758087,-0.835914,-0.027351,1.479315
2020-03-16,-0.860602,-1.183088,0.359203,0.334183
2020-03-17,-0.310224,-0.552506,-1.663587,-0.661654
2020-03-18,-0.125594,-0.692356,-1.195254,0.626317


<br><br><br>

-----------

### Column과 index list 가져오기

In [91]:
df

Unnamed: 0,name,student ID,grade
0,woo,2015,3.2
1,lee,2016,1.7
2,choi,2017,4.1
3,Kim,2018,2.5
4,Park,2020,3.9


In [92]:
df.columns

Index(['name', 'student ID', 'grade'], dtype='object')

In [93]:
df.index

RangeIndex(start=0, stop=5, step=1)


### Column 선택 추출 -> series 추출

In [94]:
df['name']

0     woo
1     lee
2    choi
3     Kim
4    Park
Name: name, dtype: object

<br><br>

---------------------------

### 활용) 시리즈 -> 데이터 프레임 변형

데이터를 1차원(시리즈)에서 다차원(데이터프레임)으로 변형이 가능하고, 그 반대인 다차원(데이터프레임)에서 1차원(시리즈)로 형태 변형이 가능하다

In [97]:
series #시리즈 형태

0    1
1    3
2    5
3    7
dtype: int64

In [98]:
pd.DataFrame(series.values.tolist(), index=series.index)  # 데이터프레임 형태

Unnamed: 0,0
0,1
1,3
2,5
3,7
