<br>

# 판다스(Pandas)

----------
<br><br>

여기서 잠깐 판다스에서 알아둬야할 데이터 타입을 알아볼까요?


### 1. 시리즈(Series) : 1차원
### 2. 데이터 프레임(Data Frame) : 다차원

<br>

In [1]:
import pandas as pd
data=pd.read_csv('kr_googlestore.csv')

**불러온 데이터의 자료형은 어떻게 될까요?**

In [5]:
type(data)

pandas.core.frame.DataFrame

**데이터를 컬럼별로 잘라서 놓는다면 자료형이 어떻게 될까요?**

In [2]:
data.columns

Index(['어플', '장르', '등급', '리뷰 수', '크기', '설치 수', '타입', '가격', '연령층', '안드로이드 버전',
       '업데이트_년도', '업데이트_달', '업데이트_년달'],
      dtype='object')

In [6]:
type(data['등급'])

pandas.core.series.Series

<br><br><br><br>

------------

## 01. 시리즈(Series)

인덱스(index)와 값(value)을 쌍으로 갖는 데이터들로 이루어집니다.

**리스트와 비슷**하지만, **인덱스를 순서가 아닌 값을 넣을 수 있는** 데이터 타입

#### 시리즈 생성 :  pd.Series()

In [7]:
sr = pd.Series([1,3,5,7])
sr

0    1
1    3
2    5
3    7
dtype: int64

#### 시리즈 값 확인 : .values 


In [8]:
sr.values

array([1, 3, 5, 7])

#### 인덱스 확인 :  .index 

In [5]:
sr.index 

RangeIndex(start=0, stop=4, step=1)

---


#### 시리즈는 리스트와 다르게 인덱스를 순서가 아닌 것으로 바꿀 수 있습니다!!!

In [9]:
sr2 = pd.Series([1, 3, 5, 7], index=['d', 'b', 'a', 'c'])
sr2

d    1
b    3
a    5
c    7
dtype: int64

In [10]:
sr2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

---

### 딕셔너리 자료형을 Series data로 만들기


Dictionary의 key가 Series의 index로 변환된다.

In [57]:
dic = {'국적': '한국', '이름': '홍길동', '주소': '대전광역시', '번호': '1234'}
dic

{'국적': '한국', '이름': '홍길동', '주소': '대전광역시', '번호': '1234'}

In [59]:
dic_Series = pd.Series(dic)
dic_Series 

국적       한국
이름      홍길동
주소    대전광역시
번호     1234
dtype: object

In [63]:
dic_Series.name = '홍길동 개인정보'
dic_Series.index.name = '정보'
dic_Series

정보
국적       한국
이름      홍길동
주소    대전광역시
번호     1234
Name: 홍길동 개인정보, dtype: object

---
<br><br>

## 02. 데이터프레임(DataFrame)

시리즈의 모음, 행과 열의 구조를 가진 데이터


데이터를 확인해 보면 엑셀과 같은 테이블 구조를 가진 데이터를 볼 수 있다.

### 데이터 프레임 생성

    1) dict 형태로 데이터 생성
    2) numpy array 데이터 생성

#### 1) dict 형태 데이터 생성

시리즈 처럼 변환 가능한 오브젝트를 갖고 있는 dict의 형태를 인자 넣어 만들어 줄 수 있다. 이 때, index는 자동으로 0부터 시작하여 1씩 증가하는 정수가 인덱스가 부여되고, dict의 키 받을 컬럼의 이름으로 사용하게 된다

In [85]:
data = {'name': ['woo', 'lee', 'choi', 'Kim', 'Park'],
        'student ID': [2015, 2016, 2017, 2018, 2020],
        'grade': [3.2, 1.7, 4.1, 2.5, 3.9]}
df = pd.DataFrame(data)
df

Unnamed: 0,name,student ID,grade
0,woo,2015,3.2
1,lee,2016,1.7
2,choi,2017,4.1
3,Kim,2018,2.5
4,Park,2020,3.9


In [86]:
df.dtypes  # 자료 속성 확인. 기본적으로 문자열은 str이 아니라 object.

name           object
student ID      int64
grade         float64
dtype: object

<br><br><br>

-----------

### Column과 index list 가져오기

In [91]:
df

Unnamed: 0,name,student ID,grade
0,woo,2015,3.2
1,lee,2016,1.7
2,choi,2017,4.1
3,Kim,2018,2.5
4,Park,2020,3.9


In [92]:
df.columns

Index(['name', 'student ID', 'grade'], dtype='object')

In [93]:
df.index

RangeIndex(start=0, stop=5, step=1)


### Column 선택 추출 -> series 추출

In [94]:
df['name']

0     woo
1     lee
2    choi
3     Kim
4    Park
Name: name, dtype: object

<br><br>

---------------------------

### 활용) 시리즈 -> 데이터 프레임 변형

데이터를 1차원(시리즈)에서 다차원(데이터프레임)으로 변형이 가능하고, 그 반대인 다차원(데이터프레임)에서 1차원(시리즈)로 형태 변형이 가능하다

In [12]:
sr #시리즈 형태

0    1
1    3
2    5
3    7
dtype: int64

In [13]:
pd.DataFrame(sr.values.tolist(), index=sr.index)  # 데이터프레임 형태

Unnamed: 0,0
0,1
1,3
2,5
3,7
