<br>

# 판다스(Pandas)

----------
<br><br>

여기서 잠깐 판다스에서 알아둬야할 데이터 타입을 알아볼까요?


### 01. 시리즈(Series) : 1차원
        pd.series 시리즈 생성
        딕셔너리 자료형을 시리즈로 생성
### 02. 데이터 프레임(Data Frame) : 다차원
        numpy array 활용한 데이터 프레임 생성
        딕셔너리 자료형을 데이터 프레임 생성
        Column과 index list
### 03. 활용
        시리즈를 데이터 프레임으로 변형
        미리 데이터 살펴보기
      
<br>

In [48]:
import pandas as pd
import numpy as np

<br><br><br><br>

------------

## 01. 시리즈(Series) : 1차원
<br>

인덱스(index)와 값(value)을 쌍으로 갖는 데이터들로 이루어집니다.

**리스트와 비슷**하지만, **인덱스를 순서가 아닌 값을 넣을 수 있는** 데이터 타입 입니다.<br><br>
리스트를 통해 Series를 만들고, 정수로 만들어진 인덱스를 기본 값으로 불러옵니다.

### 1) 시리즈 생성 :  pd.Series()

In [4]:
sr = pd.Series([1,3,5,7])
sr

0    1
1    3
2    5
3    7
dtype: int64

#### 시리즈 값 확인 : .values 

In [6]:
sr.values

array([1, 3, 5, 7], dtype=int64)

#### 인덱스 확인 :  .index 

In [5]:
sr.index

RangeIndex(start=0, stop=4, step=1)

---

### 2) 딕셔너리 자료형을 Series data로 만들기


Dictionary의 key가 Series의 index로 변환됩니다.

In [7]:
# dic 생성 및 선언
dic = {'국적': '한국', '이름': '홍길동', '주소': '대전광역시', '번호': '1234'}
dic

{'국적': '한국', '이름': '홍길동', '주소': '대전광역시', '번호': '1234'}

In [8]:
# 딕셔너리를 시리즈로 생성
dic_Series = pd.Series(dic)
dic_Series 

국적       한국
이름      홍길동
주소    대전광역시
번호     1234
dtype: object

In [9]:
# 시리즈의 이름과 인덱스 기입.
dic_Series.name = '홍길동 개인정보'
dic_Series.index.name = '정보'
dic_Series

정보
국적       한국
이름      홍길동
주소    대전광역시
번호     1234
Name: 홍길동 개인정보, dtype: object

In [49]:
dic_Series.values

array(['한국', '홍길동', '대전광역시', '1234'], dtype=object)

In [50]:
dic_Series.index

Index(['국적', '이름', '주소', '번호'], dtype='object', name='정보')

---
<br><br>

## 02. 데이터프레임(DataFrame)

시리즈의 모음, 행과 열의 구조를 가진 데이터


데이터를 확인해 보면 엑셀과 같은 테이블 구조를 가진 데이터를 볼 수 있다.

### 데이터 프레임 생성

    1) numpy array 데이터 생성
    2) dict 형태로 데이터 생성

#### 1) numpy 형태 데이터 생성

datatime 인덱스와 레이블이 있는 열을 가지고 있는 numpy 배열을 전달하여 데이터 프레임을 생성합니다.

In [19]:
# 인덱스 dates 생성.
dates = pd.date_range('20130101', periods=6)

In [14]:
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [20]:
# 컬럼 'ABCD'와 인덱스 dates 데이터프레임 numpy 형태 데이터 생성.
df_dates = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

In [18]:
df_dates

Unnamed: 0,A,B,C,D
2013-01-01,-0.888308,-0.72219,0.290364,-1.966382
2013-01-02,-0.576544,0.759917,-2.200619,-0.482259
2013-01-03,0.667863,-1.527916,0.309895,-0.664498
2013-01-04,0.473349,0.119184,0.272727,2.186845
2013-01-05,1.220653,-1.648706,-0.29562,0.062027
2013-01-06,0.111144,-0.210937,0.42162,-0.213844


In [23]:
# 자료 속성 확인
df_dates.dtypes 

A    float64
B    float64
C    float64
D    float64
dtype: object

<br><br>
-----

#### 2) dict 형태 데이터 생성

시리즈 처럼 변환 가능한 오브젝트를 갖고 있는 dict의 형태를 인자 넣어 만들어 줄 수 있습니다. 이 때, index는 자동으로 0부터 시작하여 1씩 증가하는 정수가 인덱스가 부여되고, dict의 키 받을 컬럼의 이름으로 사용하게 됩니다.

In [10]:
data = {'이름': ['Park', 'James', 'Rai', 'Leon', 'Nefert'],
        '국적': ['한국', '미국', '인도', '독일', '이집트'],
        '번호': [82, 1, 91, 49, 20]}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,국적,번호
0,Park,한국,82
1,James,미국,1
2,Rai,인도,91
3,Leon,독일,49
4,Nefert,이집트,20


In [12]:
# 자료 속성 확인. 기본적으로 문자열은 str이 아니라 object.
df.dtypes 

이름    object
국적    object
번호     int64
dtype: object

<br><br><br>

-----------

### DataFrame의 Column과 index list 가져오기

In [24]:
df

Unnamed: 0,이름,국적,번호
0,Park,한국,82
1,James,미국,1
2,Rai,인도,91
3,Leon,독일,49
4,Nefert,이집트,20


In [25]:
df.columns

Index(['이름', '국적', '번호'], dtype='object')

In [26]:
df.index

RangeIndex(start=0, stop=5, step=1)


### Column 선택 추출 -> series 추출

In [27]:
df['이름']

0      Park
1     James
2       Rai
3      Leon
4    Nefert
Name: 이름, dtype: object

<br><br>

---------------------------

### 활용) 시리즈 -> 데이터 프레임 변형

데이터를 시리즈(1차원)에서 데이터프레임(다차원)으로 변형이 가능합니다. 이 변형을 자유롭게 사용하여 데이터의 활용도를 높일 수 있습니다. 

In [47]:
#시리즈 형태
sr 

0    1
1    3
2    5
3    7
dtype: int64

In [29]:
pd.DataFrame(sr.values.tolist(), index=sr.index)  # 데이터프레임 형태

Unnamed: 0,0
0,1
1,3
2,5
3,7


<br><br>

------

## 미리 살펴 보는 데이터. 

우리는 앞으로 이 구글 스토어 데이터를 통해 데이터 분석에 필요한 분석 기법에 대해서 배울 예정입니다. 그 전에 앞서 구글 스토어 데이터가 어떤 타입인지 잠깐만 살펴볼까요?? 

(이 데이터의 자세한 정보들은 **viewing data**에서 살펴 볼 예정입니다)

In [41]:
data=pd.read_csv('kr_googlestore.csv')

In [42]:
data.head()

Unnamed: 0,어플,장르,등급,리뷰 수,크기,설치 수,타입,가격,연령층,안드로이드 버전,업데이트_년도,업데이트_달,업데이트_년달
0,Photo Editor & Candy Camera & Grid & ScrapBook,Art & Design,4.1,159,190.0,10000,무료,0,전체가,4.0,2018,1,2018.01
1,Coloring book moana,Art & Design;Pretend Play,3.9,967,140.0,500000,무료,0,전체가,4.0,2018,1,2018.01
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",Art & Design,4.7,87510,8.7,5000000,무료,0,전체가,4.0,2018,8,2018.08
3,Sketch - Draw & Paint,Art & Design,4.5,215644,250.0,50000000,무료,0,청소년,4.2,2018,6,2018.06
4,Pixel Draw - Number Art Coloring Book,Art & Design;Creativity,4.3,967,2.8,100000,무료,0,전체가,4.4,2018,6,2018.06


#### 불러온 데이터의 자료형은 어떻게 될까요?

In [43]:
type(data)

pandas.core.frame.DataFrame

#### 데이터를 컬럼별로 잘라서 놓는다면 자료형이 어떻게 될까요?

In [44]:
data.columns

Index(['어플', '장르', '등급', '리뷰 수', '크기', '설치 수', '타입', '가격', '연령층', '안드로이드 버전',
       '업데이트_년도', '업데이트_달', '업데이트_년달'],
      dtype='object')

In [46]:
type(data['등급'])

pandas.core.series.Series

이렇게 데이터 타입을 살펴봤습니다. 데이터 분석에서 데이터 타입을 살펴보는 것은 매우 중요합니다. 그 이유는 데이터 타입에 따라 기법의 활용도가 달라지기 때문이죠~ 이 다음 시간에는 이 데이터를 어떻게 살펴볼 수 있는지 자세하게 알아보겠습니다~ 그럼 다음 시간에 봐요~