---
<br><br><br><br><br>

# Pandas

#### Pandas는 파이썬에서 사용하는 데이터분석 라이브러리입니다.

행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며, 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구입니다.



pandas를 사용하기 위해서는 pandas를 설치한 이후에 아래와 같이 import를 해야 합니다.


```python

import pandas as pd
```

In [None]:
# pandas 사용하기
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import warnings

판다스 공식문서 및 참고 링크
- https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html
- https://dandyrilla.github.io/2017-08-12/pandas-10min/
- https://doorbw.tistory.com/172

---
<br><br><br><br><br>

## Pandas 자료구조

- pandas에서는 기본적으로 정의되는 자료구조인 series와 Data Frame을 사용. 이 자료구조들은 빅데이터 분석에 있어서 높은 수준의 성능을 보여줌.

### 1. Series -> 코드 다 변경해야함. 

In [None]:
# Series 정의하기
obj = pd.Series([4,7,-5,3])
obj

In [None]:
# series 값 확인하기
obj.values

In [None]:
# series의 인덱스만 확인하기
obj.index

In [None]:
# 인덱스를 바꿀 수 있다.

obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

In [None]:
# python의 dictionary 자료형을 Series data로 만들 수 있다.
# dictionary의 key가 Series의 index가 된다

sdata = {'Kim': 35000, 'Beomwoo': 67000, 'Joan': 12000, 'Choi': 4000}
obj3 = pd.Series(sdata)
obj3

In [None]:
obj3.name = 'Salary'
obj3.index.name = "Names"
obj3

### 2. Data Frame -> 코드 다 변경해야함. 

시리즈의 모음이라고 할 수 있다.

행과 열의 구조를 가진 데이터

In [None]:
# Data Frame 정의하기
# 이전에 DataFrame에 들어갈 데이터를 정의해주어야 하는데,
# 이는 python의 dictionary 또는 numpy의 array로 정의할 수 있다.
data = {'name': ['Beomwoo', 'Beomwoo', 'Beomwoo', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data)
df

---
<br><br><br><br><br>

## 분석에 앞서 데이터를 살펴보기

#### 데이터 불러오기

In [None]:
# .read_csv('파일명.csv') csv 데이터 불러오기

data=pd.read_csv('googleplaystrore.csv')

In [None]:
data=data[:50]

#### 데이터 샘플 뽑아 보기

In [None]:
# .head(n) 상위 n개 데이터 (default : 5개)
data.head()

In [None]:
# .tail(n) 하위 n개 데이터 (default : 5개)
data.tail()

In [None]:
# .sample(n) 데이터 랜덤 샘플 n개 보기 (default : 10개)
data.sample(10)

In [None]:
# .index : Data Frame 속성/행 방향의 index
data.index

In [None]:
# .columns : Data Frame 컬럼 / 열 방향의 index
data.columns

In [None]:
# .values : numpy 데이터를 보려면 -> 값 얻기
data.values

In [None]:
# .T 속성 -> Transpose index and columns. => index와 column 바꾼 형태.
data.T

In [None]:
# 각 인덱스에 대한 이름 설정하기
data.index.name = 'name'
data.columns.name = 'index'
data

In [None]:
# .describe() : data frame의 간단한 통계 정보를 알려준다. 
data.describe()

### DataFrame을 만들면서 columns와 index를 설정할 수 있다.


In [None]:
df2 = pd.DataFrame(data, columns=['year', 'name', 'points', 'penalty'],
                  index=['one', 'two', 'three', 'four', 'five'])
df2

In [None]:
data2 = pd.DataFrame(data, columns=['year', 'name', 'points', 'penalty'],
                  index=['one', 'two', 'three', 'four', 'five'])
df2

### 정렬 

#### .sort_index() : 행과 열 이름 정렬

정렬할 대상 축을 결정할 때, axis.
- axis = 0 => 인덱스 기준 정렬(기본값)
- axis = 1 => 컬럼 기준.

정렬의 방향에 대한 파라미터, ascending.
- ascending = True 오름차순(기본값)
- ascending = False 내림차순

In [None]:
# 내림차순 정렬
data.sort_index(axis=1, ascending=False)

In [None]:
# DataFrame 내부 값 정렬. -> 정렬 기준
data.sort_values(by='Rating')

**데이터 선택**

In [None]:
# 데이터 선택 -> 특정 '컬럼'의 값 가져오기
data['App']

In [None]:
# 이하 동일. -> app 컬럼 값들만 가져옴.
data.App

In [None]:
# 맨 처음 5개의 행을 가져온다
data[0:5]

In [None]:
# index가 [12:15]에 해당하는 것만 가져온다.
data[12:15]

In [None]:
# 이름 이용 선택: loc -> 왜 안되는 것인가.
data.loc[Rating[4]]
#data.loc[App['Tattoo Name On My Photo Editor']]

In [None]:
# 컬럼 App, Rating에 대한 모든 값 가져오기
data.loc[:,['App', 'Rating']]

In [None]:
# 특정 인덱스 값의 컬럼 App, Rating에 대한 모든 값 가져오기
data.loc[name[5], ['App', 'Rating']]

In [None]:
# 특정 인덱스 값과 특정 컬럼에 있는 값 가져오기 -> .at 이용  가능
data.loc[name[5],'App']
data.at[dates[5], 'App']

**위치 이용하여 선택하기**: .iloc

In [None]:
# python 인덱스 개념. 즉, 5번째 인덱스를 가져오는 게 아닌 6번째 인덱스 get 
data.iloc[5]

In [None]:
# 데이터 슬라이싱 및 인덱스
data.iloc[3:5,0:2]

In [None]:
# 데이터 슬라이싱 및 인덱스
df.iloc[[1,2,4],[0,2]]

In [None]:
# 명시적으로 행이나 열 선택 인자에 ' : ' 있으면 -> 행 or 열 전체 가져와라
data.iloc[1:5,:]
# data.iloc[:,1:5]

In [None]:
# 값 하나를 섲ㄴ택하기 위해 특정 행과 열 지정 방식. 
data.iloc[4,2]
#data.iat[4,2]

**조건 이용 선택** 

In [None]:
# Rating > 3.7 이상 인 데이터만 뽑음
data[data.Rating > 3.7]

**데이터 변경하기**

데이터 프레임 특정 값들을 다른 값으로 변경 할 수 있다. 

기존 데이터 프레임에 새로운 열을 추가하고 싶을 때는 다음과 같이 같은 인덱스를 가진 시리즈 하나를 데이터 프레임 열 하나를 지정하여 넣어준다

In [None]:
# 값 알맞게 찾아서 넣기. 
test = pd.Series(['Photo Editor', 2, 3, 4, 5, 6], index=pd.date_range('20130102', periods=6))

In [None]:
test

In [None]:
data['F'] = test

In [None]:
data

In [None]:
# 데이터 프레임의 특정 값 하나를 선택하여 다른 값으로 변경. -> 넌 또 왜 안돼.
data.at[name[0], 'APP'] = 3.7

In [None]:
# 값의 위치(인덱스 번호)를 이용한 변경 가능
data.iat[0,4] = 3.7

In [None]:
# 데이터 내용 한꺼번에 바꾸기 -> 어떻게 변경 되었는가
data.loc[:,'App'] = np.array([5] * len(data))

In [None]:
data