## **Pandas 데이터프레임 소개 및 RDD 생성하기**
----

In [1]:
# 패키지 불러오기
import pandas as pd

In [2]:
# 데이터 파일 경로 및 파일명
path = './data/'
filename = 'fhvhv_tripdata_2020-03_short.csv'

In [3]:
# TLC 데이터 로딩(csv 파일 -> DataFrame 객체)
df = pd.read_csv(path + filename)

### **1. DataFrame 기본 메서드 및 속성**
+ ```DataFrame.head()```
+ ```DataFrame.info()```
+ ```DataFrame.shape```
+ Series 객체 접근: ```DataFrame['var_name']``` 또는 ```DataFrame.var_name```
+ ```Series.unique()```

In [4]:
# 데이터프레임 데이터 출력(상위 5개)
df.head()

Unnamed: 0,hvfhs_license_num,dispatching_base_num,pickup_datetime,dropoff_datetime,PULocationID,DOLocationID,SR_Flag
0,HV0005,B02510,2020-03-01 00:03:40,2020-03-01 00:23:39,81,159,
1,HV0005,B02510,2020-03-01 00:28:05,2020-03-01 00:38:57,168,119,
2,HV0003,B02764,2020-03-01 00:03:07,2020-03-01 00:15:04,137,209,1.0
3,HV0003,B02764,2020-03-01 00:18:42,2020-03-01 00:38:42,209,80,
4,HV0003,B02764,2020-03-01 00:44:24,2020-03-01 00:58:44,256,226,


In [5]:
# 데이터프레임 개요 정보(컬럼명, 데이터 타입 등) 출력
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4860996 entries, 0 to 4860995
Data columns (total 7 columns):
 #   Column                Dtype  
---  ------                -----  
 0   hvfhs_license_num     object 
 1   dispatching_base_num  object 
 2   pickup_datetime       object 
 3   dropoff_datetime      object 
 4   PULocationID          int64  
 5   DOLocationID          int64  
 6   SR_Flag               float64
dtypes: float64(1), int64(2), object(4)
memory usage: 259.6+ MB


In [6]:
# 데이터 형상(# of rows, # of columns)
df.shape

(4860996, 7)

In [7]:
# 컬럼 데이터(= 변수, Series 객체) 가져오기 (인덱싱으로 접근)
df['hvfhs_license_num']

0          HV0005
1          HV0005
2          HV0003
3          HV0003
4          HV0003
            ...  
4860991    HV0004
4860992    HV0004
4860993    HV0004
4860994    HV0004
4860995    HV0004
Name: hvfhs_license_num, Length: 4860996, dtype: object

In [8]:
# 컬럼 데이터 가져오기 (속성으로 접근)
df.hvfhs_license_num

0          HV0005
1          HV0005
2          HV0003
3          HV0003
4          HV0003
            ...  
4860991    HV0004
4860992    HV0004
4860993    HV0004
4860994    HV0004
4860995    HV0004
Name: hvfhs_license_num, Length: 4860996, dtype: object

In [9]:
# 특정 컬럼의 unique 값 목록
df['hvfhs_license_num'].unique()

array(['HV0005', 'HV0003', 'HV0004'], dtype=object)

In [10]:
# 특정 컬럼의 unique 값의 개수
df['hvfhs_license_num'].nunique()

3

In [11]:
# 기술통계량
df.describe()

Unnamed: 0,PULocationID,DOLocationID,SR_Flag
count,4860996.0,4860996.0,601798.0
mean,138.8409,141.3942,1.0
std,75.19836,77.59148,0.0
min,1.0,1.0,1.0
25%,75.0,75.0,1.0
50%,140.0,141.0,1.0
75%,211.0,216.0,1.0
max,265.0,265.0,1.0


### **2. RDD 생성하기**
----
#### **pyspark 시작하기**
1. ```pyspark``` 임포트
2. ```SparkConf``` 객체 생성 : Spark 애플리케이션 설정 정보
3. ```SparkContext``` 객체 생성 : Spark 애플리케이션을 관리하는 객체

In [12]:
# pyspark 패키지 불러오기
from pyspark import SparkConf, SparkContext

In [13]:
# SparkConf 객체 생성
conf = SparkConf().setMaster('local').setAppName('dataframe-and-rdd')

In [14]:
sc = SparkContext(conf=conf)

#### **RDD 생성 방법**
+ ```SparkContext.textFile()```: 텍스트 파일(예: csv)을 읽어서 RDD 객체를 생성
+ ```SparkContext.parallelize()```: 파이썬 객체(예: List)로부터 RDD 객체를 생성
+ 하둡 파일 시스템(HDFS) 또는 데이터베이스(예: Hive, Cassandra, MySQL)로부터 읽기

In [53]:
# 데이터 로딩(CSV -> RDD)
lines = sc.textFile(path + filename)

In [54]:
# 객체 타입 확인
type(lines)

pyspark.rdd.RDD

In [55]:
# List 객체로부터 생성하기
lst = [1, 2, 3, 4, 5]
rdd = sc.parallelize(lst)

In [56]:
# RDD 내용 출력
rdd.collect()

[1, 2, 3, 4, 5]

In [57]:
type(rdd)

pyspark.rdd.RDD