# **Pandas - Basic (1)**

#### Pandas란
- NumPy를 기반으로 개발된 데이터 분석을 위한 쉽고 성능 좋은 오픈소스 python 라이브러리
- 많은 사람들에게 익숙한 행x열로 이뤄진 테이블 형태로 데이터를 다룰 수 있게 한다.
- R과 비슷하게 데이터를 다룰 수 있게 되는데, R에 비해서는 속도가 훨씬 빠르다.
- 공식문서: http://pandas.pydata.org


#### Pandas의 data type
1. Series 
    - 하나의 변수에 대한 데이터가 모인 1차원 데이터타입
    - index, value로 이루어짐
2. DataFrame 
    - 여러 변수에 대한 series 여러 개가 모인 2차원 데이터타입, '표'라고 생각하면 된다.
    - index, column, value로 이루어짐
    - 각 column은 series로 구성됨
    - DataFrame은 여러개의 Series가 column을 구성하는 모양으로 만들어짐
    
#### 다룰 내용
Series와 DataFrame을 다루는 기초에 관해 두 편으로 나누어 정리해보자. 우선 여기서는 아래의 내용을 정리한다.

1. Series
    - Series 만들기
    - Series 데이터 보기
    - indexing과 slicing
    - Series 데이터 연산 및 Series 다루기
2. DataFrame
    - Create
    - Insert
    - append
    - concat

## **0. 설치와 import**

- 설치: `$ pip install pandas`
- import: numpy와 함께, alias를 `pd`로 import하는 것이 컨벤션

In [1]:
import numpy as np
import pandas as pd

## **1. Series**
- index와 value로 되어 있는 데이터 형태 (index는 각 샘플에 붙는 번호라고 생각)
- series에는 하나의 데이터타입만 사용 가능 (하나의 column은 같은 데이터타입을 가짐)
- 한 변수에 대한 데이터 값들이라고 생각하면 된다.

### 1.1 Series 만들기

##### Series 생성 방법
- `pd.Series(data)`: data로는 list, array, dict. 등이 들어감
- index: default로 0부터 1씩 증가하는 숫자로 생성됨

In [2]:
# 0에서 9까지의 숫자를 랜덤하게 5개 발생시켜 Series를 만들기
data = pd.Series(np.random.randint(10, size=5))
data

0    4
1    9
2    5
3    0
4    9
dtype: int32

##### index 설정하기
- index parameter로 list 데이터를 넘기면 인덱스를 설정함
- 데이터 개수와 인덱수의 개수를 맞추어서 넣어야 함

In [3]:
data = pd.Series(np.random.randint(10, size=5), index=['A','B','C','D','E'])
data

A    6
B    6
C    8
D    5
E    3
dtype: int32

In [4]:
# Series의 이름과 index의 이름을 붙여 줄수 있음
data.name = "rand_num"
data.index.name = "idx"
data

idx
A    6
B    6
C    8
D    5
E    3
Name: rand_num, dtype: int32

### 1.2 Series 데이터 보기

#### (1) `index`, `values`, `items`

In [5]:
# `index`, `values`: index와 values(데이터) 호출
print(data.index)
print(data.values)

Index(['A', 'B', 'C', 'D', 'E'], dtype='object', name='idx')
[6 6 8 5 3]


In [16]:
# items를 이용해 index, val를 반복문에서 사용가능
for idx, val in data.items():
    print(idx, val)

A 6
B 6
C 8
D 5
E 3


In [17]:
[(idx, val) for idx, val in data.items()]

[('A', 6), ('B', 6), ('C', 8), ('D', 5), ('E', 3)]

#### (2) index 속성으로 데이터 호출
 - 문자열 인덱스만 사용 가능

In [6]:
data.A, data.C

(6, 8)

In [7]:
# 아래처럼 숫자를 str으로 index에 넣어줘도 그 index로는 호출할 수 없음
data_tmp = pd.Series(np.random.randint(10, size=5), index=['1','2','3','4','5'])
data.1

SyntaxError: invalid syntax (<ipython-input-7-f7e7d8424c81>, line 3)

### 1.3 indexing과 slicing

In [8]:
# indexing
print(data[0])
print(data["B"])

6
6


In [9]:
# index로 여러개의 데이터 출력
data[["B","C","E"]]

idx
B    6
C    8
E    3
Name: rand_num, dtype: int32

In [10]:
# offset으로 slicing
data[1:3]

idx
B    6
C    8
Name: rand_num, dtype: int32

In [11]:
# step = -1: 역순으로 호출
data[::-1]

idx
E    3
D    5
C    8
B    6
A    6
Name: rand_num, dtype: int32

### 1.4 Series 데이터 연산 및 Series 다루기

In [12]:
# 연산: broadcasting으로 계산됨
data * 10

idx
A    60
B    60
C    80
D    50
E    30
Name: rand_num, dtype: int32

In [19]:
# series 끼리 계산 - index가 mapping 되어 연산
print("data: \n{}\n".format(data))
data2 = pd.Series({"D":7, "E":5, "F":9})
print("data2: \n{}\n".format(data2))
result = data + data2
print("data + data2: \n{}".format(result))

data: 
idx
A    6
B    6
C    8
D    5
E    3
Name: rand_num, dtype: int32

data2: 
D    7
E    5
F    9
dtype: int64

data + data2: 
A     NaN
B     NaN
C     NaN
D    12.0
E     8.0
F     NaN
dtype: float64


In [14]:
# 비교 연산 가능
data > 3

idx
A     True
B     True
C     True
D     True
E    False
Name: rand_num, dtype: bool

In [15]:
# 필터링: 3이상 되는 데이터 출력
data[data > 3]   # []안의 값이 True인 값만 출력됨

idx
A    6
B    6
C    8
D    5
Name: rand_num, dtype: int32

In [20]:
# null 데이터(NaN) 제거
print(result.notnull(), "\n")       # notnull() 함수: True/False를 return함
result = result[result.notnull()]   # notnull이 True인 경우만 필터링함
print(result, "\n")

A    False
B    False
C    False
D     True
E     True
F    False
dtype: bool 

D    12.0
E     8.0
dtype: float64 



## **2. Dataframe**
- series(index, value), column으로 이루어진 데이터 타입
- table 모양으로 구성 (row와 column이 있음)

### 2.1 Create
- `pd.DataFrame(data)`

#### (1) 빈 컬럼 생성 후 list 데이터 추가

In [21]:
df = pd.DataFrame(columns=["Email", "Name"])   
df

Unnamed: 0,Email,Name


In [22]:
df["Name"] = ["fcamp", "dss"]
df["Email"] = ["fcamp@gmail.com", "dss@gmail.com"]
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


In [23]:
# 하나의 컬럼 = Series
df["Name"]   

0    fcamp
1      dss
Name: Name, dtype: object

#### (2) Dict 데이터로 생성

In [24]:
name = ["fcamp", "dss"]
email = ["fcamp@gmail.com", "dss@gmail.com"]
dic = {"Name":name, "Email":email}
df = pd.DataFrame(dic)     # dic을 DataFrame에 넣어줌
df

Unnamed: 0,Name,Email
0,fcamp,fcamp@gmail.com
1,dss,dss@gmail.com


#### (3) index 추가하기
- index parameter에 index명 list를 넣어줌
- index를 날짜로도 쓸 수 있음
- index 값은 중복이 되지 않음 (unique 값만 올 수 있음)

In [25]:
index_list = ["first", "second"]
data = {"Email": ["fcamp@gmail.com", "dss@gmail.com"], "Name": ["fcamp", "dss"]}
df = pd.DataFrame(data, index=index_list)
df

Unnamed: 0,Email,Name
first,fcamp@gmail.com,fcamp
second,dss@gmail.com,dss


In [26]:
# 데이터프레임에 대한 인덱스, 컬럼, 값 데이터(행렬로 가져옴) 가져오기
print("index: {}\n".format(df.index))
print("column: {}\n".format(df.columns))
print("values: \n{}".format(df.values))

index: Index(['first', 'second'], dtype='object')

column: Index(['Email', 'Name'], dtype='object')

values: 
[['fcamp@gmail.com' 'fcamp']
 ['dss@gmail.com' 'dss']]


### 2.2 Insert

#### (1) Insert rows

##### dataframe의 row와 column에 접근하기
- row는 column과 달리 접근 method가 있음
    - row 접근: `.loc[]` (for location)
    - column 접근: `[column 이름]` - column명은 숫자도 가능 (Series의 index와 달리)

In [27]:
data = {"Email": ["fcamp@gmail.com", "dss@gmail.com"], "Name": ["fcamp", "dss"]}
df = pd.DataFrame(data)
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


In [28]:
# row 접근
df.loc[1]    # series 형태로 나옴

Email    dss@gmail.com
Name               dss
Name: 1, dtype: object

In [29]:
# column 접근
df["Email"]

0    fcamp@gmail.com
1      dss@gmail.com
Name: Email, dtype: object

##### dataframe row에 데이터 넣기

In [30]:
# 특정 row 지정해서 데이터 넣기 (dict 형태로)
df.loc[2] = {"Email":"data@gmail.com", "Name":"data"}
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss
2,data@gmail.com,data


In [31]:
# 맨 마지막 행에 자동으로 데이터 넣기
df.loc[len(df)] = {"Email":"science@gmail.com", "Name":"science"}
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss
2,data@gmail.com,data
3,science@gmail.com,science


#### (2) Insert columns

In [32]:
# 컬럼 추가
df["Address"] = ""   
df

Unnamed: 0,Email,Name,Address
0,fcamp@gmail.com,fcamp,
1,dss@gmail.com,dss,
2,data@gmail.com,data,
3,science@gmail.com,science,


In [34]:
# 컬럼 데이터 추가: row수를 맞춰서 추가 or 하나의 데이터를 넣어주면 broadcasting
df["Address"] = ["Seoul", "Busan", "Jeju", "Deagu"]
df

Unnamed: 0,Email,Name,Address
0,fcamp@gmail.com,fcamp,Seoul
1,dss@gmail.com,dss,Busan
2,data@gmail.com,data,Jeju
3,science@gmail.com,science,Deagu


##### apply: 함수 사용해서 column 데이터 넣기

In [35]:
# name 데이터의 문자열 길이를 세서 name(count) 형태로 출력되는 새로운 column 생성
def name_count(name):
    return "{}({})".format(name, len(name))


name_count("hyeshin")

'hyeshin(7)'

In [36]:
# "Name_count"라는 column을 생성, "Name" column에 name_count 함수를 apply해서 데이터를 넣음
df["Name_count"] = df["Name"].apply(name_count)
df

Unnamed: 0,Email,Name,Address,Name_count
0,fcamp@gmail.com,fcamp,Seoul,fcamp(5)
1,dss@gmail.com,dss,Busan,dss(3)
2,data@gmail.com,data,Jeju,data(4)
3,science@gmail.com,science,Deagu,science(7)


In [37]:
# lambda 사용해서 column 데이터 넣기
df["Address_Count"] = df["Address"].apply(lambda addr: "{}({})".format(addr, len(addr)))
df

Unnamed: 0,Email,Name,Address,Name_count,Address_Count
0,fcamp@gmail.com,fcamp,Seoul,fcamp(5),Seoul(5)
1,dss@gmail.com,dss,Busan,dss(3),Busan(5)
2,data@gmail.com,data,Jeju,data(4),Jeju(4)
3,science@gmail.com,science,Deagu,science(7),Deagu(5)


### 2.3 append
- 두 개의 DataFrame을 이어 붙일 수 있음
- 데이터를 붙이는 여러 방법(e.g. `concat`) 중 한 가지

In [40]:
# 사람 이름과 나이가 들어간 데이터를 만들기
import random, string

def get_name():
    names = ['Adam', 'Alan', 'Alex', 'Alvin', 'Andrew', 'Anthony', 'Arnold', 'Jim', 'Baldy','Peter']
    return random.choice(names)


def get_age(start=20, end=40):
    return random.randint(start, end)    # random 모듈의 randint는 end가 포함됨


def make_data(rows=10):     # default로 데이터 10개를 설정함
    datas = []
    for _ in range(rows):   # '_"를 쓰는 이유는 이름 중복 피하려고(컨벤션) 
        data = {"Age":get_age(), "Name":get_name()}
        datas.append(data)
    return datas

In [38]:
# 참고 random module의 randint는 numpy의 random.randint와 달리 end 값이 포함
import random, string

r = random.randint(0, 10)
print("random module randint: {}".format(r))

na = np.random.randint(0, 10, size=(3, 3))
print("Numpy random.randint: \n{}".format(na))

random module randint: 9
Numpy random.randint: 
[[5 7 6]
 [0 4 6]
 [1 7 0]]


In [41]:
make_data()           # 중복되는 이름도 나올 수 있음

[{'Age': 20, 'Name': 'Anthony'},
 {'Age': 33, 'Name': 'Alex'},
 {'Age': 21, 'Name': 'Alex'},
 {'Age': 25, 'Name': 'Arnold'},
 {'Age': 35, 'Name': 'Jim'},
 {'Age': 27, 'Name': 'Anthony'},
 {'Age': 20, 'Name': 'Adam'},
 {'Age': 39, 'Name': 'Jim'},
 {'Age': 31, 'Name': 'Alan'},
 {'Age': 27, 'Name': 'Andrew'}]

In [42]:
data1 = make_data()
df1 = pd.DataFrame(data1)   # dict.를 요소로 가진 list로도 DataFrame을 만들 수 있음
df1

Unnamed: 0,Age,Name
0,26,Alex
1,37,Peter
2,37,Peter
3,30,Alvin
4,39,Alvin
5,36,Jim
6,37,Anthony
7,32,Alvin
8,22,Jim
9,39,Baldy


In [43]:
data2 = make_data()
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,Age,Name
0,30,Baldy
1,30,Peter
2,38,Baldy
3,33,Arnold
4,30,Alex
5,30,Alvin
6,31,Jim
7,35,Alex
8,35,Arnold
9,24,Arnold


In [44]:
# append: df1에 df2 데이터를 추가하기
df3 = df1.append(df2)           
df3

Unnamed: 0,Age,Name
0,26,Alex
1,37,Peter
2,37,Peter
3,30,Alvin
4,39,Alvin
5,36,Jim
6,37,Anthony
7,32,Alvin
8,22,Jim
9,39,Baldy


In [49]:
# 새로운 인덱스 생성
df3.reset_index()      # 원래 인덱스가 그대로 남게 됨 (drop=True: 기존 index 사라짐)

Unnamed: 0,index,Age,Name
0,0,26,Alex
1,1,37,Peter
2,2,37,Peter
3,3,30,Alvin
4,4,39,Alvin
5,5,36,Jim
6,6,37,Anthony
7,7,32,Alvin
8,8,22,Jim
9,9,39,Baldy


##### reset_index의 옵션
- `inplace=True`: 수정된 데이터가 해당 변수에 바로 적용
- `inplace=True`를 사용하지 않으면 결과 데이터를 받아서 저장해야 함

In [50]:
df3.reset_index(drop=True, inplace=True)   
df3

Unnamed: 0,Age,Name
0,26,Alex
1,37,Peter
2,37,Peter
3,30,Alvin
4,39,Alvin
5,36,Jim
6,37,Anthony
7,32,Alvin
8,22,Jim
9,39,Baldy


In [51]:
# append 하면서 바로 인덱스를 새로 생성하기
df1.append(df2, ignore_index=True)    # 기존의 index가 무시되고 새로 생성

Unnamed: 0,Age,Name
0,26,Alex
1,37,Peter
2,37,Peter
3,30,Alvin
4,39,Alvin
5,36,Jim
6,37,Anthony
7,32,Alvin
8,22,Jim
9,39,Baldy


### 2.4 concat
- `pd.concat([*DataFrame])`

#### (1) concat rows

In [52]:
# df1 + df2 (rows로 합치기)하고 reset_index를 이용하여 index를 재정렬
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3

Unnamed: 0,Age,Name
0,26,Alex
1,37,Peter
2,37,Peter
3,30,Alvin
4,39,Alvin
5,36,Jim
6,37,Anthony
7,32,Alvin
8,22,Jim
9,39,Baldy


#### (2) concat columns

In [53]:
# 인자로 axis=1을 설정하여 df1과 df2 데이터의 컬럼을 합쳐줌
df4 = pd.concat([df3, df1], axis=1)   # join='outer'가 default
df4     
# df3는 20개였고 df1은 10개 → 결과 20개 (10개는 NaN으로 나타남)

Unnamed: 0,Age,Name,Age.1,Name.1
0,26,Alex,26.0,Alex
1,37,Peter,37.0,Peter
2,37,Peter,37.0,Peter
3,30,Alvin,30.0,Alvin
4,39,Alvin,39.0,Alvin
5,36,Jim,36.0,Jim
6,37,Anthony,37.0,Anthony
7,32,Alvin,32.0,Alvin
8,22,Jim,22.0,Jim
9,39,Baldy,39.0,Baldy


In [54]:
df4 = pd.concat([df3, df1], axis=1, join='inner') 
df4
# df3는 20개였고 df1은 10개 → 결과 10개 (양 쪽에 모두 있는 index만 나타남)

Unnamed: 0,Age,Name,Age.1,Name.1
0,26,Alex,26,Alex
1,37,Peter,37,Peter
2,37,Peter,37,Peter
3,30,Alvin,30,Alvin
4,39,Alvin,39,Alvin
5,36,Jim,36,Jim
6,37,Anthony,37,Anthony
7,32,Alvin,32,Alvin
8,22,Jim,22,Jim
9,39,Baldy,39,Baldy
