# **Pandas - Basic**

#### Pandas란
- 데이터 분석을 위한 쉽고 성능 좋은 오픈소스 python 라이브러리
- Numpy를 기반으로 개발되었고, 많은 사람들에게 익숙한 행*열로 이뤄진 테이블 형태로 데이터를 다룰 수 있게 한다.
- R과 비슷하게 데이터를 다룰 수 있게 되는데, R에 비해서는 속도가 훨씬 빠르다.
- 공식문서: http://pandas.pydata.org


#### Pandas의 data type
1. Series 
    - 하나의 변수에 대한 데이터가 모인 1차원 데이터타입
    - index, value로 이루어진 데이터타입
2. DataFrame 
    - 여러 변수에 대한 series 여러 개가 모인 2차원 데이터타입, '표'라고 생각하면 된다.
    - index, column, value로 이루어진 데이터타입
    - column은 series로 구성됨
    - DataFrame은 여러개의 Series가 column을 구성하는 모양으로 만들어짐
    
#### 다룰 내용
1. Series
2. DataFrame

## **0. 설치와 import**

- 설치: `$ pip install pandas`
- import: 아래와 같이 alias를 `pd`로 import하는 것이 컨벤션이다.

In [2]:
import numpy as np
import pandas as pd

## **1. Series**
- index와 value로 되어 있는 데이터 형태 (index는 각 샘플에 붙는 번호라고 생각)
- series에는 하나의 데이터타입만 사용 가능 (하나의 column은 같은 데이터타입을 가짐)
- 한 변수에 대한 데이터 값들이라고 생각하면 된다.

### 1.1 Series 만들기

#### (1) Series 만들기

##### Series 생성 방법
- `pd.Series(data)`: data로는 list, array, dict. 등이 들어감
- index: default로 0부터 1씩 증가하는 숫자로 생성됨

In [1]:
# 0에서 9까지의 숫자를 랜덤하게 5개 발생시켜 Series를 만들기
data = pd.Series(np.random.randint(10, size=5))
data

0    4
1    3
2    2
3    9
4    2
dtype: int64

##### index 설정하기
- index parameter로 list 데이터를 넘기면 인덱스를 설정함
- 데이터 개수와 인덱수의 개수를 맞추어서 넣어야 함

In [12]:
data = pd.Series(np.random.randint(10, size=5), index=['A','B','C','D','E'])
data

A    3
B    6
C    0
D    1
E    5
dtype: int64

In [17]:
# Series의 이름과 index의 이름을 붙여 줄수 있음
data.name = "rand_num"
data.index.name = "idx"
data

idx
A    3
B    6
C    0
D    1
E    5
Name: rand_num, dtype: int64

#### (2) Series 호출하기
- `index`, `values`: index와 values(데이터) 호출

In [14]:
print(data.index)
print(data.values)

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')
[3 6 0 1 5]


- index로 데이터 호출: 문자 인덱스만 사용 가능

In [15]:
data.A, data.C

(3, 0)

In [16]:
# 이렇게 숫자를 str으로 index 넣어줘도 그 index로는 호출할 수 없음
data_tmp = pd.Series(np.random.randint(10, size=5), index=['1','2','3','4','5'])
data.1

SyntaxError: invalid syntax (<ipython-input-16-16f279306fc7>, line 3)

#### (3) indexing과 slicing

In [45]:
# indexing
print(data[0])
print(data["B"])

3
6
idx
B    6
C    0
E    5
Name: rand_num, dtype: int64


In [19]:
# index로 여러개의 데이터 출력
data[["B","C","E"]]

idx
B    6
C    0
E    5
Name: rand_num, dtype: int64

In [20]:
# offset으로 slicing
data[1:3]

idx
B    6
C    0
Name: rand_num, dtype: int64

In [23]:
# step = -1: 역순으로 호출
data[::-1]

idx
E    5
D    1
C    0
B    6
A    3
Name: rand_num, dtype: int64

#### (4) Series 데이터 연산 및 Series 다루기

In [24]:
# 연산: broadcasting으로 계산됨
data * 10

idx
A    30
B    60
C     0
D    10
E    50
Name: rand_num, dtype: int64

In [50]:
# series 끼리 계산 - index가 mapping이 되어 연산
print("data: \n{}\n".format(data))
data2 = pd.Series({"D":7, "E":5, "F":9})
print("data2: \n{}\n".format(data2))

print("data + data2: \n{}".format(data + data2))

data: 
idx
A    3
B    6
C    0
D    1
E    5
Name: rand_num, dtype: int64

data2: 
D    7
E    5
F    9
dtype: int64

data + data2: 
A     NaN
B     NaN
C     NaN
D     8.0
E    10.0
F     NaN
dtype: float64


In [25]:
# 비교 연산 가능
data > 3

idx
A    False
B     True
C    False
D    False
E     True
Name: rand_num, dtype: bool

In [26]:
# 필터링: 3이상 되는 데이터 출력
data[data > 3]   # []안의 값이 True인 값만 출력됨

idx
B    6
E    5
Name: rand_num, dtype: int64

In [29]:
# items를 이용해 index, val를 반복문에서 사용가능
for idx, val in data.items():
    print(idx, val)

A 3
B 6
C 0
D 1
E 5


In [28]:
[(idx, val) for idx, val in data.items()]

[('A', 3), ('B', 6), ('C', 0), ('D', 1), ('E', 5)]

In [42]:
# null 데이터(NaN) 제거
print(result.notnull(), "\n")             # notnull() 함수: True/False를 return함
result = result[result.notnull()]   # notnull이 True인 경우만 필터링함
print(result, "\n")

D    True
E    True
dtype: bool 

D     8.0
E    10.0
dtype: float64 



## **2. Dataframe**
- series(index, value), column으로 이루어진 데이터 타입
- table 모양으로 구성 (row와 column이 있음)

### 2.1 Create
- `pd.DataFrame(data)`

#### (1) 빈 컬럼 생성 후 list 데이터 추가

In [4]:
df = pd.DataFrame(columns=["Email", "Name"])   
df

Unnamed: 0,Email,Name


In [5]:
df["Name"] = ["fcamp", "dss"]
df["Email"] = ["fcamp@gmail.com", "dss@gmail.com"]
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


In [6]:
# 하나의 컬럼 = Series
df["Name"]   

0    fcamp
1      dss
Name: Name, dtype: object

#### (2) Dict 데이터로 생성

In [7]:
name = ["fcamp", "dss"]
email = ["fcamp@gmail.com", "dss@gmail.com"]
dic = {"Name":name, "Email":email}
df = pd.DataFrame(dic)     # dic을 DataFrame에 넣어줌
df

Unnamed: 0,Name,Email
0,fcamp,fcamp@gmail.com
1,dss,dss@gmail.com


#### (3) index 추가하기
- index parameter에 index명 list를 넣어줌
- index를 날짜로도 쓸 수 있음
- index 값은 중복이 되지 않음 (unique 값만 올 수 있음)

In [8]:
index_list = ["first", "second"]
data = {"Email": ["fcamp@gmail.com", "dss@gmail.com"], "Name": ["fcamp", "dss"]}
df = pd.DataFrame(data, index=index_list)
df

Unnamed: 0,Email,Name
first,fcamp@gmail.com,fcamp
second,dss@gmail.com,dss


In [10]:
# 데이터프레임에 대한 인덱스, 컬럼, 값 데이터(행렬로 가져옴) 가져오기
print("index: {}\n".format(df.index))
print("column: {}\n".format(df.columns))
print("values: \n{}".format(df.values))

index: Index(['first', 'second'], dtype='object')

column: Index(['Email', 'Name'], dtype='object')

values: 
[['fcamp@gmail.com' 'fcamp']
 ['dss@gmail.com' 'dss']]


### 2.2 Insert

##### Insert rows

In [6]:
data = {"Email": ["fcamp@gmail.com", "dss@gmail.com"], "Name": ["fcamp", "dss"]}
df = pd.DataFrame(data)
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


- row는 column과 달리 접근 method가 있음
    - row 접근: `.loc[]` (for location)
    - column 접근: `[column 이름]` - column명은 숫자도 가능 (Series의 index와 달리)

In [39]:
# row 접근
df.loc[1]    # series 형태로 나옴

Email    dss@gmail.com
Name               dss
Name: 1, dtype: object

In [7]:
# column 접근
df["Email"]

0    fcamp@gmail.com
1      dss@gmail.com
Name: Email, dtype: object

- 특정 row 지정해서 데이터 넣기 (dict 형태로)

In [44]:
df.loc[2] = {"Email":"data@gmail.com", "Name":"data"}
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss
2,data@gmail.com,data
3,science@gmail.com,science


- 가장 마지막에 자동으로 데이터 넣기

In [45]:
df.loc[len(df)] = {"Email":"science@gmail.com", "Name":"science"}
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss
2,data@gmail.com,data
3,science@gmail.com,science
4,science@gmail.com,science


##### Insert columns

In [46]:
# 컬럼 추가 - select처럼 "column name"
df["Address"] = ""   
df

Unnamed: 0,Email,Name,Address
0,fcamp@gmail.com,fcamp,
1,dss@gmail.com,dss,
2,data@gmail.com,data,
3,science@gmail.com,science,
4,science@gmail.com,science,


In [49]:
# 컬럼 데이터 추가: row수를 맞춰서 추가 or 하나의 데이터를 넣어주면 broadcasting
df["Address"] = ["Seoul", "Busan", "Jeju", "Deagu", "Suwon"]
df

Unnamed: 0,Email,Name,Address
0,fcamp@gmail.com,fcamp,Seoul
1,dss@gmail.com,dss,Busan
2,data@gmail.com,data,Jeju
3,science@gmail.com,science,Deagu
4,science@gmail.com,science,Suwon


##### apply: 함수 사용해서 column 데이터 넣기

In [50]:
# name 데이터의 문자수를 세서 name(count) 형태로 출력되는 새로운 column 생성
def name_count(name):
    return "{}({})".format(name, len(name))

name_count("hyeshin")

'hyeshin(7)'

In [51]:
# "Name_count"라는 column을 생성, "Name" column에 name_count 함수를 apply해서 데이터를 넣음
df["Name_count"] = df["Name"].apply(name_count)
df

Unnamed: 0,Email,Name,Address,Name_count
0,fcamp@gmail.com,fcamp,Seoul,fcamp(5)
1,dss@gmail.com,dss,Busan,dss(3)
2,data@gmail.com,data,Jeju,data(4)
3,science@gmail.com,science,Deagu,science(7)
4,science@gmail.com,science,Suwon,science(7)


In [52]:
# lambda 사용해서 column 데이터 넣기
df["Address_Count"] = df["Address"].apply(lambda addr: "{}({})".format(addr, len(addr)))
df

Unnamed: 0,Email,Name,Address,Name_count,Address_Count
0,fcamp@gmail.com,fcamp,Seoul,fcamp(5),Seoul(5)
1,dss@gmail.com,dss,Busan,dss(3),Busan(5)
2,data@gmail.com,data,Jeju,data(4),Jeju(4)
3,science@gmail.com,science,Deagu,science(7),Deagu(5)
4,science@gmail.com,science,Suwon,science(7),Suwon(5)


In [53]:
# 사용 예. 나이 정보가 있을 때, 연령대 column 만들기

### 2.3 append
- 두 개의 DataFrame을 붙일 수 있음
- 데이터를 붙이는 여러 방법(e.g. `concat`) 중 한 가지

In [9]:
# 사람 이름과 나이가 들어간 데이터를 만들기
import random, string

def get_name():
    names = ['Adam', 'Alan', 'Alex', 'Alvin', 'Andrew', 'Anthony', 'Arnold', 'Jim', 'Baldy','Peter']
    return random.choice(names)

def get_age(start=20, end=40):
    return random.randint(start, end)    # random 모듈의 randint는 end가 포함됨

def make_data(rows=10):     # default로 데이터 10개를 설정함
    datas = []
    for _ in range(rows):   # '_"를 쓰는 이유는 이름 중복 피하려고(컨벤션) 
        data = {"Age":get_age(), "Name":get_name()}
        datas.append(data)
    return datas

In [11]:
# 참고: random module의 randin는 end가 포함
import random, string
r = random.randint(0,10)
print("random module randint: {}".format(r))
# numpy의 random.randint는 포함되지 않음
na = np.random.randint(0, 10, size=(3, 3))
print("Numpy random.randint: \n{}".format(na))

random module randint: 0
Numpy random.randint: 
[[7 8 9]
 [8 2 2]
 [2 1 3]]


In [2]:
make_data()           # 중복되는 이름도 나올 수 있음

[{'Age': 40, 'Name': 'Peter'},
 {'Age': 26, 'Name': 'Alex'},
 {'Age': 25, 'Name': 'Alan'},
 {'Age': 22, 'Name': 'Andrew'},
 {'Age': 24, 'Name': 'Peter'},
 {'Age': 20, 'Name': 'Baldy'},
 {'Age': 26, 'Name': 'Peter'},
 {'Age': 32, 'Name': 'Arnold'},
 {'Age': 28, 'Name': 'Arnold'},
 {'Age': 30, 'Name': 'Adam'}]

In [6]:
data1 = make_data()
df1 = pd.DataFrame(data1)   # dict.를 요소로 가진 list로도 DataFrame을 만들 수 있음
df1

Unnamed: 0,Age,Name
0,29,Alvin
1,27,Anthony
2,23,Baldy
3,23,Alvin
4,39,Alvin
5,40,Peter
6,33,Alvin
7,27,Jim
8,20,Adam
9,24,Alex


In [7]:
data2 = make_data()
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,Age,Name
0,38,Adam
1,29,Adam
2,20,Andrew
3,39,Jim
4,34,Alvin
5,21,Alex
6,30,Alvin
7,29,Baldy
8,36,Peter
9,23,Arnold


In [18]:
# append: df1에 df2 데이터를 추가하기
df3 = df1.append(df2)           
df3

Unnamed: 0,Age,Name
0,29,Alvin
1,27,Anthony
2,23,Baldy
3,23,Alvin
4,39,Alvin
5,40,Peter
6,33,Alvin
7,27,Jim
8,20,Adam
9,24,Alex


##### ※ 참고: .append 사용의 차이

In [16]:
# DataFrame에서는 .append를 해도 df1이 변화하지 않음
df1.append(df2)
df1

# list에서는 append를 하면 ls1이 변함
ls1 = [1, 2, 3]
ls2 = [4, 5]
ls1.append(2)
ls1

Unnamed: 0,Age,Name
0,29,Alvin
1,27,Anthony
2,23,Baldy
3,23,Alvin
4,39,Alvin
5,40,Peter
6,33,Alvin
7,27,Jim
8,20,Adam
9,24,Alex


In [78]:
# 새로운 인덱스 생성
df3.reset_index()      # 원래 인덱스가 그대로 남게 됨 (drop=True: 기존 index 사라짐)

Unnamed: 0,index,Age,Name
0,0,22,Baldy
1,1,27,Arnold
2,2,31,Andrew
3,3,29,Peter
4,4,38,Arnold
5,5,39,Andrew
6,6,40,Alex
7,7,40,Alan
8,8,21,Andrew
9,9,32,Andrew


In [19]:
# reset_index의 옵션
    # inplace=True는 수정된 데이터가 해당 변수에 바로 적용
    # inplace=True를 사용하지 않으면 결과 데이터를 받아서 저장해야 함
df3.reset_index(drop=True, inplace=True)   
df3

Unnamed: 0,Age,Name
0,29,Alvin
1,27,Anthony
2,23,Baldy
3,23,Alvin
4,39,Alvin
5,40,Peter
6,33,Alvin
7,27,Jim
8,20,Adam
9,24,Alex


In [81]:
# append 하면서 바로 인덱스를 새로 생성하기
df1.append(df2, ignore_index=True)    # 기존의 index가 무시되고 새로 생성

Unnamed: 0,Age,Name
0,22,Baldy
1,27,Arnold
2,31,Andrew
3,29,Peter
4,38,Arnold
5,39,Andrew
6,40,Alex
7,40,Alan
8,21,Andrew
9,32,Andrew


### 2.4 concat
- 방법: `pd.concat([*DataFrame])`
- rows
- columns

##### concat rows

In [20]:
# df1 데이터와 df2 데이터를 concat을 이용하여 rows로 합치고 reset_index를 이용하여 index를 재정렬
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3

Unnamed: 0,Age,Name
0,29,Alvin
1,27,Anthony
2,23,Baldy
3,23,Alvin
4,39,Alvin
5,40,Peter
6,33,Alvin
7,27,Jim
8,20,Adam
9,24,Alex


##### concat columns

In [21]:
# concat에서 axis=1 설정하여 df1과 df2 데이터의 컬럼을 합쳐준다
df4 = pd.concat([df3, df1], axis=1)   # join='outer'가 default
df4
# df3는 20개였고 df1은 10개 → 결과 20개 (10개는 NaN으로 나타남)

Unnamed: 0,Age,Name,Age.1,Name.1
0,29,Alvin,29.0,Alvin
1,27,Anthony,27.0,Anthony
2,23,Baldy,23.0,Baldy
3,23,Alvin,23.0,Alvin
4,39,Alvin,39.0,Alvin
5,40,Peter,40.0,Peter
6,33,Alvin,33.0,Alvin
7,27,Jim,27.0,Jim
8,20,Adam,20.0,Adam
9,24,Alex,24.0,Alex


In [22]:
# axis=1 설정하여 df1과 df2 데이터의 컬럼을 합쳐준다
df4 = pd.concat([df3, df1], axis=1, join='inner') 
df4
# df3는 20개였고 df1은 10개 → 결과 10개 (양 쪽에 모두 있는 index만 나타남)

Unnamed: 0,Age,Name,Age.1,Name.1
0,29,Alvin,29,Alvin
1,27,Anthony,27,Anthony
2,23,Baldy,23,Baldy
3,23,Alvin,23,Alvin
4,39,Alvin,39,Alvin
5,40,Peter,40,Peter
6,33,Alvin,33,Alvin
7,27,Jim,27,Jim
8,20,Adam,20,Adam
9,24,Alex,24,Alex


### 2.5 Groupby
- DataFrame에서 특정 column의 unique 값만 가지고 새로운 DataFrame을 생성 
- size 방법: `dfname.groupby("column_name").size()`
- agg 방법: `dfname.groupby("column_name").agg('min'|'max'|'mean' 등)`

In [14]:
# make DataFrame
# 20개의 데이터를 만들어 데이터 프레임을 만들고 아래 5개의 데이터만 확인함
g_df = pd.DataFrame(make_data(20))
g_df
# g_df.tail() - 마지막 다섯 개 데이터만  (앞에 5개는 head())

Unnamed: 0,Age,Name
0,40,Andrew
1,31,Baldy
2,27,Adam
3,23,Alan
4,34,Jim
5,28,Baldy
6,28,Baldy
7,31,Peter
8,36,Alan
9,21,Alvin


In [15]:
# unique name list 1: set을 이용한 형변환으로 유니크 이름을 뽑는다
result1 = np.array(list(set(g_df["Name"].values)))
len(result1), result1

(10, array(['Peter', 'Alex', 'Andrew', 'Arnold', 'Adam', 'Jim', 'Anthony',
        'Alan', 'Baldy', 'Alvin'], dtype='<U7'))

In [16]:
# unique name list 2: unique 함수를 이용하여 유니크 이름을 뽑는다
result2 = list(g_df["Name"].unique())
len(result2), result2

(10,
 ['Andrew',
  'Baldy',
  'Adam',
  'Alan',
  'Jim',
  'Peter',
  'Alvin',
  'Alex',
  'Arnold',
  'Anthony'])

##### Size: 각 이름별이 몇번 나왔는지에 counts컬럼이 추가된 데이터 프레임 만들기

In [17]:
result_df = g_df.groupby("Name").size()    # size: data가 몇번 나오는지 count
result_df          # Series로 출력됨

Name
Adam       1
Alan       3
Alex       1
Alvin      1
Andrew     2
Anthony    1
Arnold     1
Baldy      5
Jim        2
Peter      3
dtype: int64

In [18]:
# counts라는 컬럼 이름으로 index를 리셋
result_df = g_df.groupby("Name").size().reset_index(name='counts')
result_df
# # sort_values를 이용하여 counts로 내림차순으로 정렬한다.
# result_df = result_df.sort_values(by=['counts'], ascending=False)

# # 인덱스를 다시 리셋한다.
# result_df.reset_index(drop=True, inplace=True)
# result_df

Unnamed: 0,Name,counts
0,Adam,1
1,Alan,3
2,Alex,1
3,Alvin,1
4,Andrew,2
5,Anthony,1
6,Arnold,1
7,Baldy,5
8,Jim,2
9,Peter,3


##### agg: 각 이름별 age의 최소값/최대값/평균 등을 나타내는 column을 나타내기

In [19]:
# agg: min
g_df.groupby("Name").agg('min').reset_index()

Unnamed: 0,Name,Age
0,Adam,27
1,Alan,23
2,Alex,31
3,Alvin,21
4,Andrew,26
5,Anthony,24
6,Arnold,34
7,Baldy,23
8,Jim,20
9,Peter,28


In [20]:
# agg: max
g_df.groupby("Name").agg('max').reset_index()

Unnamed: 0,Name,Age
0,Adam,27
1,Alan,38
2,Alex,31
3,Alvin,21
4,Andrew,40
5,Anthony,24
6,Arnold,34
7,Baldy,31
8,Jim,34
9,Peter,32


In [21]:
# agg : mean
g_df.groupby("Name").agg('mean').reset_index()

Unnamed: 0,Name,Age
0,Adam,27.0
1,Alan,32.333333
2,Alex,31.0
3,Alvin,21.0
4,Andrew,33.0
5,Anthony,24.0
6,Arnold,34.0
7,Baldy,26.6
8,Jim,27.0
9,Peter,30.333333


In [22]:
# 여러가지를 agg할 수 있음
df = g_df.groupby("Name").agg(["min","max","mean"]).reset_index()
df

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,27,27,27.0
1,Alan,23,38,32.333333
2,Alex,31,31,31.0
3,Alvin,21,21,21.0
4,Andrew,26,40,33.0
5,Anthony,24,24,24.0
6,Arnold,34,34,34.0
7,Baldy,23,31,26.6
8,Jim,20,34,27.0
9,Peter,28,32,30.333333


### 2.6 select

In [108]:
# 위에 5개 출력
df.head()

# # 위에 3개 출력
# df.head(3)

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,28,28,28.0
1,Alan,28,40,33.0
2,Alex,24,34,30.0
3,Alvin,36,40,37.666667
4,Andrew,21,39,29.5


In [35]:
# 아래에 5개 출력: tail을 사용하면 index를 보고 데이터가 몇개인지도 함께 확인 가능
df.tail()

# # 아래에 3개 출력
# df.tail(3)

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
5,Anthony,40,40,40.0
6,Arnold,36,38,37.0
7,Baldy,24,31,27.5
8,Jim,37,39,38.0
9,Peter,35,39,37.0


In [111]:
# offset index - 3~5데이터 출력 
df[3:6]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
3,Alvin,36,40,37.666667
4,Andrew,21,39,29.5
5,Anthony,40,40,40.0


In [112]:
# 3~끝 데이터 출력
df[3:]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
3,Alvin,36,40,37.666667
4,Andrew,21,39,29.5
5,Anthony,40,40,40.0
6,Arnold,28,34,31.0
7,Baldy,26,26,26.0
8,Jim,32,39,35.5


In [113]:
# 시작~3 데이터 출력
df[:4]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,28,28,28.0
1,Alan,28,40,33.0
2,Alex,24,34,30.0
3,Alvin,36,40,37.666667


In [114]:
# 데이터 거꾸로 출력
df[::-1]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
8,Jim,32,39,35.5
7,Baldy,26,26,26.0
6,Arnold,28,34,31.0
5,Anthony,40,40,40.0
4,Andrew,21,39,29.5
3,Alvin,36,40,37.666667
2,Alex,24,34,30.0
1,Alan,28,40,33.0
0,Adam,28,28,28.0


In [36]:
# 범위는 offset이 가능하지만 df[3] → error 나옴
df.loc[3]

Name          Alvin
Age   min        25
      max        26
      mean     25.5
Name: 3, dtype: object

In [27]:
# [index][컬럼]으로 자료 호출 (two-level column도 가능)
# 2번 데이터 나이 최소값, 3번 데이터 이름
df.loc[2]["Age"]["min"], df.loc[3]["Name"][""]

(31, 'Alvin')

In [29]:
# two-level column
df["Age"]["min"]

0    27
1    23
2    31
3    21
4    26
5    24
6    34
7    23
8    20
9    28
Name: min, dtype: int64

In [30]:
df["Age"]["min"][3]     

21

In [32]:
# 레벨이 2개였는데 age를 없애고 Name, Min, Max, Mean column의 df로 만들기 
# dict type의 data를 새로 만듦
data = {
    "Name":df["Name"],
    "Min":df["Age"]["min"],
    "Max":df["Age"]["max"],
    "Mean":df["Age"]["mean"],
    }
n_df = pd.DataFrame(data)
n_df

Unnamed: 0,Max,Mean,Min,Name
0,27,27.0,27,Adam
1,38,32.333333,23,Alan
2,31,31.0,31,Alex
3,21,21.0,21,Alvin
4,40,33.0,26,Andrew
5,24,24.0,24,Anthony
6,34,34.0,34,Arnold
7,31,26.6,23,Baldy
8,34,27.0,20,Jim
9,32,30.333333,28,Peter


In [39]:
# 평균 나이가 30살 이상인 데이터를 Mean values로 내림차수으로 정렬하고 인덱스를 재설정
n_df[n_df["Mean"] > 30].sort_values(by=["Mean", "Max"], ascending=False).reset_index(drop=True)
# n_df["Mean"]>30 : True / False
# 정렬: sort_values

Unnamed: 0,Max,Mean,Min,Name
0,40,40.0,40,Anthony
1,39,38.0,37,Jim
2,39,37.0,35,Peter
3,38,37.0,36,Arnold
4,37,33.0,28,Andrew


In [33]:
# 각 이름별 몇명이 있는지에 대한 데이터 컬럼 추가
n_df["Count"] = list(g_df.groupby("Name").size())
n_df
# list(g_df.groupby("Name").size())

Unnamed: 0,Max,Mean,Min,Name,Count
0,27,27.0,27,Adam,1
1,38,32.333333,23,Alan,3
2,31,31.0,31,Alex,1
3,21,21.0,21,Alvin,1
4,40,33.0,26,Andrew,2
5,24,24.0,24,Anthony,1
6,34,34.0,34,Arnold,1
7,31,26.6,23,Baldy,5
8,34,27.0,20,Jim,2
9,32,30.333333,28,Peter,3


In [35]:
# Mean 데이터를 가장 뒤로 이동하기 (머신러닝 등에서 맨 끝 컬럼을 결과값으로 인지함)
mean = n_df["Mean"]                          # Mean 데이터를 Series로 저장
n_df.drop('Mean', axis=1, inplace=True)      # drop: Mean 데이터를 삭제
n_df

Unnamed: 0,Max,Min,Name,Count
0,27,27,Adam,1
1,38,23,Alan,3
2,31,31,Alex,1
3,21,21,Alvin,1
4,40,26,Andrew,2
5,24,24,Anthony,1
6,34,34,Arnold,1
7,31,23,Baldy,5
8,34,20,Jim,2
9,32,28,Peter,3


In [36]:
n_df["Mean"] = mean # Mean 데이터를 생성
n_df

Unnamed: 0,Max,Min,Name,Count,Mean
0,27,27,Adam,1,27.0
1,38,23,Alan,3,32.333333
2,31,31,Alex,1,31.0
3,21,21,Alvin,1,21.0
4,40,26,Andrew,2,33.0
5,24,24,Anthony,1,24.0
6,34,34,Arnold,1,34.0
7,31,23,Baldy,5,26.6
8,34,20,Jim,2,27.0
9,32,28,Peter,3,30.333333


In [37]:
# rename column
n_df.rename(columns={"Name":"Unique_Name", "Max":"MAX"}, inplace=True)
n_df

Unnamed: 0,MAX,Min,Unique_Name,Count,Mean
0,27,27,Adam,1,27.0
1,38,23,Alan,3,32.333333
2,31,31,Alex,1,31.0
3,21,21,Alvin,1,21.0
4,40,26,Andrew,2,33.0
5,24,24,Anthony,1,24.0
6,34,34,Arnold,1,34.0
7,31,23,Baldy,5,26.6
8,34,20,Jim,2,27.0
9,32,28,Peter,3,30.333333


### 2.7 Merge
- sql의 join과 같은 개념
- 두 개의 데이터 프레임을 하나로 합쳐서 데이터를 보여줄 수 있음

- To do
    - user_df: 아이디, 이름, 나이 데이터 프레임 생성
    - money_df: 아이디, 돈으로 데이터 프레임 생성

In [46]:
# 중복되는 이름 없이 아이디, 이름, 나이 데이터가 포함된 데이터 프레임 생성
user_df = pd.DataFrame(columns=["UserID", "Name", "Age"])

for idx in range(1,9):    # 무한루프에 빠지지 않도록 위에서 넣어준 이름보다 적게 넣기
    name = get_name()

    # 이름이 중복이면 다시 뽑기
    while name in list(user_df["Name"]):
        name = get_name()
    # 데이터 name_df에 insert
    data = {"Name":name, "UserID":idx, "Age":get_age()}
    user_df.loc[len(user_df)] = data    # 마지막 줄에 데이터 추가

user_df

Unnamed: 0,UserID,Name,Age
0,1,Adam,37
1,2,Alvin,32
2,3,Jim,30
3,4,Baldy,34
4,5,Alex,37
5,6,Peter,24
6,7,Alan,30
7,8,Anthony,26


In [47]:
# ID와 Money 데이터가 있는 데이터 프레임 생성
money_df = pd.DataFrame(columns=["ID","Money"])

for idx in range(15):
    money = random.randint(1,20) * 1000
    data = {"Money":money, "ID":random.randint(1,9)}
    money_df.loc[len(money_df)] = data

# money_df.sort_values("ID", inplace=True)
money_df

Unnamed: 0,ID,Money
0,6,16000
1,6,10000
2,1,10000
3,9,11000
4,3,10000
5,6,20000
6,7,19000
7,1,16000
8,6,6000
9,7,14000


In [50]:
# money_df의 ID 컬럼과 user_df의 UserID(key값)를 매칭 시켜 merge
# UserID와 ID 데이터는 같지만 컬럼명이 다르기 때문에 두개의 컬럼 모두 데이터 프레임에 들어감
result_df = money_df.merge(user_df, left_on="ID", right_on="UserID", how='outer')
result_df

Unnamed: 0,ID,Money,UserID,Name,Age
0,6.0,16000.0,6.0,Peter,24.0
1,6.0,10000.0,6.0,Peter,24.0
2,6.0,20000.0,6.0,Peter,24.0
3,6.0,6000.0,6.0,Peter,24.0
4,1.0,10000.0,1.0,Adam,37.0
5,1.0,16000.0,1.0,Adam,37.0
6,1.0,19000.0,1.0,Adam,37.0
7,9.0,11000.0,,,
8,9.0,18000.0,,,
9,3.0,10000.0,3.0,Jim,30.0


In [42]:
# user_df에 UserID를 ID로 컬럼명을 변경한후에 merge
# left_on과 right_on을 적어줄 필요가 없다.
user_df.rename(columns={"UserID":"ID"}, inplace=True)
result_df = pd.merge(money_df, user_df)
result_df

Unnamed: 0,ID,Money,Name,Age
0,6,13000,Alex,38
1,3,18000,Jim,36
2,3,2000,Jim,36
3,3,15000,Jim,36
4,5,15000,Peter,30
5,5,6000,Peter,30
6,4,15000,Anthony,21
7,4,8000,Anthony,21
8,1,6000,Baldy,36
9,1,12000,Baldy,36


In [43]:
# 각 이름으로 groubpy하고 Money 데이터를 모두 sum한 결과의 인덱스를 리셋한다.
money_list = result_df.groupby("Name").sum()["Money"].reset_index()

# Money데이터를 내림차순으로 정렬하고 index를 리셋한다.
money_list = money_list.sort_values(by=['Money'], ascending=False).reset_index(drop=True)
money_list

Unnamed: 0,Name,Money
0,Jim,35000
1,Baldy,24000
2,Anthony,23000
3,Peter,21000
4,Alex,13000
5,Andrew,13000
6,Arnold,6000
7,Alan,4000


In [51]:
# how에 outer를 사용하면 데이터가 없는 사람은 Money가 NaN으로 출력된다.
# fillna(value=0) : NaN 데이터를 0으로 채운다.
result = pd.merge(user_df, money_list, how='outer').fillna(value=0)
result = result.sort_values(by=['Money'], ascending=False).reset_index(drop=True)
result

Unnamed: 0,UserID,Name,Age,Money
0,3,Jim,30,35000.0
1,4,Baldy,34,24000.0
2,8,Anthony,26,23000.0
3,6,Peter,24,21000.0
4,5,Alex,37,13000.0
5,0,Andrew,0,13000.0
6,0,Arnold,0,6000.0
7,7,Alan,30,4000.0
8,1,Adam,37,0.0
9,2,Alvin,32,0.0


In [61]:
# column의 형변환
result["Money"] = result["Money"].astype("int")
result

Unnamed: 0,UserID,Name,Age,Money
0,3,Jim,30,35000
1,4,Baldy,34,24000
2,8,Anthony,26,23000
3,6,Peter,24,21000
4,5,Alex,37,13000
5,0,Andrew,0,13000
6,0,Arnold,0,6000
7,7,Alan,30,4000
8,1,Adam,37,0
9,2,Alvin,32,0


### 3. Input / Output
- csv파일, 엑셀파일 저장을 위해 아래 모듈이 필요합니다.
    - csv 파일: ','로 값을 구분하는 파일 타입
    - 엑셀 파일: 
        - 인코딩 타입이 UTF-8이 아님
        - 영어가 아닌 다른 언어를 저장하거나 로드할 때 인코딩을 주의해야 함
- `$ pip3 install xlrd`
- `$ pip3 install openpyxl`

In [63]:
import xlrd
import openpyxl

In [64]:
result

Unnamed: 0,UserID,Name,Age,Money
0,3,Jim,30,35000
1,4,Baldy,34,24000
2,8,Anthony,26,23000
3,6,Peter,24,21000
4,5,Alex,37,13000
5,0,Andrew,0,13000
6,0,Arnold,0,6000
7,7,Alan,30,4000
8,1,Adam,37,0
9,2,Alvin,32,0


In [65]:
result.to_csv("foo.csv",index=False)

In [67]:
pd.read_csv("foo.csv")    #index가 자동으로 붙음 (그래서 저장할 때 False로 함)

Unnamed: 0,UserID,Name,Age,Money
0,3,Jim,30,35000
1,4,Baldy,34,24000
2,8,Anthony,26,23000
3,6,Peter,24,21000
4,5,Alex,37,13000
5,0,Andrew,0,13000
6,0,Arnold,0,6000
7,7,Alan,30,4000
8,1,Adam,37,0
9,2,Alvin,32,0


In [68]:
# excel
result.to_excel("foo.xlsx", sheet_name="dss")

In [69]:
pd.read_excel("foo.xlsx","dss")

Unnamed: 0,UserID,Name,Age,Money
0,3,Jim,30,35000
1,4,Baldy,34,24000
2,8,Anthony,26,23000
3,6,Peter,24,21000
4,5,Alex,37,13000
5,0,Andrew,0,13000
6,0,Arnold,0,6000
7,7,Alan,30,4000
8,1,Adam,37,0
9,2,Alvin,32,0
