### pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python library
- R과 Pandas의 특징
    - R보다 Pandas가 학습이 쉽다. 
    - R보다 Pandas가 성능이 좋다. 
    - R보다 Python은 활용할 수 있는 분야가 많다. 

- 크게 두가지 데이터 타입 사용함
    - Series : Index, Value로 이루어진 데이터 타입(Series도 Array처럼 동일한 데이터 타입만 가질 수 있음)
    - DataFrame : index, column, value로 이루어진 데이터 타입

### 1. Series
- 동일한 데이터 타입의 값을 갖는다. 
- Value만 설정하면 Index는 자동으로 0부터 설정 됩니다. 

In [4]:
# Series
data = pd.Series(np.random.randint(10, size=5))

In [5]:
data

0    0
1    0
2    2
3    9
4    6
dtype: int64

In [7]:
# index 설정
data = pd.Series(np.random.randint(10, size=5), index=list('ABCDE'))
data

A    0
B    7
C    2
D    1
E    9
dtype: int64

In [9]:
data.index, data.values  # values는 np.array

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([0, 7, 2, 1, 9]))

In [11]:
data["B"], data.B

(7, 7)

In [13]:
data["C"] = 10
data

A     0
B     7
C    10
D     1
E     9
dtype: int64

In [14]:
# broadcasting
data*10

A      0
B     70
C    100
D     10
E     90
dtype: int64

In [15]:
data[["B", "E"]]

B    7
E    9
dtype: int64

In [16]:
# offset index 그대로 ㅅ용
data[2:]

C    10
D     1
E     9
dtype: int64

In [17]:
data[2::2]

C    10
E     9
dtype: int64

In [18]:
data[::-1]

E     9
D     1
C    10
B     7
A     0
dtype: int64

#### Series 연산

In [19]:
data

A     0
B     7
C    10
D     1
E     9
dtype: int64

In [20]:
data2 = pd.Series({"D": 3, "E": 5, "F": 7})
data2

D    3
E    5
F    7
dtype: int64

In [26]:
result = data + data2
result  # 값이 있는 것만 같은 인덱스 끼리 연산이 되네 #NaN은 숫자 데이터에서의 None

A     NaN
B     NaN
C     NaN
D     4.0
E    14.0
F     NaN
dtype: float64

In [28]:
result[result.isnull()] = data

In [29]:
result

A     0.0
B     7.0
C    10.0
D     4.0
E    14.0
F     NaN
dtype: float64

In [30]:
result.isnull()

A    False
B    False
C    False
D    False
E    False
F     True
dtype: bool

In [31]:
result[result.isnull()] = data2

In [32]:
result

A     0.0
B     7.0
C    10.0
D     4.0
E    14.0
F     7.0
dtype: float64

### 2. DataFrame
- 데이터 프레임은 여러개의 Series로 구성
- 같은 컬럼에 있는 Value 값은 같은 데이터 타입을 갖습니다. 

In [None]:
# 데이터프레임 생성 1. 딕셔너리의 리스트

In [33]:
datas = {
    "name": ["dss", "fc"],
    "email": ["miyoung@naver.com", "sanghyuk@daum.net"]
}

In [34]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,miyoung@naver.com
1,fc,sanghyuk@daum.net


In [36]:
# 데이터프레임 생성 1. 리스트의 딕셔너리
# 하나가 하나의 row

In [68]:
datas = [
    {"name":"dss", "email":"miyoung@gmail.com"},
    {"name":"fc", "sanghyuk":"miyoung@gmail.com"}
]

In [39]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email,sanghyuk
0,dss,miyoung@gmail.com,
1,fc,,miyoung@gmail.com


In [41]:
# 인덱스 추가하는 방법 
df = pd.DataFrame(datas, index = ["one", "two"])
df

Unnamed: 0,name,email,sanghyuk
one,dss,miyoung@gmail.com,
two,fc,,miyoung@gmail.com


In [43]:
df.index, df.columns, df.values

(Index(['one', 'two'], dtype='object'),
 Index(['name', 'email', 'sanghyuk'], dtype='object'),
 array([['dss', 'miyoung@gmail.com', nan],
        ['fc', nan, 'miyoung@gmail.com']], dtype=object))

In [45]:
# 데이터 프레임에서 데이터의 선택 : row, column, (row, column)

In [51]:
# row 선택
datas = [
    {"name":"dss", "email":"miyoung@gmail.com"},
    {"name":"fc", "email":"miyoung@gmail.com"}
]
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,miyoung@gmail.com
1,fc,miyoung@gmail.com


In [52]:
df.loc[1] # row 선택 시리즈임. 그

name                    fc
email    miyoung@gmail.com
Name: 1, dtype: object

In [53]:
df.loc[1]["email"] # location의 약자

'miyoung@gmail.com'

In [54]:
# index가 있으면 수정, 없으면 추가
df.loc[2] = {
    "name":"andy", 
     "email":"andy@naver.com"
}
df

Unnamed: 0,name,email
0,dss,miyoung@gmail.com
1,fc,miyoung@gmail.com
2,andy,andy@naver.com


In [55]:
# column 선택

In [56]:
df["name"]

0     dss
1      fc
2    andy
Name: name, dtype: object

In [61]:
df["id"] = range(1, 4) # np.arange(1, 4)
df

Unnamed: 0,name,email,id
0,dss,miyoung@gmail.com,1
1,fc,miyoung@gmail.com,2
2,andy,andy@naver.com,3


In [62]:
df.dtypes

name     object
email    object
id        int64
dtype: object

In [None]:
# row, column 선택

In [65]:
df.loc[[0, 2], ["email", "id"]]

Unnamed: 0,email,id
0,miyoung@gmail.com,1
2,andy@naver.com,3


In [66]:
# 컬럼데이터 순서 설정

In [67]:
df[["id", "name", "email"]]

Unnamed: 0,id,name,email
0,1,dss,miyoung@gmail.com
1,2,fc,miyoung@gmail.com
2,3,andy,andy@naver.com


In [69]:
# head, tail 

In [71]:
df.head()

Unnamed: 0,name,email,id
0,dss,miyoung@gmail.com,1
1,fc,miyoung@gmail.com,2
2,andy,andy@naver.com,3


In [72]:
df.tail()

Unnamed: 0,name,email,id
0,dss,miyoung@gmail.com,1
1,fc,miyoung@gmail.com,2
2,andy,andy@naver.com,3


### 3. apply 함수
- map 함수와 비슷

In [73]:
df

Unnamed: 0,name,email,id
0,dss,miyoung@gmail.com,1
1,fc,miyoung@gmail.com,2
2,andy,andy@naver.com,3


In [77]:
"asdf@naver.com".split("@")[1].split(".")[0]

'naver'

In [78]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 컬럼을 생성
def domain(email):
    return email.split("@")[1].split(".")[0]

In [79]:
domain(df.loc[0]["email"])

'gmail'

In [81]:
# series 객체 안에 apply라는 함수가 있는 것. 
df["domain"] = df["email"].apply(domain)

In [82]:
df

Unnamed: 0,name,email,id,domain
0,dss,miyoung@gmail.com,1,gmail
1,fc,miyoung@gmail.com,2,gmail
2,andy,andy@naver.com,3,naver


In [83]:
# 당연하지만 lambda로 써도 된다. 이게 더 좋겠지. 
df["email"].apply(lambda email : email.split("@")[1].split(".")[0])

0    gmail
1    gmail
2    naver
Name: email, dtype: object

In [85]:
from makedata import *

In [95]:
get_name(), get_age(), make_data()

('Anchal',
 24,
 [{'Age': 38, 'Name': 'Jin'},
  {'Age': 28, 'Name': 'Alvin'},
  {'Age': 32, 'Name': 'Arnold'},
  {'Age': 27, 'Name': 'Alex'},
  {'Age': 26, 'Name': 'Billy'},
  {'Age': 31, 'Name': 'Anthony'},
  {'Age': 20, 'Name': 'Arnold'},
  {'Age': 22, 'Name': 'Jin'},
  {'Age': 33, 'Name': 'Jin'},
  {'Age': 34, 'Name': 'Anchal'}])

<function makedata.get_age(start=20, end=40)>

In [100]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
df2

Unnamed: 0,Age,Name
0,25,Adam
1,33,Alan
2,35,Anchal
3,39,Arnold
4,40,Arnold


### 4. append

In [105]:
df3 = df1.append(df2)
df3

Unnamed: 0,Age,Name
0,27,Jin
1,33,Billy
2,21,Arnold
3,21,Alvin
4,30,Anchal
0,25,Adam
1,33,Alan
2,35,Anchal
3,39,Arnold
4,40,Arnold


In [119]:
df4 = df1.append(df2, ignore_index=True)
df4

Unnamed: 0,Age,Name
0,27,Jin
1,33,Billy
2,21,Arnold
3,21,Alvin
4,30,Anchal
5,25,Adam
6,33,Alan
7,35,Anchal
8,39,Arnold
9,40,Arnold


In [106]:
df3[2:7]

Unnamed: 0,Age,Name
2,21,Arnold
3,21,Alvin
4,30,Anchal
0,25,Adam
1,33,Alan


In [115]:
# index 재 정렬
# 아무 인자도 안넣으면, 생성된 인덱스 없애려면, drop=True 해야 함
df3.reset_index(drop=True, inplace = True)
df3

Unnamed: 0,Age,Name
0,27,Jin
1,33,Billy
2,21,Arnold
3,21,Alvin
4,30,Anchal
5,25,Adam
6,33,Alan
7,35,Anchal
8,39,Arnold
9,40,Arnold


### concat
- row나 column으로 데이터프레임을 합칠 때 사용

In [131]:
df1

Unnamed: 0,Age,Name
0,27,Jin
1,33,Billy
2,21,Arnold
3,21,Alvin
4,30,Anchal


In [130]:
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3

Unnamed: 0,Age,Name
0,27,Jin
1,33,Billy
2,21,Arnold
3,21,Alvin
4,30,Anchal
5,25,Adam
6,33,Alan
7,35,Anchal
8,39,Arnold
9,40,Arnold


In [134]:
# outer join이 default, outer join은 합집합을 의미함. 
pd.concat([df3, df1], axis = 1, join='outer') 

Unnamed: 0,Age,Name,Age.1,Name.1
0,27,Jin,27.0,Jin
1,33,Billy,33.0,Billy
2,21,Arnold,21.0,Arnold
3,21,Alvin,21.0,Alvin
4,30,Anchal,30.0,Anchal
5,25,Adam,,
6,33,Alan,,
7,35,Anchal,,
8,39,Arnold,,
9,40,Arnold,,


In [135]:
# 기준은 index
pd.concat([df3, df1], axis = 1, join='inner') 

Unnamed: 0,Age,Name,Age.1,Name.1
0,27,Jin,27,Jin
1,33,Billy,33,Billy
2,21,Arnold,21,Arnold
3,21,Alvin,21,Alvin
4,30,Anchal,30,Anchal


### 6. Group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [136]:
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,28,Alvin
1,35,Anthony
2,32,Adam
3,33,Jin
4,23,Anthony
5,21,Anthony
6,36,Anthony
7,33,Adam
8,28,Alan
9,27,Alvin


In [154]:
# size
df.groupby('Name').size()
# 근데 지금은 np.array로 되있음.

Name
Adam       2
Alan       1
Alvin      2
Anthony    4
Jin        1
dtype: int64

In [156]:
result = df.groupby('Name').size().reset_index(name = "count")
result

Unnamed: 0,Name,count
0,Adam,2
1,Alan,1
2,Alvin,2
3,Anthony,4
4,Jin,1


In [None]:
# sort_values : 설정한 컬럼으로 데이터 프레임을 정렬

In [157]:
result.sort_values(["count"])

Unnamed: 0,Name,count
1,Alan,1
4,Jin,1
0,Adam,2
2,Alvin,2
3,Anthony,4


In [158]:
result.sort_values(["count"], ascending=False)

Unnamed: 0,Name,count
3,Anthony,4
0,Adam,2
2,Alvin,2
1,Alan,1
4,Jin,1


In [159]:
result.sort_values(["count"], ascending=False).reset_index(drop=True)

Unnamed: 0,Name,count
0,Anthony,4
1,Adam,2
2,Alvin,2
3,Alan,1
4,Jin,1


In [160]:
# agg()를 쓰면 DF로 결과가 나옴
# size(), min(), max(), mean()

In [164]:
df.groupby("Name").agg("min")

Unnamed: 0_level_0,Age
Name,Unnamed: 1_level_1
Adam,32
Alan,28
Alvin,27
Anthony,21
Jin,33


In [163]:
df.groupby("Name").agg("min").reset_index()

Unnamed: 0,Name,Age
0,Adam,32
1,Alan,28
2,Alvin,27
3,Anthony,21
4,Jin,33


In [165]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,29.6
std,5.037636
min,21.0
25%,27.25
50%,30.0
75%,33.0
max,36.0


### 7. Merge
- SQL에서의 join과 같음
- 두개 이상의 데이터프레임을 합쳐서 결과를 출력하는 방법
- 이름과 주소가 있는 df가 있고, 이름과 인구가 나와있는 df가 있으면, 합칠 때 기준을 name으로 잡고 가는 그런 것. 