### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 Pandas의 특징
    - R보다 Pandas가 학습이 쉽다.
    - R보다 Pandas가 성능이 좋다.
    - R보다 Python은 활용할 수 있는 분야가 많다.
- 크게 두 가지 데이터 타입을 사용합니다.
    - Series : index와 value로 이루어진 데이터 타입
    - DataFrame : index, column, value로 이루어진 데이터 타입

### 1. Series
- 동일한 데이터 타입의 값을 갖는다.


In [1]:
import numpy as np
import pandas as pd

In [5]:
# Series : value만 설정하면 index는 0부터 자동으로 설정됩니다.
data = pd.Series(np.random.randint(10, size=5))
data

0    9
1    6
2    4
3    7
4    6
dtype: int32

In [6]:
# index 설정
data = pd.Series(np.random.randint(10, size=5),
                index = list("ABCDE"))
data

A    0
B    3
C    2
D    4
E    7
dtype: int32

In [7]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([0, 3, 2, 4, 7]))

In [8]:
data["B"], data.B

(3, 3)

In [9]:
# 브로드 캐스팅
data * 10

A     0
B    30
C    20
D    40
E    70
dtype: int32

In [10]:
data[["B", "E"]]

B    3
E    7
dtype: int32

In [11]:
# offset index
data[2::2]

C    2
E    7
dtype: int32

- series 연산

In [12]:
data

A    0
B    3
C    2
D    4
E    7
dtype: int32

In [13]:
data2 = pd.Series({"D":3, "E":5, "F":7})
data2

D    3
E    5
F    7
dtype: int64

In [14]:
result = data + data2
result # None

A     NaN
B     NaN
C     NaN
D     7.0
E    12.0
F     NaN
dtype: float64

In [15]:
result[result.isnull()] = data
result

A     0.0
B     3.0
C     2.0
D     7.0
E    12.0
F     NaN
dtype: float64

In [16]:
result[result.isnull()] = data2
result

A     0.0
B     3.0
C     2.0
D     7.0
E    12.0
F     7.0
dtype: float64

### 2. DataFrame
- 데이터 프레임은 Series로 구성
- 같은 컬럼에 있는 value값은 같은 데이터 타입을 갖는다.


In [None]:
# 데이터 프레임 생성 1 : 딕셔너리의 리스트

In [27]:
datas = {
    "name":["dss", "fcmp"],
    "email":["dss@gmail.com", "fcmp@naver.com"],
}
datas

{'name': ['dss', 'fcmp'], 'email': ['dss@gmail.com', 'fcmp@naver.com']}

In [28]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcmp,fcmp@naver.com


In [29]:
# 데이터 프레임 생성 2 : 리스트의 딕셔너리

In [30]:
datas = [
    {"name":"dss", "email":"dss@gmail.com"},
    {"name":"fcmp", "email":"fcmp@naver.com"},
        ]
datas

[{'name': 'dss', 'email': 'dss@gmail.com'},
 {'name': 'fcmp', 'email': 'fcmp@naver.com'}]

In [31]:
df = pd.DataFrame(datas)
df

Unnamed: 0,email,name
0,dss@gmail.com,dss
1,fcmp@naver.com,fcmp


In [32]:
# 인덱스를 추가하는 방법

df = pd.DataFrame(datas, index=["one", "two"])
df

Unnamed: 0,email,name
one,dss@gmail.com,dss
two,fcmp@naver.com,fcmp


In [33]:
df.index, df.columns, df.values

(Index(['one', 'two'], dtype='object'),
 Index(['email', 'name'], dtype='object'),
 array([['dss@gmail.com', 'dss'],
        ['fcmp@naver.com', 'fcmp']], dtype=object))

In [34]:
# 데이터 프레임에서 데이터의 선택 : row, column, (row,column)

In [35]:
datas = [
    {"name":"dss", "email":"dss@gmail.com"},
    {"name":"fcmp", "email":"fcmp@naver.com"},
        ]
df = pd.DataFrame(datas)
df

Unnamed: 0,email,name
0,dss@gmail.com,dss
1,fcmp@naver.com,fcmp


In [36]:
# 인덱스 번호로 따라간다
df.loc[1]

email    fcmp@naver.com
name               fcmp
Name: 1, dtype: object

In [37]:
# index가 있으면 수정, 없으면 추가
df.loc[2] = {"name":"teo", "email":"holateo2@gmail.com"}
df

Unnamed: 0,email,name
0,dss@gmail.com,dss
1,fcmp@naver.com,fcmp
2,holateo2@gmail.com,teo


In [38]:
# column 선택

In [39]:
df["name"]

0     dss
1    fcmp
2     teo
Name: name, dtype: object

In [40]:
df["id"] = ""
df

Unnamed: 0,email,name,id
0,dss@gmail.com,dss,
1,fcmp@naver.com,fcmp,
2,holateo2@gmail.com,teo,


In [41]:
df["id"] = range(1,4) # np.arange(1,4)
df

Unnamed: 0,email,name,id
0,dss@gmail.com,dss,1
1,fcmp@naver.com,fcmp,2
2,holateo2@gmail.com,teo,3


In [42]:
df.dtypes

email    object
name     object
id        int32
dtype: object

In [43]:
# row, column 선택

In [44]:
df.loc[[0,2],["email", "id"]]

Unnamed: 0,email,id
0,dss@gmail.com,1
2,holateo2@gmail.com,3


In [45]:
df[["id", "name", "email"]]

Unnamed: 0,id,name,email
0,1,dss,dss@gmail.com
1,2,fcmp,fcmp@naver.com
2,3,teo,holateo2@gmail.com


In [46]:
df.tail(2)

Unnamed: 0,email,name,id
1,fcmp@naver.com,fcmp,2
2,holateo2@gmail.com,teo,3


### 3. apply 함수
- map 함수와 비슷

In [47]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 컬럼을 생성하고 싶을때
df

Unnamed: 0,email,name,id
0,dss@gmail.com,dss,1
1,fcmp@naver.com,fcmp,2
2,holateo2@gmail.com,teo,3


In [48]:
def domain(email):
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

'gmail'

In [49]:
# apply에 어떤 함수를 사용할 것 인지 대입
df["domain"] = df["email"].apply(domain)
df

Unnamed: 0,email,name,id,domain
0,dss@gmail.com,dss,1,gmail
1,fcmp@naver.com,fcmp,2,naver
2,holateo2@gmail.com,teo,3,gmail


In [50]:
# lambda 함수로 가능
df["domain"] = df["email"].apply(lambda email: email.split("@")[1].split(".")[0])
df

Unnamed: 0,email,name,id,domain
0,dss@gmail.com,dss,1,gmail
1,fcmp@naver.com,fcmp,2,naver
2,holateo2@gmail.com,teo,3,gmail


In [51]:
from makedata import *

In [54]:
get_name()

'Arnold'

In [55]:
get_age()

28

In [56]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
print(df1)

   Age    Name
0   28  Anchal
1   28  Arnold
2   31  Arnold
3   20     Jin
4   37    Adam


In [57]:
print(df2)

   Age   Name
0   32  Alvin
1   24   Adam
2   38    Jin
3   25  Alvin
4   40   Alex


### 4. append 함수

In [68]:
# append 데이터 프레임 합치기
df3 = df1.append(df2, ignore_index=False)
df3

Unnamed: 0,Age,Name
0,28,Anchal
1,28,Arnold
2,31,Arnold
3,20,Jin
4,37,Adam
0,32,Alvin
1,24,Adam
2,38,Jin
3,25,Alvin
4,40,Alex


In [71]:
# reset_index 인덱스 재정렬
df3.reset_index(drop=True, inplace = True)
df3

Unnamed: 0,Age,Name
0,28,Anchal
1,28,Arnold
2,31,Arnold
3,20,Jin
4,37,Adam
5,32,Alvin
6,24,Adam
7,38,Jin
8,25,Alvin
9,40,Alex


### 5. concat
- row나 column으로 데이터 프레임을 합칠 때 사용

In [72]:
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3.tail(3)

Unnamed: 0,Age,Name
7,38,Jin
8,25,Alvin
9,40,Alex


In [78]:
# axis =1 일때 오른쪽으로 합쳐진다.
# axis =0 일때 아래로 합쳐진다.
# join-"inner" 는 교집합, "outer"는 합집합
pd.concat([df1, df3], axis = 1, join="outer")

Unnamed: 0,Age,Name,Age.1,Name.1
0,28.0,Anchal,28,Anchal
1,28.0,Arnold,28,Arnold
2,31.0,Arnold,31,Arnold
3,20.0,Jin,20,Jin
4,37.0,Adam,37,Adam
5,,,32,Alvin
6,,,24,Adam
7,,,38,Jin
8,,,25,Alvin
9,,,40,Alex


### 6. group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [76]:
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,38,Andrew
1,20,Alan
2,34,Arnold
3,35,Billy
4,29,Alan
5,28,Alan
6,30,Alvin
7,33,Andrew
8,38,Anchal
9,40,Anthony


In [79]:
# size : 갯수 count해준다
result_df = df.groupby("Name").size().reset_index(name="Count")
result_df

Unnamed: 0,Name,Count
0,Alan,3
1,Alvin,1
2,Anchal,1
3,Andrew,2
4,Anthony,1
5,Arnold,1
6,Billy,1


### sort_values : 설정한 컬럼으로 데이터 프레임을 정렬

In [80]:
result_df.sort_values(["Count", "Name"], ascending=False, inplace=True)
result_df.reset_index(drop=True, inplace=True)
result_df

Unnamed: 0,Name,Count
0,Alan,3
1,Andrew,2
2,Billy,1
3,Arnold,1
4,Anthony,1
5,Anchal,1
6,Alvin,1


### agg()
### size(), min(), max(), mean()

In [136]:
df.groupby("Name").agg("min").reset_index()

Unnamed: 0,Name,Age
0,Adam,38
1,Alex,25
2,Anchal,20
3,Andrew,37
4,Billy,21
5,Jin,25


In [137]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,29.5
std,7.184087
min,20.0
25%,25.0
50%,28.0
75%,36.25
max,39.0


### 7. Merge = sql(join)
- 두 개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법