In [None]:
### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 Pandas의 특징
    - R보다 Pandas가 학습이 쉽다.
    - R보다 Pandas가 성능이 좋다.
    - R보다 Python은 활용할 수 있는 분야가 많다.
- 크게 두 가지 데이터 타입을 사용합니다.
    - Series : index와 value로 이루어진 데이터 타입
    - DataFrame : index, column, value로 이루어진 데이터 타입

In [None]:
### 1. Series
- 동일한 데이터 타입의 값을 갖는다.


In [1]:
import numpy as np
import pandas as pd

In [2]:
# Series : value만 설정하면 index는 0부터 자동으로 설정됩니다.
data = pd.Series(np.random.randint(10, size=5))
data

0    6
1    8
2    8
3    2
4    1
dtype: int32

In [5]:
# index 설정
data = pd.Series(np.random.randint(10, size=5),
                index = list("ABCDE"))
data

A    5
B    9
C    3
D    2
E    6
dtype: int32

In [6]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([5, 9, 3, 2, 6]))

In [8]:
data["B"], data.B

(9, 9)

In [9]:
# 브로드 캐스팅
data * 10

A    50
B    90
C    30
D    20
E    60
dtype: int32

In [10]:
data[["B", "E"]]

B    9
E    6
dtype: int32

In [13]:
# offset index
data[2::2]

C    3
E    6
dtype: int32

- series 연산

In [14]:
data

A    5
B    9
C    3
D    2
E    6
dtype: int32

In [17]:
data2 = pd.Series({"D":3, "E":5, "F":7})
data2

D    3
E    5
F    7
dtype: int64

In [19]:
result = data + data2
result # None

A     NaN
B     NaN
C     NaN
D     5.0
E    11.0
F     NaN
dtype: float64

In [23]:
result[result.isnull()] = data
result

A     5.0
B     9.0
C     3.0
D     5.0
E    11.0
F     NaN
dtype: float64

In [26]:
result[result.isnull()] = data2
result

A     5.0
B     9.0
C     3.0
D     5.0
E    11.0
F     7.0
dtype: float64

### 2. DataFrame
- 데이터 프레임은 Series로 구성
- 같은 컬럼에 있는 value값은 같은 데이터 타입을 갖는다.


In [None]:
# 데이터 프레임 생성 1 : 딕셔너리의 리스트

In [27]:
datas = {
    "name":["dss", "fcmp"],
    "email":["dss@gmail.com", "fcmp@naver.com"],
}
datas

{'name': ['dss', 'fcmp'], 'email': ['dss@gmail.com', 'fcmp@naver.com']}

In [29]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcmp,fcmp@naver.com


In [None]:
# 데이터 프레임 생성 2 : 리스트의 딕셔너리

In [31]:
datas = [
    {"name":"dss", "email":"dss@gmail.com"},
    {"name":"fcmp", "email":"fcmp@naver.com"},
        ]
datas

[{'name': 'dss', 'email': 'dss@gmail.com'},
 {'name': 'fcmp', 'email': 'fcmp@naver.com'}]

In [32]:
df = pd.DataFrame(datas)
df

Unnamed: 0,email,name
0,dss@gmail.com,dss
1,fcmp@naver.com,fcmp


In [33]:
# 인덱스를 추가하는 방법

df = pd.DataFrame(datas, index=["one", "two"])
df

Unnamed: 0,email,name
one,dss@gmail.com,dss
two,fcmp@naver.com,fcmp


In [34]:
df.index, df.columns, df.values

(Index(['one', 'two'], dtype='object'),
 Index(['email', 'name'], dtype='object'),
 array([['dss@gmail.com', 'dss'],
        ['fcmp@naver.com', 'fcmp']], dtype=object))

In [None]:
# 데이터 프레임에서 데이터의 선택 : row, column, (row,column)

In [36]:
datas = [
    {"name":"dss", "email":"dss@gmail.com"},
    {"name":"fcmp", "email":"fcmp@naver.com"},
        ]
df = pd.DataFrame(datas)
df

Unnamed: 0,email,name
0,dss@gmail.com,dss
1,fcmp@naver.com,fcmp


In [40]:
df.loc[1]

email    fcmp@naver.com
name               fcmp
Name: 1, dtype: object

In [41]:
# index가 있으면 수정, 없으면 추가
df.loc[2] = {"name":"teo", "email":"holateo2@gmail.com"}
df

Unnamed: 0,email,name
0,dss@gmail.com,dss
1,fcmp@naver.com,fcmp
2,holateo2@gmail.com,teo


In [None]:
# column 선택

In [42]:
df["name"]

0     dss
1    fcmp
2     teo
Name: name, dtype: object

In [43]:
df["id"] = ""
df

Unnamed: 0,email,name,id
0,dss@gmail.com,dss,
1,fcmp@naver.com,fcmp,
2,holateo2@gmail.com,teo,


In [45]:
df["id"] = range(1,4) # np.arange(1,4)
df

Unnamed: 0,email,name,id
0,dss@gmail.com,dss,1
1,fcmp@naver.com,fcmp,2
2,holateo2@gmail.com,teo,3


In [46]:
df.dtypes

email    object
name     object
id        int32
dtype: object

In [None]:
# row, column 선택

In [53]:
df.loc[[0,2],["email", "id"]]

Unnamed: 0,email,id
0,dss@gmail.com,1
2,holateo2@gmail.com,3


In [54]:
df[["id", "name", "email"]]

Unnamed: 0,id,name,email
0,1,dss,dss@gmail.com
1,2,fcmp,fcmp@naver.com
2,3,teo,holateo2@gmail.com


In [57]:
df.tail(2)

Unnamed: 0,email,name,id
1,fcmp@naver.com,fcmp,2
2,holateo2@gmail.com,teo,3


### 3. apply 함수
- map 함수와 비슷

In [58]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 컬럼을 생성하고 싶을때
df

Unnamed: 0,email,name,id
0,dss@gmail.com,dss,1
1,fcmp@naver.com,fcmp,2
2,holateo2@gmail.com,teo,3


In [62]:
def domain(email):
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

'gmail'

In [63]:
df["domain"] = df["email"].apply(domain)
df

Unnamed: 0,email,name,id,domain
0,dss@gmail.com,dss,1,gmail
1,fcmp@naver.com,fcmp,2,naver
2,holateo2@gmail.com,teo,3,gmail


In [65]:
df["domain"] = df["email"].apply(lambda email: email.split("@")[1].split(".")[0])
df

Unnamed: 0,email,name,id,domain
0,dss@gmail.com,dss,1,gmail
1,fcmp@naver.com,fcmp,2,naver
2,holateo2@gmail.com,teo,3,gmail


In [66]:
from makedata import *

In [77]:
get_name()

'Jin'

In [83]:
get_age()

20

In [100]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
print(df1)

   Age    Name
0   28  Arnold
1   23  Anchal
2   24   Alvin
3   38    Alan
4   32  Andrew


In [102]:
print(df2)

   Age   Name
0   40   Alan
1   37   Alex
2   28   Adam
3   40  Alvin
4   28   Alex


### 4. append 함수

In [None]:
# append 데이터 프레임 합치기

In [115]:
df3 = df1.append(df2, ignore_index=True)
df3

Unnamed: 0,Age,Name
0,28,Arnold
1,23,Anchal
2,24,Alvin
3,38,Alan
4,32,Andrew
5,40,Alan
6,37,Alex
7,28,Adam
8,40,Alvin
9,28,Alex


In [113]:
# reset_index 인덱스 재정렬
df3.reset_index(drop=True, inplace = True)
df3.tail(5)

Unnamed: 0,Age,Name
5,40,Alan
6,37,Alex
7,28,Adam
8,40,Alvin
9,28,Alex


### 5. concat
- row나 column으로 데이터 프레임을 합칠 때 사용

In [117]:
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3.tail(3)

Unnamed: 0,Age,Name
7,28,Adam
8,40,Alvin
9,28,Alex


In [120]:
# axis =1 일때 오른쪽으로 합쳐진다.
# join-"inner" 는 교집합
pd.concat([df1, df3], axis = 1, join="inner")

Unnamed: 0,Age,Name,Age.1,Name.1
0,28,Arnold,28,Arnold
1,23,Anchal,23,Anchal
2,24,Alvin,24,Alvin
3,38,Alan,38,Alan
4,32,Andrew,32,Andrew


### 6. group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [125]:
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,25,Alex
1,34,Anchal
2,25,Anchal
3,20,Anchal
4,37,Andrew
5,21,Billy
6,31,Jin
7,39,Alex
8,38,Adam
9,25,Jin


In [130]:
# size
result_df = df.groupby("Name").size().reset_index(name="Count")
result_df

Unnamed: 0,Name,Count
0,Adam,1
1,Alex,2
2,Anchal,3
3,Andrew,1
4,Billy,1
5,Jin,2


In [None]:
# sort_values : 설정한 컬럼으로 데이터 프레임을 정렬

In [135]:
result_df.sort_values(["Count", "Name"], ascending=False, inplace=True)
result_df.reset_index(drop=True, inplace=True)
result_df

Unnamed: 0,Name,Count
0,Anchal,3
1,Jin,2
2,Alex,2
3,Billy,1
4,Andrew,1
5,Adam,1


In [None]:
# agg()
# size(), min(), max(), mean()

In [136]:
df.groupby("Name").agg("min").reset_index()

Unnamed: 0,Name,Age
0,Adam,38
1,Alex,25
2,Anchal,20
3,Andrew,37
4,Billy,21
5,Jin,25


In [137]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,29.5
std,7.184087
min,20.0
25%,25.0
50%,28.0
75%,36.25
max,39.0


### 7. Merge = sql(join)
- 두 개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법