# pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 pandas의 특징
    - R보다 pandas가 학습이 쉽다.
    - R보다 Pandas가 성능이 좋다.
    - R보다 Python은 활용할수 있는 분야가 많다. 
- 크게 두가지 데이터 타입을 사용
    - Series : index 와 value로 이루어진 데이터 타입
    - DAtaFrame : index, column, value로 이루어진 데이터 타입

In [None]:
# Series
- 동일한 데이터 타입의 값을 갖는다.

In [9]:
# Series : value 만 설정하면 index는 0부터 자동으로 설정 됩니다. 

#import numpy as np
#import pandas as pd

data = pd.Series(np.random.randint(10, size=5))
data

0    7
1    3
2    2
3    2
4    0
dtype: int64

In [11]:
# index 설정
data = pd.Series(np.random.randint(10, size=5), index=list("ABCDE"))
data

A    4
B    5
C    2
D    9
E    4
dtype: int64

In [12]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([4, 5, 2, 9, 4]))

In [14]:
data["B"], data.B

(5, 5)

In [15]:
data["C"] = 10
data

A     4
B     5
C    10
D     9
E     4
dtype: int64

In [16]:
# 브로드 캐스팅
data * 10

A     40
B     50
C    100
D     90
E     40
dtype: int64

In [19]:
data[["B", "E"]]

B    5
E    4
dtype: int64

In [23]:
# offset index
data[1::], data[2::2], data[::-1]

(B     5
 C    10
 D     9
 E     4
 dtype: int64,
 C    10
 E     4
 dtype: int64,
 E     4
 D     9
 C    10
 B     5
 A     4
 dtype: int64)

In [None]:
# Series 연산

In [24]:
data

A     4
B     5
C    10
D     9
E     4
dtype: int64

In [25]:
data2 = pd.Series({"D":3, "E":5, "F":7})
data2

D    3
E    5
F    7
dtype: int64

In [26]:
result = data + data2
result #None

A     NaN
B     NaN
C     NaN
D    12.0
E     9.0
F     NaN
dtype: float64

In [32]:
result[result.isnull()] = data
result

A     4.0
B     5.0
C    10.0
D    12.0
E     9.0
F     NaN
dtype: float64

In [34]:
result[result.isnull()] = data2
result

A     4.0
B     5.0
C    10.0
D    12.0
E     9.0
F     7.0
dtype: float64

In [None]:
# DataFrame
- 데이터 프레임은 여러개의 Series로 구성
- 같은 컬럼에 있는 value값은데이터 타입을 갖는다.

In [None]:
# 데이터 프레임 생성 1 : 딕셔너리의 리스트

In [5]:
datas = {
    "name":["dss", "fcamp"],
    "email":["dss@gamil.com", "fcamp@daum.net"],
}
datas

{'name': ['dss', 'fcamp'], 'email': ['dss@gamil.com', 'fcamp@daum.net']}

In [6]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gamil.com
1,fcamp,fcamp@daum.net


In [7]:
# 데이터 프레임 생성 2 : 리스트의 딕셔너리

In [8]:
datas = [
    {"name":"dss", "email":"dss@gamil.com"},
    {"name":"fcamp", "email":"fcamp@daum.net"}
]
datas

[{'name': 'dss', 'email': 'dss@gamil.com'},
 {'name': 'fcamp', 'email': 'fcamp@daum.net'}]

In [9]:
# 인덱스를 추가하는 방법
df = pd.DataFrame(datas, index=["one", "two"])
df

Unnamed: 0,name,email
one,dss,dss@gamil.com
two,fcamp,fcamp@daum.net


In [10]:
df.index


Index(['one', 'two'], dtype='object')

In [11]:
df.columns

Index(['name', 'email'], dtype='object')

In [12]:
df.values

array([['dss', 'dss@gamil.com'],
       ['fcamp', 'fcamp@daum.net']], dtype=object)

In [13]:
# 데이터 프레임에서 데이터의 선택 : row, colunm, (row, column)

In [14]:
# row 선택 : loc

df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gamil.com
1,fcamp,fcamp@daum.net


In [15]:
df.loc[1]["email"]

'fcamp@daum.net'

In [16]:
# index가 있으면 수정, 없으면 추가

df.loc[2] = {"name":"andy", "email":"andy@naver.com"}
df

Unnamed: 0,name,email
0,dss,dss@gamil.com
1,fcamp,fcamp@daum.net
2,andy,andy@naver.com


In [17]:
# column 선택

In [18]:
df

Unnamed: 0,name,email
0,dss,dss@gamil.com
1,fcamp,fcamp@daum.net
2,andy,andy@naver.com


In [19]:
df["name"]

0      dss
1    fcamp
2     andy
Name: name, dtype: object

In [20]:
df["id"] = ""
df

Unnamed: 0,name,email,id
0,dss,dss@gamil.com,
1,fcamp,fcamp@daum.net,
2,andy,andy@naver.com,


In [21]:
df["id"] = range(1, 4) #np.arange(1, 4)
df

Unnamed: 0,name,email,id
0,dss,dss@gamil.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [22]:
df.dtypes

name     object
email    object
id        int64
dtype: object

In [23]:
# row, column 선택

In [24]:
df.loc[[0, 2], ["email", "id"]]

Unnamed: 0,email,id
0,dss@gamil.com,1
2,andy@naver.com,3


In [25]:
# 컬럼 데이터 순서 설정

In [26]:
df[["id", "name", "email"]]

Unnamed: 0,id,name,email
0,1,dss,dss@gamil.com
1,2,fcamp,fcamp@daum.net
2,3,andy,andy@naver.com


In [27]:
# head, tail : 위나 밑에서 부터 확인

In [28]:
df.head(2)

Unnamed: 0,name,email,id
0,dss,dss@gamil.com,1
1,fcamp,fcamp@daum.net,2


In [29]:
df.tail(2)

Unnamed: 0,name,email,id
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [30]:
# apply 함수
- map 함수와 비슷 

SyntaxError: invalid syntax (<ipython-input-30-f8bb24c759b6>, line 2)

In [31]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 컬럼을 생성
df

Unnamed: 0,name,email,id
0,dss,dss@gamil.com,1
1,fcamp,fcamp@daum.net,2
2,andy,andy@naver.com,3


In [32]:
def domain(email):
    return email.split("@")[1].split(".")[0]

domain(df.loc[0]["email"])

'gamil'

In [33]:
df["domain"] = df["email"].apply(domain)
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gamil.com,1,gamil
1,fcamp,fcamp@daum.net,2,daum
2,andy,andy@naver.com,3,naver


In [34]:
df["domain"] = df["email"].apply(lambda email:email.split("@")[1].split(".")[0])
df

Unnamed: 0,name,email,id,domain
0,dss,dss@gamil.com,1,gamil
1,fcamp,fcamp@daum.net,2,daum
2,andy,andy@naver.com,3,naver


In [37]:
from makedata import *

In [38]:
get_name()

'Alvin'

In [64]:
get_age()

23

In [67]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
df

Unnamed: 0,Age,Name
0,31,Alex
1,24,Jin
2,39,Alex
3,21,Billy
4,24,Alan


In [69]:
# append 데이터 프레임 합치기
df3 = df1.append(df2)
df3[2:7]

Unnamed: 0,Age,Name
2,29,Alan
3,40,Andrew
4,40,Anchal
0,40,Jin
1,21,Jin


In [77]:
# reset_index 인덱스 재정렬
df3.reset_index(drop=True, inplace=True)
df3.tail(2)

Unnamed: 0,Age,Name
8,28,Alan
9,25,Anchal


In [80]:
df3 = df1.append(df2, ignore_index=True)
df3.tail(2)

Unnamed: 0,Age,Name
8,28,Alan
9,25,Anchal


In [None]:
# concat
- row나 colum으로 데이터 프레임을 합칠때 사용

In [85]:
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3.tail(2)

Unnamed: 0,Age,Name
8,28,Alan
9,25,Anchal


In [87]:
pd.concat([df3, df1], axis=1, join="inner")

Unnamed: 0,Age,Name,Age.1,Name.1
0,22,Adam,22,Adam
1,21,Arnold,21,Arnold
2,29,Alan,29,Alan
3,40,Andrew,40,Andrew
4,40,Anchal,40,Anchal


In [None]:
# group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [88]:
df = pd.DataFrame(make_data())
df

Unnamed: 0,Age,Name
0,31,Arnold
1,31,Anthony
2,22,Alex
3,37,Alvin
4,21,Anchal
5,33,Alan
6,30,Alan
7,32,Andrew
8,33,Anchal
9,33,Adam


In [93]:
# size
result_df = df.groupby("Name").size().reset_index(name="count")
result_df

Unnamed: 0,Name,count
0,Adam,1
1,Alan,2
2,Alex,1
3,Alvin,1
4,Anchal,2
5,Andrew,1
6,Anthony,1
7,Arnold,1


In [None]:
# sort_values : 설정한 컬럼으로 데이터 프레임을 정렬

In [96]:
result_df.sort_values(["count"], ascending=False, inplace=True)
result_df.reset_index(drop=True, inplace=True)
result_df

Unnamed: 0,Name,count
0,Alan,2
1,Anchal,2
2,Adam,1
3,Alex,1
4,Alvin,1
5,Andrew,1
6,Anthony,1
7,Arnold,1


In [None]:
# agg
# size(), min(), max(), mean()

In [99]:
df.groupby("Name").agg("min").reset_index()

Unnamed: 0,Name,Age
0,Adam,33
1,Alan,30
2,Alex,22
3,Alvin,37
4,Anchal,21
5,Andrew,32
6,Anthony,31
7,Arnold,31


In [100]:
# 데이터를 요약해서 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,30.3
std,5.012207
min,21.0
25%,30.25
50%,31.5
75%,33.0
max,37.0


In [None]:
# Merge = sql(join)
- 두개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법