### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 Pandas의 특징
    - R보다 Pandas가 학습이 쉽습니다.
    - R보다 Pandas가 성능이 좋습니다.
    - R보다 Python은 활용할수 있는 분야가 많습니다.
- 크게 두가지 데이터 타입을 사용합니다.
    - Series: index와 value로 이루어진 데이터 타입
    - DataFrame: index, colum, value로 이루어진 데이터 타입

### Summary
- 데이터 프레임 선언 변수 DataFrame 이하 df
- 데이터 타입
    - Series: index, value
        - ex)
            - `data.index, data.values`
            - 같은 의미: `data["B"], data.B`
            - `data = pd.Series(np.random.randint(10, size=5), index = list("ABCDE"))`
            - offset 가능 `data[2::2]`
            - null 값 찾기 `result[result.isnull()] = data`
    - DataFrame: index, column, value
        - 생성방법 1: 딕셔너리의 리스트
        
        ```
        datas = {
            "name":["dss", "fcamp"],
            "email":["dss@gmail.com", "fcamp@daum.net"],
        }
        ```
        - 생성방법 2: 리스트의 딕셔너리
        
        ```
        datas = [
            {"name":"dss", "email":"dss@gmail.com"},
            {"name":"fcamp", "email":"fcamp@daum.net"},
        ]
        ```
        - ex)
            - `df = pd.DataFrame(datas)`
            - 행찾기 `df.loc[0]`
            - 열찾기 `df['column']`
            - 행열 찾기 `df.loc[[row], ['column']]`
            - 컬럼 순서 설정 `df.[['c2', 'c3', 'c1']]` --> 리스트 형태로 
            - head, tail `df.head(2)`
- 다양한 함수
    - map과 비슷 : apply()
        - ex) `df["domain"] = df["email"].apply(lambda email: email.split('@')[1].split('.')[0])`
        - domain이라는 열에 email열의 데이터를 함수로 가공하여 추가
- 합치기
    - df1.append(df2)
    - concat()
        - 의미: row나 column으로 데이터를 합칠때
        - ex) `pd.concat([df3,df1], axis=1, join='inner')`
        - df3 + df1
        - axis = 1: 행의 숫자를 기준으로, 0: 열의 숫자를 기준으로
        - join = 'inner' of 'outer'
    - groupby()
        - 의미: 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법
        - ex) `result_df = df.groupby("Name").size().reset_index(name="count")`
        - size(): Name의 열에 중복된 것이 얼마나 있는지 계산하여 표출
        - reset_index(): 열의 이름을 count로 해서 size() 결과 추가
        - ex) `df.groupby("Name").agg("min").reset_index()`
        - size() 자리에 agg()를 사용하여 해당 함수들 사용가능
            - size(), max(), min(), mean()--> 평균
- 정렬
    - 인덱스 재정렬 1: reset_index(drop=True, inplace=True)
        - 의미: 데이터를 합치고 나면 index가 꼬임 그것을 다시 부여
        - ex) `df.reset_index(drop = True, inplace = True)`
        - drop: 세팅의 사용한 열을 삭제할 것인지 혹은 유지할것인지
        - inplace: 변경한것을 저장할 것인지 여부(False -> print만하고 끝)
    - 인덱스 재정렬 2: `df3= df1.append(df2, ignore_index=True)`
        - reset_index와 동일한 기능
    - 데이터 재정렬: df.sort_values(["Age"], ascending = False, inplace = True)
        - 원하는 열 지정, 여러개 지정 가능
        - ascending(오름차순)
        - inplace(제자리의)
- 요약 `df.describe()`

### 1. Series
- 동일한 데이터 타입

In [26]:
# value만 설정하면 index는 0부터 자동으로 설정 됩니다.
data = pd.Series(np.random.randint(10, size=5)) # 0~ 9까지 수중 5개를 랜덤하게 뽑음
data

0    8
1    2
2    9
3    5
4    0
dtype: int32

In [9]:
# index 설정
data = pd.Series(np.random.randint(10, size=5), 
                 index = list("ABCDE"))
data

A    1
B    1
C    8
D    0
E    2
dtype: int32

In [10]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([1, 1, 8, 0, 2]))

In [11]:
data["B"], data.B

(1, 1)

In [12]:
data["C"] = 10
data

A     1
B     1
C    10
D     0
E     2
dtype: int32

In [13]:
# 브로드 캐스팅
data * 10

A     10
B     10
C    100
D      0
E     20
dtype: int32

In [14]:
# 지정해서 여러개 출력
data[["B","E"]]

B    1
E    2
dtype: int32

In [15]:
# offset index
data[2::2]

C    10
E     2
dtype: int32

In [16]:
data[::-1]

E     2
D     0
C    10
B     1
A     1
dtype: int32

###  Series 연산

In [27]:
data2 = pd.Series({"D":3, "E":5, "F":7})
data2

D    3
E    5
F    7
dtype: int64

In [19]:
# 데이터가 없는것은 non으로 표시 --> 같은 index끼리 연산
result = data + data2
result

A    NaN
B    NaN
C    NaN
D    3.0
E    7.0
F    NaN
dtype: float64

In [24]:
# non 값만 data 값 집어 넣어줌
result[result.isnull()] = data
result

A     1.0
B     1.0
C    10.0
D     3.0
E     7.0
F     NaN
dtype: float64

In [26]:
result[result.isnull()] = data2
result

A     1.0
B     1.0
C    10.0
D     3.0
E     7.0
F     7.0
dtype: float64

### 2. DataFrame
- 데이터 프레임은 여러개의 Series로 구성
- 같은 컬럼에 있는 value값은 같은 데이터 타입을 갖습니다.

In [1]:
datas = {
    'name': ['dss','fcamp'],
    'email': ['dss@gamil.com','fcamp@gamil.com']
}

In [2]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gamil.com
1,fcamp,fcamp@gamil.com


In [4]:
df.loc[[0], ['name']]

Unnamed: 0,name
0,dss


### 3. apply()
- map 함수와 비슷

In [7]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 컬럼을 생성
df.loc[2] = {"name":"andy", "email":"andy@naver.com"}
df.loc[[1],['email']] = 'fcamp@daum.net'
df

Unnamed: 0,name,email
0,dss,dss@gamil.com
1,fcamp,fcamp@daum.net
2,andy,andy@naver.com


In [8]:
df["domain"] = df["email"].apply(lambda email: email.split('@')[1].split('.')[0])
df

Unnamed: 0,name,email,domain
0,dss,dss@gamil.com,gamil
1,fcamp,fcamp@daum.net,daum
2,andy,andy@naver.com,naver


In [9]:
from makedata import *

In [10]:
get_name()

'Alex'

In [12]:
get_age()

38

In [15]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))
df1

Unnamed: 0,Age,Name
0,37,Arnold
1,27,Arnold
2,34,Anchal
3,23,Arnold
4,30,Billy


### 4. append 

In [17]:
# 데이터 프레임 합치기 : append (DF)
df3 = df1.append(df2)
df3

Unnamed: 0,Age,Name
0,37,Arnold
1,27,Arnold
2,34,Anchal
3,23,Arnold
4,30,Billy
0,24,Alex
1,27,Jin
2,22,Alex
3,30,Jin
4,40,Andrew


In [28]:
# 인덱스 재정렬 : reset_index(drop=True, inplace=True)
# drop: 세팅의 사용한 열을 삭제할 것인지 혹은 유지할것인지
# inplace: 원본 데이터를 변경할 것인지 복사본을 반환할 것인지
df3.reset_index(drop=True, inplace=True)
df3

Unnamed: 0,Age,Name
0,37,Arnold
1,27,Arnold
2,34,Anchal
3,23,Arnold
4,30,Billy
5,24,Alex
6,27,Jin
7,22,Alex
8,30,Jin
9,40,Andrew


In [30]:
df3= df1.append(df2, ignore_index=True)
df3

Unnamed: 0,Age,Name
0,37,Arnold
1,27,Arnold
2,34,Anchal
3,23,Arnold
4,30,Billy
5,24,Alex
6,27,Jin
7,22,Alex
8,30,Jin
9,40,Andrew


### 5. concat
- row나 column으로 데이터 프레임 합칠때 사용

In [32]:
df1

Unnamed: 0,Age,Name
0,37,Arnold
1,27,Arnold
2,34,Anchal
3,23,Arnold
4,30,Billy


In [35]:
df3 = pd.concat([df3,df1], axis = 1) # axis =1 행의 숫자를 기준으로 합침
df3

Unnamed: 0,Age,Name,Age.1,Name.1,Age.2,Name.2
0,37,Arnold,37.0,Arnold,37.0,Arnold
1,27,Arnold,27.0,Arnold,27.0,Arnold
2,34,Anchal,34.0,Anchal,34.0,Anchal
3,23,Arnold,23.0,Arnold,23.0,Arnold
4,30,Billy,30.0,Billy,30.0,Billy
5,24,Alex,,,,
6,27,Jin,,,,
7,22,Alex,,,,
8,30,Jin,,,,
9,40,Andrew,,,,


In [38]:
pd.concat([df3,df1], axis=1, join='inner')

Unnamed: 0,Age,Name,Age.1,Name.1,Age.2,Name.2,Age.3,Name.3
0,37,Arnold,37.0,Arnold,37.0,Arnold,37,Arnold
1,27,Arnold,27.0,Arnold,27.0,Arnold,27,Arnold
2,34,Anchal,34.0,Anchal,34.0,Anchal,34,Anchal
3,23,Arnold,23.0,Arnold,23.0,Arnold,23,Arnold
4,30,Billy,30.0,Billy,30.0,Billy,30,Billy


### 6. group by
- 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법

In [51]:
df = pd.DataFrame(make_data())
df.sort_values(["Age"], ascending = False, inplace = True)
df

Unnamed: 0,Age,Name
0,40,Andrew
5,37,Alex
9,34,Anthony
1,32,Anthony
3,31,Alvin
2,30,Alan
8,25,Andrew
4,21,Jin
7,21,Adam
6,20,Jin


In [53]:
# size
result_df = df.groupby("Name").size().reset_index(name="count")
result_df

Unnamed: 0,Name,count
0,Adam,1
1,Alan,1
2,Alex,1
3,Alvin,1
4,Andrew,2
5,Anthony,2
6,Jin,2


In [43]:
# sort_values: 설정한 칼럼으로 데이터 프레임을 정렬

In [46]:
result_df.sort_values(["count","Name"], ascending = False, inplace = True)
result_df.reset_index(drop = True, inplace = True)
result_df

Unnamed: 0,Name,count
0,Anthony,3
1,Jin,1
2,Arnold,1
3,Andrew,1
4,Anchal,1
5,Alvin,1
6,Alan,1
7,Adam,1


In [None]:
# agg()
# size(), min(), max(), mean()

In [54]:
df.groupby("Name").agg("min").reset_index()

Unnamed: 0,Name,Age
0,Adam,21
1,Alan,30
2,Alex,37
3,Alvin,31
4,Andrew,25
5,Anthony,32
6,Jin,20


In [55]:
# 데이터 요약을 보여주는 함수
df.describe()

Unnamed: 0,Age
count,10.0
mean,29.1
std,7.06242
min,20.0
25%,22.0
50%,30.5
75%,33.5
max,40.0


### 7. Merge = sql(join)
- 두개 이상의 데이터 프레임을 합쳐서 결과를 출력하는 방법