## Pandas
- https://pandas.pydata.org/
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 Python 라이브러리
- Series
    - index, value로 이루어진 데이터
- DataFrame
    - index, column, value로 이루어진 데이터 
    - column 데이터를 수정할 때 series를 이용하면 된다.
    
- install package
    - pip3 install pandas

In [2]:
import numpy as np
import pandas as pd

### Series
- 열벡터
- index와 value로 되어 있는 데이터 형태

index는 0에서 1씩 증가하는 index가 자동으로 들어간다
value에는 한가지 데이터 타입만 사용할 수 있다.

In [4]:
# 0에서 9까지의 숫자를 랜덤하게 5개 발생시켜 Series를 만듦
data = pd.Series(np.random.randint(10, size = 5))
data

0    2
1    8
2    3
3    1
4    8
dtype: int64

##### series를 만들 때 index를 키워드 파라미터로 리스트 데이터를 넘기면 인덱스를 설정할 수 있다

In [6]:
data = pd.Series(np.random.randint(10, size = 5), index = ['A','B','C','D','E'])
data

A    8
B    1
C    7
D    9
E    6
dtype: int64

##### Series의 인덱스와 values 데이터를 볼 수 있음

In [7]:
data.index , data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([8, 1, 7, 9, 6]))

In [8]:
data.A, data.C

(8, 7)

In [15]:
data[["B","C","E"]]

알파벳
B    1
C    7
E    6
Name: 랜덤숫자, dtype: int64

##### Series의 이름과 인덱스에 이름을 붙여줄 수 있다.

In [11]:
data.name = "랜덤숫자"
data.index.name = "알파벳"
data.name, data.index.name

('랜덤숫자', '알파벳')

In [13]:
data

알파벳
A    8
B    1
C    7
D    9
E    6
Name: 랜덤숫자, dtype: int64

##### values값들을 계산할 수 있는데 broadcasting 개념이 적용

In [14]:
data * 10

알파벳
A    80
B    10
C    70
D    90
E    60
Name: 랜덤숫자, dtype: int64

##### offset으로 출력

In [16]:
data[1:3]

알파벳
B    1
C    7
Name: 랜덤숫자, dtype: int64

In [17]:
data[::-1]

알파벳
E    6
D    9
C    7
B    1
A    8
Name: 랜덤숫자, dtype: int64

##### 6이상 데이터만 출력 가능. 
- True False에 따라서 True인 데이터만 남게되고 False인 데이터는 사라진 것임

In [20]:
data > 6

알파벳
A     True
B    False
C     True
D     True
E    False
Name: 랜덤숫자, dtype: bool

In [21]:
data[data > 6]

알파벳
A    8
C    7
D    9
Name: 랜덤숫자, dtype: int64

##### items를 이용해 key, val 을 반복문에서 사용가능하다
- 이떄 items()는 함수인데 앞에 series 일 떄와 dictionary일 때 다른 연산작용을 한다는 것을 알아두자


In [22]:
for idx,val in data.items():
    print(idx, val)

A 8
B 1
C 7
D 9
E 6


##### dictionary 데잍터 타입의 데이터로 Series 생성이 가능하다
- 형 변환과 비슷한 개념이며 value 값들의 타입이 같아야 한다.

In [24]:
dic = {"D":7, "e": 5, "A":6}
data2 = pd.Series(dic)
data2

A    6
D    7
e    5
dtype: int64

##### Series 끼리 계산
- 계산이 가능한 부분한 이루어지고 나머지는 NaN으로 처리한다

In [25]:
result = data + data2
result

A    14.0
B     NaN
C     NaN
D    16.0
E     NaN
e     NaN
dtype: float64

#####  null 데이터를 제거 (NaN)
- 위와 마찬가지로 True False로 필터 작업을 거침
- NaN은 모든 데이터 타입ㅇ에 드러가서 데이터가 없다는 것을 알려줄 수 있음
- index로 접근할 땐??

In [27]:
print(result.notnull())
result = result[result.notnull()]
result

A     True
B    False
C    False
D     True
E    False
e    False
dtype: bool


A    14.0
D    16.0
dtype: float64

In [28]:
result[0]

14.0

### Dataframe
- 행벡터들의 모임으로 이해하자
- index, column, value로 이루어진 데이터
- create
- insert
    - rows
    - columns
- append 
- concat (여러개의 데이터를 한꺼번에 할 수 있음) append 보다 더 많이 사용할 것
- groupby, aggregate  데이터가 
    - groupby : a 는 3번 돈을 쓰고 b는 총 2번 썼는데 각각 얼마를 썻는지를 알고 싶을 때 a의 데이터를 uniqueg하게 합쳐줌
- select
- merge
    - join과 merge는 같은 개념이다.
- pivot

### Create

##### create 1
##### 컬럼을 만들고 컬럼에 리스트 데이터를 추가하여 DataFrame 만들기 (길이 맞출 것!!)

In [30]:
df = pd.DataFrame(columns = ["Eamil", "Name"])
df["Name"] = ["fcamp", "dss"]
df["Eamil"] = ["fcamp@gmail.com", "dss@gmail.com"]
df

Unnamed: 0,Eamil,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


##### create 2
##### 딕셔너리 데이터 타입으로 DataFrame 만들기

In [31]:
name = ["fcamp", "dss"]
email = ["fcamp@gmail.com", "dss@gmail.com"]
dic = {"Name": name, "Email":email}
df = pd.DataFrame(dic)
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


##### create 3
##### 인덱스 추가해서 만들기

In [32]:
index = ["first", "second"]
data = {"Email" : ["fcamp@gmail.com", "dss@gmail.com"], "Name" : ["fcamp", "dss"]}
df = pd.DataFrame(data, index = index)
df

Unnamed: 0,Email,Name
first,fcamp@gmail.com,fcamp
second,dss@gmail.com,dss


##### 데이터프레임에 대한 인덱스, 컬럼, values 데이터 가져올 수 있음

In [33]:
df.index, df.columns, df.values

(Index(['first', 'second'], dtype='object'),
 Index(['Email', 'Name'], dtype='object'),
 array([['fcamp@gmail.com', 'fcamp'],
        ['dss@gmail.com', 'dss']], dtype=object))

### Insert rows

In [34]:
data = {"Email" : ["fcamp@gmail.com", "dss@gmail.com"], "Name" : ["fcamp", "dss"]}
df = pd.DataFrame(data)
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,dss@gmail.com,dss


##### 행으로 접근할 때는 `loc`를 사용하고, columns으로 접근할 때는 그 컬럼 명을 직접 입력해서 접근

In [35]:
df.loc[1], df["Name"]

(Email    dss@gmail.com
 Name               dss
 Name: 1, dtype: object, 0    fcamp
 1      dss
 Name: Name, dtype: object)

##### 특정 row 지정해서 데이터 넣기

In [36]:
df.loc[1] = {"Emali" : "data@gmail.com", "Name" : "data"}

##### 가장 마지막에 자동으로 데이터 넣기
- len(df)를 통해서 가장 하단에 데이터를 추가해서 넣을 수 있다.

In [38]:
df.loc[len(df)] = {"Email": "science@gmail.com", "Name": "science"}
df

Unnamed: 0,Email,Name
0,fcamp@gmail.com,fcamp
1,,data
2,science@gmail.com,science
3,science@gmail.com,science


### Insert columns

##### column 추가

In [39]:
df["Address"] = ""   # broadcasting이 적용된 것
df

Unnamed: 0,Email,Name,Address
0,fcamp@gmail.com,fcamp,
1,,data,
2,science@gmail.com,science,
3,science@gmail.com,science,


##### 컬럼데이터 추가

In [40]:
df["Address"] = ["Seoul", "Busan", "Jeju", "Daegu"]
df

Unnamed: 0,Email,Name,Address
0,fcamp@gmail.com,fcamp,Seoul
1,,data,Busan
2,science@gmail.com,science,Jeju
3,science@gmail.com,science,Daegu


##### apply(함수)  ()안에 함수가 들어감. 그렇다는 것은 lambda도 안에 사용할 수 있다는 뜻임.
- map과 비슷한 개념
- 함수 사용해서 column 데이터 넣기
- name에 있는 데이터를 하나하나 가져와서 함수를 돌리고 나온 결과를 리스ㅌ로 변환하고 너허준다.

In [43]:
def name(name):
    
    return "{}({})".format(name,len(name))

df["New_Name"] = df["Name"].apply(name)
df

Unnamed: 0,Email,Name,Address,New_Name
0,fcamp@gmail.com,fcamp,Seoul,fcamp(5)
1,,data,Busan,data(4)
2,science@gmail.com,science,Jeju,science(7)
3,science@gmail.com,science,Daegu,science(7)


In [44]:
# lambda 사용해서 column 데이터 넣기
df["New_Address"] = df["Address"].apply(lambda addr: "{}({})".format(addr, len(addr)))
df

Unnamed: 0,Email,Name,Address,New_Name,New_Address
0,fcamp@gmail.com,fcamp,Seoul,fcamp(5),Seoul(5)
1,,data,Busan,data(4),Busan(5)
2,science@gmail.com,science,Jeju,science(7),Jeju(4)
3,science@gmail.com,science,Daegu,science(7),Daegu(5)


##### apply를 어떻게 응용할까

- 성별 컬럼에 있는 데이터를 m,n이 있다면 0,1로 바꿔주는 함수를 만들어서 전처리 할 때
- 점수 데이터를 학점으로 바꾸고 싶을 때 

- apply vs map
    - map( def, list형태의 데이터) 
    - 추가할 컬럼명 = df.컬럼명.apply(def)

### append

##### make data function ( 사람 이름과 나이가 들어간 데이터를 만들기 )

In [45]:
import random, string

def get_name():
    names = ['Adam', 'Alan', 'Alex', 'Alvin', 'Andrew', 'Anthony', 'Arnold', 'Baldy', 'Baron', 'Billy', 'Boris', 'Bruno', 'Caley', 'Champ', 'Charlie', 'Clark']
    return random.choice(names)

def get_age(start=20, end=40):
    return random.randint(start, end)

def make_data(rows=10):    # 10개의 샘플
    datas = []
    for _ in range(rows):
        data = {"Age":get_age(), "Name":get_name()}
        datas.append(data)  # dict형태의 데이터
    return datas

In [46]:
data1 = make_data()
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,Age,Name
0,35,Alan
1,26,Baron
2,35,Caley
3,37,Alvin
4,28,Bruno
5,30,Alvin
6,26,Anthony
7,29,Andrew
8,29,Anthony
9,27,Bruno


In [47]:
data2 = make_data()
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,Age,Name
0,21,Charlie
1,30,Clark
2,36,Bruno
3,36,Adam
4,25,Baldy
5,23,Caley
6,33,Alan
7,30,Caley
8,25,Clark
9,28,Bruno


##### df1에 df2 데이터를 추가하기

In [48]:
df3 = df1.append(df2)
df3

Unnamed: 0,Age,Name
0,35,Alan
1,26,Baron
2,35,Caley
3,37,Alvin
4,28,Bruno
5,30,Alvin
6,26,Anthony
7,29,Andrew
8,29,Anthony
9,27,Bruno


##### index 값 리셋하기
- inplace = True 는 수정된 데이터가 해당 변수에 적용된다.
    - 데이터를 받아서 수정한 후에 df3에 df3을 수정한 것을 적용할 것인가?아닌가?
    - inplace = True 를 사용하지 안흐면 결과 데이터를 받아서 저장해야한다
- drop
    - default(False)를 하면 기존에 인덱스들이 index값을 가진 index컬럼이 생성된다.
    - True를 하면 없앤다는 뜻

In [49]:
df3.reset_index(drop = True, inplace = True)
df3

Unnamed: 0,Age,Name
0,35,Alan
1,26,Baron
2,35,Caley
3,37,Alvin
4,28,Bruno
5,30,Alvin
6,26,Anthony
7,29,Andrew
8,29,Anthony
9,27,Bruno


### concat
- rows
- colums
- 둘다 붙일 수 있음

##### concat rows
#####  df1 데이터와 df2 데이터를 concat을 이용하여 rows로 합치고 `reset_index` 를 이용하여 indexx를 재정렬 해줌
- pd.concat(리스트형, reset_index(drop = True)

In [50]:
df3 = pd.concat([df1, df2]).reset_index(drop = True)
df3

Unnamed: 0,Age,Name
0,35,Alan
1,26,Baron
2,35,Caley
3,37,Alvin
4,28,Bruno
5,30,Alvin
6,26,Anthony
7,29,Andrew
8,29,Anthony
9,27,Bruno


##### concat colums
#####  `axis = 1` 로 설정하여 df1 과 df2 데이터의 컬럼을 합쳐본다 ( default = 0 )

In [54]:
df4 = pd.concat([df2,df1], axis = 1)
df4

Unnamed: 0,Age,Name,Age.1,Name.1
0,21,Charlie,35,Alan
1,30,Clark,26,Baron
2,36,Bruno,35,Caley
3,36,Adam,37,Alvin
4,25,Baldy,28,Bruno
5,23,Caley,30,Alvin
6,33,Alan,26,Anthony
7,30,Caley,29,Andrew
8,25,Clark,29,Anthony
9,28,Bruno,27,Bruno


### join
##### `outer`를 하면 모든 데이터가 나온다고 생각하면 된다. (합집합)  (많은 데이터를 보여줌)
##### `inner`는 공통된 것만 보여준다고 생각하면 된다. (교집합) (적은 데잍터를 보여줌)

In [58]:
df4 = pd.concat([df2, df3], axis = 1, join = 'outer') # 나머지는 NaN처리
df4

Unnamed: 0,Age,Name,Age.1,Name.1
0,21.0,Charlie,35,Alan
1,30.0,Clark,26,Baron
2,36.0,Bruno,35,Caley
3,36.0,Adam,37,Alvin
4,25.0,Baldy,28,Bruno
5,23.0,Caley,30,Alvin
6,33.0,Alan,26,Anthony
7,30.0,Caley,29,Andrew
8,25.0,Clark,29,Anthony
9,28.0,Bruno,27,Bruno


In [59]:
df4 = pd.concat([df2,df1], axis = 1, join = 'inner')
df4

Unnamed: 0,Age,Name,Age.1,Name.1
0,21,Charlie,35,Alan
1,30,Clark,26,Baron
2,36,Bruno,35,Caley
3,36,Adam,37,Alvin
4,25,Baldy,28,Bruno
5,23,Caley,30,Alvin
6,33,Alan,26,Anthony
7,30,Caley,29,Andrew
8,25,Clark,29,Anthony
9,28,Bruno,27,Bruno


### Groupby
- 이름별 평균 나이를 나타내는 데이터프레임 만들기

In [61]:
g_df = pd.DataFrame(make_data(20))
g_df.tail()

Unnamed: 0,Age,Name
15,23,Caley
16,20,Caley
17,38,Alan
18,22,Charlie
19,21,Boris


In [77]:
g_df

Unnamed: 0,Age,Name
0,33,Andrew
1,28,Charlie
2,23,Arnold
3,31,Caley
4,37,Adam
5,20,Baron
6,30,Alvin
7,23,Baldy
8,22,Champ
9,36,Alan


##### unique name list 1
##### set 을 이용한 형변환으로 유니크 이름을 뽑는다.

In [63]:
result1 = np.array(list(set(g_df['Name'].values)))
len(result1), result1

(13, array(['Baldy', 'Anthony', 'Champ', 'Adam', 'Boris', 'Alex', 'Andrew',
        'Baron', 'Arnold', 'Alan', 'Alvin', 'Caley', 'Charlie'],
       dtype='<U7'))

#### unique name list 2
##### unique 함수를 이용해 이름을 뽑는다 ( 되도록이면 이 방법을 사용하자 )

In [64]:
result2 = g_df["Name"].unique()
len(result2), result2

(13, array(['Andrew', 'Charlie', 'Arnold', 'Caley', 'Adam', 'Baron', 'Alvin',
        'Baldy', 'Champ', 'Alan', 'Anthony', 'Boris', 'Alex'], dtype=object))

##### groupby ( size )
##### groupby를 이용하여 각 이름별로 몇번 나왔는지에 대한 counts컬럼으로 데이터프레임 만들기

##### Name 컬럼의 데이터를 size( 갯수 )로 groupby를 해주고 counts 라는 컬럼 이름으로 index를 리셋한다.

In [66]:
result_df = g_df.groupby("Name").size().reset_index(name = 'counts')
result_df

Unnamed: 0,Name,counts
0,Adam,1
1,Alan,3
2,Alex,1
3,Alvin,1
4,Andrew,1
5,Anthony,2
6,Arnold,1
7,Baldy,1
8,Baron,1
9,Boris,2


##### sort_values를 이용하여 counts로 내림차순으로 정렬한다. (sort)

In [68]:
result_df = result_df.sort_values(by = ['counts'], ascending = False)
result_df

Unnamed: 0,Name,counts
1,Alan,3
10,Caley,3
5,Anthony,2
9,Boris,2
12,Charlie,2
0,Adam,1
2,Alex,1
3,Alvin,1
4,Andrew,1
6,Arnold,1


##### 인덱스를 다시 리셋하다.

In [69]:
result_df = result_df.reset_index(drop= True)
# or result_df.reset_index(drop= True, inplace = True)
result_df

Unnamed: 0,Name,counts
0,Alan,3
1,Caley,3
2,Anthony,2
3,Boris,2
4,Charlie,2
5,Adam,1
6,Alex,1
7,Alvin,1
8,Andrew,1
9,Arnold,1


##### groupby (agg : min)
##### 이름에서 나이의 최솟값으로 groupby해주고 index를 리셋해준다.

In [78]:
g_df.groupby("Name").agg('min').reset_index()

Unnamed: 0,Name,Age
0,Adam,37
1,Alan,33
2,Alex,33
3,Alvin,30
4,Andrew,33
5,Anthony,22
6,Arnold,23
7,Baldy,23
8,Baron,20
9,Boris,21


##### groupby( agg : max )
##### 각 이름의 나이 최대값으로 groupby해주고 인덱스를 리셋해준다.

In [76]:
g_df.groupby("Name").agg("max").reset_index()

Unnamed: 0,Name,Age
0,Adam,37
1,Alan,38
2,Alex,33
3,Alvin,30
4,Andrew,33
5,Anthony,38
6,Arnold,23
7,Baldy,23
8,Baron,20
9,Boris,27


##### groupby ( agg : mean )
##### 각 이름의 나이 평균값으로 ~

In [79]:
g_df.groupby("Name").agg("mean").reset_index()

Unnamed: 0,Name,Age
0,Adam,37.0
1,Alan,35.666667
2,Alex,33.0
3,Alvin,30.0
4,Andrew,33.0
5,Anthony,30.0
6,Arnold,23.0
7,Baldy,23.0
8,Baron,20.0
9,Boris,24.0


##### groupby ( agg : median )
##### 각 이름의 나이 중간값으로 ~

In [81]:
g_df.groupby("Name").agg("median").reset_index()

Unnamed: 0,Name,Age
0,Adam,37
1,Alan,36
2,Alex,33
3,Alvin,30
4,Andrew,33
5,Anthony,30
6,Arnold,23
7,Baldy,23
8,Baron,20
9,Boris,24


##### 이름별 최소 최대 평균 나이 출력  ( 컬럼이 2 레벨이 된 것 )

In [82]:
g_df.groupby("Name").agg(["min", "max", "mean"]).reset_index()

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,37,37,37.0
1,Alan,33,38,35.666667
2,Alex,33,33,33.0
3,Alvin,30,30,30.0
4,Andrew,33,33,33.0
5,Anthony,22,38,30.0
6,Arnold,23,23,23.0
7,Baldy,23,23,23.0
8,Baron,20,20,20.0
9,Boris,21,27,24.0


### select

##### _  : 위에있는 데이터를 저장한다 ( 지금은 df에 )

In [83]:
df = _

In [84]:
# 위에 5개 출력
df.head()

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,37,37,37.0
1,Alan,33,38,35.666667
2,Alex,33,33,33.0
3,Alvin,30,30,30.0
4,Andrew,33,33,33.0


In [85]:
df.head(3)

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,37,37,37.0
1,Alan,33,38,35.666667
2,Alex,33,33,33.0


In [87]:
# 아래붙터 5개 출력
df.tail()

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
8,Baron,20,20,20.0
9,Boris,21,27,24.0
10,Caley,20,31,24.666667
11,Champ,22,22,22.0
12,Charlie,22,28,25.0


In [88]:
# 3 ~ 5 데이터 출력
df[3:5+1]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
3,Alvin,30,30,30.0
4,Andrew,33,33,33.0
5,Anthony,22,38,30.0


In [89]:
# 3 ~ 끝 데이터 출력
df[3:]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
3,Alvin,30,30,30.0
4,Andrew,33,33,33.0
5,Anthony,22,38,30.0
6,Arnold,23,23,23.0
7,Baldy,23,23,23.0
8,Baron,20,20,20.0
9,Boris,21,27,24.0
10,Caley,20,31,24.666667
11,Champ,22,22,22.0
12,Charlie,22,28,25.0


In [90]:
# 데이터 거꾸로 출력
df[::-1]

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
12,Charlie,22,28,25.0
11,Champ,22,22,22.0
10,Caley,20,31,24.666667
9,Boris,21,27,24.0
8,Baron,20,20,20.0
7,Baldy,23,23,23.0
6,Arnold,23,23,23.0
5,Anthony,22,38,30.0
4,Andrew,33,33,33.0
3,Alvin,30,30,30.0


In [91]:
df

Unnamed: 0_level_0,Name,Age,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
0,Adam,37,37,37.0
1,Alan,33,38,35.666667
2,Alex,33,33,33.0
3,Alvin,30,30,30.0
4,Andrew,33,33,33.0
5,Anthony,22,38,30.0
6,Arnold,23,23,23.0
7,Baldy,23,23,23.0
8,Baron,20,20,20.0
9,Boris,21,27,24.0


##### 2번 데이터 나이 쵯솟값, 3번 테이블 이름

In [92]:
df.loc[2]["Age"]["min"], df.loc[3]["Name"][""]

(33, 'Alvin')

##### Name, Min, Max, Mean, Column의 df로 만들기

In [93]:
data = {
    "Name":df["Name"],
    "Min":df["Age"]["min"],
    "Max":df["Age"]["max"],
    "Mean":df["Age"]["mean"],
    }
n_df = pd.DataFrame(data)
n_df

Unnamed: 0,Max,Mean,Min,Name
0,37,37.0,37,Adam
1,38,35.666667,33,Alan
2,33,33.0,33,Alex
3,30,30.0,30,Alvin
4,33,33.0,33,Andrew
5,38,30.0,22,Anthony
6,23,23.0,23,Arnold
7,23,23.0,23,Baldy
8,20,20.0,20,Baron
9,27,24.0,21,Boris


##### 평균 나이가 30살 이상인 데이터를 Mean Values로 내림차순으로 정렬하고 인덱스를 재설정

In [95]:
n_df[n_df["Mean"] >= 30].sort_values(by = ["Mean"], ascending = False).reset_index(drop = True)

Unnamed: 0,Max,Mean,Min,Name
0,37,37.0,37,Adam
1,38,35.666667,33,Alan
2,33,33.0,33,Alex
3,33,33.0,33,Andrew
4,30,30.0,30,Alvin
5,38,30.0,22,Anthony


##### 각 이름이 몇명이 있는지에 대한 데이터 컬럼 추가

In [98]:
n_df["Count"] = list(g_df.groupby("Name").size())
n_df

Unnamed: 0,Max,Mean,Min,Name,Count
0,37,37.0,37,Adam,1
1,38,35.666667,33,Alan,3
2,33,33.0,33,Alex,1
3,30,30.0,30,Alvin,1
4,33,33.0,33,Andrew,1
5,38,30.0,22,Anthony,2
6,23,23.0,23,Arnold,1
7,23,23.0,23,Baldy,1
8,20,20.0,20,Baron,1
9,27,24.0,21,Boris,2


##### Mean 데이터를 가장 뒤로 이동시키기 ( 과정에 주목 )

In [99]:
mean = n_df["Mean"] # Mean 데이터를 저장 (ndarray 형태로 저장)
n_df.drop('Mean', axis = 1, inplace = True)  # Mean %%!데이터를 삭제
n_df["mean"] = mean  # Mean 컬럼을 생성 맨 뒤로
n_df

Unnamed: 0,Max,Min,Name,Count,mean
0,37,37,Adam,1,37.0
1,38,33,Alan,3,35.666667
2,33,33,Alex,1,33.0
3,30,30,Alvin,1,30.0
4,33,33,Andrew,1,33.0
5,38,22,Anthony,2,30.0
6,23,23,Arnold,1,23.0
7,23,23,Baldy,1,23.0
8,20,20,Baron,1,20.0
9,27,21,Boris,2,24.0


##### rename columns  ( 여러개 한번에 가능 )

In [100]:
n_df.rename(columns = {"Name" : "Unique_name", "Max" : "Max"})

Unnamed: 0,Max,Min,Unique_name,Count,mean
0,37,37,Adam,1,37.0
1,38,33,Alan,3,35.666667
2,33,33,Alex,1,33.0
3,30,30,Alvin,1,30.0
4,33,33,Andrew,1,33.0
5,38,22,Anthony,2,30.0
6,23,23,Arnold,1,23.0
7,23,23,Baldy,1,23.0
8,20,20,Baron,1,20.0
9,27,21,Boris,2,24.0


### Merge
- 아이디, 이름, 나이 데이터 프레임 생성
- 아이디, 돈으로 데이터 프레임 생성

##### 중복되는 이름 없이 아이디, 이름, 나이 데이터가 포함된 데이터 프레임 생성

In [101]:
user_df = pd.DataFrame(columns=["UserID", "Name", "Age"])

for idx in range(1, 11):
    name = get_name()
    
    # 이름이 중복이면 다시 뽑기
    while name in list(user_df["Name"]):
        name = get_name()
        # 뽑은 데이터 값이 없을 때까지 뽑는다
        
    # 데이터 name_df에 insert
    data = {"Name" : name, "UserID" : idx, "Age" : get_age()}
    user_df.loc[len(user_df)] = data
    
user_df

Unnamed: 0,UserID,Name,Age
0,1,Champ,30
1,2,Arnold,37
2,3,Caley,21
3,4,Billy,38
4,5,Baron,34
5,6,Alex,23
6,7,Clark,39
7,8,Charlie,39
8,9,Andrew,20
9,10,Alvin,34


##### ID와 Money 데이터가 있는 데이터 프레임 생성

In [102]:
money_df = pd.DataFrame(columns=["ID","Money"])

for idx in range(15):        
    money = random.randint(1,20) * 1000
    data = {"Money":money, "ID":random.randint(1,10)}
    money_df.loc[len(money_df)] = data
    
# money_df.sort_values("ID", inplace=True)    
money_df

Unnamed: 0,ID,Money
0,5,1000
1,9,5000
2,7,5000
3,3,12000
4,2,3000
5,4,9000
6,2,3000
7,3,6000
8,8,7000
9,3,3000


##### money_df 의 ID 컬럼과 user_df의 UserID를 매칭시켜 merge

In [104]:
money_df.merge(user_df, left_on = "ID", right_on = "UserID")
# UserID 와 ID 데이터는 같지만 컬럼명이 다르기 떄문에 두개의 컬럼 모두 데이터 프레임에 들어감

Unnamed: 0,ID,Money,UserID,Name,Age
0,5,1000,5,Baron,34
1,5,10000,5,Baron,34
2,9,5000,9,Andrew,20
3,7,5000,7,Clark,39
4,3,12000,3,Caley,21
5,3,6000,3,Caley,21
6,3,3000,3,Caley,21
7,2,3000,2,Arnold,37
8,2,3000,2,Arnold,37
9,2,16000,2,Arnold,37


##### user_df 에 UserID를 ID로 컬럼명을 변경한 후에 merge  (left_on 과 right_on을 적어줄 필요가 없다.

In [106]:
# 컬럼명을 변경할 땐 columns= 리스트형이 아닌 dict형으로 적어준다
user_df.rename(columns={"UserID": "ID"}, inplace = True)
result_df = pd.merge(money_df, user_df)
result_df

Unnamed: 0,ID,Money,Name,Age
0,5,1000,Baron,34
1,5,10000,Baron,34
2,9,5000,Andrew,20
3,7,5000,Clark,39
4,3,12000,Caley,21
5,3,6000,Caley,21
6,3,3000,Caley,21
7,2,3000,Arnold,37
8,2,3000,Arnold,37
9,2,16000,Arnold,37


##### 각 이름으로 groupby하고 Money 데이터를 모두 sum한 결과의 인덱스를 리셋한다.

In [108]:
money_list = result_df.groupby("Name").sum()["Money"].reset_index()

##### money 데이터를 내림차순으로 정렬하고 index를 리셋한다.

In [109]:
money_list = money_list.sort_values(by = ['Money'], ascending=False).reset_index(drop = True)
money_list

Unnamed: 0,Name,Money
0,Alvin,24000
1,Arnold,22000
2,Caley,21000
3,Charlie,20000
4,Baron,11000
5,Billy,9000
6,Andrew,5000
7,Clark,5000


##### how에 outer를 사용하면 데이터가 없는 사람은 Money가  0으로 출력된다. ( default = inner )

In [110]:
# fillna(value = 0) : NaN 데이터를 0으로 채운다.
result = pd.merge(user_df, money_list, how = 'outer').fillna(value = 0)
result = result.sort_values(by = ['Money'], ascending=False).reset_index(drop = True)

result

Unnamed: 0,ID,Name,Age,Money
0,10,Alvin,34,24000.0
1,2,Arnold,37,22000.0
2,3,Caley,21,21000.0
3,8,Charlie,39,20000.0
4,5,Baron,34,11000.0
5,4,Billy,38,9000.0
6,7,Clark,39,5000.0
7,9,Andrew,20,5000.0
8,1,Champ,30,0.0
9,6,Alex,23,0.0


##### change data type
##### float 데이터인 Money 컬럼을 int로 형변환 시켜준다

In [111]:
result["Money"] = result["Money"].astype('int')
result

Unnamed: 0,ID,Name,Age,Money
0,10,Alvin,34,24000
1,2,Arnold,37,22000
2,3,Caley,21,21000
3,8,Charlie,39,20000
4,5,Baron,34,11000
5,4,Billy,38,9000
6,7,Clark,39,5000
7,9,Andrew,20,5000
8,1,Champ,30,0
9,6,Alex,23,0


```
Name = A, B, C, D, E
Point = random(60 ~ 100)
DataFrame 만들어 보세요
```

In [112]:
df = pd.DataFrame(columns=["Name", "Point"])
df["Name"] = ['A','B','C','D','E']
df["Point"] = np.random.randint(60,101, size = 5)
df

Unnamed: 0,Name,Point
0,A,97
1,B,62
2,C,63
3,D,98
4,E,64


```
학점을 나타내는 컬럼을 추가하세요
```

In [113]:
def point(point):
    if point >= 90:
        return "A"
    elif point >= 80:
        return "B"
    elif point >= 70:
        return "C"
    elif point >= 60:
        return "D"
    else:
        return "F"

In [114]:
df['학점'] = df['Point'].apply(point)
df

Unnamed: 0,Name,Point,학점
0,A,97,A
1,B,62,D
2,C,63,D
3,D,98,A
4,E,64,D
