# Pandas Series 다루기

In [49]:
import pandas as pd

## Series 생성하기

In [50]:
# Pandas Series 만들기 연습

# 올림픽에서 달리기 경기를 했습니다.
# index 값으로 선수들의 이름을 가지고,
# data로 선수들의 기록 시간 값을 가지는 Series를 만들어 보세요.

In [51]:
# 선수 이름 : 로즈마리, 에보라, 라바베,  알렉산드라
# 기록      :  120.1,   120.9,  120.96,  120.65

record_series = pd.Series(index = ['로즈마리', '에보라', '라바베', '알렉산드라'], data = [120.1, 120.9, 120.96, 120.65])

print(record_series)

로즈마리     120.10
에보라      120.90
라바베      120.96
알렉산드라    120.65
dtype: float64




---



## 데이터 정렬

In [52]:
# Series에서는 data 값을 기준으로 정렬해주는 기능을 제공합니다.
# series.sort_values() 함수를 이용해서, 기록이 빠른 순서대로 정렬해보세요

In [53]:
record_series.sort_values()

로즈마리     120.10
알렉산드라    120.65
에보라      120.90
라바베      120.96
dtype: float64



---



## Series 값 추가

In [54]:
# 선수 한명의 기록을 빠뜨렸습니다!
# 델리아 선수가 120.35초로 들어왔었네요
# 먼저, 델리아 선수에 대한 정보를 Series로 만들어보세요
delia_record = pd.Series(index = ['델리아'], data = [120.35])

In [55]:
# record_series에 델리아 선수의 데이터를 추가해보세요!
record_series = pd.concat([record_series, delia_record])
record_series

로즈마리     120.10
에보라      120.90
라바베      120.96
알렉산드라    120.65
델리아      120.35
dtype: float64

In [56]:
record_series['델리아'] = 100

In [57]:
# 다시 한번, 순위별로 정렬을 해보세요
record_series.sort_values()

델리아      100.00
로즈마리     120.10
알렉산드라    120.65
에보라      120.90
라바베      120.96
dtype: float64



---



## Series 값 삭제

In [59]:
# record_series에서 에보라 선수 정보를 삭제해 보세요
record_series.drop('에보라',inplace=True)

In [60]:
record_series

로즈마리     120.10
라바베      120.96
알렉산드라    120.65
델리아      100.00
dtype: float64



---



# Pandas DataFrame 다루기

## DataFrame 생성

In [37]:
# 딕셔너리형 이용해서 DataFrame 만들기
# Key : Value
# Key 에는 DataFrame의 Column 이름을,
# Value에는 Series 해당 Column 될 Series를 넣어야 합니다

In [61]:
# 철수, 영희, 민수가 함께 있습니다.
# 각 친구들의 이름을 index로 가지고,
# 성별, 나이 Column들을 가지는 DataFrame을 만들어 봅시다!
items = {
    '성별': pd.Series(index = ['철수', '영희','민수'],data = ['남', '여','남']),
    '나이': pd.Series(index = ['철수', '영희','민수'],data = [20, 19,21])}
df_items = pd.DataFrame(items)
df_items

Unnamed: 0,성별,나이
철수,남,20
영희,여,19
민수,남,21




---



## DataFrame Column 추가

In [40]:
# DataFrame의 Column 추가하기!
# insert() 함수를 이용해서, DataFrame의 Column을 추가해봅시다.
# df_people.insert(loc= ? , column = ?, value = ?)

In [64]:
df_items.insert(1, '혈액형', ['o','a','b'])

In [72]:
df_items

Unnamed: 0,성별,혈액형,나이
철수,남,o,20
영희,여,a,19
민수,남,b,21




---



## DataFrame Row 추가

In [43]:
# DataFrame의 Row 추가하기!
# 먼저, 추가할 Row에 해당하는 DataFrame을 만들어 봅시다.

In [77]:
new_values = [{'성별' : '여', '혈액형' : 'A', '나이' : 35 }]
new_row = pd.DataFrame(new_values, index = ['지수'])
new_row

Unnamed: 0,성별,혈액형,나이
지수,여,A,35


In [46]:
# 이번에는, DataFrame의 row를 추가해봅시다.

In [80]:
df_people = df_items
df_people = pd.concat([df_people, new_row])
df_people

Unnamed: 0,성별,혈액형,나이
철수,남,o,20
영희,여,a,19
민수,남,b,21
지수,여,A,35




---



## DataFrame Row/Col 삭제

In [None]:
# DataFrame에서 Row, Col 삭제해 보기
# df_people.drop( ? , axis= 1 , inplace = True )

In [81]:
df_people

Unnamed: 0,성별,혈액형,나이
철수,남,o,20
영희,여,a,19
민수,남,b,21
지수,여,A,35


In [83]:
# 철수가 이사를 갔어요.. 철수에 해당하는 Row를 삭제해봅시다
df_people.drop( '철수' , axis= 0, inplace=True )
df_people

Unnamed: 0,성별,혈액형,나이
영희,여,a,19
민수,남,b,21
지수,여,A,35


In [84]:
# 야자타임을 하기로 했어요. 나이 Column을 삭제해 봅시다.
df_people.drop( '나이' , axis= 1, inplace = True )
df_people

Unnamed: 0,성별,혈액형
영희,여,a
민수,남,b
지수,여,A




---



#Pandas 데이터 필터링

In [85]:
import numpy as np
import pandas as pd
import random

서울의 어느 한 회사의, 직원들의 정보가 담긴 데이터가 있습니다.

In [88]:
# 직원 데이터를 랜덤하게 생성하는 함수!
# 셀을 실행만 시키고 넘어가주세요
def get_staff_data(num_person) :
  list_1 = [19,'마케팅','서울',1800]
  list_2 = [20,'개발','경기',2000]
  person_last_name = ['김','이','박','최','강','정','조']
  person_first_name_alphabet = ['혜','경','준','성','민','한','혁','지','우','서','이']
  part_list = ['개발', '마케팅', '영업', '기획', '인사','디자인', '지원']
  address_list = ['서울','경기','인천','강원','충청']

  ret_df = pd.DataFrame([list_1, list_2], index = ['김해인', '이정인'])
  ret_df.columns = ['나이','직무','주소', '급여']

  while (len(ret_df) < num_person) :
    name = np.random.choice(person_last_name) + ''.join([ i for i in np.random.choice(person_first_name_alphabet,size=2, replace=False)])
    while name in ret_df.index :
      name = np.random.choice(person_last_name) + ''.join([ i for i in np.random.choice(person_first_name_alphabet,size=2, replace=False)])
    age = np.random.randint(20,60)
    part = np.random.choice(part_list)
    address = np.random.choice(address_list)
    pay = np.random.randint(1800,3500)
    new_person = pd.DataFrame({'나이' : age, "직무": part, "주소":address, "급여":pay}, index = [name])
    ret_df = pd.concat([ret_df, new_person])
  return ret_df

In [89]:
# 위의 함수를 이용해서, 직원 정보 데이터를 생성!
# staff_df라는 직원 정보가 담긴 DataFrame이 만들어졌습니다.
staff_df = get_staff_data(200)
staff_df.head(5)

Unnamed: 0,나이,직무,주소,급여
김해인,19,마케팅,서울,1800
이정인,20,개발,경기,2000
박혁서,51,디자인,충청,2370
이서혁,34,디자인,경기,2141
최서민,51,디자인,충청,2465




---



In [92]:
# shape, ndim, size 를 이용해서, DataFrame을 파악해보세요
print('형태: ', staff_df.shape)
print('차원:', staff_df.ndim)
print('staff_df.shape[1]= ',staff_df.shape[1]) #####################NUMPY@@@@@@@@@@@@@@@@@@@
print('총 원소의 갯수:', staff_df.size)

형태:  (200, 4)
차원: 2
staff_df.shape[1]=  4
총 원소의 갯수: 800


In [94]:
# staff_df에는 4개의 Column이 있습니다.
# staff_df에서, 직무, 급여 Column만 불러와 보세요
staff_df[['직무','급여']]

Unnamed: 0,직무,급여
김해인,마케팅,1800
이정인,개발,2000
박혁서,디자인,2370
이서혁,디자인,2141
최서민,디자인,2465
...,...,...
박성이,인사,3280
강혁혜,개발,3279
박우한,기획,3402
김혜지,기획,2895




---



In [96]:
# DataFrame에서, [] 대괄호 안에 조건을 넣어 데이터를 가져올 수도 있습니다.
# staff_df에서, 직무가 마케팅인 직원들만 불러와보세요.
staff_df[staff_df['직무']=='마케팅'].head()

Unnamed: 0,나이,직무,주소,급여
김해인,19,마케팅,서울,1800
최우이,22,마케팅,경기,2124
강성한,20,마케팅,강원,2530
김우서,29,마케팅,강원,3085
최이서,24,마케팅,강원,2959


In [100]:
# DataFrame에서, len() 함수를 통해 데이터의 길이를 알 수 있습니다.
# 직무가 '마케팅'인 직원의 수와, '개발'인 직원의 수를 출력해보세요
num_of_marketing = len(staff_df[staff_df['직무']=='마케팅'])
num_develop = len(staff_df[staff_df['직무']=='개발'])
print('마케팅 직원 수 = ', num_of_marketing)
print('개발 직원 수 = ', num_develop)

마케팅 직원 수 =  30
개발 직원 수 =  22


In [None]:
# [] 대괄호 안에 여러개의 조건을 넣을 수 있었습니다.
# staff_df[ (조건) &  (조건) ] 형식을 활용해 봅시다.

In [101]:
# 직무가 기획 이면서, 나이가 30세 이상인 직원들을 불러와 봅시다.
staff_df[(staff_df['직무']=='기획')& (staff_df['나이']>= 30)]

Unnamed: 0,나이,직무,주소,급여
박서경,40,기획,인천,2716
김한준,51,기획,경기,2665
최혁경,58,기획,강원,2192
박서준,32,기획,서울,2836
최지성,51,기획,강원,2988
이지이,37,기획,경기,3289
최경지,43,기획,충청,3408
김혜민,41,기획,충청,2835
김혜한,47,기획,서울,2814
최우경,42,기획,경기,1944


In [102]:
# 이번에는, 영업 직무이면서, 서울에 살고, 급여가 2000 이상인 직원을 불러와 봅시다
staff_df[(staff_df['직무']== '영업')&
         (staff_df['주소']=='서울')&
         (staff_df['급여']>=2000)
]

Unnamed: 0,나이,직무,주소,급여
강민이,48,영업,서울,3099
조준한,52,영업,서울,2491
박혁지,33,영업,서울,3144
정한경,30,영업,서울,2751
조혁서,35,영업,서울,2844


In [103]:
# sort_values 함수를 사용하면,
# 직원들을 급여 순서대로 정렬해서 나타내 볼 수 있습니다.
# 데이터변수.sort_values(by=['열 이름'], ascending= 오름차순여부 )
staff_df.sort_values('급여', ascending=True)


Unnamed: 0,나이,직무,주소,급여
김해인,19,마케팅,서울,1800
강서우,39,개발,경기,1818
이서준,41,지원,강원,1831
김혁혜,41,디자인,서울,1832
최서한,52,기획,충청,1833
...,...,...,...,...
강혁우,53,지원,경기,3471
이준혜,35,마케팅,인천,3480
최성경,56,기획,충청,3482
박지혜,46,기획,서울,3487


In [None]:
# 위의 sort_values를 활용해서,
# 인사 직무 직원들을 급여가 높은 순서대로 정렬해서 나타내어 보세요.

In [104]:
staff_df[staff_df['직무']=='인사'].sort_values('급여', ascending=False)

Unnamed: 0,나이,직무,주소,급여
정서우,25,인사,경기,3397
김지혜,41,인사,충청,3333
이혜지,35,인사,인천,3305
박성이,27,인사,인천,3280
정한혁,35,인사,서울,3213
최한혜,28,인사,인천,3051
정혁이,24,인사,경기,3047
최혜민,48,인사,충청,2763
정준우,59,인사,인천,2733
조경혜,46,인사,강원,2694


In [106]:
# 마지막으로
# 서울에 살고, 개발 직군이면서, 급여가 3000 이하인 직원들을 나이 순서대로 정렬해보세요
# Tip. 코드 한 줄이 너무 길어지면, \ (백슬래쉬) 기호를 붙이고 줄바꿈을 해서 이어갈 수 있어요

staff_df[(staff_df['주소']=='서울')& (staff_df['직무']=='개발')&\
         (staff_df['급여']<=3000)].sort_values('나이', ascending=True)

Unnamed: 0,나이,직무,주소,급여
강혁이,51,개발,서울,2519
박준지,55,개발,서울,1965
