# ✅ Pandas 라이브러리와 Dataframe, Series의 이해

## 🎯 Pandas 라이브러리

- 데이터 수정 및 변경에 유용한 파이썬 라이브러리
- 엑셀이나 csv 형식의 파일을 보고 수정하는데 특화되어 있습니다.
- dataframe, series를 사용합니다.
series = list, dict, tuple 형태의 DF의 하위 자료형<br>
dataframe 👉 series가 여러개 합쳐진 자료형

- 라이브러리 공식문서 참조
👀 https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html

In [48]:
#as는 pandas라는 모듈.을 pd라고 별칭으로 줄여서 사용하겠다는 의미
import pandas as pd


In [47]:
#pandas 라이브러리 설치
!pip install pandas


[notice] A new release of pip available: 22.1.2 -> 22.2.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
df = pd.

In [51]:
#read_csv는 csv 파일 형식의 엑셀 데이터를 읽어올때 사용합니다.
df = pd.read_csv("data/employee_list.csv")


Unnamed: 0,name,age,department,tel
0,SeeJin,25,IT,4040
1,JeeHyun,30,R&D,2278
2,InKi,30,QA,4350
3,JunHo,40,HR,4466
4,MinSu,45,TEST,3476
5,Chanho,25,PCS,2525


In [52]:
df.head(2)

Unnamed: 0,name,age,department,tel
0,SeeJin,25,IT,4040
1,JeeHyun,30,R&D,2278


In [5]:
# dataframe >> series 구조
print(type(df))
print(type(df.age))
print(type(df['age']))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


## 🎯 Series

- 파이썬 리스트로 만들 수 있습니다.
- 데이터프레임을 이루고 있는 하나의 열(리스트)
- 시리즈*n 👉 데이터프레임

In [57]:
list_tmp = [1, 2, 3] 

In [59]:
#pd.Series()는 list를 series로 변환해준다.
s1 = pd.Series( [1, 2, 3] )
s1

0    1
1    2
2    3
dtype: int64

In [66]:
s2 = pd.Series( ['one', 'two', 'three'])
s2

0      one
1      two
2    three
dtype: object

In [67]:
#1. dict 형태로 series를 묶는다.
#2. series로 묶인 dict를 dataframe 형태로 변환한다.
hi = pd.DataFrame(data = dict(필드명1=s1, 필드명2=s2, 필드명3=s2))
hi

Unnamed: 0,필드명1,필드명2,필드명3
0,1,one,one
1,2,two,two
2,3,three,three


## ⏺ 실습: Series 만들기

- Name, Age 이름을 가진 Series 두개를 만든 다음 dataframe으로 변환해보자
    - Name: ['Jinsu', 'InKi', 'JeeHyun', 'Happy', 'SunHee', 'John']
    - Age: [20, 30, 35, 20 ,10, 20]

In [70]:
#way1
Name = ['Jinsu', 'InKi', 'JeeHyun', 'Happy', 'SunHee']
Age = [20, 30, 35, 20 ,10, 20]

seriesName = pd.Series(Name)
seriesAge = pd.Series(Age)

df = pd.DataFrame(dict(Name= seriesName, Age=seriesAge))
df

Unnamed: 0,Name,Age
0,Jinsu,20
1,InKi,30
2,JeeHyun,35
3,Happy,20
4,SunHee,10
5,,20


In [19]:
#way2: dataframe으로 한번에 선언
Name = ['Jinsu', 'InKi', 'JeeHyun', 'Happy', 'SunHee', 'John']
Age = [20, 30, 35, 20 ,10, 20]

df = pd.DataFrame({'Name': Name, 'Age': Age})
df

Unnamed: 0,Name,Age
0,Jinsu,20
1,InKi,30
2,JeeHyun,35
3,Happy,20
4,SunHee,10
5,John,20


---

# ✅ 파일에서 데이터 불러오기

- csv, xlsx, txt 등 다양한 확장자 파일로부터 데이터를 불러올 수 있습니다.

In [15]:
import pandas as pd

## 🎯 일반적인 형태의 파일 불러오기

In [32]:
df = pd.read_csv("data/employee_list.csv")

In [33]:
df

Unnamed: 0,name,age,department,tel
0,SeeJin,25,IT,4040
1,JeeHyun,30,R&D,2278
2,InKi,30,QA,4350
3,JunHo,40,HR,4466
4,MinSu,45,TEST,3476
5,Chanho,25,PCS,2525


## 🎯 delimeter를 사용하여 파일 불러오기

In [73]:
#delimiter는 구분자로 해당 문자를 기준으로 열을 나눈다.
df = pd.read_csv("data/employee_list_tab.txt", delimiter = '\t')
df

Unnamed: 0,name,age,department,tel
0,SeeJin,25,IT,4040
1,JeeHyun,30,R&D,2278
2,InKi,30,QA,4350
3,JunHo,40,HR,4466
4,MinSu,45,TEST,3476
5,Chanho,25,PCS,2525


## 🎯 Column 정보가 없는 파일 불러오기

In [74]:
df = pd.read_csv('data/employee_list_no_head.csv')

In [77]:
#이런식으로 헤더에 데이터가 들어가버린다.
df

Unnamed: 0,SeeJin,25,IT,4040
0,JeeHyun,30,R&D,2278
1,InKi,30,QA,4350
2,JunHo,40,HR,4466
3,MinSu,45,TEST,3476
4,Chanho,25,PCS,2525


In [81]:
#header = None 을 통해서 column 헤더가 없음을 알려준다.
df = pd.read_csv('data/employee_list_no_head.csv', header = None)
df

Unnamed: 0,0,1,2,3
0,SeeJin,25,IT,4040
1,JeeHyun,30,R&D,2278
2,InKi,30,QA,4350
3,JunHo,40,HR,4466
4,MinSu,45,TEST,3476
5,Chanho,25,PCS,2525


In [130]:
df

Unnamed: 0,0,1,2,3
0,SeeJin,25,IT,4040
1,JeeHyun,30,R&D,2278
2,InKi,30,QA,4350
3,JunHo,40,HR,4466
4,MinSu,45,TEST,3476
5,Chanho,25,PCS,2525


In [83]:
# dataframe에 column 제목 넣어주기
df.columns = ['이름','나이','직업','전화']
df

Unnamed: 0,이름,나이,직업,전화
0,SeeJin,25,IT,4040
1,JeeHyun,30,R&D,2278
2,InKi,30,QA,4350
3,JunHo,40,HR,4466
4,MinSu,45,TEST,3476
5,Chanho,25,PCS,2525


In [132]:
df

Unnamed: 0,name,age,job,tel
0,SeeJin,25,IT,4040
1,JeeHyun,30,R&D,2278
2,InKi,30,QA,4350
3,JunHo,40,HR,4466
4,MinSu,45,TEST,3476
5,Chanho,25,PCS,2525


In [84]:
# 위에 과정들을 1 step으로 하기
df = pd.read_csv('data/employee_list_no_head.csv',
                 header = None, names=['name', 'age', 'job','tel'])
df

Unnamed: 0,name,age,job,tel
0,SeeJin,25,IT,4040
1,JeeHyun,30,R&D,2278
2,InKi,30,QA,4350
3,JunHo,40,HR,4466
4,MinSu,45,TEST,3476
5,Chanho,25,PCS,2525


In [134]:
df

Unnamed: 0,name,age,job,tel
0,SeeJin,25,IT,4040
1,JeeHyun,30,R&D,2278
2,InKi,30,QA,4350
3,JunHo,40,HR,4466
4,MinSu,45,TEST,3476
5,Chanho,25,PCS,2525


## ⏺ 실습: 엑셀 데이터 불러오기

- data 경로에 있는 employee_list_no_head.xlsx 엑셀파일을 불러옵시다.
![image.png](attachment:image.png)

- 단, df 불러올 때 name, age, job, tel 열 이름(헤더) 넣어줍시다.

In [None]:
!pip install openpyxl
pd.read_excel("경로", engine='openpyxl')

In [25]:
#
df = pd.read_excel("data/employee_list_no_head.xlsx", header=None, names=['name', 'age', 'job', 'tel'], engine='openpyxl')
df

Unnamed: 0,name,age,job,tel
0,SeeJin,25,IT,4040
1,JeeHyun,30,R&D,2278
2,InKi,30,QA,4350
3,JunHo,40,HR,4466
4,MinSu,45,TEST,3476
5,Chanho,25,PCS,2525


----


# ✅ Dataframe 생성하기

## 🎯 Dataframe 정의하기

- Dataframe을 정의하기 위해서는 들어갈 데이터를 정해줘야 합니다.
- 이는 python의 dictionary 또는 numpy의 array로 정의할 수 있습니다.

In [85]:
#dictionary로 dataframe 정의하기,

data = {
        'name': ['Beomwoo', 'Beomwoo', 'Beomwoo', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]
        }
df = pd.DataFrame(data)
df

Unnamed: 0,name,year,points
0,Beomwoo,2013,1.5
1,Beomwoo,2014,1.7
2,Beomwoo,2015,3.6
3,Kim,2016,2.4
4,Park,2015,2.9


In [13]:
# List로 dataframe 정의하기
data = [ ['Beomwoo',2013,1.5],['Beomwoo',2014,1.7],['Beomwoo',2015,3.6],['Kim',2016,2.4],['Park',2015,2.9] ]
column_name = ['name', 'year', 'points']
df = pd.DataFrame(data, columns=column_name)
df

Unnamed: 0,name,year,points
0,Beomwoo,2013,1.5
1,Beomwoo,2014,1.7
2,Beomwoo,2015,3.6
3,Kim,2016,2.4
4,Park,2015,2.9


## 🎯 Dataframe indexing

In [91]:
data = {
        'name': ['Beomwoo', 'Beomwoo', 'Beomwoo', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]
        }

# df = pd.DataFrame(data, columns=["year", "name", "points", "penalty"])
# df
df = pd.DataFrame(data, columns=["year", "name", "points", "penalty"],
                          index=["one", "two", "three", "four", "five"])



2015

---

# ✅ Dataframe 파일로 저장하기

In [38]:
data = {
        'name': ['Beomwoo', 'Beomwoo', 'Beomwoo', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]
        }
df = pd.DataFrame(data)
df.to_csv("data/example/test_0627.csv")
df.to_excel("data/example/test_0523.xlsx")

## 🎯 생성되는 파일
![image.png](attachment:image.png)

## 🎯 Index, header props(properties)설정하기

In [1]:
# header는 column의 제목들, index는 row의 번호를 의미한다.
df.to_csv("data/example/test_noheadr_noindex_0627.csv", header = False, index = False)

NameError: name 'df' is not defined

![image.png](attachment:image.png)

## 🎯 Header 설정하여 저장

In [51]:
df.to_csv("data/example/test_setheadr.csv", header = ['NAME', 'YEAR', 'POINT'], index = False)

![image.png](attachment:image.png)

## ⏺ 실습: Dataframe 생성하고 excel 파일 저장하기

- 다음과 같은 데이터가 최종적으로 저장되게 하자.
![image.png](attachment:image.png)

In [57]:
#
df = pd.DataFrame({
    'Name' : ['Andy', 'Brad', 'Candy', 'Dean'],
    'Age' : [10, 7, 8, 12]
})

df.to_excel('data/example/testdf.xlsx', engine='openpyxl', index=False)

---

# ✅ 데이터 프레임 행, 열 접근하기

## 🎯 열 접근 및 조작

In [109]:
import pandas as pd
data = {
        'name': ['Steven', 'Andy', 'Brad', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]
        }
df = pd.DataFrame(data)
df

Unnamed: 0,name,year,points
0,Steven,2013,1.5
1,Andy,2014,1.7
2,Brad,2015,3.6
3,Kim,2016,2.4
4,Park,2015,2.9


### 📑 1. 열 이름을 통해 접근하기

In [97]:
# name 열만 가져오기
sample=df.name.copy()
# sample = df.name.copy()

sample[1]='나선희'
sample


0    Steven
1       나선희
2      Brad
3       Kim
4      Park
Name: name, dtype: object

In [96]:
# 동일한 의미를 가지는 다른 방법
df['year']
df.year

0    2013
1    2014
2    2015
3    2016
4    2015
Name: year, dtype: int64

In [101]:
# 원하는 열만 떼서 볼 수 있다.
df[['year', 'points', 'name']]

Unnamed: 0,year,name
0,2013,Steven
1,2014,Andy
2,2015,Brad
3,2016,Kim
4,2015,Park


### 📑 2. 열 인덱스를 통해 접근하기 (loc, iloc)

In [107]:
#모든 행을 선택, name~year의 이름을 가진 열만 선택해서 보여준다.
df
df.loc[:, 'name':'year']

Unnamed: 0,name,year
0,Steven,2013
1,Andy,2014
2,Brad,2015
3,Kim,2016
4,Park,2015


In [72]:
#모든 행을 선택, 0~1번째 열만 선택해서 보여준다.
df.iloc[:, 0:2]

Unnamed: 0,name,year
0,Steven,2013
1,Andy,2014
2,Brad,2015
3,Kim,2016
4,Park,2015


### 📑 3.  열의 값 조작하기 

In [115]:
# 특정 열을 선택하고 원하는 값을 대입할 수 있다.
listTemp= [10,2,3,4,5]
df['points'] = listTemp
df


Unnamed: 0,name,year,points
0,Steven,2013,10
1,Andy,2014,2
2,Brad,2015,3
3,Kim,2016,4
4,Park,2015,5


In [11]:
# 또는
df['penalty'] = [0.1, 0.2, 0.3, 0.4, 0.5] # python의 List나 numpy의 array
df

Unnamed: 0,name,year,points,penalty
0,Steven,2013,1.5,0.1
1,Andy,2014,1.7,0.2
2,Brad,2015,3.6,0.3
3,Kim,2016,2.4,0.4
4,Park,2015,2.9,0.5


In [122]:
# 새로운 열을 추가하기
df['zeros'] = '값넣기'
df['spare'] = ''
df

Unnamed: 0,name,year,points,zeros,spare
0,Steven,2013,10,값넣기,
1,Andy,2014,2,값넣기,
2,Brad,2015,3,값넣기,
3,Kim,2016,4,값넣기,
4,Park,2015,5,값넣기,


In [124]:
# Series를 추가할 수도 있다.
val = pd.Series([-1.2, -1.5, -1.7], index=[0,3,4])
df['debt'] = val
df

Unnamed: 0,name,year,points,zeros,spare,debt
0,Steven,2013,10,값넣기,,-1.2
1,Andy,2014,2,값넣기,,
2,Brad,2015,3,값넣기,,
3,Kim,2016,4,값넣기,,-1.5
4,Park,2015,5,값넣기,,-1.7


In [125]:
#Series로 넣을 때는 val와 같이 넣으려는 data의 index에 맞춰서 데이터가 들어간다.
df['penalty'] = 1
df['net_points'] = df['points'] - df['penalty']
df

Unnamed: 0,name,year,points,zeros,spare,debt,penalty,net_points
0,Steven,2013,10,값넣기,,-1.2,1,9
1,Andy,2014,2,값넣기,,,1,1
2,Brad,2015,3,값넣기,,,1,2
3,Kim,2016,4,값넣기,,-1.5,1,3
4,Park,2015,5,값넣기,,-1.7,1,4


In [73]:
# net_points가 1.0보다 높으면 True, 미만이면 False 값을 가지는 high_points 열을 추가한다.
df['high_points'] = df['net_points'] > 1.0
df

Unnamed: 0,name,year,points,penalty,zeros,debt,net_points,high_points
0,Steven,2013,1.5,1,10,,0.5,False
1,Andy,2014,1.7,1,10,-1.2,0.7,False
2,Brad,2015,3.6,1,10,,2.6,True
3,Kim,2016,2.4,1,10,-1.5,1.4,True
4,Park,2015,2.9,1,10,-1.7,1.9,True


In [135]:
# 열 삭제하기
data = {
        'name': ['Steven', 'Andy', 'Brad', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]
        }
df = pd.DataFrame(data)
df
df.drop('points', axis=1) 
df.drop(labels=0,axis=0)

Unnamed: 0,name,year,points
0,Steven,2013,1.5
1,Andy,2014,1.7
3,Kim,2016,2.4
4,Park,2015,2.9


In [133]:
# 혹은 
data = {
        'name': ['Steven', 'Andy', 'Brad', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]
        }
df = pd.DataFrame(data)
del df['name']
df.drop(0, axis=1)
df

KeyError: '[0] not found in axis'

In [7]:
# 여러 개의 열 삭제하기
data = {
        'name': ['Steven', 'Andy', 'Brad', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]
        }
df = pd.DataFrame(data)
#axis = 0 👉 인덱스 삭제
#axis = 1 👉 컬럼 삭제
# df
# df.drop(['name', 'year'], axis=1)

## 🎯 행 접근 및 조작

### 📑 1. 행의 이름을 통해 접근하기

In [139]:
# 0번 행 ~ 2(3-1)번 행까지 가져온다
df[0:4]

Unnamed: 0,name,year,points
0,Steven,2013,1.5
1,Andy,2014,1.7
2,Brad,2015,3.6
3,Kim,2016,2.4


In [141]:
# 그러나 숫자가 아니라 문자로 indexing 했을시에는 
# one 행 ~ four 행까지 온전히 가져온다. 
df.index = ['one', 'two', 'three', 'four', 'five']

df['one':'three'] 

Unnamed: 0,name,year,points
one,Steven,2013,1.5
two,Andy,2014,1.7
three,Brad,2015,3.6


### 📑 2. 행의 인덱스를 통해 접근하기 (loc, iloc)

In [150]:
data = {
        'name': ['Steven', 'Andy', 'Brad', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]
        }
df = pd.DataFrame(data)
df['penalty'] = [0.1, 0.2, 0.3, 0.4,0.5]
df.index = ['one', 'two', 'three', 'four', 'five']
df

Unnamed: 0,name,year,points,penalty
one,Steven,2013,1.5,0.1
two,Andy,2014,1.7,0.2
three,Brad,2015,3.6,0.3
four,Kim,2016,2.4,0.4
five,Park,2015,2.9,0.5


In [143]:
# .loc 또는 .iloc 함수를 사용하는 방법.
df.loc['two']

name       Andy
year       2014
points      1.7
penalty     0.2
Name: two, dtype: object

In [144]:
# two에서 four 까지의 point
df.loc['two':'four', 'points':'penalty'] 

Unnamed: 0,points,penalty
one,1.5,0.1
two,1.7,0.2
three,3.6,0.3
four,2.4,0.4
five,2.9,0.5


In [145]:
# df.loc[:,'year'] # == df['year']
df['year']

one      2013
two      2014
three    2015
four     2016
five     2015
Name: year, dtype: int64

In [60]:
df.loc[:,['year','name','points']]

Unnamed: 0,year,name,points
one,2013,Steven,1.5
two,2014,Andy,1.7
three,2015,Brad,3.6
four,2016,Kim,2.4
five,2015,Park,2.9


In [76]:
df.loc['three':'five','name':'points']

Unnamed: 0,name,year,points
three,Brad,2015,3.6
four,Kim,2016,2.4
five,Park,2015,2.9


In [146]:
# .iloc 사용:: index 번호를 사용한다.
df.iloc[3] # 4번째 행을 가져온다.

name        Kim
year       2016
points      2.4
penalty     0.4
Name: four, dtype: object

In [62]:
df.iloc[3:5, 0:2] 

Unnamed: 0,name,year
four,Kim,2016
five,Park,2015


In [63]:
df.iloc[[0,1,3], [1,2]]

Unnamed: 0,year,points
one,2013,1.5
two,2014,1.7
four,2016,2.4


In [97]:
df.iloc[:,0]

one      Steven
two        Andy
three      Brad
four        Kim
five       Park
Name: name, dtype: object

In [98]:
df

Unnamed: 0,name,year,points,penalty
one,Steven,2013,1.5,0.1
two,Andy,2014,1.7,0.2
three,Brad,2015,3.6,0.3
four,Kim,2016,2.4,0.4
five,Park,2015,2.9,0.5


### 📑 3. 행 값 조작하기

In [147]:
# 새로운 행 삽입하기 df.index=['six'] ?!
df.loc['six', :] = ['Jun', 2013, 4.0, 0.1]
df

Unnamed: 0,name,year,points,penalty
one,Steven,2013.0,1.5,0.1
two,Andy,2014.0,1.7,0.2
three,Brad,2015.0,3.6,0.3
four,Kim,2016.0,2.4,0.4
five,Park,2015.0,2.9,0.5
six,Jun,2013.0,4.0,0.1


In [148]:
df.loc['eig', :] = ['xx', 2022, 3.0, 0.1]
df

Unnamed: 0,name,year,points,penalty
one,Steven,2013.0,1.5,0.1
two,Andy,2014.0,1.7,0.2
three,Brad,2015.0,3.6,0.3
four,Kim,2016.0,2.4,0.4
five,Park,2015.0,2.9,0.5
six,Jun,2013.0,4.0,0.1
eig,xx,2022.0,3.0,0.1


In [149]:
# 행 삭제하기 
df.drop(['one','two'])
df

Unnamed: 0,name,year,points,penalty
one,Steven,2013.0,1.5,0.1
two,Andy,2014.0,1.7,0.2
three,Brad,2015.0,3.6,0.3
four,Kim,2016.0,2.4,0.4
five,Park,2015.0,2.9,0.5
six,Jun,2013.0,4.0,0.1
eig,xx,2022.0,3.0,0.1


In [64]:
# 행 삭제하고 원 df에 바로 적용하기
# inplace = True 인 경우 원본도 변경이 됩니다!
copy_df = df
copy_df
copy_df.drop(['one', 'two'], inplace = True)
copy_df

Unnamed: 0,name,year,points,penalty
three,Brad,2015,3.6,0.3
four,Kim,2016,2.4,0.4
five,Park,2015,2.9,0.5


## ⏺ 실습: 행 열 접근 조작하기

- before 데이터
![image.png](attachment:image.png)

- after 데이터
![image-2.png](attachment:image-2.png)

In [152]:
# df 선언
data = {
        'name': ['Steven', 'Andy', 'Brad', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9],
        'penalty' : [0.1, 0.2, 0.3, 0.4,0.5]
        }
df = pd.DataFrame(data)
df.index = ['one', 'two', 'three', 'four', 'five']
df

# df 조작
df.loc['one':'three', 'name':'points']


Unnamed: 0,name,year,points
one,Steven,2013,1.5
two,Andy,2014,1.7
three,Brad,2015,3.6


In [17]:
# df 선언
data = {
        'name': ['Steven', 'Andy', 'Brad', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9],
        'penalty' : [0.1, 0.2, 0.3, 0.4,0.5]
        }
df = pd.DataFrame(data)
df.index = ['one', 'two', 'three', 'four', 'five']
df

# df 조작
df.drop(['four','five'], inplace=True)
df.drop(['points', 'penalty'], axis=1, inplace=True)
df

Unnamed: 0,name,year
one,Steven,2013
two,Andy,2014
three,Brad,2015


## 🎯 행, 열 접근 응용

### 📑 여러 조건을 응용하여 행, 열 다루기

👉 2014보다 큰 year 데이터만 가져오고 싶다면 어떻게 해야할까요?

In [153]:
data = {
        'name': ['Steven', 'Andy', 'Brad', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]
        }
df = pd.DataFrame(data)
df['penalty'] = [0.1, 0.2, 0.3, 0.4,0.5]
df.index = ['one', 'two', 'three', 'four', 'five']
df

Unnamed: 0,name,year,points,penalty
one,Steven,2013,1.5,0.1
two,Andy,2014,1.7,0.2
three,Brad,2015,3.6,0.3
four,Kim,2016,2.4,0.4
five,Park,2015,2.9,0.5


In [154]:
# year가 2014보다 큰 boolean data
temp = df['year'] > 2014
temp

one      False
two      False
three     True
four      True
five      True
Name: year, dtype: bool

In [158]:
# year가 2014보다 큰 모든 행의 값
df.loc[df['year']>=2014, :]

Unnamed: 0,name,year,points,penalty
two,Andy,2014,1.7,0.2
three,Brad,2015,3.6,0.3
four,Kim,2016,2.4,0.4
five,Park,2015,2.9,0.5


<br>
👉 name이 Andy인 행의 name, points 열을 가져오고 싶을때

In [83]:
# name이 Andy인 name,points값
df.loc[df['name'] == 'Andy',['name','points']]

Unnamed: 0,name,points
two,Andy,1.7


In [159]:
# numpy에서와 같이 논리연산을 응용할 수 있다. 
# & and 
df
df.loc[(df['points']>2)&(df['points']<3),:]

Unnamed: 0,name,year,points,penalty
four,Kim,2016,2.4,0.4
five,Park,2015,2.9,0.5


In [161]:
# 새로운 값을 대입할 수도 있다.
df.loc[df['points'] > 2, 'penalty'] = 3
df

Unnamed: 0,name,year,points,penalty
one,Steven,2013,1.5,0.1
two,Andy,2014,1.7,0.2
three,Brad,2015,3.6,3.0
four,Kim,2016,2.4,3.0
five,Park,2015,2.9,3.0


## 🎯 FOR문 해보기

- 열에 대한 반복이 필요한 경우 LIST를 순회 하듯이 CODE를 작성 해 봅시다.

In [163]:
import pandas as pd
data = {
        'name': ['Steven', 'Andy', 'Brad', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 3.7, 3.6, 2.4, 2.9]
        }
df = pd.DataFrame(data)
df

Unnamed: 0,name,year,points
0,Steven,2013,1.5
1,Andy,2014,3.7
2,Brad,2015,3.6
3,Kim,2016,2.4
4,Park,2015,2.9


In [20]:
df[]

Unnamed: 0,name,year,points
0,Steven,2013,1.5
1,Andy,2014,3.7
2,Brad,2015,3.6
3,Kim,2016,2.4
4,Park,2015,2.9


In [167]:
for 변수명 in df['name'] :
    print(변수명)

Steven
Andy
Brad
Kim
Park


In [166]:
index = 0
for temp in df:
#     print('---')
#    print(df[temp])
#     print('---')
    print(df[temp][index])
    index = index+1

Steven
2014
3.6


In [12]:
for t in df['name']:
    print(t)

Steven
Andy
Brad
Kim
Park


### ⏺ 실습: FOR문과 조건문 맛보기

- 위 생성된 데이터 프레임이 grades라는 header를 추가 합니다.
- 그리고 해당 header의 값에는 아래의 조건이 부합하는 결과를 넣어 줍시다.
- points 의 필드가
    - 4.0 보다 크거나 같은 경우 A
    - 3.0 보다 크거나 같은 경우 B
    - 2.0 보다 크거나 같은 경우 C
    - 그 미만 전부 F

- 최종 결과는 B 이상만 출력 해 주세요!
- hint : df의 열을 FOR문 돌면서 조건문을 이용 해 주시면 됩니다.

-- 예상되는 결과 --                       

In [29]:
import pandas as pd
data = {
        'name': ['Steven', 'Andy', 'Brad', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 3.7, 3.6, 2.4, 2.9]
        }
df = pd.DataFrame(data)
df

Unnamed: 0,name,year,points
0,Steven,2013,1.5
1,Andy,2014,3.7
2,Brad,2015,3.6
3,Kim,2016,2.4
4,Park,2015,2.9


In [18]:
#
data = {
        'name': ['Steven', 'Andy', 'Brad', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]
        }
df = pd.DataFrame(data)

# grades = []
# for xx in df['points']:
#     print(xx)
#     if xx >= 4.0: grades.append('A')
#     elif 조건2: grades.append(xx)
#     else 조건3: 
df

Unnamed: 0,name,year,points
0,Steven,2013,1.5
1,Andy,2014,1.7
2,Brad,2015,3.6
3,Kim,2016,2.4
4,Park,2015,2.9


In [30]:
# for문과 조건문을 이용하여 column 생성하기
grades = list()
for row in df['points']:
    print(row)
    if row >= 4.0:
        grades.append('A')
    elif row >= 3.0:
        grades.append('B')
    elif row >= 2.0:
        grades.append('C')
    else:
        grades.append('F')
        
print(grades)
df['grade'] = grades
df[df['points'] >= 3.0]
df
# df[df['grade'] == 'B']

1.5
3.7
3.6
2.4
2.9
['F', 'B', 'B', 'C', 'C']


Unnamed: 0,name,year,points,grade
0,Steven,2013,1.5,F
1,Andy,2014,3.7,B
2,Brad,2015,3.6,B
3,Kim,2016,2.4,C
4,Park,2015,2.9,C


In [171]:
df['grade'] = [
    'A' if pts >= 4 else
    'B' if pts >= 3 else
    'C' if pts >= 2 else
    'F' for pts in df['points']]

print(df)
df[df['points'] >= 3.0]

     name  year  points grade
0  Steven  2013     1.5     F
1    Andy  2014     3.7     B
2    Brad  2015     3.6     B
3     Kim  2016     2.4     C
4    Park  2015     2.9     C


Unnamed: 0,name,year,points,grade
1,Andy,2014,3.7,B
2,Brad,2015,3.6,B


### 📑 apply function 사용하기
DF에 함수를 적용할 수 있는 명령어

In [None]:
for xx in df['key']:
    xx

In [33]:
def pass_or_fail(row):
    if row != "F":
        return 'Pass'
    else:
        return 'Fail'

In [34]:

df['결과'] = df.grade.apply(pass_or_fail)
df

Unnamed: 0,name,year,points,grade,결과
0,Steven,2013,1.5,F,Fail
1,Andy,2014,3.7,B,Pass
2,Brad,2015,3.6,B,Pass
3,Kim,2016,2.4,C,Pass
4,Park,2015,2.9,C,Pass


### ⏺ 실습: apply 함수 심층 활용

In [35]:
import pandas as pd
data = {
            'year' : ['1998-01-10', '2000-12-12', '2002-08-06', '2003-07-08']
}

df = pd.DataFrame(data)
df

#텍스트.split('-') 👉 문자열 '-'기준으로 텍스트 잘라준다.

Unnamed: 0,year
0,1998-01-10
1,2000-12-12
2,2002-08-06
3,2003-07-08


👉 이와 같은 형태의 년(yyyy)-월(mm)-일(dd) 형식으로 이루어진 데이터프레임을 년도(yyyy)만 떼서 보려면 어떻게 해야할까요?

In [39]:
splitdate = '1998-01-10'
a = splitdate.split('-')
a[0]

'1998'

In [36]:
#함수 선언
def split_year(value):
    return value.split('-')[0] # [1998, 01, 10] 

In [37]:
#apply 적용해서 새로운 열 만들기
df['only_year'] = df['year'].apply(split_year)
df

Unnamed: 0,year,only_year
0,1998-01-10,1998
1,2000-12-12,2000
2,2002-08-06,2002
3,2003-07-08,2003


👉 동일하게 apply와 함수를 적용하여 only_year 열을 현재 년도에서 빼주어 age 열을 구해봅시다.

In [11]:
#
def getAge(value) : 
    return 2022 - int(value)

In [12]:
#
df['age'] = df['only_year'].apply(getAge)
df

Unnamed: 0,year,only_year,age
0,1998-01-10,1998,24
1,2000-12-12,2000,22
2,2002-08-06,2002,20
3,2003-07-08,2003,19


---
# ✅ 데이터프레임 병합 (concat, append) 

## 🎯 행 방향 병합

In [40]:
import pandas as pd

data1 = {
        'name': ['Steven', 'Andy', 'Brad'],
        'department': ['IT', 'QA', 'IT']
        }

data2 = {
        'name': ['Kate', 'Park', 'Kale'],
        'department': ['PCS', 'PCS', 'HR']
    
}
df1 = pd.DataFrame(data1)
print(df1)

df2 = pd.DataFrame(data2)
print(df2)

     name department
0  Steven         IT
1    Andy         QA
2    Brad         IT
   name department
0  Kate        PCS
1  Park        PCS
2  Kale         HR


👉 이 두개의 데이터 프레임을 하나로 합치려면 어떻게 해야할까요?

In [42]:
#concat 행으로 붙이기 = 위/아래로 붙이기
result_df = pd.concat([df1, df2, df1])
result_df

Unnamed: 0,name,department
0,Steven,IT
1,Andy,QA
2,Brad,IT
0,Kate,PCS
1,Park,PCS
2,Kale,HR
0,Steven,IT
1,Andy,QA
2,Brad,IT


👉 index 0 1 2 0 1 2가 아니라 0 1 2 3 4 5로 만드는 방법

In [156]:
#index 정렬
result_df = pd.concat([df1, df2], ignore_index=True)
result_df

Unnamed: 0,name,department
0,Steven,IT
1,Andy,QA
2,Brad,IT
3,Kate,PCS
4,Park,PCS
5,Kale,HR


👉 concat과 동일한 기능을 하는 append

In [158]:
#append
result_df = df1.append(df2, ignore_index=True)
result_df

Unnamed: 0,name,department
0,Steven,IT
1,Andy,QA
2,Brad,IT
3,Kate,PCS
4,Park,PCS
5,Kale,HR


## 🎯 열 방향 병합

In [43]:
import pandas as pd

data1 = {
        'name': ['Steven', 'Andy', 'Brad'],
        'department': ['IT', 'QA', 'IT']
        }

data2 = {
        'age': [40, 25, 30],
        'sex': ['male', 'female', 'male']
    
}
df1 = pd.DataFrame(data1)
print(df1)

df2 = pd.DataFrame(data2)
print(df2)

     name department
0  Steven         IT
1    Andy         QA
2    Brad         IT
   age     sex
0   40    male
1   25  female
2   30    male


👉 이전 예제는 행방향으로 붙였지만 이번에는 열방향으로 붙이려고 한다 어떻게 해야할까?

In [44]:
result_df = pd.concat([df1,df2], axis=1, ignore_index = True)
result_df

Unnamed: 0,0,1,2,3
0,Steven,IT,40,male
1,Andy,QA,25,female
2,Brad,IT,30,male


👉 column의 이름들이 사라졌습니다.. 다시 설정

In [45]:
result_df.columns = ['name', 'dept', 'age', 'sex']
result_df

Unnamed: 0,name,dept,age,sex
0,Steven,IT,40,male
1,Andy,QA,25,female
2,Brad,IT,30,male


# ⏺ 실습

## 1️⃣ 실습.txt 파일을 읽어 옵니다.
1. 해당 파일에서 구분자는 ,으로 되어 데이터가 있습니다.
순서대로 항목, 개수, 가격 입니다.
2. LIST, COUNT, PRICE header를 추가하여 넣어 줍니다.
3. 개수가 10개 이상인 항목은 비고 탭을 만들어 '초과' 적은 것은 '적절'
이라는 결과를 추가 해 줍니다.
예상되는 결과

![image.png](attachment:image.png)

In [46]:
#
import pandas as pd

def underPass(row):
    if row>=10:
        return '초과'
    elif row<10:
        return '적절'

silsoup = pd.read_csv("data/실습.txt", delimiter = ',', header = None, names=['LIST', 'COUNT', 'PRICE'])

# silsoup['비고'] = silsoup['COUNT']
silsoup['비고'] = silsoup.COUNT.apply(underPass)
silsoup

Unnamed: 0,LIST,COUNT,PRICE,비고
0,색연필,10,50000,초과
1,지우개,5,40000,적절
2,공책,3,20000,적절
3,연습장,1,1000,적절
4,비트코인,10,5400000,초과


## 2️⃣ For문을 이용한 실습해보기
1. iterrows() --> index , row [행에 대한 순환 반복]
    index와 row를 둘 다 가져올 수 있습니다. 단점 : 느립니다.
2. iteritems() --> col, item [열에 대한 순환 반복]
3. index() --> index로만 순회

In [45]:
silsoup

Unnamed: 0,LIST,COUNT,PRICE,비고
0,색연필,10,50000,초과
1,지우개,5,40000,적절
2,공책,3,20000,적절
3,연습장,1,1000,적절
4,비트코인,10,5400000,초과


In [48]:
for idex, row in silsoup.iterrows():
     #print(idex)
     #print(row)
    if row['LIST']=='연습장':
        print(silsoup['PRICE'][idex])

1000


In [50]:
for i, j in silsoup.iteritems():
    print(j)

0     색연필
1     지우개
2      공책
3     연습장
4    비트코인
Name: LIST, dtype: object
0    10
1     5
2     3
3     1
4    10
Name: COUNT, dtype: int64
0      50000
1      40000
2      20000
3       1000
4    5400000
Name: PRICE, dtype: int64
0    초과
1    적절
2    적절
3    적절
4    초과
Name: 비고, dtype: object


In [12]:
for col, item in silsoup.iteritems():
    #print(item)
    print(silsoup[col][0])
    #print(item[0])

색연필
10
50000
초과


In [20]:
for i in range(len(silsoup)):
    print(i)
    #print(silsoup.loc[i,'LIST'])

0
1
2
3
4


In [52]:
print(silsoup.index)
for idx in silsoup.index: #[0,1,2,3,4]
    #print(idx)
    print(silsoup['LIST'][idx])

RangeIndex(start=0, stop=5, step=1)
색연필
지우개
공책
연습장
비트코인


In [15]:
for 열 in silsoup['LIST']:
    print(열)

색연필
지우개
공책
연습장
비트코인


## 3️⃣ openpyxl 라이브러리 활용 - 배경색상이 있는 cell 잡아내기
https://openpyxl.readthedocs.io/en/stable/

### 👀 알아내는 과정은 다음과 같습니다. (※꼭 이대로 안하셔도 됩니다!)

#### ① openpyxl 라이브러리 사용할 생각하기

- 배경색상을 가져와야 하기 때문에 셀의 정보를 가져올 수 있는 명령어를 찾습니다.(기존 pandas `read_excel`로는 셀정보까진 못불러온다)
- 👉 파이썬 엑셀 불러오기로 read_excel 외에 명령어를 검색하여 찾아봅니다.
- 👉 openpyxl에서 load_workbook이라는 명령어를 사용합니다.

#### ② Python excel cell color 키워드로 google 검색

- 엑셀의 셀 색깔에 대해 알아내야 하기때문에 Python excell cell color로 검색
- (보통 한글보다 영어로 검색했을때 더 많은 정보가 나옵니다!)

![image.png](attachment:image.png)

#### ③ openpyxl의 fill이라는 함수로 값을 넣을 수 있음을 알아냄
- 그렇다면 반대로 값을 조건문을 통해 찾을 수 있다는 걸 인지
![image-2.png](attachment:image-2.png)

#### ④ openpyxl 문서에 들어가 cell이 가지는 특징을 알아봅니다. 
- 👉 `cell.coordinate` 해당 셀에 위치를 의미합니다. ex) A1, B2...
- 
![image-8.png](attachment:image-8.png)


#### ⑤ print(ws[cell.coordinate].fill) 를 통해 오브젝트의 특징을 찾음
![image-3.png](attachment:image-3.png)
<br>

#### ⑥. print문을 통해 fgColor 부분에 색상의 값이 들어갔음을 알 수 있었고<br>
이를 통하면 값을 조건 줄 수 있을거라고 유추 가능

#### ⑦. 색상에 대한 값이 어떤 encoding 인지 일부러 엉뚱한 값을 내본 후
aRGB hex라는 것을 알아냄
![image-4.png](attachment:image-4.png)

#### ⑧. 엑셀에서 rgb 값을 숫자로 확인 후 해당 값의 컨버팅 <br> 가능 한 사이트를 찾음
![image-7.png](attachment:image-7.png)
![image-6.png](attachment:image-6.png)

#### ⑨. CODE에 조건을 넣어 완성

In [2]:
#
from openpyxl import Workbook
from openpyxl import load_workbook
from openpyxl.styles import PatternFill

wb = load_workbook("data/openpyxl_color_sample.xlsx")
ws = wb.active

#ws.iter_rows/cols를 통해 특정범위의 셀 접근 가능
for row in ws.iter_rows():
#     print(row)
    for cell in row:
#         print(cell.coordinate)
#         print(ws[cell.coordinate])
#         print(ws[cell.coordinate].fill)
#         print(ws[cell.coordinate].fill.fgColor.rgb)
#         ws[cell.coordinate].fill.fgColor.rgb = 'XX'
#         print(cell.coordinate)
#         print(ws[cell.coordinate].fill.fgColor.rgb)
        if ws[cell.coordinate].fill.fgColor.rgb == 'FFFF0000' :
            print(str(ws[cell.coordinate])+"은 빨간색 입니다.")
        elif ws[cell.coordinate].fill.fgColor.rgb == 'FFFFFF00' :
            print(str(ws[cell.coordinate])+"은 노란색 입니다.")

<Cell 'Sheet1'.B4>은 빨간색 입니다.
<Cell 'Sheet1'.A5>은 노란색 입니다.
<Cell 'Sheet1'.B5>은 노란색 입니다.
<Cell 'Sheet1'.C5>은 노란색 입니다.
<Cell 'Sheet1'.D5>은 노란색 입니다.
