In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

<font color = "#CC3D3D"><p>
# Topics
* [Reading and Writing Data](#Reading-and-Writing-Data)
* [Creating and Deleting Columns](#Creating-and-Deleting-Columns)
* [Renaming Columns](#Renaming-Columns)
* [Removing Duplicate Rows](#Removing-Duplicate-Rows)
* [Sorting](#Sorting)

## Reading and Writing Data
<br>
<img align="left" src="http://drive.google.com/uc?export=view&id=1PQtlrD6iwmV9kp5uJrcSsLWpkYih9wGI" width=500 height=400>

In [2]:
exam = pd.read_csv('exam.csv')
exam

Unnamed: 0,ID,Exam1,Exam2,Quiz
0,1,3.3,2.0,3.7
1,2,4.0,4.0,4.0
2,3,2.3,0.0,3.3
3,4,2.2,1.0,3.3
4,5,3.1,1.2,3.9


In [3]:
exam.to_excel('exam.xlsx', index=False)
#INDEX=FALSE INDEX저장할 필요없기떄문

In [4]:
exam2 = pd.read_excel('exam.xlsx')
exam2

Unnamed: 0,ID,Exam1,Exam2,Quiz
0,1,3.3,2.0,3.7
1,2,4.0,4.0,4.0
2,3,2.3,0.0,3.3
3,4,2.2,1.0,3.3
4,5,3.1,1.2,3.9


In [5]:
# 엑셀에서 일부 내용을 복사한 후 클립보드를 이용하여 읽을 수 있다.
exam3 = pd.read_clipboard()
exam3

Unnamed: 0,ID,Exam1,Exam2
0,1,3.3,2.0
1,2,4.0,4.0
2,3,2.3,0.0
3,4,2.2,1.0
4,5,3.1,1.2


In [6]:
exam2.query('(Exam2 >= 1) & (Quiz < 3.9)')

Unnamed: 0,ID,Exam1,Exam2,Quiz
0,1,3.3,2.0,3.7
3,4,2.2,1.0,3.3


In [7]:
examf = exam.iloc[[4,0],:]
examf

Unnamed: 0,ID,Exam1,Exam2,Quiz
4,5,3.1,1.2,3.9
0,1,3.3,2.0,3.7


In [8]:
examf.to_csv('examf.csv', index=False)

In [9]:
%ls examf.csv

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 4C11-6853

 C:\Users\SEC\Downloads 디렉터리

2021-06-13  오후 07:37                51 examf.csv
               1개 파일                  51 바이트
               0개 디렉터리  140,466,360,320 바이트 남음


In [10]:
# 아래에서 다루는 pandas 기능을 실제 데이터에 적용하기 위해
movie = pd.read_csv('movie.csv')
demo = pd.read_csv('Demo.csv', encoding='cp949')
tran = pd.read_csv('구매내역정보.csv', encoding='cp949', engine='python')

## Creating and Deleting Columns

In [11]:
data = {'state': ['서울', '서울', '서울', '부산', '부산', '부산'],
        'year': [2014, 2016, 2018, 2014, 2016, 2018],
        'pop': [997.5, 984.3, 970.5, 345.2, 344.7, 340.0]}
df = DataFrame(data)
df

Unnamed: 0,state,year,pop
0,서울,2014,997.5
1,서울,2016,984.3
2,서울,2018,970.5
3,부산,2014,345.2
4,부산,2016,344.7
5,부산,2018,340.0


In [12]:
# south라는 이름의 컬럼을 생성

df['south'] = df.state.isin(['부산', '경남'])
df

Unnamed: 0,state,year,pop,south
0,서울,2014,997.5,False
1,서울,2016,984.3,False
2,서울,2018,970.5,False
3,부산,2014,345.2,True
4,부산,2016,344.7,True
5,부산,2018,340.0,True


In [13]:
# eastern 컬럼 삭제: 방법1

df.drop('south', axis=1)
# df = df.drop('south', axis=1) 권장 방법 

Unnamed: 0,state,year,pop
0,서울,2014,997.5
1,서울,2016,984.3
2,서울,2018,970.5
3,부산,2014,345.2
4,부산,2016,344.7
5,부산,2018,340.0


In [14]:
# eastern 컬럼 삭제: 방법2

df.drop('south', axis=1, inplace=True) #결과와dataframe 한번에 고쳐라 
# df2 = df2.drop('south', axis=1)
# del df2['south']
df

Unnamed: 0,state,year,pop
0,서울,2014,997.5
1,서울,2016,984.3
2,서울,2018,970.5
3,부산,2014,345.2
4,부산,2016,344.7
5,부산,2018,340.0


<font color='blue'>
아래와 같은 조건에 따라 값이 채워지는 새로운 필드 'pop2'를 만들려고 한다. (이 예제는 굉장히 중요한 내용!!!)<br>
if pop > 2 then pop2 = pop + 2, else pop2 = pop + 1.5

In [None]:
# 아래와 같이 코딩하면 오류가 발생한다!!!

if df['pop'] > 2:
    df['pop2'] = df['pop'] + 2
else:
    df['pop2'] = df['pop'] + 1.5

In [None]:
# 그 이유: Series 타입 변수의 연산은 element-wise이기 때문.

df['pop'] > 2

In [None]:
# 해결방법: 먼저 아래와 같은 함수를 만든 후,
def f(x) :    
    return x + 2 if x > 2 else x + 1.5

In [None]:
# Series의 apply 메소드를 사용하여 위 함수를 Series의 각 element에 적용한다.
# 얼마 전에 배운 map함수와 유사

df['pop2'] = df['pop'].apply(f)
df

In [None]:
x = [1,2,3,4,5]
Series(x).apply(lambda x: np.sqrt(x))

In [None]:
# 위 해결방법이 이해가 되지 않으면, np.where()라는 numpy에서 제공하는 함수를 쓰면된다.
# 이 함수는 excel의 IF()함수와 사용법이 같다.

df['pop2'] = np.where(df['pop'] > 2, df['pop'] + 2, df['pop'] + 1.5)
df

In [None]:
# lambda 함수를 사용할 줄 아는 사람은 아래와 같이 깔끔하게 코딩토록 하자.
# 이해가 되지 않으면 지금은 그냥 무시해도 된다.

df['pop2'] = df['pop'].apply(lambda x: x + 2 if x > 2 else x + 1.5)
df

## Renaming Columns

In [15]:
data = {'state': ['서울', '서울', '서울', '부산', '부산', '부산'],
        'year': [2014, 2016, 2018, 2014, 2016, 2018],
        'pop': [997.5, 984.3, 970.5, 345.2, 344.7, 340.0]}
df = DataFrame(data)
df

Unnamed: 0,state,year,pop
0,서울,2014,997.5
1,서울,2016,984.3
2,서울,2018,970.5
3,부산,2014,345.2
4,부산,2016,344.7
5,부산,2018,340.0


In [16]:
# rename을 column 뿐만아니라 index에도 적용할 수 있기 때문에 columns 파라미터가 필요하다는 걸 명심하자.

df.rename(columns = {'pop': '인구'})

Unnamed: 0,state,year,인구
0,서울,2014,997.5
1,서울,2016,984.3
2,서울,2018,970.5
3,부산,2014,345.2
4,부산,2016,344.7
5,부산,2018,340.0


In [17]:
df = df.rename(columns = {'pop': '인구', 'state': '광역시', 'year':'연도' })
df

Unnamed: 0,광역시,연도,인구
0,서울,2014,997.5
1,서울,2016,984.3
2,서울,2018,970.5
3,부산,2014,345.2
4,부산,2016,344.7
5,부산,2018,340.0


## Removing Duplicate Rows

In [24]:
df = DataFrame({'k1': ['one'] * 3 + ['two'] * 4,
                  'k2': [1, 1, 2, 3, 3, 4, 4]})
df

Unnamed: 0,k1,k2
0,one,1
1,one,1
2,one,2
3,two,3
4,two,3
5,two,4
6,two,4


In [25]:
df.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
2,one,2
3,two,3
5,two,4


In [26]:
df['v1'] = range(7)
df

Unnamed: 0,k1,k2,v1
0,one,1,0
1,one,1,1
2,one,2,2
3,two,3,3
4,two,3,4
5,two,4,5
6,two,4,6


In [27]:
df.drop_duplicates(['k1'])

Unnamed: 0,k1,k2,v1
0,one,1,0
3,two,3,3


In [28]:
df.drop_duplicates()

Unnamed: 0,k1,k2,v1
0,one,1,0
1,one,1,1
2,one,2,2
3,two,3,3
4,two,3,4
5,two,4,5
6,two,4,6


<font color = 'blue'>Duplicated and drop_duplicates by default keep the first observed value combination. Passing *keep='last'* will return the last one:

In [29]:
df.drop_duplicates(['k1', 'k2'], keep='last')

Unnamed: 0,k1,k2,v1
1,one,1,1
2,one,2,2
4,two,3,4
6,two,4,6


## Sorting

In [18]:
df = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
df

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [19]:
df.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


<font color = 'blue'>The data is sorted in ascending order by default, but can be sorted in descending order,too:

In [20]:
df.sort_values(by='b', ascending=False) #내림차순 

Unnamed: 0,b,a
1,7,1
0,4,0
3,2,1
2,-3,0


<font color = 'blue'>To sort by multiple columns, pass a list of names:

In [21]:
df.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


<font color = 'blue'>Ranking is closely related to sorting, assigning ranks from one through the number of valid data points in an array.

In [22]:
df.rank()

Unnamed: 0,b,a
0,3.0,1.5
1,4.0,3.5
2,1.0,1.5
3,2.0,3.5


In [23]:
df.rank(method = 'min')

Unnamed: 0,b,a
0,3.0,1.0
1,4.0,3.0
2,1.0,1.0
3,2.0,3.0


<font color = "#CC3D3D"><p>
# End