In [1]:
# Series - 1차원 배열
# DataFrame - 2차원 배열, 표 형태
import numpy as np
import pandas as pd

In [2]:
# Series 자료형 생성
obj = pd.Series([3, 6, 9, 12])
print(obj)
print(type(obj)) # 자료형
print(len(obj)) # 갯수

0     3
1     6
2     9
3    12
dtype: int64
<class 'pandas.core.series.Series'>
4


In [3]:
# 기본거으로 숫자 인덱스로 처리됨
obj = pd.Series([3, 6, 9, 12])
obj

0     3
1     6
2     9
3    12
dtype: int64

In [4]:
# 숫자 대신 문자열 인덱스 사용 가능
obj = pd.Series([3, 6, 9, 12], index=["a", "b", "c", "d"])
obj

a     3
b     6
c     9
d    12
dtype: int64

In [5]:
# key, value료 구성된 딕셔너리 자료형
emp = {"김철수": 5000, "김철호": 7000, "한상민": 5000, "문대용": 4500}
print(emp)
# 딕셔너리를 판다스의 시리즈로 변환
obj = pd.Series(emp)
print(obj)

{'김철수': 5000, '김철호': 7000, '한상민': 5000, '문대용': 4500}
김철수    5000
김철호    7000
한상민    5000
문대용    4500
dtype: int64


In [6]:
# 데이터프레임(2차원 배열)
a = pd.DataFrame([ [10, 20, 30], [40, 50, 60], [70, 80, 90]])
print(a)
print(type(a))
print(len(a))

    0   1   2
0  10  20  30
1  40  50  60
2  70  80  90
<class 'pandas.core.frame.DataFrame'>
3


In [7]:
# 원하는 데이터 추출하기
# 키, 몸무게, 유형 데이터프레임 생성하기
tbl = pd.DataFrame({
    "weight": [80.0, 70.4, 65.5, 45.9, 51.2],
    "height": [170, 180, 155, 143, 154],
    "gender": ["f", "m", "m", "f", "f"]
})
# 몸무게 목록 추출하기
print("몸무게 목록")
print(tbl["weight"])
# 몸무게와 키 목록 추출하기
print("몸무게와 키 목록")
print(tbl[["weight", "height"]])
print("--- height가 160 이상")
print(tbl[tbl.height >= 160])
print("--- gender가 m")
print(tbl[tbl.gender == "m"])
print("--- 키로 정렬")
print(tbl.sort_values(by="height"))
print("--- 몸무게로 정렬")
print(tbl.sort_values(by="weight", ascending=False))

몸무게 목록
0    80.0
1    70.4
2    65.5
3    45.9
4    51.2
Name: weight, dtype: float64
몸무게와 키 목록
   weight  height
0    80.0     170
1    70.4     180
2    65.5     155
3    45.9     143
4    51.2     154
--- height가 160 이상
   weight  height gender
0    80.0     170      f
1    70.4     180      m
--- gender가 m
   weight  height gender
1    70.4     180      m
2    65.5     155      m
--- 키로 정렬
   weight  height gender
3    45.9     143      f
4    51.2     154      f
2    65.5     155      m
0    80.0     170      f
1    70.4     180      m
--- 몸무게로 정렬
   weight  height gender
0    80.0     170      f
1    70.4     180      m
2    65.5     155      m
4    51.2     154      f
3    45.9     143      f


In [8]:
# 데이터프레임
# Dictionary 형태로 데이터 저장
data = {"names": ["김철수", "이철호", "김영희", "박민수", "송철호"],
       "year": [2014, 2015, 2016, 2017, 2018],
       "points": [1.5, 1.7, 3.6, 2.4, 2.9]}
# 데이터프레임으로 변환
df = pd.DataFrame(data)
# 표 형태의 데이터로 출력됨
df

Unnamed: 0,names,year,points
0,김철수,2014,1.5
1,이철호,2015,1.7
2,김영희,2016,3.6
3,박민수,2017,2.4
4,송철호,2018,2.9


In [9]:
# 값 확인(2차원 ndarray로 출력됨)
df.values

array([['김철수', 2014, 1.5],
       ['이철호', 2015, 1.7],
       ['김영희', 2016, 3.6],
       ['박민수', 2017, 2.4],
       ['송철호', 2018, 2.9]], dtype=object)

In [10]:
# 인덱스와 컬럼 이름을 바꿀 수 있다.
df.index.name = "Num"
df.columns.name = "Info"
df

Info,names,year,points
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,김철수,2014,1.5
1,이철호,2015,1.7
2,김영희,2016,3.6
3,박민수,2017,2.4
4,송철호,2018,2.9


In [11]:
df2 = pd.DataFrame(data, 
                   columns=["year", "names", "points", "penalty"], 
                   index=["one", "two", "three", "four", "five"])
df2
# penalty는 새로운 필드이므로 NaN(Not a Number)로 표시됨
# NaN 컬럼은 어떤 연산도 처리되지 않으므로 대체값을 지정하는 것이 필요함
# 컬럼과 인덱스에 key 이름을 지정할 수 있다.

Unnamed: 0,year,names,points,penalty
one,2014,김철수,1.5,
two,2015,이철호,1.7,
three,2016,김영희,3.6,
four,2017,박민수,2.4,
five,2018,송철호,2.9,


In [12]:
# 결측값을 0으로 채움
df3 = df2.fillna(0)
df3

Unnamed: 0,year,names,points,penalty
one,2014,김철수,1.5,0
two,2015,이철호,1.7,0
three,2016,김영희,3.6,0
four,2017,박민수,2.4,0
five,2018,송철호,2.9,0


In [13]:
df3.values

array([[2014, '김철수', 1.5, 0],
       [2015, '이철호', 1.7, 0],
       [2016, '김영희', 3.6, 0],
       [2017, '박민수', 2.4, 0],
       [2018, '송철호', 2.9, 0]], dtype=object)

In [14]:
# 계산 가능한 컬럼에 대해 기본통계량을 계산하여 출력
# 데이터셋을 전반적으로 살펴보고 싶을 때 유용함
df3.describe()

Unnamed: 0,year,points,penalty
count,5.0,5.0,5.0
mean,2016.0,2.42,0.0
std,1.581139,0.864292,0.0
min,2014.0,1.5,0.0
25%,2015.0,1.7,0.0
50%,2016.0,2.4,0.0
75%,2017.0,2.9,0.0
max,2018.0,3.6,0.0


In [15]:
# 데이터프레임 인덱싱
data = {"names": ["김철수", "이철호", "김영희", "박민수", "송철호"],
       "year": [2014, 2015, 2016, 2017, 2018],
       "points": [1.5, 1.7, 3.6, 2.4, 2.9]}
# 인덱스와 컬럼을 스트링으로 표현
df = pd.DataFrame(data, 
                   columns=["year", "names", "points", "penalty"], 
                   index=["one", "two", "three", "four", "five"])
df

Unnamed: 0,year,names,points,penalty
one,2014,김철수,1.5,
two,2015,이철호,1.7,
three,2016,김영희,3.6,
four,2017,박민수,2.4,
five,2018,송철호,2.9,


In [16]:
# year 컬럼만 선택, 인덱스와 함께 표시됨
# 하나의 열, 행을 선택하면 Series 형으로 출력됨
df["year"]

one      2014
two      2015
three    2016
four     2017
five     2018
Name: year, dtype: int64

In [17]:
# 위와 같은 방법
df.year

one      2014
two      2015
three    2016
four     2017
five     2018
Name: year, dtype: int64

In [18]:
# 복수개의 열
df[["year", "points"]]

Unnamed: 0,year,points
one,2014,1.5
two,2015,1.7
three,2016,3.6
four,2017,2.4
five,2018,2.9


In [19]:
df["penalty"]

one      NaN
two      NaN
three    NaN
four     NaN
five     NaN
Name: penalty, dtype: object

In [20]:
#NaN 필드에 0.5를 대입
df["penalty"] = 0.5
df

Unnamed: 0,year,names,points,penalty
one,2014,김철수,1.5,0.5
two,2015,이철호,1.7,0.5
three,2016,김영희,3.6,0.5
four,2017,박민수,2.4,0.5
five,2018,송철호,2.9,0.5


In [21]:
# 각각 다른 값을 입력할 경우(우변에 리스트 또는 ndarray로 작성)
df["penalty"] = [0.1, 0.2, 0.3, 0.4, 0.5]
df

Unnamed: 0,year,names,points,penalty
one,2014,김철수,1.5,0.1
two,2015,이철호,1.7,0.2
three,2016,김영희,3.6,0.3
four,2017,박민수,2.4,0.4
five,2018,송철호,2.9,0.5


In [22]:
# 새로운 컬럼을 추가할 경우
df["ages"] = np.arange(10, 15) # 10 ~ 14까지의 값이 입력됨 (range 함수와 비슷)
df

Unnamed: 0,year,names,points,penalty,ages
one,2014,김철수,1.5,0.1,10
two,2015,이철호,1.7,0.2,11
three,2016,김영희,3.6,0.3,12
four,2017,박민수,2.4,0.4,13
five,2018,송철호,2.9,0.5,14


In [23]:
# 필드 삭제 
del df["ages"]
df

Unnamed: 0,year,names,points,penalty
one,2014,김철수,1.5,0.1
two,2015,이철호,1.7,0.2
three,2016,김영희,3.6,0.3
four,2017,박민수,2.4,0.4
five,2018,송철호,2.9,0.5


In [24]:
# 데이터프레임의 인덱스와 컬럼 이름 정의
df.index.name = "Order"
df.columns.name = "Info"
df

Info,year,names,points,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
one,2014,김철수,1.5,0.1
two,2015,이철호,1.7,0.2
three,2016,김영희,3.6,0.3
four,2017,박민수,2.4,0.4
five,2018,송철호,2.9,0.5


In [25]:
# 숫자 인덱스 사용 : 0~2 인덱스
df[0:3]

Info,year,names,points,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
one,2014,김철수,1.5,0.1
two,2015,이철호,1.7,0.2
three,2016,김영희,3.6,0.3


In [26]:
# 행 선택
df.loc["two"] # loc : 특정한 행만 뽑아낼 때

Info
year       2015
names       이철호
points      1.7
penalty     0.2
Name: two, dtype: object

In [27]:
# two ~ four 인덱스 범위
df.loc["two":"four"]

Info,year,names,points,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
two,2015,이철호,1.7,0.2
three,2016,김영희,3.6,0.3
four,2017,박민수,2.4,0.4


In [28]:
# loc[행, 열]
# two ~ four 행 중에서 points 열 선택
df.loc["two":"four", "points"]

Order
two      1.7
three    3.6
four     2.4
Name: points, dtype: float64

In [29]:
# 전체 행 중에서 year, names 필드만 선택
df.loc[:, ["year", "names"]]

Info,year,names
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
one,2014,김철수
two,2015,이철호
three,2016,김영희
four,2017,박민수
five,2018,송철호


In [30]:
# 인덱스 3행(네번째행)
df.iloc[3]

Info
year       2017
names       박민수
points      2.4
penalty     0.4
Name: four, dtype: object

In [31]:
# 행, 열에 대한 범위 인덱싱
# 3~4행, 0~1열
df.iloc[3:5, 0:2]

Info,year,names
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
four,2017,박민수
five,2018,송철호


In [32]:
# 원하는 인덱스 명시 가능
df.iloc[[0,1,3], [1,2]]

Info,names,points
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
one,김철수,1.5
two,이철호,1.7
four,박민수,2.4


In [33]:
# 모든 행의 1~3 열
df.iloc[:, 1:4]

Info,names,points,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,김철수,1.5,0.1
two,이철호,1.7,0.2
three,김영희,3.6,0.3
four,박민수,2.4,0.4
five,송철호,2.9,0.5


In [34]:
# 1행 1열의 값
df.iloc[1,1]

'이철호'

In [35]:
# boolean 인덱싱
# year가 2014보다 큰 데이터를 선택하려면?
df["year"] > 2014
# boolean Series가 출력된다. 마스크라고 함

Order
one      False
two       True
three     True
four      True
five      True
Name: year, dtype: bool

In [36]:
# True가 나온 행들만 선택
df.loc[df["year"] > 2014, :]

Info,year,names,points,penalty
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
two,2015,이철호,1.7,0.2
three,2016,김영희,3.6,0.3
four,2017,박민수,2.4,0.4
five,2018,송철호,2.9,0.5


In [37]:
# 데이터 프레임 조작
# 인덱스와 컬럼에 대한 정보가 없으면 0부터 시작하는 인덱스와 컬럼으로 설정된다.
# 6행 4열의 데이터프레임, randn() 정규분포 난수 생성
df = pd.DataFrame(np.random.randn(6, 4))
df

Unnamed: 0,0,1,2,3
0,-0.766368,1.022753,-0.489439,-0.173583
1,-0.042032,-0.44827,1.261757,-1.276562
2,-0.61702,0.277259,-0.960254,0.893212
3,0.419759,-0.372187,-1.64943,-1.126393
4,1.6118,1.181769,1.280224,0.972637
5,-0.084536,-0.718106,1.693527,1.620016


In [38]:
# 컬럼과 인덱스 설정
df.columns = ["A", "B", "C", "D"]
# 20180301부터 6일간의 날짜 생성
df.index = pd.date_range("20180225", periods=6)
df.index

DatetimeIndex(['2018-02-25', '2018-02-26', '2018-02-27', '2018-02-28',
               '2018-03-01', '2018-03-02'],
              dtype='datetime64[ns]', freq='D')

In [39]:
df

Unnamed: 0,A,B,C,D
2018-02-25,-0.766368,1.022753,-0.489439,-0.173583
2018-02-26,-0.042032,-0.44827,1.261757,-1.276562
2018-02-27,-0.61702,0.277259,-0.960254,0.893212
2018-02-28,0.419759,-0.372187,-1.64943,-1.126393
2018-03-01,1.6118,1.181769,1.280224,0.972637
2018-03-02,-0.084536,-0.718106,1.693527,1.620016


In [40]:
# 컬럼 삭제
# drop 함수는 기본적으로 행을 삭제한다.
# axis에 1을 주게 되면 컬럼을 삭제한다.
df.drop("A", axis=1)
df
# 지워지지 않음
# 좌변에 새로운 데이터프레임 변수를 할당해야 함

Unnamed: 0,A,B,C,D
2018-02-25,-0.766368,1.022753,-0.489439,-0.173583
2018-02-26,-0.042032,-0.44827,1.261757,-1.276562
2018-02-27,-0.61702,0.277259,-0.960254,0.893212
2018-02-28,0.419759,-0.372187,-1.64943,-1.126393
2018-03-01,1.6118,1.181769,1.280224,0.972637
2018-03-02,-0.084536,-0.718106,1.693527,1.620016


In [41]:
# 여러 칼럼 삭제
df.drop(["A", "B", "C"], axis=1)

Unnamed: 0,D
2018-02-25,-0.173583
2018-02-26,-1.276562
2018-02-27,0.893212
2018-02-28,-1.126393
2018-03-01,0.972637
2018-03-02,1.620016


In [42]:
# 데이터 분석용 함수
df = pd.DataFrame({
    "weight": [80.0, 70.4, 65.5, 45.9, 51.2],
    "height": [170, 180, 155, 143, 154],
})
df

Unnamed: 0,weight,height
0,80.0,170
1,70.4,180
2,65.5,155
3,45.9,143
4,51.2,154


In [43]:
# 세로방향 합(각 열의 합)
df.sum(axis=0)

weight    313.0
height    802.0
dtype: float64

In [44]:
# 가로방향 합(각 행의 합)
df.sum(axis=1)

0    250.0
1    250.4
2    220.5
3    188.9
4    205.2
dtype: float64

In [45]:
# height 열의 평균
df["height"].mean()

160.4

In [46]:
# height 열의 분산(평균으로부터 얼마나 떨어져 있는지)
df["height"].var()

212.3

In [47]:
# 새로운 데이터프레임 생성
df3 = pd.DataFrame(np.random.randn(4,3),
                  columns = ["b", "d", "e"],
                  index = ["서울", "인천", "대구", "부산"])
df3

Unnamed: 0,b,d,e
서울,-0.937666,1.99355,-0.786919
인천,-2.067932,-0.552892,0.552626
대구,-0.473392,-0.002286,-1.055655
부산,0.18791,-0.238936,1.125307


In [48]:
# 람다식 정의 : x가 입력되면 최댓값에서 최솟값을 뺀 값을 리턴한다.
# lambda 입력 : 출력
func = lambda x : x.max() - x.min()

# 위와 같은 함수를 더 간단하게 씀
# def func(x):
#     return x.max() - x.min()

# 데이터프레임의 각 열(세로방향)에 func 함수를 적용한다.
# apply(함수이름)
df3.apply(func, axis=0)

b    2.255842
d    2.546442
e    2.180962
dtype: float64

In [49]:
# 데이터프레임의 각 행(가로방향)에 func 함수를 적용한다.
df3.apply(func, axis=1)

서울    2.931216
인천    2.620558
대구    1.053369
부산    1.364244
dtype: float64

In [50]:
# csv 모듈을 사용하지 않고 파이썬 문법만 사용한 코드
input_file = "./data/input.csv"
output_file = "./data/output1.csv"

# newline='' 개행문자를 무시하고 읽음, 이 옵션이 없으면 빈 라인이 추가됨
with open(input_file, 'r', newline = '') as reader:
    with open(output_file, 'w', newline = '') as writer:
        # 첫줄을 읽음(헤더)
        header = reader.readline()
        # strip() : 문자열 좌우의 공백, 탭, 개행문자 제거
        header = header.strip()
        # 쉼표를 기준으로 문자열을 나눠서 리스트를 리턴함
        header_list = header.split(',')
        print(header_list)
        # header_list의 각 값 사이에 쉼표를 삽입하고 리스트를 문자열로 변환
        # 개행문자를 끝에 추가
        # print(str)
        # header_list의 각 요소를 스트링으로 변환
        # print(map(str, header_list))
        # header 행의 문자열
        # print(','.join(map(str, header_list))+'\n')
        # 파일에 기록
        writer.write(','.join(map(str,header_list))+'\n')
        for row in reader:
            row = row.strip()
            row_list = row.split(',')
            print(row_list)
            writer.write(','.join(map(str,row_list))+'\n')

['Supplier Name', 'Invoice Number', 'Part Number', 'Cost', 'Purchase Date']
['A', '001-1001', '2341', '500000', '2014-01-20']
['A', '001-1001', '2341', '500000', '2014-01-20']
['A', '001-1001', '5467', '750000', '2014-01-20']
['A', '001-1001', '5467', '750000', '2014-01-20']
['B', '50-9501', '7009', '250000', '2018-01-30']
['B', '50-9501', '7009', '250000', '2018-01-30']
['B', '50-9505', '6650', '125000', '2017-02-03']
['B', '50-9505', '6650', '125000', '2017-02-03']
['C', '920-4803', '3321', '615000', '2017-02-03']
['C', '920-4804', '3321', '615000', '2017-02-10']
['C', '920-4805', '3321', '615000', '2017-02-17']
['C', '920-4806', '3321', '615000', '2017-02-24']


In [51]:
# pandas를 이용한 csv 파일 읽기
import sys
import pandas as pd
input_file = "./data/input.csv"
output_file = "./data/output2.csv"
# csv 파일을 읽어서 데이터프레임 형식으로 저장
data_frame = pd.read_csv(input_file)
print(data_frame)
# 데이터프레임 데이터를 csv로 저장
data_frame.to_csv(output_file, index=False)

   Supplier Name Invoice Number  Part Number    Cost Purchase Date
0              A       001-1001         2341  500000    2014-01-20
1              A       001-1001         2341  500000    2014-01-20
2              A       001-1001         5467  750000    2014-01-20
3              A       001-1001         5467  750000    2014-01-20
4              B        50-9501         7009  250000    2018-01-30
5              B        50-9501         7009  250000    2018-01-30
6              B        50-9505         6650  125000    2017-02-03
7              B        50-9505         6650  125000    2017-02-03
8              C       920-4803         3321  615000    2017-02-03
9              C       920-4804         3321  615000    2017-02-10
10             C       920-4805         3321  615000    2017-02-17
11             C       920-4806         3321  615000    2017-02-24


In [52]:
# 파이썬에 내장된 csv 모듈을 사용하여 데이터 로딩
import csv
import sys
input_file = "./data/input.csv"
output_file = "./data/output3.csv"
# r : 읽기전용 파일
with open(input_file, 'r', newline='') as csv_in_file:
    # w : 쓰기전용 파일
    with open(output_file, 'w', newline='') as csv_out_file:
        # 필드 구분자를 쉼표(,)로 설정
        filereader = csv.reader(csv_in_file, delimiter=",")
        filewriter = csv.writer(csv_out_file, delimiter=',')
        for row_list in filereader: # 한 라인씩 읽음
            print(row_list)
            # 한줄을 파일에 저장
            filewriter.writerow(row_list)

['Supplier Name', 'Invoice Number', 'Part Number', 'Cost', 'Purchase Date']
['A', '001-1001', '2341', '500000', '2014-01-20']
['A', '001-1001', '2341', '500000', '2014-01-20']
['A', '001-1001', '5467', '750000', '2014-01-20']
['A', '001-1001', '5467', '750000', '2014-01-20']
['B', '50-9501', '7009', '250000', '2018-01-30']
['B', '50-9501', '7009', '250000', '2018-01-30']
['B', '50-9505', '6650', '125000', '2017-02-03']
['B', '50-9505', '6650', '125000', '2017-02-03']
['C', '920-4803', '3321', '615000', '2017-02-03']
['C', '920-4804', '3321', '615000', '2017-02-10']
['C', '920-4805', '3321', '615000', '2017-02-17']
['C', '920-4806', '3321', '615000', '2017-02-24']


In [53]:
# 특정 행 필터링
import csv
import sys
input_file = "./data/input.csv"
output_file = "./data/output4.csv"
with open(input_file, 'r', newline='') as csv_in_file:
    with open(output_file, 'w', newline='') as csv_out_file:
        filereader = csv.reader(csv_in_file)
        filewriter = csv.writer(csv_out_file)
        # 한 라인을 읽음(첫 라인)
        header = next(filereader)
        # 한 라인을 저장(첫 라인)
        filewriter.writerow(header)
        for row in filereader: # 한 라인씩 읽음
            # 행의 첫번째 필드의 좌우 공백 제거
            supplier = str(row[0]).strip()
            # $ 문자를 제거하고 쉼표를 제거
            cost = str(row[3]).strip('$').replace(',', '')
            # Supplier Z 이거나 cost가 600 이상인 행만 파일에 저장
            if supplier == 'A' or float(cost) >= 600000.0:
                filewriter.writerow(row)

In [54]:
# pandas를 이용하여 데이터 필터링1
import pandas as pd
import sys
input_file = "./data/input.csv"
output_file = "./data/output5.csv"
# csv 파일을 읽어서 데이터 프레임으로 저장
df = pd.read_csv(input_file)
# 데이터 프레임에서 Cost 필드(실수값)를 스트링으로 바꾼 후 $ 문자 제거
# 다시 float로 변환하여 저장
# df['Cost'] = df['Cost'].str.strip('$').astype(float)
# Supplier Name 필드에 A가 포함되거나 Cost가 600000보다
# 큰 데이터만 선택하여 새로운 데이터프레임에 저장
# loc[행 필터링 조건 : 열 필터링 조건]
result = df.loc[\
(df['Supplier Name'].str.contains('A')) & (df['Cost'] > 600000.0), :]
# csv에 결과 저장
# index를 내보내고 싶지 않은 경우 index=False
print(result)
result.to_csv(output_file, index=False)

  Supplier Name Invoice Number  Part Number    Cost Purchase Date
2             A       001-1001         5467  750000    2014-01-20
3             A       001-1001         5467  750000    2014-01-20


In [55]:
# pandas를 이용하여 데이터 필터링2
import pandas as pd
import sys
input_file = "./data/input.csv"
output_file = "./data/output6.csv"
df = pd.read_csv(input_file)
# Purchase Date의 범위가 2014-01-20 ~ 2014-01-30 인 데이터
dates = ['2014-01-20', '2014-01-30']
# isin() : 포함 여부
# df.loc[행위범위, 열의범위]
result = df.loc[df['Purchase Date'].isin(dates), :]
print(result)
result.to_csv(output_file, index=False)

  Supplier Name Invoice Number  Part Number    Cost Purchase Date
0             A       001-1001         2341  500000    2014-01-20
1             A       001-1001         2341  500000    2014-01-20
2             A       001-1001         5467  750000    2014-01-20
3             A       001-1001         5467  750000    2014-01-20


In [56]:
# pandas를 이용하여 인덱스값을 이용하여 열 선택
import pandas as pd
import sys
input_file = "./data/input.csv"
output_file = "./data/output7.csv"
df = pd.read_csv(input_file)
# iloc(행 인덱스 범위, 열 인덱스 범위) : 인덱스 기반으로 검색
# 컬럼 인덱스 0번과 3번만을 선택
# 행은 전체행, 열은 0번과 3번만 선택
result = df.iloc[:, [0, 3]]
print(result)
result.to_csv(output_file, index=False)

   Supplier Name    Cost
0              A  500000
1              A  500000
2              A  750000
3              A  750000
4              B  250000
5              B  250000
6              B  125000
7              B  125000
8              C  615000
9              C  615000
10             C  615000
11             C  615000


In [57]:
# pandas를 이용하여 인덱스값을 이용하여 열 선택
import pandas as pd
import sys
input_file = "./data/input.csv"
output_file = "./data/output8.csv"
df = pd.read_csv(input_file)
# loc(행 범위, 열 범위) - iloc와 구분!
# 컬럼 이름으로 선택
# 행은 전체행, 열은 Supplier Name과 Cost만 선택
# iloc 함수는 숫자 인덱스만 사용 가능, loc 함수는 문자열 인덱스 사용 가능
result = df.loc[:, ["Supplier Name", "Cost"]]
print(result)
result.to_csv(output_file, index=False)

   Supplier Name    Cost
0              A  500000
1              A  500000
2              A  750000
3              A  750000
4              B  250000
5              B  250000
6              B  125000
7              B  125000
8              C  615000
9              C  615000
10             C  615000
11             C  615000


In [58]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
import pymysql

In [59]:
# MySQL Connector using pymysql
pymysql.install_as_MySQLdb()
import MySQLdb
# MySQL에 접속
engine = create_engine(\
"mysql+mysqldb://java:java1234@localhost/pyweb", encoding="utf-8")

conn = engine.connect()

In [60]:
# csv 로딩
df = pd.read_csv("./data/input.csv", engine="python", encoding="utf-8")

df.head()

Unnamed: 0,Supplier Name,Invoice Number,Part Number,Cost,Purchase Date
0,A,001-1001,2341,500000,2014-01-20
1,A,001-1001,2341,500000,2014-01-20
2,A,001-1001,5467,750000,2014-01-20
3,A,001-1001,5467,750000,2014-01-20
4,B,50-9501,7009,250000,2018-01-30


In [61]:
df.columns = ["Supplier Name", "Invoice Number", "Part Number",
             "Cost", "Purchase Date"]

# replace : 테이블 삭제 후 저장
# append : 레코드 추가
# fail : 실패, 기본동작
df.to_sql(name="input", con=engine, if_exists='replace', index=False) 

In [62]:
# 항공 데이터 분석

# 3년치 - 로딩 시간이 오래 걸림
df1 = pd.read_csv("./data/airline/2006.csv", sep=",")
df2 = pd.read_csv("./data/airline/2007.csv", sep=",")
df3 = pd.read_csv("./data/airline/2008.csv", sep=",")

# 데이터프레임을 합침
df1 = df1.append(df2)
df1 = df1.append(df3)

In [63]:
# 데이터프레임의 크기 확인
df1.shape

(21604865, 29)

In [64]:
# 컬럼 정보 확인
df.columns

Index(['Supplier Name', 'Invoice Number', 'Part Number', 'Cost',
       'Purchase Date'],
      dtype='object')

In [65]:
# 필요한 열 선택(연도, 월, 도착지연시간, 출발지연시간)
df2 = df1[["Year", "Month", "ArrDelay", "DepDelay"]]

In [66]:
# 처음 5개 행
df2.head()

Unnamed: 0,Year,Month,ArrDelay,DepDelay
0,2006,1,6.0,-2.0
1,2006,1,-5.0,0.0
2,2006,1,-23.0,0.0
3,2006,1,-8.0,-2.0
4,2006,1,0.0,-8.0


In [67]:
# 마지막 5개행
df2.tail()

Unnamed: 0,Year,Month,ArrDelay,DepDelay
7009723,2008,12,14.0,3.0
7009724,2008,12,-2.0,-1.0
7009725,2008,12,0.0,-5.0
7009726,2008,12,9.0,11.0
7009727,2008,12,-5.0,7.0


In [68]:
# 약 2천만건의 데이터
df2.shape

(21604865, 4)

In [69]:
# 결측값 제거 : 하나의 열이라도 NaN이 포함된 행들을 drop 시킴
df2 = df2.dropna(how = "any")

In [71]:
df2.shape

(21134119, 4)

In [70]:
# 연도, 월 별로 합계 계산
result = df2.groupby(["Year", "Month"], as_index=False).sum()
result

Unnamed: 0,Year,Month,ArrDelay,DepDelay
0,2006,1,3209074.0,4593010.0
1,2006,2,3816913.0,4727162.0
2,2006,3,4728633.0,5802317.0
3,2006,4,3711093.0,4720645.0
4,2006,5,4095290.0,5059736.0
5,2006,6,7063732.0,7558634.0
6,2006,7,6884550.0,7706321.0
7,2006,8,5363410.0,6121895.0
8,2006,9,4816587.0,5008016.0
9,2006,10,6402709.0,6345430.0


In [72]:
# csv로 저장
result.to_csv("./data/airline/result.csv", sep=",")