In [6]:
# python data 분석의 핵심 library
# pandas에서 정의한 고유의 자료구조 : Series, DataFrame
# Series : 1차원 numpy array와 유사 (같은 데이터 타입)
# DataFrame : 2차원 numpy array와 유사 (Table) (다른 데이터 타입 가능)

In [2]:
import numpy as np
import pandas as pd

In [13]:
# Series 생성
obj = pd.Series([-1, 3, 5, 8, 10])
obj.values # series의 value값만 뽑아낼 수 있음
obj.index # 주소구조를 뽑아낼 수 있음

RangeIndex(start=0, stop=5, step=1)

In [16]:
obj.dtype # series의 데이터 타입

dtype('int64')

In [19]:
# Series의 index를 변경
s = pd.Series([1, 5, 8, 10], index=["a", "b", "c", "d"])
s

a     1
b     5
c     8
d    10
dtype: int64

In [25]:
# Dictionary를 이용해서 Series를 생성
dict = {"seoul" : 1000, "busan" : 2000, "suwon" : 3000}
s = pd.Series(dict) # dict를 시리즈로 변경시 키값이 인덱스
s

busan    2000
seoul    1000
suwon    3000
dtype: int64

In [34]:
# Series에 자체에대한 이름과 index에 대한 이름을 부여할 수 있다.
dict = {"seoul" : 1000, "busan" : 2000, "suwon" : 3000}
s = pd.Series(dict) # dict를 시리즈로 변경시 키값이 인덱스
s.name = "price_per_region" #시리즈에 이름을 부여할 수있다
s.index.name = "지역"
s

지역
busan    2000
seoul    1000
suwon    3000
Name: price_per_region, dtype: int64

In [38]:
dict = {"seoul" : 1000, "busan" : 2000, "suwon" : 3000}
s = pd.Series(dict)
s.index = {"SEOUL", "BUSAN", "SUWON"}
s

SEOUL    2000
BUSAN    1000
SUWON    3000
dtype: int64

In [51]:
#DataFrame
data = {"names" : ["강지찬", "혁진씨", "동엽씨", "원석씨"],
       "year" : [1994, 1993, 1992, 1992],
       "points" : [10.0, 3.0, 6.0, 5.0]
       }
df = pd.DataFrame(data)
df.columns # 키값, 컬럼 불러오기
df.values # 2차원 배열 Value값만 불러오기

array([['강지찬', 10.0, 1994],
       ['혁진씨', 3.0, 1993],
       ['동엽씨', 6.0, 1992],
       ['원석씨', 5.0, 1992]], dtype=object)

In [118]:
data = {"names" : ["강지찬", "혁진씨", "동엽씨", "원석씨"],
       "year" : [1994, 1993, 1992, 1992],
       "points" : [10.0, 3.0, 6.0, 5.0]
       }
df = pd.DataFrame(data)
df.index.name = "sNum"
df.columns.name = "sinfo"
df
df.describe() # 자세한 내용 모두 출력

In [79]:
df = pd.DataFrame(data, columns=["year", "names", "points", "grade"], index = ["one", "two", "three", "four"])
df

Unnamed: 0,year,names,points,grade
one,1994,강지찬,10.0,
two,1993,혁진씨,3.0,
three,1992,동엽씨,6.0,
four,1992,원석씨,5.0,


In [78]:
# 특정 column만 보고싶어요!!
df[["year", "names"]]

sinfo,year,names
sNum,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1994,강지찬
1,1993,혁진씨
2,1992,동엽씨
3,1992,원석씨


In [86]:
#특정 column 값을 수정!!!
df["grade"] = ["A", "D", "C", "C"] # 한방에 다넣기
df

Unnamed: 0,year,names,points,grade
one,1994,강지찬,10.0,A
two,1993,혁진씨,3.0,D
three,1992,동엽씨,6.0,C
four,1992,원석씨,5.0,C


In [102]:
# 특정 columns을 추가(기존 컬럼에 연산을 이용해서)

#DataFrame
data = {"names" : ["강지찬", "혁진씨", "동엽씨", "원석씨"],
       "year" : [1994, 1993, 1992, 1992],
       "points" : [10.0, 2.0, 6.0, 5.0]
       }
df = pd.DataFrame(data)
df["double_points"] = df["points"] * 2 # 수치연산

df["hi_points"] = df["points"] > 2.5 # 논리연산을 수행한 마스킹
# del df["points"] # 특정 컬럼 날리기

In [92]:
df.drop("grade", axis=)

Unnamed: 0,names,points,year,hi_points
0,강지찬,10.0,1994,True
1,혁진씨,2.0,1993,False
2,동엽씨,6.0,1992,True
3,원석씨,5.0,1992,True


In [116]:
# 특정 columns을 추가(기존 컬럼에 연산을 이용해서)

#DataFrame
data = {"names" : ["강지찬", "혁진씨", "동엽씨", "원석씨"],
       "year" : [1994, 1993, 1992, 1992],
       "points" : [10.0, 2.0, 6.0, 5.0]
       }
df = pd.DataFrame(data)
df["double_points"] = df["points"] * 2 # 수치연산

df["hi_points"] = df["points"] > 2.5 # 논리연산을 수행한 마스킹
# del df["points"] # 특정 컬럼 날리기

result = df.drop("double_points", axis=1) #0은 행방향, 1은 열방향 축(3차원시 0은 깊이, 1은 행, 2는 열방향 축) 리턴값이라
# 1차원에서는 axis값은 0만 사용하고 0의 값은 직선방향(오른쪽 방향)
# 2차원에서는 axis값은 0과 1만 사용하고 0은 행방향, 1은 열방향
# 3차원에서는 axis값은 0과 1과 2만 사용하고 0은 깊이, 1은 행방향, 2는 열방향을 의미
df # 원래 데이터는 지워지지않음
result


Unnamed: 0,names,points,year,hi_points
0,강지찬,10.0,1994,True
1,혁진씨,2.0,1993,False
2,동엽씨,6.0,1992,True
3,원석씨,5.0,1992,True


In [128]:
# row indexing
data = {"names" : ["강지찬", "혁진씨", "동엽씨", "원석씨"],
       "year" : [1994, 1993, 1992, 1992],
       "points" : [10.0, 3.0, 6.0, 5.0]
       }
df = pd.DataFrame(data)
df.index.name = "sNum"
df.columns.name = "sinfo"
df
df.describe() # 자세한 내용 모두 출력
df = pd.DataFrame(data, columns=["year", "names", "points", "grade"], index = ["one", "two", "three", "four"])

# df[0:1] # row 좋은방식이 아니다 헷갈린다
df.loc["one"] # 해당 인덱스를 시리즈 형태로 불러온다
df.loc["one":"three", "names":"points"] # 해당 부터 까지를 시리즈 형태로 불러온다

Unnamed: 0,names,points
one,강지찬,10.0
two,혁진씨,3.0
three,동엽씨,6.0


In [156]:
# row indexing
data = {"names" : ["강지찬", "혁진씨", "동엽씨", "원석씨"],
       "year" : [1994, 1993, 1992, 1992],
       "points" : [10.0, 3.0, 6.0, 5.0]
       }
df = pd.DataFrame(data)
df.index.name = "sNum"
df.columns.name = "sinfo"
df
df.describe() # 자세한 내용 모두 출력
df = pd.DataFrame(data, columns=["year", "names", "points", "grade"], index = ["one", "two", "three", "four"])

# df[0:1] # row 좋은방식이 아니다 헷갈린다
df.loc["one"] # 해당 인덱스를 시리즈 형태로 불러온다
df.loc["one":"three", "names":"points"] # 해당 부터 까지를 시리즈 형태로 불러온다
df["grade"] = ["A", "D", "C", "C"] # 한방에 다넣기
df.loc["six",:] = [2016, "준오씨", 3, "C"] # 없는 데이터는 한번에 넣어주기도 할 수 있다.


df = df.drop("one", axis=0) # 행지우기
df = df.drop("grade", axis=1)# 열지우기
df


Unnamed: 0,year,names,points
two,1993.0,혁진씨,3.0
three,1992.0,동엽씨,6.0
four,1992.0,원석씨,5.0
six,2016.0,준오씨,3.0


In [6]:
# iloc
data = {"names" : ["강지찬", "혁진씨", "동엽씨", "원석씨"],
       "year" : [1994, 1993, 1992, 1992],
       "points" : [10.0, 3.0, 6.0, 5.0]
       }
df = pd.DataFrame(data)
df.index.name = "sNum"
df.columns.name = "sinfo"
df
df.describe() # 자세한 내용 모두 출력
df = pd.DataFrame(data, columns=["year", "names", "points", "grade"], index = ["one", "two", "three", "four"])
 
df.iloc[0:3, 0:1] # iloc는 숫자를 사용할 수 있다. column 과 row 한꺼번에 자를수 있다.

# MASK True or False
# df["points"] > 5.0 # this is mask
# df.loc["행"]["열"]
df.loc[df["points"] > 5.0,["names", "points"]] # 조건에 맞는것만 들고올 수 있다.,
df.loc[df["names"] == "강지찬",["names", "points"]] # 조건에 맞는것만 들고올 수 있다.,
df.loc[df["year"] > 1995 & (df["points"] > 5.0), "names":"points"]
# points 값이 3.0 이상일경우 grade를 A로 설정
df.loc[df["points"] > 5.0, "grade"] = "A"
df

NameError: name 'pd' is not defined

In [258]:
import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.randn(6, 4)) # 6행 4열 짜리 난수로 구성된 데이터 프레임 생성
df.columns = ["A", "B", "C", "D"]
df.index = pd.date_range("20190101", periods=6) # 날짜로 인덱스 구성하기
df["E"] = [3.5, np.nan, 2.0, np.nan, 1.7, 3 ] #np.nan은 NaN 으로 표기 오류날 확률이 높다 제거해 주는것이 좋다

df.dropna(how="any") # any => nan가 하나라도 있으면 행 자체를 날려라
                     # all => 행의 모든 열값이 NaN일경우 해당 행을 삭제
# NaN을 찾아서 다른 값으로 대체시킬 수 있다.
df.fillna(value=0) # nan를 찾아서 채워라 값으로
df.isnull() # NaN을 찾는 boolean indexing

Unnamed: 0,A,B,C,D,E
2019-01-01,False,False,False,False,False
2019-01-02,False,False,False,False,True
2019-01-03,False,False,False,False,False
2019-01-04,False,False,False,False,True
2019-01-05,False,False,False,False,False
2019-01-06,False,False,False,False,False


In [301]:
import numpy as np
import pandas as pd
data = [[2.0, np.nan],
       [7.3, -3.1],
       [np.nan, np.nan],
       [0.55, -2.6]
       ]
df = pd.DataFrame(data, columns=["one", "two"], index=["a","b","c","d"])
df.sum(axis=0) # 행방향으로 더하기
df.sum(axis=1)
df["two"].sum()
df.loc["b"].sum()

df = pd.DataFrame(data, columns=["one", "two"], index=["a", "b", "c", "d"])
df
df["one"] = df["one"].fillna(value = df["one"].mean(axis=0))

df["two"] = df["two"].fillna(value = df["two"].min(axis=0))
                      
df

Unnamed: 0,one,two
a,2.0,-3.1
b,7.3,-3.1
c,3.283333,-3.1
d,0.55,-2.6


In [2]:
a = set(["지찬", "미래", "민영", "대원", "주은", "한주", "근호", 
     "원석", "혁진", "준오", "진우","세현", "경희", "세희", 
     '진솔', '수종', '상윤', "민경", "소연", "지은", "동엽",
     '민환', '효원', '승우', '장원', '하나', '정수', '희원',
     '현아', '효민', '민규', '재철', '유진'])
b = set(['지찬', '미래', '민영', '대원', '주은', '한주', '근호', '원석', '혁진', '준오', '진우', '세현', '경희', '세희',
    '진솔', '수종', '상윤', '동교', '민경', '소연', '지은', '동엽', '민환', '효원', '승우', '인아', '종혁', '정수', '효민', '민규', '재철'])

a^b

{'동교', '유진', '인아', '장원', '종혁', '하나', '현아', '희원'}

In [76]:
# pandas 나머지 내용, matplotlib, Machine Learning(Tensorflow)
# 분석용 함수
# 상관관계 : 수치로 계산되어 두 대상이 서로 연관성이 있다고 추측되는 관계
# 성적, 자존감(정량적과 정성적
# 온라인 게임, 폭력성

# 상관관계를 수치화 해서 표현할 수 있습니다(상관계수)
# 상관계수 : -1 ~ 1 사이의 값으로 표현 절대값 1에 가까울수록 밀접한 관계가 있다 0은 관계없다
# -1(반비례), 1(비례)
# 상관관계는 두 대상의 연관성만 추측할 수 있고 인과관계를 설명할 수 없어요
import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.rand(6, 4))
df.columns = ["A", "B", "C", "D"]

df.index = pd.date_range("20190101", periods=6)
df["A"].corr(df["C"]) # A와 C의 상관관계
df["A"].cov(df["C"]) # 공분산
df.corr() # 각칼럼간의 상관계수를 보여줌
df.cov() # 각칼럼간의 공분산을 보여줌

Unnamed: 0,A,B,C,D
A,0.030154,0.00898,-0.018932,-0.010852
B,0.00898,0.06229,-0.055738,0.00783
C,-0.018932,-0.055738,0.121014,-0.008336
D,-0.010852,0.00783,-0.008336,0.055092


In [151]:
# 평균(mean) : 수학적 확률에 대한 기댓값
# 편차(deviation)  : 편차를 다 더하면 0이됨, 평균과 각 값들의 차이
# 분산(variance) : 각 편차의 제곱의 평균
# 표준편차(standard deviation) : 분산에 제곱근을 취한값
# 공분산 : 분산은 한 변수에 대해서, 두 변수를 이용해 분산 처리하는것.
# 두 변수에 대한 상승 혹은 하강에 대한 경향을 분석할 때 사용.
# DataFrame에 대한 정렬
df = pd.DataFrame(np.random.rand(6, 4))
df.columns = ["A", "B", "C", "D"]

df.index = pd.date_range("20190101", periods=6)
random_date = np.random.permutation(df.index) # 랜덤하게 만드는데 배열, 순열을 랜덤하게 만들겠다.
random_date
df2 = df.reindex(index=random_date, columns = ["B", "A", "D", "C"]) # 인덱스 바꾸기, 컬럼도 같이바꿀수 있음
df2.sort_index(axis=0, ascending=False) # 인덱스를 정렬함, 행, 열 (Ascending 내림차순 False, 오름차순 True)
df2.sort_values(by = ["A", "B"]) # A라는 값의 행을 정렬함
df2["E"] = ["AA", "BB", "CC", "CC", "AA", "CC"]
df2
# unique 중복된것 배제하고
df2["E"].unique() # unique한 값을 도출
df2["E"].value_counts() # 각각 값들이 몇개있는지 알려준다
df2["E"].isin(["AA", "BB"]) # 컬럼안에 이값이있어? 있으면 true, 없으면 false
# E column의 값이 "CC"인 행들만 추출하세요
df["B"] # 열추출시
df2.loc[df2["E"] == "CC", :] # 행추출시 loc 또는 iloc loc[조건, 어떤열]
df2.loc[df2["E"].isin(["CC"]) , :] # 행추출시 loc 또는 iloc loc[조건, 어떤열]


Unnamed: 0,B,A,D,C,E
2019-01-02,0.327456,0.785779,0.338059,0.033485,CC
2019-01-03,0.466781,0.50532,0.770983,0.085168,CC
2019-01-05,0.407651,0.962169,0.222254,0.733729,CC


In [167]:
# Lending Club Data
import numpy as np
import pandas as pd
df = pd.read_csv("data/loan/LoanStats3d.csv", sep=",") # csv 파일을 불러옴, sep = "구분자"

  interactivity=interactivity, compiler=compiler, result=result)


Unnamed: 0,id,member_id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,...,hardship_payoff_balance_amount,hardship_last_payment_amount,disbursement_method,debt_settlement_flag,debt_settlement_flag_date,settlement_status,settlement_date,settlement_amount,settlement_percentage,settlement_term
0,,,23850.0,23850.0,23850.0,60 months,17.27%,596.21,D,D3,...,,,Cash,N,,,,,,
1,,,15000.0,15000.0,15000.0,60 months,10.78%,324.5,B,B4,...,,,Cash,N,,,,,,
2,,,7200.0,7200.0,7200.0,36 months,17.27%,257.67,D,D3,...,,,Cash,Y,May-2018,BROKEN,Nov-2017,2761.0,50.01,10.0
3,,,12000.0,12000.0,12000.0,36 months,9.17%,382.55,B,B2,...,,,Cash,N,,,,,,
4,,,11950.0,11950.0,11950.0,36 months,13.44%,405.18,C,C3,...,,,Cash,N,,,,,,


In [170]:
df.head() # 위에 다섯개 출력
df.tail() # 끝에 다섯개 출력

Unnamed: 0,id,member_id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,...,hardship_payoff_balance_amount,hardship_last_payment_amount,disbursement_method,debt_settlement_flag,debt_settlement_flag_date,settlement_status,settlement_date,settlement_amount,settlement_percentage,settlement_term
421092,,,13000.0,13000.0,13000.0,60 months,15.99%,316.07,D,D2,...,,,Cash,N,,,,,,
421093,,,12000.0,12000.0,12000.0,60 months,19.99%,317.86,E,E3,...,,,Cash,N,,,,,,
421094,,,20000.0,20000.0,20000.0,36 months,11.99%,664.2,B,B5,...,,,Cash,N,,,,,,
421095,Total amount funded in policy code 1: 6417608175,,,,,,,,,,...,,,,,,,,,,
421096,Total amount funded in policy code 2: 1944088810,,,,,,,,,,...,,,,,,,,,,


In [184]:
# head, tail
df2 = df[["loan_amnt", "loan_status", "grade", "int_rate", "term"]] # 칼럼 짜름
df2.head()
df2.tail()
# 결측값을 제거
df2 = df2.dropna(how="any")#어떻게 결측값을 찾을거니? any 다날려

In [185]:
df2.shape

(421095, 5)

In [200]:
# 대출기간별 대출 총액을 구해보아요!
df2["term"].unique() # 기간의 종류가 어떤것들이 있는지 확인

# 대출기간은 2가지 60개월, 36개월..
# for문을 이용해서 처리
# 대출기간이 36개월인 행들을 추출하고 loan_amount column의 값들의 합을 구하면 됨.
# 추출한 결과를 Dictionary나 list에 추가해서 결과 저장
sum1 = 0
sum2 = 0
loan_amount = {}
loan_term = df2["term"].unique()
loan_term[1]
for term in loan_term:
    term_sum = df2.loc[df2["term"]==term, "loan_amnt"].sum()
    loan_amount[term] = term_sum
loan_amount

df2.to_csv("result.csv", sep=",") # 파일에 결과를 쓸수도 있음