In [3]:
# Pandas

import pandas as pd # pandas module을 pd로 aliasing!
from pandas import Series, DataFrame # 두 가지 class을 동시에 가져올수 있음

# Series class : DataFrame을 구성하는 각각의 column이 series로 이루어져 있다!
# https://kimkyunghwan-jinjinghuan.tistory.com/439 -> Series 클래스에 대해

# DataFrame class : Data를 표의 형태로 처리하는 자료구조, Table로 만들 수 있다.
# class pandas.DataFrame(data=None, index=None, columns=None, copy=None) 의 params를 가진다.
# https://hong-sam.tistory.com/100 -> DataFrame에 대해

In [4]:
# Series Object 생성

fruit = Series([2500,3800,1200,6000], index = ['apple','banana','peer','cherry'])   
# Series([values], index=['index이름']) 의 형태로 하나의 column 만들기!
fruit # data type은 int64

# Series Object는 하나의 column을 표시할 수 있는 객체. 여러개가 합쳐지면 하나의 표가 될 수 있음!
# Series Object가 여러개 나열된 Object를 Data Frame 객체라고 한다!
# Object 안의 요소 하나하나는 모두 numpy로 구성되어있다!

apple     2500
banana    3800
peer      1200
cherry    6000
dtype: int64

In [5]:
print(fruit.values) # fruit object의 value를 추출하기
print(fruit.index)  # fruit object의 index추출하기, type도 같이 나온다!

[2500 3800 1200 6000]
Index(['apple', 'banana', 'peer', 'cherry'], dtype='object')


In [6]:
# Dictonary Object를 이용해서 Series Object를 생성하는 방법

fruitData = {'apple':2500,'banana':3800,'peer':1200,'cherry':6000}
# dict type ->  {'key': value} 형태의 Object로 생성

print(type(fruitData),'\n')  # fruitData 객체는 dict 타입 / <class 'dict'> 

fruit = Series(fruitData) # fruit을 series type의 Object로 정의

print(type(fruit),'\n') # <class 'pandas.core.series.Series'> 
print(fruit,'\n')

<class 'dict'> 

<class 'pandas.core.series.Series'> 

apple     2500
banana    3800
peer      1200
cherry    6000
dtype: int64 



In [7]:
# Object Name을 지어보기

# fruit Series Object의 이름을 fruitPrice 라고 정의
fruit.name = 'fruitPrice'
# fruit .(의) name은 fruitPrice다.

# fruit Series Object의 Index(과일이름) 이름을 fruitName라고 정의!
# -> 나중에 column name으로  사용하기 때문에 중요!
fruit.index.name = 'fruitName'

print(fruit)

# Object Name(리스트의 이름) = fruitPrice
# Column(index) = fruitName

fruitName
apple     2500
banana    3800
peer      1200
cherry    6000
Name: fruitPrice, dtype: int64


In [8]:
# DataFrame Object 생성

fruitData = {'fruitName':['apple','banana','cherry','peer'],
            'fruitPrice':[2500,3800,6000,1200],
            'num':[10,5,3,8]
            }
# fruitData = dict type Object 정의

print(type(fruitData))  # <class 'dict'>

<class 'dict'>


In [9]:
DataFrame(fruitData)
# [ fruitData(dict type Object) ] -> [ DataFrame(Object) ]로 변환

# 이제 Table로 만들 수 있다!

Unnamed: 0,fruitName,fruitPrice,num
0,apple,2500,10
1,banana,3800,5
2,cherry,6000,3
3,peer,1200,8


In [10]:
# Column 순서 지정하기 

fruitFrame = DataFrame(fruitData, columns= ['fruitPrice','num','fruitName'])
# DataFrame(Object)으로 변환한  fruitData(Object) 를 fruitFrame(DataFrame Object)로 정의
# columns(index)의 순서를 임의적으로 바꿈!

#   column의 순서를 원하는 대로 변경 할 수 있다!

print(type(fruitData),'\n')
print(fruitFrame.dtypes,'\n')
# 여기서 fruitName의 dtype이 object인 이유 : fruitName이 list type Object이기 때문이다.
# 그래서 fruitFrame의 dtype이 object로 나옴!

fruitFrame
# column의 순서가 변경되었다!

<class 'dict'> 

fruitPrice     int64
num            int64
fruitName     object
dtype: object 



Unnamed: 0,fruitPrice,num,fruitName
0,2500,10,apple
1,3800,5,banana
2,6000,3,cherry
3,1200,8,peer


In [11]:
# Column 방식으로 데이터 추출하기

fruitFrame['fruitName']
# fruitFrame(DataFrame Object)에서 fruitName(Object)를 추출할 수 있음!

0     apple
1    banana
2    cherry
3      peer
Name: fruitName, dtype: object

In [12]:
# 속성 방식으로 데이터 추출하기

# 여기서 속성은 property(동적 속성)이다 . -> 뒤의 속성 ex) fruitName은 언제든지 바뀔 수 있다!
#  attribute(정적 속성)이 아님!
# Object + . 을 입력하면 하나의 속성(property)처럼 나오게 됨
    
fruitFrame.fruitName
# fruitFrame / .(의) / fruitName(동적 속성=변화 가능한 데이터)

0     apple
1    banana
2    cherry
3      peer
Name: fruitName, dtype: object

In [13]:
fruitFrame['year'] = 2023 
# 새로운 column(속성)을 이런 방식으로 추가할 수도 있다!

print(type(fruitFrame.year),'\n')
print(fruitFrame['year'],'\n')
# 여기서 'year'는 Series Obejct로 정해지고, dtype은 int64(숫자)

print(type(fruitFrame))
fruitFrame

# 현재 index 번호는 0123 으로 지정됨!

<class 'pandas.core.series.Series'> 

0    2023
1    2023
2    2023
3    2023
Name: year, dtype: int64 

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,fruitPrice,num,fruitName,year
0,2500,10,apple,2023
1,3800,5,banana,2023
2,6000,3,cherry,2023
3,1200,8,peer,2023


In [14]:
variable = Series([4,2,1],index=[0,2,3]) 
# 임시변수 variable / index=0,2,3 으로 series object 정의

fruitFrame['stock'] = variable  # variable(series object)을 fruitFrame의 stock(새로운 column)으로 사용
fruitFrame # stock column이 새로 붙음! 하지만, index{1}의 값이 없음! (NaN)

Unnamed: 0,fruitPrice,num,fruitName,year,stock
0,2500,10,apple,2023,4.0
1,3800,5,banana,2023,
2,6000,3,cherry,2023,2.0
3,1200,8,peer,2023,1.0


In [15]:
# 데이터 구조에서 항목 삭제하는 방법

# 나중에 NaN 같은 null 값이 문제가 될 수 있음! -> 삭제하는 것이 좋음..!

fruit = Series([2500,3800,1200,6000], index=['apple','banana','peer','cherry'])
# series object 생성 / index를 과일이름으로 설정!
fruit

apple     2500
banana    3800
peer      1200
cherry    6000
dtype: int64

In [16]:
new_fruit = fruit.drop('banana')
# drop : index 삭제 method

new_fruit
# banana index가 삭제 되었다.

apple     2500
peer      1200
cherry    6000
dtype: int64

In [17]:
fruitFrame.fruitName
# 초기에 만들어 두었던 DataFrame의 속성 fruitName Object를 불러보자
# fruitFrame = fruitData로 생성 /  fruitName = fruitData의 index

0     apple
1    banana
2    cherry
3      peer
Name: fruitName, dtype: object

In [18]:
# fruitName을 fruitFrame의 index로 만들기

fruitFrame = DataFrame(fruitData,
                       index=fruitData['fruitName'], # fruitData의 fruitName으로 index를 만들거다.
                       columns=['fruitPrice','num'])  # fruitFrame의 원래 column = fruitName, fruitPrice,num -> fruitPrice, num만 남김
fruitFrame  # 이제 좀 더 편하게 볼 수 있다.

Unnamed: 0,fruitPrice,num
apple,2500,10
banana,3800,5
cherry,6000,3
peer,1200,8


In [19]:
fruitFrame2 = fruitFrame.drop(['apple','cherry'])
# index의 apple과 cherry를 삭제하고 싶다.

fruitFrame2

Unnamed: 0,fruitPrice,num
banana,3800,5
peer,1200,8


In [20]:
fruitFrame  # 잠깐 삭제하는 것이지, data가 삭제되는 건 아니다.

# fruitFrame.drop('num')
# -> 오류가 생긴다. drop은 가로를 중심으로 삭제. KeyError: "['num'] not found in axis"
fruitFrame.drop('num',axis=1)
# axis=1 : 축 1번을 기준으로 num을 삭제해서 column을 삭제함

Unnamed: 0,fruitPrice
apple,2500
banana,3800
cherry,6000
peer,1200


In [21]:
# DataFrame Slicing을 해봅시다.

fruitFrame[:] # 보통 이렇게 하면 전체가 나옴
fruitFrame['banana':] # banana ~
fruitFrame['banana':'cherry'] # banana ~ cherry 
# 숫자로 했을 때는 바로 앞까지만 나옴 
# string index가 더 직관적이다.

Unnamed: 0,fruitPrice,num
banana,3800,5
cherry,6000,3


In [22]:
# Data의 기본 연산

fruit1 = Series([5,9,10,3], index=['apple','banana','cherry','peer'])
fruit2 = Series([3,2,9,5,10], index=['apple','orange','banana','cherry','mango'])

In [23]:
fruit1 + fruit2 
# 연산이 되긴 하는데, index가 일치하는 것들만 연산이 됨! -> Series object에 해당.

apple      8.0
banana    18.0
cherry    15.0
mango      NaN
orange     NaN
peer       NaN
dtype: float64

In [24]:
fruitData1 = {'Ohio':[4,8,3,5], 'Texas':[0,1,2,3]}

fruitData2 = {'Ohio':[3,0,2,1,7], 'Colorado':[5,4,3,6,0]}

fruitFrame1 = DataFrame(fruitData1, 
                        columns=['Ohio', 'Texas'], 
                        index=['apple', 'banana', 'cherry', 'peer']) 
# 원하는 순서대로 만들고 싶으면, column 순서를 꼭 정하기!

fruitFrame2 = DataFrame(fruitData2,
                        columns=['Ohio', 'Colorado'],
                        index=['apple', 'orange', 'banana', 'cherry', 'mango'])

In [25]:
fruitFrame1 # fruitFram1 출력

Unnamed: 0,Ohio,Texas
apple,4,0
banana,8,1
cherry,3,2
peer,5,3


In [26]:
fruitFrame2 #fruitFrame2 출력

Unnamed: 0,Ohio,Colorado
apple,3,5
orange,0,4
banana,2,3
cherry,1,6
mango,7,0


In [27]:
fruitFrame1 + fruitFrame2
# 두 DataFrame 합치기 -> 일치하지 않는 건 더해주긴 하는데, NaN이 뜬다.

Unnamed: 0,Colorado,Ohio,Texas
apple,,7.0,
banana,,10.0,
cherry,,4.0,
mango,,,
orange,,,
peer,,,


In [28]:
# 데이터의 정렬

fruit = Series([2500,3800,1200,6000], 
               index=['apple','banana','peer','cherry'])
fruit

apple     2500
banana    3800
peer      1200
cherry    6000
dtype: int64

In [29]:
# value를 기준으로 정렬을 해줌

fruit.sort_values(ascending=True) 
# method : sort_values( ) ->parameter 따라 정렬을 해준다.
# parameter : ascending = ture -> 내림차순으로 정렬

peer      1200
apple     2500
banana    3800
cherry    6000
dtype: int64

In [30]:
# DataFrame Object의 정렬

fruitName = fruitData['fruitName']  # fruitName Object를 재정의하고
fruitFrame = DataFrame(fruitData, index=fruitName, columns=['num','fruitPrice']) # 간단하게 쓸 수 있다.
fruitFrame

Unnamed: 0,num,fruitPrice
apple,10,2500
banana,5,3800
cherry,3,6000
peer,8,1200


In [31]:
fruitFrame.sort_index(ascending=False) 
# index를 기준으로 정렬한 결과가 나옴!
# ascending = False -> index의 역순 정렬

Unnamed: 0,num,fruitPrice
peer,8,1200
cherry,3,6000
banana,5,3800
apple,10,2500


In [32]:
# 여러 기준을 가지고 정렬하기

fruitFrame.sort_values(by = ['fruitPrice','num'], ascending=[True, False])  
# 어떤 value를 중심으로 하는 지 모르기 때문에 항상 지정을 해줘야한다! by='column'
# ascending도 따로따로 설정 할 수 있다.
# fruitPrice : 정순 / num : 역순

fruitFrame
# [list type object] 이기 때문에, 정렬을 여러 조건을 합해서 나열 할 수 있다!

Unnamed: 0,num,fruitPrice
apple,10,2500
banana,5,3800
cherry,3,6000
peer,8,1200


In [33]:
# 기초분석(기술 통계량)

# count : NaN를 제외한 개수
# min, max  : 최소, 최대 값
# sum : 합
# cumsum : 누적 합 -> cumulative sum
# cumprod : 누적 곱 -> cumulative product
# mean :평균
# median : 중앙값
# quantile : 분위수
# var : 표본분산 -> variance ( 분산도 )
# std : 표본 정규분산 -> standard deviation( 표준 편차도 )
# describe : 요약 통계량 -> 분석

In [34]:
german_sample = pd.read_csv('http://freakonometrics.free.fr/german_credit.csv')
# 독일의 신용 통계에 대한 정보를 불러오기.
type(german_sample)
# 바로 DataFrame으로 정의됨!

pandas.core.frame.DataFrame

In [35]:
list(german_sample.columns.values)
# csv 내의 column을 list화 할 수 있다!

['Creditability',
 'Account Balance',
 'Duration of Credit (month)',
 'Payment Status of Previous Credit',
 'Purpose',
 'Credit Amount',
 'Value Savings/Stocks',
 'Length of current employment',
 'Instalment per cent',
 'Sex & Marital Status',
 'Guarantors',
 'Duration in Current address',
 'Most valuable available asset',
 'Age (years)',
 'Concurrent Credits',
 'Type of apartment',
 'No of Credits at this Bank',
 'Occupation',
 'No of dependents',
 'Telephone',
 'Foreign Worker']

In [36]:
german = german_sample[['Creditability','Duration of Credit (month)',
               'Purpose','Credit Amount']]
# german_sample의 column을 제한적으로 가져와서 재정의!

german

Unnamed: 0,Creditability,Duration of Credit (month),Purpose,Credit Amount
0,1,18,2,1049
1,1,9,0,2799
2,1,12,9,841
3,1,12,0,2122
4,1,12,0,2171
...,...,...,...,...
995,0,24,3,1987
996,0,24,0,2303
997,0,21,0,12680
998,0,12,3,6468


In [37]:
german.min()
# 각 columns들의 최소 value만 뽑아올 수 있음

Creditability                   0
Duration of Credit (month)      4
Purpose                         0
Credit Amount                 250
dtype: int64

In [38]:
german.max()
# 각 columns들의 최소 value만 뽑아올 수 있음

Creditability                     1
Duration of Credit (month)       72
Purpose                          10
Credit Amount                 18424
dtype: int64

In [39]:
german.mean()
# 각 column들의 value 평균을 알려줌.  평균 값은 소수점이 나오기 떄문에 float64로 나옴!

Creditability                    0.700
Duration of Credit (month)      20.903
Purpose                          2.828
Credit Amount                 3271.248
dtype: float64

In [40]:
german.describe()
# 간단하게 통계량을 요약해준다.
# https://kongdols-room.tistory.com/172 -> 여러 prams를 활욯해서 각 데이터를 요약할 수 있다!

# 기본적으로 NaN은 제외된다!
# ( )를 붙이면 하나의 함수, 없으면 속성(property)을 보여줌.

Unnamed: 0,Creditability,Duration of Credit (month),Purpose,Credit Amount
count,1000.0,1000.0,1000.0,1000.0
mean,0.7,20.903,2.828,3271.248
std,0.458487,12.058814,2.744439,2822.75176
min,0.0,4.0,0.0,250.0
25%,0.0,12.0,1.0,1365.5
50%,1.0,18.0,2.0,2319.5
75%,1.0,24.0,3.0,3972.25
max,1.0,72.0,10.0,18424.0


In [41]:
german.corr()   
# corr : 상관관계가 분석되어 나온다! / ~정도 상관관계가 있다. 
# 1에 가까울 수록 관계성 높음!

Unnamed: 0,Creditability,Duration of Credit (month),Purpose,Credit Amount
Creditability,1.0,-0.214927,-0.017979,-0.15474
Duration of Credit (month),-0.214927,1.0,0.147492,0.624988
Purpose,-0.017979,0.147492,1.0,0.06848
Credit Amount,-0.15474,0.624988,0.06848,1.0


In [42]:
# 핵심기능 Gorup By

german = german_sample[['Credit Amount','Type of apartment']]
german.head()

Unnamed: 0,Credit Amount,Type of apartment
0,1049,1
1,2799,1
2,841,1
3,2122,1
4,2171,2
