In [18]:
# Pandas는 python으로 data분석을 하기 위한 최적의 module
# Pandas는 새로 정의된 2가지 데이터 타입을 사용한다.
# Series : NumPy의 1차원 array와 유사하다
# DataFrame : Series를 모아모아서 Table 형태로 구성한 자료구조
# Pandas를 이용하기 위해서 module을 먼저 설치하자.
# conda install pandas
# 아나콘다 프롬프트 창 관리자 권한으로 실행 => conda install pandas => y

import numpy as np
import pandas as pd #관용적으로 pd라고 하자

In [23]:
# Series를 생성해보자.
# NumPy array(ndarray)와 비교해서 확인해보자
# 먼저 ndarray부터 다시 보자

# dtype 2가지 방법
arr = np.array([-1,5,8,10], dtype=np.float64)   # 리스트를 이용해서 단순히 ndarray를 만들 수 있다.
arr = np.array([-1,5,8,10], dtype="float64")


# dtype으로 서로 다른 type의 객체를 정렬하는 방법
# dtype을 따로 지정하지 않으면? 전부 문자열로 변환해서 정렬됨
arr = np.array([-1,5,3.14,"Hello"])
print(arr)
# 결과 : ['-1' '5' '3.14' 'Hello']

# dtype을 object로 인식하기 때문에 각각의 type을 변환하지 않고 정렬 가능
arr = np.array([-1,5,3.14,"Hello"], dtype = np.object)
print(arr)
# 결과 : [-1 5 3.14 'Hello']

float64
['-1' '5' '3.14' 'Hello']
[-1 5 3.14 'Hello']


In [34]:
# Series를 생성해보자
# => 같은 데이터 타입이 와야한다.
#s = pd.Series([-1,5,3.14,"Hello"], dtype=pd.object)
s = pd.Series([-1,5,3.14,"Hello"], dtype="object")
print(s)
# 결과 : 
#0       -1           인덱스 값
#1        5           인덱스 값
#2     3.14           인덱스 값
#3    Hello           인덱스 값
#dtype: object        data type
print("=" * 30)

# 1. Series의 value부분을 출력해보자
print("Series의  value부분 : {}".format(s.values))
# 결과 : Series의  value부분 : [-1 5 3.14 'Hello']
print("Series의  value부분의 type : {}".format(type(s.values)))
# 결과 : Series의  value부분의 type : <class 'numpy.ndarray'>

# 2. Series의 data type(dtype), 
print("Series의  value부분의 dtype : {}".format(s.values.dtype))
# 결과 : Series의  value부분의 dtype : object
print("Series의  value부분의 dtype : {}".format(s.dtype))
# 결과 : Series의  value부분의 dtype : object

# 3. Series의 index 부분을 출력해보자
print("Series의  index부분 : {}".format(s.index))
# 결과 : Series의  index부분 : RangeIndex(start=0, stop=4, step=1)
print("Series의  index부분의 type : {}".format(type(s.index)))
# 결과 : <class 'pandas.core.indexes.range.RangeIndex'>

0       -1
1        5
2     3.14
3    Hello
dtype: object
Series의  value부분 : [-1 5 3.14 'Hello']
Series의  value부분의 type : <class 'numpy.ndarray'>
Series의  value부분의 dtype : object
Series의  value부분의 dtype : object
Series의  index부분 : RangeIndex(start=0, stop=4, step=1)
Series의  index부분의 type : <class 'pandas.core.indexes.range.RangeIndex'>


In [49]:
#@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@indexing@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
## Series는 index를 따로 지정할 수 있다.
## 숫자 index는 기본으로 제공된다.
s = pd.Series([-1,5,8,10],
              dtype=np.int32,
              index=["a","c","k","t"])          
print(s)
# 결과 : 
#a    -1
#c     5
#k     8
#t    10
#dtype: int32


print(s[1])       #숫자 인덱스는 기본으로 사용 가능
# 결과 : 5
print(s["k"])     # 새로 지정한 인덱스를이용해서 값 access 가능
# 결과 : 8
####################################################################
s = pd.Series([-1,5,8,10],
              dtype=np.int32,
              index=["k","c","k","t"])          # 인덱스 이름이 똑같아도 사용 가능하다.
print(s)
# 결과 : 
#k    -1
#c     5
#k     8
#t    10
#dtype: int32
print(s["k"])                                   # 찾으려는 index가 2개 이상 존재하는 경우, 결과가 Series로 return된다.
# 결과 : 
#k   -1
#k    8
#dtype: int32

a    -1
c     5
k     8
t    10
dtype: int32
5
8
k    -1
c     5
k     8
t    10
dtype: int32
k   -1
k    8
dtype: int32


In [55]:
#@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@slicing@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@#
s = pd.Series([-1,5,8,10],
              dtype=np.int32,
              index=["a","c","k","f"]) 
print(s)
# 결과 : 
#a    -1
#c     5
#k     8
#f    10
#dtype: int32

# ndarray에서 indexing과 slicing 모두 사용할 수 있었다. 마찬가지로 series도 slicing 사용 가능
print(s[0:2])
# 결과 :                    # 결과를 series로 도출함.
#a   -1
#c    5
#dtype: int32

print(s["a":"k"])           # 새로운 index(내가 만든 인덱스) 를 이용해서 slicing하면 [포함 : 포함] 이다. 
# 결과 : 
#a   -1
#c    5
#k    8
#dtype: int32

#@@@@@@@@@@@@@@@@@@@@@@@@boolean indexing@@@@@@@@@@@@@@@@@@@@@@
s = pd.Series([-1,5,8,10],
              dtype=np.int32,
              index=["a","c","k","f"]) 
print(s[s%2==0])                          # mask를 indexing 부분에 넣으면
# 결과 : 
#k     8
#f    10
#dtype: int32

#@@@@@@@@@@@@@@@@@@@@@@@@fandy indexing@@@@@@@@@@@@@@@@@@@@@@
s = pd.Series([-1,5,8,10],
              dtype=np.int32,
              index=["a","c","k","f"]) 
print(s[[0,2]])
# 결과 : 
#a   -1
#k    8
#dtype: int32

#@@@@@@@@@@@@@@@집계함수는 그대로 이용 가능하다! @@@@@@@@@@@@@@@@@@
s = pd.Series([-1,5,8,10],
              dtype=np.int32,
              index=["a","c","k","f"]) 

print(s.sum())
# 결과 : 22

a    -1
c     5
k     8
f    10
dtype: int32
a   -1
c    5
dtype: int32
a   -1
c    5
k    8
dtype: int32
k     8
f    10
dtype: int32
a   -1
k    8
dtype: int32


In [94]:
############## 특이한 for문 : 파이썬에서만 가능함! [ 연산 for x in 범위]

# for 문을 list를 만들 때 사용할 수 있다.
myList = [1,2,3,4]

# 생성하고 싶은 list는 각 요소에 *2를 한 list이다.
# [2,4,6,8]로 만들어보자

# 시도 1)
result = myList *2
print(result)
# 결과 : [1, 2, 3, 4, 1, 2, 3, 4]

#시도 2)
result = list()
for i in myList:
    result.append(i*2)
print(result)
# 결과 : [2, 4, 6, 8]

# 시도3)
result = [x*2 for x in myList]
print(result)
# 결과 : [2, 4, 6, 8]

# x*2 계산을 myList의 요소마다 진행해준다.

############## if문도 추가해보자 [ 연산 for x in 범위 if 조건]
result = [x*2 for x in myList if x>2 ]
print(result)
# 결과 : [6, 8]


############## dictㅇㅔ도 사용 가능하다 !
# key,value => dict
# value => set
result = {"stu" + str(x) : x**2 for x in range(0,10)}
print(result)
# 결과 : {'stu0': 0, 'stu1': 1, 'stu2': 4, 'stu3': 9, 'stu4': 16, 'stu5': 25, 'stu6': 36, 'stu7': 49, 'stu8': 64, 'stu9': 81}





##################################################################################################
# 많이 사용되는 데이터 타입 중 날짜가 있다.(시계열 데이터 매우 많음)
from datetime import date, datetime 
# 오늘 날짜를 구해보자(컴퓨터에 설정된 날짜)
today = date.today()
print(today)
print(type(today))
# 결과 : <class 'datetime.date'>

print("연도 : {}".format(today.year))
print("월 : {}".format(today.month))
print("일 : {}".format(today.day))
# 결과 : 
#연도 : 2019
#월 : 11
#일 : 20

# 시간은?
today = datetime.today()
print(today)
print("시 : {}".format(today.hour))
print("분 : {}".format(today.minute))
print("초 : {}".format(today.second))
print("마이크로초 : {}".format(today.microsecond))
# 결과 : 
2019-11-20 10:46:47.455921
시 : 10
분 : 46
초 : 47
마이크로초 : 455921

[1, 2, 3, 4, 1, 2, 3, 4]
[2, 4, 6, 8]
[2, 4, 6, 8]
[6, 8]
{'stu0': 0, 'stu1': 1, 'stu2': 4, 'stu3': 9, 'stu4': 16, 'stu5': 25, 'stu6': 36, 'stu7': 49, 'stu8': 64, 'stu9': 81}
2019-11-20
<class 'datetime.date'>
연도 : 2019
월 : 11
일 : 20
2019-11-20 10:46:47.455921
시 : 10
분 : 46
초 : 47
마이크로초 : 455921


In [104]:
# timedelta : 시간의 차이
from  datetime import date,datetime,timedelta
from dateutil.relativedelta import relativedelta

today = datetime.today()
print(today)
# 결과 : 2019-11-20 11:08:05.864686

day = timedelta(days = -1)
# 기준 : day,  -1 : 하루전, -2 : 이틀전, 1 : 다음날 등등
result = today + day
print(result)
# 결과 : 2019-11-19 11:08:05.864686

week = timedelta(weeks = -1)
result = today + week
print(result)
# 결과 : 2019-11-13 11:08:05.864686

hour = timedelta(hours = -1)
result = today + hour
print(result)
# 결과 : 2019-11-20 10:08:05.864686


#### 하지만 연도와 월은 안됨 !! weeks, days, hours, minutes, seconds는 가능 ###
#### 윤년과 월이 다르기 때문에 ###
#### 그럼 어떤 방법을 사용하나??????? => 다른 패키지 : dateutil.relatviedelta 


today = datetime.today()
print(today)
# 결과 : 2019-11-20 11:08:05.864686

day = relativedelta(months = -1)
# 기준 : day,  -1 : 하루전, -2 : 이틀전, 1 : 다음날 등등
result = today + day
print(result)
# 결과 : 2019-10-20 11:11:06.898657


2019-11-20 11:11:38.072535
2019-11-19 11:11:38.072535
2019-11-13 11:11:38.072535
2019-11-20 10:11:38.072535
2019-11-20 11:11:38.072535
2019-10-20 11:11:38.072535
relativedelta(months=-1)


In [115]:
from  datetime import date,datetime,timedelta
from dateutil.relativedelta import relativedelta
from dateutil.parser import parse

# 오늘이 3월 31일이면 1달전? 2월 28일이거나 29일인데 가능할까?
today = parse("2019-03-31")  # 해당 문자열을 날짜 형태로 받을 수 있다. 
print("오늘의 날짜 : {}".format(today))
# 결과 : 오늘의 날짜 : 2019-03-31 00:00:00
day = relativedelta(months=-1)
print(today+day)
# 결과 : 2019-02-28 00:00:00

# 2016-02-29로 테스트하면 가능함 !!


오늘의 날짜 : 2016-03-29 00:00:00
2016-02-29 00:00:00


In [None]:
# A 공장의 2019-01-01부터 10일간 제품 생산량을 series로 저장
# 생산량은 랜덤으로 결정, 평균이 50, 표준편차가 5인 정규분포
# 정규분포에서 random하게 추출(정수로사용)
# 형식 : 2019-01-01 53 (index를 날짜로 사용한다)
#        2019-01-02 58

# B공장의 2019-01-01부터 10일간 제품생산량을 series로 저장
# 생산량은 랜덤으로 결정, 평균이 70이고 표준편차가 8인
# 정규분포에서 random하게 추출(정수로 사용)

# 모든 공장의 날짜별 생산량(합계)를 구하시오

np.random.seed(1)

mean_A = 50; std_A = 5
arr_A = np.random.normal(mean_A,std_A,(10,))
#print(arr_A)

mean_B = 70; std_B = 8
arr_B = np.random.normal(mean_B,std_B,(10,))
#print(arr_B)

sum_AB = []
date = []
today = parse("2019-01-01")

for i in range(0,10):
    sum_AB.append(int(arr_A[i]+arr_B[i]))
    day = timedelta(days = i)
    result = today + day
    date.append(result)
print(sum_AB, date)

final = pd.Series(sum_AB,
                  index=[date])
print(final)

###############################강사님's########################################
from datetime import date,datetime,timedelta
from dateutil.parser import parse
import pandas as pd
import numpy as np

np.random.seed(1)

#A공장
start_day = parse("2019-01-01")
factoryA = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
                     index = [start_day + timedelta(days = i) for i in range(10)])
#print(factoryA)
#B공장
start_day = parse("2019-01-01")
factoryB = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
                     index = [start_day + timedelta(days = i) for i in range(10)])
#print(factoryB)
print(factoryA + factoryB)


In [216]:
# A 공장의 2019-01-01부터 10일간 제품 생산량을 series로 저장
# 생산량은 랜덤으로 결정, 평균이 50, 표준편차가 5인 정규분포
# 정규분포에서 random하게 추출(정수로사용)
# 형식 : 2019-01-01 53 (index를 날짜로 사용한다)
#        2019-01-02 58

# B공장의 2019-01-05부터 10일간 제품생산량을 series로 저장
# 생산량은 랜덤으로 결정, 평균이 70이고 표준편차가 8인
# 정규분포에서 random하게 추출(정수로 사용)

# 모든 공장의 날짜별 생산량(합계)를 구하시오
from datetime import date,datetime,timedelta
from dateutil.parser import parse
import pandas as pd
import numpy as np
np.random.seed(1)

#A공장
start_day = parse("2019-01-01")
factoryA = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
                     index = [start_day + timedelta(days = i) for i in range(10)])
#print(factoryA)
#B공장
start_day = parse("2019-01-05")
factoryB = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
                     index = [start_day + timedelta(days = i) for i in range(10)])


# factory_AB= factoryA + factoryB
# #print(factory_AB)

# j=[]


# for i in range(0,len(factory_AB)):
#     if np.isnan(factory_AB[i]):
#         j.append(i)
# print(j) # 0 1 2 3 10 11 12 13

# for k in j:
#     if np.isnan(factoryA[k]):
#         factoryA[k] = int(0)
#     else:
#         factoryB[k] = int(0)

# factoryAB = factoryA + factoryB
# print(factoryAB)


# #print(factoryA)
# #print(factoryB)


# #print(factoryA + factoryB)


######################################강사님'S###########################

index_a = set(factoryA.index)
index_b = set(factoryB.index)

index_a_b = index_a - index_b
index_b_a = index_b - index_a

for i in index_a_b:
    factoryB[i] = 0
for i in index_b_a:
    factoryA[i] = 0
    
print(factoryA + factoryB)



2019-01-01     58
2019-01-02     46
2019-01-03     47
2019-01-04     44
2019-01-05    135
2019-01-06     91
2019-01-07    125
2019-01-08    112
2019-01-09    130
2019-01-10    109
2019-01-11     68
2019-01-12     62
2019-01-13     70
2019-01-14     74
dtype: int64


In [219]:
# Series를 생성할 때 list를 이용해서 만들었다.
# dict(Dictionary)를 이용해서 Series를 생성할 수 있다.

import numpy as np
import pandas as pd

my_dict = {"서울" : 1000, "부산":3000, "제주" : 5000 }
s = pd.Series(my_dict)
print(s)
# 결과 : 
#서울    1000
#부산    3000
#제주    5000
#dtype: int64


s.name = "지역별 가격 데이터" # Series 자체에 논리적인 이름을 하나 붙일 수 있다.
s.index.name = "지역명"
print(s)
# 결과 : 
#지역명
#서울    1000
#부산    3000
#제주    5000
#Name: 지역별 가격 데이터, dtype: int64


서울    1000
부산    3000
제주    5000
dtype: int64
지역명
서울    1000
부산    3000
제주    5000
Name: 지역별 가격 데이터, dtype: int64


In [30]:
## Data Frame 
## Data Frame을 만드는 가장 간단한 방법

import numpy as np
import pandas as pd

## Data Frame을 위한 dict를 만들어보자
# 학생 이름, 입학연도, 평균평점
data = { "names" : ["홍길동","김길동"],        
       " year " : [2015,2017],
       "points" : [3.9,4.2] }

# series를 만들어보면?
s = pd.Series(data)
print(s)
# 결과 :
#names       [홍길동, 김길동]
# year     [2015, 2017]
#points      [3.9, 4.2]

# => key값이 index가 된다


# dataframe을 만들어보면?
# 데이터가 2개 이상이어야한다.
data = { "names" : ["홍길동","김길동"],        
       " year " : [2015,2017],
       "points" : [3.9,4.2] }

df = pd.DataFrame(data)
print(df)
#  names   year   points
#0   홍길동    2015     3.9
#1   김길동    2017     4.2
#=> key가 column명이 된다
display(df)
#############1블로그 결과창에서 그림 가져오기

data = { "names" : ["홍길동","김길동","신사임당"],        # 각각의 column이 series이다.
       " year " : [2015,2017,np.nan],
       "points" : [3.9,4.2,np.nan] }
# => 값이 없을 때 : np.nan을 넣어줘야한다.
df = pd.DataFrame(data)
print(df)
# 결과 :
#  names   year   points
#0   홍길동  2015.0     3.9
#1   김길동  2017.0     4.2
#2  신사임당     NaN     NaN

print(df["names"])
# 결과 :
#0     홍길동
#1     김길동
#2    신사임당
# => key값으로 출력하면 각 column을 출력한다.

print(df.values)
# 결과 :
#[['홍길동' 2015.0 3.9]
# ['김길동' 2017.0 4.2]
# ['신사임당' nan nan]]
print(df.values.shape)
# 결과 : (3,3)
print(df.shape)        #Data Frame의 shape을 알 수 있다.
# 결과 : (3,3)
print(df.values.size)  # 모든 요소 개수
# 결과 : 9
print(df.ndim)         # 2차원
# 결과 : 2 


names       [홍길동, 김길동]
 year     [2015, 2017]
points      [3.9, 4.2]
dtype: object
  names   year   points
0   홍길동    2015     3.9
1   김길동    2017     4.2


Unnamed: 0,names,year,points
0,홍길동,2015,3.9
1,김길동,2017,4.2


  names   year   points
0   홍길동  2015.0     3.9
1   김길동  2017.0     4.2
2  신사임당     NaN     NaN
0     홍길동
1     김길동
2    신사임당
Name: names, dtype: object
[['홍길동' 2015.0 3.9]
 ['김길동' 2017.0 4.2]
 ['신사임당' nan nan]]
(3, 3)
(3, 3)
9
2


In [37]:
import numpy as np
import pandas as pd

## Data Frame을 위한 dict를 만들어보자
# 학생 이름, 입학연도, 평균평점
data = { "names" : ["홍길동","김길동"],        
       " year " : [2015,2017],
       "points" : [3.9,4.2] }
df = pd.DataFrame(data)
display(df)
print("DataFrame의 index : {}".format( df.index ))
# 결과 : DataFrame의 index : RangeIndex(start=0, stop=2, step=1)
print("DataFrame의 index[0] : {}".format( df.index[0] ))
# 결과 : DataFrame의 index[0] : 0
print("DataFrame의 column : {}".format( df.columns ))
# 결과 : DataFrame의 column : Index(['names', ' year ', 'points'], dtype='object')
print("DataFrame의 column[1] : {}".format( df.columns[1] ))
# 결과 : year 

Unnamed: 0,names,year,points
0,홍길동,2015,3.9
1,김길동,2017,4.2


DataFrame의 index : RangeIndex(start=0, stop=2, step=1)
DataFrame의 index[0] : 0
DataFrame의 column : Index(['names', ' year ', 'points'], dtype='object')
DataFrame의 column[1] :  year 


In [38]:
#  Data Frame의 index와 column에 이름을 부여해보자.
import numpy as np
import pandas as pd

## Data Frame을 위한 dict를 만들어보자
# 학생 이름, 입학연도, 평균평점
data = { "names" : ["홍길동","김길동"],        
       " year " : [2015,2017],
       "points" : [3.9,4.2] }
df = pd.DataFrame(data)
df.index.name = 'sNum'
df.columns.name = "학생정보"
display(df)
# 결과 :  블로그 그림 가져오기

# 간단하게 literal 형태로 DataFrame을 생성했다.

학생정보,names,year,points
sNum,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,홍길동,2015,3.9
1,김길동,2017,4.2


In [95]:
# Data Frame을 생성하는 방법
# File CSV로 부터 데이터를 읽어와서 DataFrame을 만들어보자
import numpy as np
import pandas as pd

df=pd.read_csv("./DA/student.csv")
print(df)
# 결과 : 
#      이름   입학년도   성적
#0    홍길동   2015  3.5
#1    최길동   2017  4.2
#2   신사임당   2013  4.1
#3    강감찬   2011  1.3


      이름   입학년도   성적
0    홍길동   2015  3.5
1    최길동   2017  4.2
2   신사임당   2013  4.1
3    강감찬   2011  1.3


In [96]:
## Movie Lens data file을 이용해서 data frame를 생성해보자
# ratings.csv,movies.csv
import numpy as ap
import pandas as pd
df = pd.read_csv("./DA/movies.csv")
print(df)
display(df.head())4
# 결과 : 캐ㅂㅂ쳐
print(df.shape)
# 결과 : (9742, 3)


      movieId                                      title  \
0           1                           Toy Story (1995)   
1           2                             Jumanji (1995)   
2           3                    Grumpier Old Men (1995)   
3           4                   Waiting to Exhale (1995)   
4           5         Father of the Bride Part II (1995)   
...       ...                                        ...   
9737   193581  Black Butler: Book of the Atlantic (2017)   
9738   193583               No Game No Life: Zero (2017)   
9739   193585                               Flint (2017)   
9740   193587        Bungo Stray Dogs: Dead Apple (2018)   
9741   193609        Andrew Dice Clay: Dice Rules (1991)   

                                           genres  
0     Adventure|Animation|Children|Comedy|Fantasy  
1                      Adventure|Children|Fantasy  
2                                  Comedy|Romance  
3                            Comedy|Drama|Romance  
4                  

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


(9742, 3)


In [52]:
# 의도치 않는 에러가 발생되는 경우가 있다.
# 프로그래밍 단계에서는 문제가 없지만 실행시 문제가 발생하는 코드가 있다.
# Exception Handling 기능을 제공한다.
# Exception이 발생 => 극복해서 프로그램이 중지되지 않도록 처리해보자.

try:
    10/0
except Exception as inst:
    print(inst)                         #예외상황에 대한 내용을 출력
finally:
    print("호호")    
# try 내용을 하고난 후, 문제가 없으면 바로 finally를 수행하고 
# 예외가 있으면 except를 수행한 후 finally를 수행한다.
# 이후 프로그램을 계속 수행한다


division by zero
호호


In [105]:
## Database에서 sql로 데이터를 추출해서 pandas의 DataFrame으로 생성
# 사용하는 DBMS는 MySQL, 사용하는 데이터는 book table
# ip : 70.12.116.160
import pymysql.cursors
# 외부모듈을 먼저 설치하자 : 아나콘다 프롬프트 창 => activate cpu_env => conda install pymysql => y
# pymysql : mysql을 python으로 부른다
import numpy as np
import pandas as pd

# 데이터베이스 connection
conn = pymysql.connect(host = '70.12.116.160',                      #강사님 컴퓨터로 
                      user = 'data',
                      password ='data',
                      db='library',
                      charset='utf8')        
# conn = pymysql.connect(host = 'local host',                         # 내컴퓨터
#                       user = 'data',
#                       password ='data',
#                       db='library',
#                       charset='utf8')             

keyword = "여행"
# database에서 data를 가져오기 위한 SQL을 작성하자 : 여러가지 방법
# 책 제목에 keyword가 들어있는 행을 찾아서 제목, 가격, 저자정보를 가져오자
# sql = ('select btitle, bprice, bauthor '+
#        'from book ')
# 띄어쓰기가 정말정말 중요하다 \ 뒤에도 띄어쓰기 안댐 @!!!!!!

sql = "select btitle,bprice,bauthor " + \
      "from book " + \
      "where btitle like '%{}%'".format(keyword)

# 네트워크 상의 문제, 데이터베이스 상의 문제가 있을 수 있기 때문에 try와 exception을 사용하자
try:
    df = pd.read_sql(sql,conn)               # conn에서 sql을 실행하자
    display(df)                              # 정상적으로 DataFrame을 얻어왔으면 JSON File로 저장한다. 
    df.to_json("./DA/book_column.json",orient="columns")
    df.to_json("./DA/book_records.json",orient="records")
    df.to_json("./DA/book_index.json",orient="index")
    df.to_json("./DA/book_values.json",orient="values")
except Exception as inst:
    print("문제가 있군")
finally:
    conn.close()                            # 처리가 성공하거나/ 않거나 무조건 database를 닫는다.


Unnamed: 0,btitle,bprice,bauthor
0,"IT CookBook, C++ 하이킹 : 객체지향과 만나는 여행",25000,"성윤정, 김태은"
1,게스트하우스 창업 A to Z : 청춘여행자의 낭만적 밥벌이,15000,김아람
2,크로아티아의 작은 마을을 여행하다 : 자다르의 일몰부터 두브로브니크의 붉은 성벽까지,15800,양미석
3,도쿄의 오래된 상점을 여행하다 : 소세키의 당고집부터 백 년 된 여관까지,15000,"여지영, 이진숙"


In [2]:
## 영화진흥위원회의 일일 박스오피스 정보를 이용해서 DataFrame을 만들어보자
## 접속해서 JSON을 얻어내면 분석해서 내가 원하는 형태의 Data Frame을 생성하자

import numpy as np
import pandas as pd
import urllib # 네트워크 접속을 하기 위해서 필요하다
import json   # open API의 결과가 JSON이다.
               # JSON을 읽어들이기 위한 module
# urllib와 json은 내부모듈이므로 설치가되어있다.
key = "42677d82313c4ea3346ce45270c30acc"
date = 20191120


# url 만들기
movie_url = "http://www.kobis.or.kr/kobisopenapi/webservice/"+\
            "rest/boxoffice/searchDailyBoxOfficeList.json?"+\
            "key={}&targetDt={}".format(key,date)

print(movie_url)

# 페이지에 접속하기 => 결과 Json 문자열이 들어있는 page객체
page = urllib.request.urlopen(movie_url)

# 페이지의 json문자열을 읽어와서 dict로 만든다
json_page = json.loads(page.read())
#print(json_page)
#print(type(json_page))
# 결과 : dict

#print(json_page["boxOfficeResult"])
#print(json_page["boxOfficeResult"]["dailyBoxOfficeList"])
# 이렇게 JSON을 얻었으면 필요한 부분만 추려서 DATA FRAME으로 생성하면된다 !
# 순위, 영화제목, 당일매출액을 DataFrame으로 구성해보자
# rank, movieNm , salesAmt


rank=[]
movieNm=[]
salesAmt=[]

for i in range(0,10):
    rank.append(json_page["boxOfficeResult"]["dailyBoxOfficeList"][i]["rank"])
    movieNm.append(json_page["boxOfficeResult"]["dailyBoxOfficeList"][i]["movieNm"])
    salesAmt.append(json_page["boxOfficeResult"]["dailyBoxOfficeList"][i]["salesAmt"])
#print(rank,movieNm,salesAmt)

data = {"영화 순위": rank,
       "영화 제목" : movieNm,
       "당일 매출액" : salesAmt}

df = pd.DataFrame(data)
display(df)


# 문자열 숫자로 포맷잡기
# sales_list.append("{:,}".format(int(m_dict["salesAmt"])))

http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=42677d82313c4ea3346ce45270c30acc&targetDt=20191120


Unnamed: 0,영화 순위,영화 제목,당일 매출액
0,1,블랙머니,878260600
1,2,신의 한 수: 귀수편,331326650
2,3,82년생 김지영,172048320
3,4,터미네이터: 다크 페이트,122297470
4,5,엔젤 해즈 폴른,99237540
5,6,좀비랜드: 더블 탭,67799560
6,7,윤희에게,47291900
7,8,날씨의 아이,46296130
8,9,아이리시맨,22784120
9,10,아담스 패밀리,16427100


In [4]:
# DataFrame 구축 : csv, Database, Open API
# DataFrame 생성 시 index와 column을 재설정
# R에서 NA(Not Available)는 잘못된 값, 결측치
# R에서 NULL은 값이 존재하지 않음을 의미
# R에서 NaN(Not Available Number)숫자이기는 하지만 수학적으로 불가능한 숫자를 의미함

# Python Pandas에는 NA가 없고 NaN(Not a Number => missing data)를 지칭
# Python Pandas의 NaN => R의 NA
# NULL은 python에서 None으로 표현한다

# a == None(X)   a is None (o) 이라고 is연산자를 사용해야한다. 

import numpy as np
import pandas as pd

data = {
    "이름" : ["홍길동","신사임당","강감찬","을지문덕"],
    "학과" : ["컴퓨터","영어영문","기계","수학"],
    "학년" : [1,3,np.nan,2],
    "학점" : [1.5, 4.5, 2.2, 3.5]
}

# 값을 모를 때 : np.nan을 이용하면된다

df = pd.DataFrame(data,
                 columns=["학년","학과","이름","평균평점","등급"],
                 index=["one","two","three","four"])                                # sub index

display(df)

Unnamed: 0,학년,학과,이름,평균평점,등급
one,1.0,컴퓨터,홍길동,,
two,3.0,영어영문,신사임당,,
three,,기계,강감찬,,
four,2.0,수학,을지문덕,,


In [149]:
#### Data Frame 통계 요약 ####
data = {
    "이름" : ["홍길동","신사임당","강감찬","을지문덕"],
    "학과" : ["컴퓨터","영어영문","기계","수학"],
    "학년" : [1,3,4,2],
    "학점" : [1.5, 4.5, 2.2, 3.5]
}

df=pd.DataFrame(data)
display(df.describe())
# 숫자로 되어있어서 연산처리 가능한 column에 대해서만 작업해준다.
display(type(df.describe()))         # Data Frame


Unnamed: 0,학년,학점
count,4.0,4.0
mean,2.5,2.925
std,1.290994,1.337597
min,1.0,1.5
25%,1.75,2.025
50%,2.5,2.85
75%,3.25,3.75
max,4.0,4.5


pandas.core.frame.DataFrame

In [160]:
### Data Frame을 생성한 후 원하는 column을 추출해보자 ###
data = {
    "이름" : ["홍길동","신사임당","강감찬","을지문덕"],
    "학과" : ["컴퓨터","영어영문","기계","수학"],
    "학년" : [1,3,4,2],
    "학점" : [1.5, 4.5, 2.2, 3.5]
}
df = pd.DataFrame(data,
                 columns=["학년","학과","이름","학점","등급"],
                 index=["one","two","three","four"])
display(df)
# 특정 column을 가져오려면 /? (이름)
print(df["이름"])               #=>column명으로 indexing => Series로 리턴
# 결과 :
#one       홍길동
#two      신사임당
#three     강감찬
#four     을지문덕
#Name: 이름, dtype: object

print(df.이름)
# 결과 :
#one       홍길동
#two      신사임당
#three     강감찬
#four     을지문덕
#Name: 이름, dtype: object



import warnings                       # warnings 모듈을 이용
warnings.filterwarnings(action="default")   # warning을 켠다    
warnings.filterwarnings(action="ignore")    # warning을 끈다

# 주의해야 할 점 !
student_names = df["이름"]            #=> view 생성
student_names["three"] = "최길동"     #=> view를 통해 수정 => warning message!!
print(student_names)
# 결과 :
#one       홍길동
#two      신사임당
#three     최길동
#four     을지문덕
#Name: 이름, dtype: object

display(df)

# view를 통해 데이터를 바꾸면 => 원본 데이터를 바꿀 수 있다.

Unnamed: 0,학년,학과,이름,학점,등급
one,1,컴퓨터,홍길동,1.5,
two,3,영어영문,신사임당,4.5,
three,4,기계,강감찬,2.2,
four,2,수학,을지문덕,3.5,


one       홍길동
two      신사임당
three     강감찬
four     을지문덕
Name: 이름, dtype: object
one       홍길동
two      신사임당
three     강감찬
four     을지문덕
Name: 이름, dtype: object
one       홍길동
two      신사임당
three     최길동
four     을지문덕
Name: 이름, dtype: object


Unnamed: 0,학년,학과,이름,학점,등급
one,1,컴퓨터,홍길동,1.5,
two,3,영어영문,신사임당,4.5,
three,4,기계,최길동,2.2,
four,2,수학,을지문덕,3.5,


In [165]:
data = {
    "이름" : ["홍길동","신사임당","강감찬","을지문덕"],
    "학과" : ["컴퓨터","영어영문","기계","수학"],
    "학년" : [1,3,4,2],
    "학점" : [1.5, 4.5, 2.2, 3.5]
}
df = pd.DataFrame(data,
                 columns=["학년","학과","이름","학점","등급"],
                 index=["one","two","three","four"])

display(df)

# 컬럼을 2개 이상 가져오려면 어떻게 해야할까?
df["학과"]        # 컬럼 1개만 들고온다. Series형태로 들고온다

# 시도1) 
#df["학과","이름"]   => 안나옴

# 시도2)
df[["학과","이름"]]  
# fancy indexing을 이용해야한다.
# 결과가 DataFrame으로 나온다.

df[["학과"]]
# 한 개의 column을 갖고 오더라도 [[]]로 (fancy indexing)가져오기 때문에 결과는 DataFrame이다.
# 당연히 view로 처리한다. 


Unnamed: 0,학년,학과,이름,학점,등급
one,1,컴퓨터,홍길동,1.5,
two,3,영어영문,신사임당,4.5,
three,4,기계,강감찬,2.2,
four,2,수학,을지문덕,3.5,


Unnamed: 0,학과
one,컴퓨터
two,영어영문
three,기계
four,수학


In [182]:
data = {
    "이름" : ["홍길동","신사임당","강감찬","을지문덕"],
    "학과" : ["컴퓨터","영어영문","기계","수학"],
    "학년" : [1,3,4,2],
    "학점" : [1.5, 4.5, 2.2, 3.5]
}
df = pd.DataFrame(data,
                 columns=["학년","학과","이름","학점","등급"],
                 index=["one","two","three","four"])

# display(df)
# df['등급']='A'  #broadcasting
# display(df)
# df['등급']=['A','C','F','A']
# display(df)

# df['나이'] = 20
# # 없는 column을 추가하면 새로운 column이 생성된다
# df['나이'] = [20,30,40,np.nan]   #사이즈만 맞으면 column 추가 가능
# display(df)

age = pd.Series([20,30,10,70])        # Series값이 들어가야 될 것 같은데 안 들어간다.
df["나이"]=age
display(df)
# 왜냐면?
# 인덱스가 one, two, three, four인데 series의 인덱스는 0 1 2 3 이기 때문에 안 드가요

df["나이"]= pd.Series([20,30,10,70],
                   index=["one","two","three","four"])
display(df)
########## 인덱스와 값이 없으면 nan으로 들어간다 !!###########
df["나이"]= pd.Series([20,30,70],
                   index=["one","two","four"])
display(df)


# 연산을 통해서 새로운 column을 만들 수 있다.
df['장학여부'] = df['학점']> 3.0              # broadcasting #논리연산이므로 True, False로 잡힌다.
display(df)

# column을 삭제해보자
del df['등급']
display(df)
## 이렇게 쓸 수 있는데 안 쓴다. 다른방법을 사용한다 !!!!!!

# 등급은 column명이므로 axis=1,
# inplace = True 는 원본을 삭제, return값이 None
# inplace = False 는 원본을 변경하지 않고, 삭제된 DataFrame이 return
#df.drop("등급",axis=1, inplace=True)
new_df = df.drop("등급",axis=1, inplace=False)



display(df)
display(new_df)


Unnamed: 0,학년,학과,이름,학점,등급,나이
one,1,컴퓨터,홍길동,1.5,,
two,3,영어영문,신사임당,4.5,,
three,4,기계,강감찬,2.2,,
four,2,수학,을지문덕,3.5,,


Unnamed: 0,학년,학과,이름,학점,등급,나이
one,1,컴퓨터,홍길동,1.5,,20
two,3,영어영문,신사임당,4.5,,30
three,4,기계,강감찬,2.2,,10
four,2,수학,을지문덕,3.5,,70


Unnamed: 0,학년,학과,이름,학점,등급,나이
one,1,컴퓨터,홍길동,1.5,,20.0
two,3,영어영문,신사임당,4.5,,30.0
three,4,기계,강감찬,2.2,,
four,2,수학,을지문덕,3.5,,70.0


In [14]:
@@@@@@@@@@@@@@@@@@@@@   11/22     @@@@@@@@@@@@@@@@@@@@@@
import pandas as pd
import numpy as np

data ={
    "이름" : ["홍길동","최길동","이지안","박동훈"],
    "학과" : ["컴퓨터","철학","영어영문","의학"],
    "학년" : [1,3,4,2],
    "학점" : [3.1,2.4,4.5,3.3]
    
}

df = pd.DataFrame(data,
                 columns = ["학과","학년","이름","학점","등급"],
                 index = ["one","two","three","four"])
display(df)
#<      결과        >

#1) 인덱싱
print(df["이름"])      #Data frmae에서 하나의 column을 indexing 할 때
# 결과 : 
#one      홍길동
#two      최길동
#three    이지안
#four     박동훈
#Name: 이름, dtype: object


# 2) slicing
#df["이름":"학점]       #Error : column은 slicing할 수 없다.

# 3) fancy indexing
display(df[["학년","학점"]])
# <      결과        >


print(df[2])           # Error : 행을 가져오는데 단일 행을 가져올 수 없기 때문
                       # column은 숫자 index로 들고 올 수 없다.

print(df[:2])          # 여러 행은 된다 !!! 
# 결과 : 
#      학과  학년   이름   학점   등급
#one  컴퓨터   1  홍길동  3.1  NaN
#two   철학   3  최길동  2.4  NaN

print(df[[0,3]])       # Error 난다......


#column 순서로 데이터를 못 가져온다. (column명으로만 가능), fancy indexing 가능
# column은 slicing이 안된다 df에서 slicing하면 row로 빠짐
# column은 indexing은 된다.

#row는 순서로 데이터를 가져온다. fancy indexing 불가능
# row는 indexing은 안된다.
# row는 slicing은 된다.

# row indexing을 하는 다른 방법 = index이름을 가지고 row indexing을 해보자

df["one"]            # Error : 왜냐면 column명을 부르는 기능이기 때문!!!
                     # 'one'이라는 column명을 찾는다.
    
print(df["one":""])
# 결과 : 
#         학과  학년   이름   학점   등급
#one     컴퓨터   1  홍길동  3.1  NaN
#two      철학   3  최길동  2.4  NaN
#three  영어영문   4  이지안  4.5  NaN

# DataFrame의 행과 열을 가져오기 위해서 어떻게 해야 하나
# 어떤 방식이 지원되고 어떤 방식이 지원되지 않는지를 구분해야한다.



# row indexing을 할 때 단일 행을 못 들고 온다.
# fancy indexing이 지원되지 않는다. => 완전 불편해
df.loc

#########필기 확인

df.loc["two"]                     # [ ]에 숫자 못 넣음 !!
# 결과 : 
#학과     철학
#학년      3
#이름    최길동
#학점    2.4
#등급    NaN
#Name: two, dtype: object

df.loc["one":"three"]
# 결과 :
#         학과  학년   이름   학점   등급
#one     컴퓨터   1  홍길동  3.1  NaN
#two      철학   3  최길동  2.4  NaN
#three  영어영문   4  이지안  4.5  NaN

df.loc[["one","three"]]
# 결과 :
#         학과  학년   이름   학점   등급
#one     컴퓨터   1  홍길동  3.1  NaN
#three  영어영문   4  이지안  4.5  NaN

#########loc는 여러 행을 가져올 떄 display 형식으로 보여줌

print(df.loc["one":"three","학년":"학점"])
# 결과 : 
#       학년   이름   학점
#one     1  홍길동  3.1
#two     3  최길동  2.4
#three   4  이지안  4.5

print(df.loc["one":"three","이름"])
# 결과 : 
#one      홍길동
#two      최길동
#three    이지안
#Name: 이름, dtype: object

print(df.loc["one":"three",["이름","학점"]])
# 결과 :
#        이름   학점
#one    홍길동  3.1
#two    최길동  2.4
#three  이지안  4.5

print(df.loc[:,"학점"])
# 결과 :
#one      3.1
#two      2.4
#three    4.5
#four     3.3
#Name: 학점, dtype: float64

print(df.loc[["one","three"]]["학점"])
# 결과 :
#one      3.1
#three    4.5
#Name: 학점, dtype: float64

###################### l o  c 활 용 #########################
#CS에서 특정 대상에 대해 4가지 작업을 할 수 있다.
# 추가, 삭제, 수정, 추출 => CRUD 작업
# => create(추가), read(추출), update(수정), delete(삭제)

#@@@@@@추가@@@@@@
#df.loc("five") # key가 없어서 못불러오니까 추가해야한다!
# 이러한 방법으로 추가할 수 있다.
df.loc["five"] = ["체육",2,"김연아",4.5,np.nan]
df.loc["six","이름":"학점"]=["삼다수",3.8 ]
df.loc["seven",["학과","이름"]]=["통계","양반김"]
df
#  <      결과        >

#@@@@@수정@@@@@@@
# 원래 존재하는 row에 대해서 assign작업을 하면 당연히 update 작업이 일어난다.
df.loc["one","이름":"학점"]=["김연아",4.5]
df
#  <      결과        >

#@@@@@@삭제@@@@@@@
# 1) 열 지우기
new_df = df.drop("학점",axis=1)  
# 세 번째 옵션인 inplace를 안 주면 원본 유지,
# 삭제된 복사본을 return해준다.
new_df
#  <      결과        >
# inplace=True를 주면?
# 원본이 변경되기 때문에 return이 아니다 !

# 2) 행 지우기
new_df = df.drop("one",axis=0)  
new_df
# <      결과        >

############## 데이터 원본은 가능하면 건들지 말자  ############


SyntaxError: invalid syntax (<ipython-input-14-d5533ff56513>, line 1)

In [None]:
df[], df.loc[]
# 숫자index를 이용해서 행과 열을 선택할 수 있는 iloc
df.iloc[0]            # OK. 특정 row를 숫자index로 추출할 수 있어요!
df.iloc[0:3]          # OK. slicing 되네요~
df.iloc[[0,3]]        # OK. fancy indexing도 지원해요~
df.iloc[[0,3], 0]     # OK. column도 숫자index로 사용할 수 있어요!
df.iloc[[0,3], [0,2]] # Ok.
df.iloc[0,0]          # iloc를 이용하면 마치 2차원 배열을 이용하듯이 사용할 수 있어요!


# 마지막으로 boolean indexing에 대해서 알아보아요!
import numpy as np
import pandas as pd

data = {
    "이름" : ["홍길동", "최길동", "이지안", "박동훈"],
    "학과" : ["컴퓨터", "철학", "영어영문", "의학"],
    "학년" : [1, 3, 4, 2],
    "학점" : [3.1, 2.4, 3.4, 3.3]
}

df = pd.DataFrame(data,
                  columns = ["학과", "학년", "이름", "학점", "등급"],
                  index = ["one", "two", "three", "four"])
display(df)

# boolean indexing
# boolean indexing은 mask를 사용해요!
df["학점"] >= 3.0    # [True False True True]

# 학점이 3.0 이상인 사람의 학과와 이름을 출력하세요!
df.loc[df["학점"] >= 3.0, ["학과", "이름"]]





import numpy as np
import pandas as pd

data = {
    "이름" : ["이지안", "박동훈", "홍길동", "강감찬", "오혜영"],
    "학과" : ["컴퓨터", "기계", "철학", "컴퓨터", "철학"],
    "학년" : [1, 2, 2, 4, 3],
    "학점" : [1.5, 2.0, 3.1, 1.1, 2.7]
}

df = pd.DataFrame(data,
                  columns = ["학과", "학년", "이름", "학점", "등급"],
                  index = ["one", "two", "three", "four", "five"])
display(df)

## 1. 이름이 "박동훈"인 사람을 찾아 이름과 학점을 DataFrame으로 출력
display(df.loc[df["이름"] == "박동훈", ["이름", "학점"]])

## 2. 학점이 (1,5, 2.5)인 사람을 찾아 학과, 이름, 학점을 DataFrame으로 출력    (1.5, 2.5) : 1.5초과 ~ 2.5미만
new_df = df.loc[df["학점"] > 1.5, ["학과", "이름", "학점"]] 
display(new_df.loc[df["학점"] < 2.5, ["학과", "이름", "학점"]])

# 하나로 합치면 이렇게 사용
display(df.loc[(df["학점"] > 1.5) & (df["학점"] < 2.5), ["학과", "이름", "학점"]])

## 3. 학점이 3.0을 초과하는 사람을 찾아 등급을 "A"로 설정하세요
df.loc[df["학점"] > 3.0, ["등급"]] = "A"
display(df)



In [15]:
## DataFrame을 제어해보자
# random seed를 잡아서 재현성을 확보하자
# [0,10) 정수형 난수를 균등분포로 (6,4)로 생성

import numpy as np
import pandas as pd

np.random.seed(10)                         # 초기값
data = np.random.randint(0,10,(6,4))

df = pd.DataFrame(data)                    
display(df)
#  <      결과        >


# column과 index를 다시 정의해 보자
df.columns = ["A","B","C","D"]
df.index = pd.date_range("20190101",periods=6 )
# 날짜가 윤년, 윤달이면 끝나는 날짜가 명확하지 않기 때문에
# 기간으로 잡아준다.

df
#  <      결과        >

## NaN값(결치값)을 포함하는 새로운 컬럼 'E'를 추가해보자 : ERROR
df["E"]=[7,np.nan,4,np.nan,2,np.nan]
display(df)
# NaN은 결치값이지만 float로 간주되기 때문에 연산이 가능하다.
# 결과는 NaN
# NaN은 R에서 NA인데, 연산 가능? ㅇㅇ 가능 => 결과 : NA


# => 결치값을 지워보자
new_df = df.dropna(how="any", inplace=False) 
print(new_df)
#  <      결과        >
## how = "all"행의 모든 값이 NaN이면 지운다.
## how = "any"행에서 어떤 값이라도 NaN이면 지운다.

# => 빈 곳을 결치값으로 채워보자
new_df = df.fillna(value=0, inplace=False) 
print(new_df)
#  <      결과        >

# E column에 NaN이 포함된 행을 찾아서 B와 C column의 값을 출력해보자
# 1 ) 행의 조건, 열의 조건을 설정해보자 
# 2 ) 열은 B와 C만 가져오자
# 3 ) E열에서 nan인 행  +    B,C열
df.loc[df.isnull()["E"],["B","C"]]
#  <      결과        >




Unnamed: 0,0,1,2,3
0,9,4,0,1
1,9,0,1,8
2,9,0,8,6
3,4,3,0,4
4,6,8,1,8
5,4,1,3,6


Unnamed: 0,A,B,C,D,E
2019-01-01,9,4,0,1,7.0
2019-01-02,9,0,1,8,
2019-01-03,9,0,8,6,4.0
2019-01-04,4,3,0,4,
2019-01-05,6,8,1,8,2.0
2019-01-06,4,1,3,6,


In [None]:
# 분석용 함수 (기본통계함수)
# 평균, 편차, 분산, 표준편차, 공분산, 상관계수

# 평균(mean)
# 편차(deviation) : 확률변수 X와 mean의 차이

# x => 8 5 7 3 2  mean => 5
# deviation => 3 0 2 -2 -3 => sum은 0
# 분산(deviation) : 데이터의 흩어짐 정도를 알기 위해서 사용하는 값으로
#                  편차의 제곱의 평균
# 분산을 제곱하기 때문에 단위 문제가 발생한다.

# 표준편차(standard deviation) : 분산의 제곱근

import numpy as np
import pandas as pd

arr = np.array([4,6,1,3,8,8], dtype=np.int32)
print(arr.sum())
# 결과 : 30
print(np.sum(arr))
# 결과 : 30
print(np.mean(arr))
# 결과 : 5.0
print(np.var(arr))
# 결과 : 6.666666666666667
print(np.std(arr))
# 결과 : 2.581988897471611

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 공분산
# x가 증가할 때 y가 감소하는지 증가하는지 등에 대해 나타냄
# 하지만 그 강도가 얼마나 강한지 알 수 없음 
# 단위계산이 불가능하기 때문에 경향만 알 수 있다!!!

# 공분산 : 두 개의 확률변수 x,y가 있을 때 이 두개의 확률변수의 관계를 보여줄 때
# 두 확률변수의 편차의 곱의 평균으로 표현
# 데이터가 평균으로부터 얼마나 떨어져있냐를 표현한다.
# 그래프를 그려보자


# 개연성 확보를 위해 항상 같은 난수가 발생하도록 seed처리
np.random.seed(1)
x = np.random.randint(-20,20,(10,))
print(x)
# 결과 : [ 17  -8 -12 -11  -9 -15  -5 -20  -4 -19]
y = np.random.randint(-10,10,(10,))
print(y)
# 결과 : [ 2 -3  3 -4  8 -5  8  1  0  4]
x_mean = x.mean()
y_mean = y.mean()

# scatter(산점도)로 표현해보자
plt.scatter(x,y,color = "red")
plt.scatter(x_mean,y_mean, color = "Blue")
#  <      결과        >
# 공분산이 양의 값으면 기울기가 양인 사분면의 점 개수가 많고
# 공분산이 음의 값이면 기울기가 음인 사분면의 점 개수가 많다.


# 공분산 계산해보자 !!!
x_deviation = x-x_mean            #broadcasting으로 다됨
y_deviation = y-y_mean  
print(x_deviation)

result = 0
for i in range(10):
    result += (x_deviation[i]*y_deviation[i])
myCov = result/9
print(myCov)# 5.933333333333334                                                                                                              
# 모공분산 : 원래 공식
# 표준공분산 : (N-1)로 나누어준다 => 추정치가 좋아진다

plt.show()


In [5]:
import numpy as np
import pandas as pd
import pandas_datareader.data as pdr  # 금융데이터를 이용하기 위해
import matplotlib.pyplot as plt       # 날짜 사용을 하기 위해
from datetime import datetime
# 공분산이 양수인 경우 (코스피지수와 삼성전자 주가)

# 아나콘다 프롬프트 창 => conda install pandas_datareader
#=> 없네???????
#=> 기본 python에서 설치해주자
#=> pip install pandas_datareader

# 특정 날짜를 이용해서 금융 데이터를 가져와보자
start = datetime(2018,1,1) # 시작날짜
end = datetime(2018,12,31) # 끝날짜


# 데이터를 얻어와서 json으로 저장하자
df_KOSPI = pdr.DataReader("^KS11","yahoo",start,end) #한국 코스피 지수
df_KOSPI.to_json("./DA/KOSPI.json")
display(df_KOSPI)


#@@@@@@@@@@@@@@@@@@@ 이걸로하면 좋은데 접속을 안시켜주넹@@@@@
# 파일 받아서 하기

import json
# 파일의 내용을 읽어서 dict로 변환한 후, dict를 이용해서 DataFrame생성

# KOSPI와 SE을 대상으로 공분산 계산
df_KOSPI = pd.DataFrame(json.load(open("./DA/KOSPI.json","r")))["Close"]
display(df_KOSPI.head())

df_SE = pd.DataFrame(json.load(open("./DA/SE.json","r")))["Close"]
display(df_SE.head())

print(np.cov(df_KOSPI,df_SE))
# 결과 :
#[[   24177.23140621   490222.10530186]
# [  490222.10530186 11919911.50745463]]

# LIG넥스원과 부산산업을 대상으로 공분산 계산
df_LIG = pd.DataFrame(json.load(open("./DA/LIG넥스원.json","r")))["Close"]
df_BUSAN = pd.DataFrame(json.load(open("./DA/부산산업.json","r")))["Close"]
print(np.cov(df_LIG,df_BUSAN))
# 결과 :
#[[ 6.35924170e+07 -3.86535936e+08]
# [-3.86535936e+08  4.64762211e+09]]


Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-02,2481.020020,2465.939941,2474.860107,2479.649902,262200,2479.649902
2018-01-03,2493.399902,2481.909912,2484.629883,2486.350098,331100,2486.350098
2018-01-04,2502.500000,2466.449951,2502.500000,2466.459961,333800,2466.459961
2018-01-05,2497.520020,2475.510010,2476.850098,2497.520020,308800,2497.520020
2018-01-08,2515.370117,2494.179932,2510.699951,2513.280029,311400,2513.280029
...,...,...,...,...,...,...
2018-12-21,2061.510010,2049.760010,2052.699951,2061.489990,311400,2061.489990
2018-12-24,2059.939941,2046.180054,2050.379883,2055.010010,285300,2055.010010
2018-12-26,2037.829956,2014.280029,2028.810059,2028.010010,321500,2028.010010
2018-12-27,2035.569946,2021.390015,2032.089966,2028.439941,398000,2028.439941


1514851200000    2479.649902
1514937600000    2486.350098
1515024000000    2466.459961
1515110400000    2497.520020
1515369600000    2513.280029
Name: Close, dtype: float64

1514851200000    51020.0
1514937600000    51620.0
1515024000000    51080.0
1515110400000    52120.0
1515369600000    52020.0
Name: Close, dtype: float64

[[   24177.23140621   490222.10530186]
 [  490222.10530186 11919911.50745463]]
[[ 6.35924170e+07 -3.86535936e+08]
 [-3.86535936e+08  4.64762211e+09]]


In [23]:
@@@@@@@@@@@@@@@@@@@@@@11/26@@@@@@@@@@@@@@@@@@@@@@@@
# 상관관계, 상관계수
# 상관계수를 이용하면 두 개의 데이터가 얼마나 밀접한 연관이 있는지 알 수 있다.

# 상관관계(correlation) : 두 대상이 서로 연관성이 있다고 추측되는 관계
# 상관계수(correlation coefficient) : 일반적으로 피어슨 상관계수를 이용한다.
# 공분산을 각 확률변수의 표준편차의 곱으로 나눠준 값
# -1~ +1 사이의 값으로 표현된다.
# 공분산의 절대값이 클수록 강한 상관관계
# 공분산이 0이면 관계가 없다
# 0-0.3, 0.3-0.7 0.7-1 크게 세가지로 구분된다
# 만약 양수라면?? 양의 상관관계
# 만약 음수라면?? 부적 상관관계
##### but 상관관계로 인과관계를 이야기하면 안된다 !
# 인과관계는 회귀분석(regression)을 통해서 알 수 있다 !

import numpy as np
import pandas as pd
import json


# read mode : "r"
# KSOPI
file_KOSPI = open("./DA/KOSPI.json","r")
series_KOSPI = pd.DataFrame(json.load(file_KOSPI))["Close"]

## 삼성전자
file_SE = open("./DA/SE.json","r")
series_SE = pd.DataFrame(json.load(file_SE))["Close"]

# 상관계수를 구하기 위해 공분산을 구한 후 각 표준편차의 곱으로 나누자
# 두개의 series를 함수 인자로 넣어주면,
np.corrcoef(series_KOSPI,series_SE)
# 결과 : 
#array([[1.        , 0.91317306],
#       [0.91317306, 1.        ]])


# 부산산업
file_PUSAN = open("./DA/부산산업.json","r")
series_PUSAN = pd.DataFrame(json.load(file_PUSAN))["Close"]


# => 세 개의 series를 데이타프레임으로 만들어보자

data = {
    "KOSPI" : series_KOSPI,
    "SE" : series_SE,
    "PUSAN" : series_PUSAN    
}
df = pd.DataFrame(data)
df.head()
display(df.corr())      
# 모든 column에 대한 상관관계를 보여줌
 

Unnamed: 0,KOSPI,SE,PUSAN
KOSPI,1.0,0.913173,-0.576688
SE,0.913173,1.0,-0.468954
PUSAN,-0.576688,-0.468954,1.0


In [46]:
# DataFrame에서 sum 함수와 mean함수의 사용
import numpy as np
import pandas as pd

# 중첩리스트를 이용해서 DataFrame을 생성해보자
data = [[2,np.nan],
        [7,-3],
        [np.nan, np.nan],
        [1, -2]]

df = pd.DataFrame(data,
                 columns=["one","two"],
                 index = ["a","b","c","d"])
display(df)



######################## sum ######################
df.sum()
# 열끼리 더한다
# df.sum(axis=0)과 결과가 같다
# nan을 0으로 간주한다
# 결과 :
#one    10.0
#two    -5.0
#dtype: float64
df.sum(axis=1)
# 결과 :
#a    2.0
#b    4.0
#c    0.0
#d   -1.0
#dtype: float64
df["two"].sum()
# 결과 : -5.0
df.loc["b"].sum()
# 결과 : 4.0

####################### mean #####################
# sum일 때는 상관없지만 mean을 구할 때 nan은 어떻게 처리하지?
# skipna : na를 skip할거니이? TRUE/FALSE
df.mean(axis=0,skipna=False)
# 결과 :
#one   NaN
#two   NaN
#dtype: float64
# 모든 NaN은 실수처리 되기 때문에 모든 연산 결과는 NaN
df.mean(axis=0,skipna=True)
# 결과 : 
#one    3.333333
#two   -2.500000
#dtype: float64

###################################################
# "one" column의 결측값은 "one" column의 평균으로
# "two" column의 결측값은 "two" column의 최소값으로 대체해보자

one_avg = df["one"].mean(axis=0, skipna=True)
print(one_avg)  # 3.3333333335
two_min = df["two"].min()
print(two_min)  # -3.0

# na자리를 어떤 값으로 채운다
df["one"] = df["one"].fillna(value = one_avg)
df["two"] = df["two"].fillna(value = two_min)
print(df)
# 결과 : 
#        one  two
#a  2.000000 -3.0
#b  7.000000 -3.0
#c  3.333333 -3.0
#d  1.000000 -2.0



Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0


3.3333333333333335
-3.0
        one  two
a  2.000000 -3.0
b  7.000000 -3.0
c  3.333333 -3.0
d  1.000000 -2.0


In [87]:
# 다른 함수에 대해 더 알아보자
# 분석용함수 (sum, mean, cov, corr 등)
# 정렬에 대해서 알아보자

import numpy as np
import pandas as pd

# 랜덤으로 정수형 난수를 발생시키자 randint
np.random.seed(11)
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
df.columns = ["A","B","C","D"]
df.index = pd.date_range("20190101",periods=6)
display(df)


############## 순서를 바꿔보자 #######################
random_index = np.random.permutation(df.index)
# 입력으로 들어오는 순열 데이터를 랜덤으로 섞는다
print(random_index)
# 결과 : 
#['2019-01-06T00:00:00.000000000' '2019-01-04T00:00:00.000000000'
# '2019-01-05T00:00:00.000000000' '2019-01-02T00:00:00.000000000'
# '2019-01-01T00:00:00.000000000' '2019-01-03T00:00:00.000000000']

# index를 다시 잡는다( index와 column 재설정 )
df2 = df.reindex(index = random_index, columns = ["B","A","D","C"])
display(df2)


########### 정렬해보자 #######################
# 이를 다시 원래대로 정렬해보자
# 축으로 정렬해보자
df3 = df2.sort_index(axis=0, ascending = True) # 오름차순
print(df3)

# 값으로 정렬해보자
display(df3.sort_values(by="A"))
# A값을 기준으로 정렬하는 것 !!!!!!
display(df3.sort_values(by=["A","B"]))
# A값에 동일한 것이 있을 때, B로 정렬

############  그 외 ######################## 
# unique(), value_count(), isin(), 함수

# unique() : 중복 배제하는 함수
# value_count() ; 값이 몇개 있는지 세어준다
# isin() : 이 값이 데이터 안에 있는지 없는지 확인


np.random.seed(1)
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
display(df)
df.columns = ["A","B","C","D"]
df.index = pd.date_range("20190101",periods=6)

# 새로운 column을 만들어보자
df["E"] = ["AA","BB","CC","AA","BB","AA"]
print(df)
print(df["E"].unique())
# 결과 : ['AA' 'BB' 'CC']
print(df["E"].value_counts())
# 결과 : 
#AA    3
#BB    2
#CC    1
#Name: E, dtype: int64
print(df["E"].isin(["AA","CC"]))
# 결과 : 
#2019-01-01     True
#2019-01-02    False
#2019-01-03     True
#2019-01-04     True
#2019-01-05    False
#2019-01-06     True
#Freq: D, Name: E, dtype: bool

## 람다식 활용 : 이름이 없는 함수를 의미한다
import numpy as np
import pandas as pd

np.random.seed(1)
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
df.columns = ["A","B","C","D"]
df.index = pd.date_range("20190101",periods=6)
display(df)

# 컬럼을 하나 만들려고한다. 각 행의 최대값-최소값으로 만들려한다.

func = lambda x : x.max() - x.min()
df["최대-최소"] = df.apply(func,axis=1)
print(df)
# 내가 정한 함수를 특정 df에 적용시킨다(설정한 방향에 따라)
# series에서 apply와 같은 역할을 하는 함수는map
# 결과 : 
#            A  B  C  D  최대-최소
#2019-01-01  5  8  9  5      4
#2019-01-02  0  0  1  7      7
#2019-01-03  6  9  2  4      7
#2019-01-04  5  2  4  2      3
#2019-01-05  4  7  7  9      5
#2019-01-06  1  7  0  6      7





Unnamed: 0,A,B,C,D
2019-01-01,9,0,1,7
2019-01-02,1,7,2,8
2019-01-03,0,0,4,2
2019-01-04,1,5,5,7
2019-01-05,4,1,8,8
2019-01-06,1,3,6,2


['2019-01-06T00:00:00.000000000' '2019-01-04T00:00:00.000000000'
 '2019-01-05T00:00:00.000000000' '2019-01-02T00:00:00.000000000'
 '2019-01-01T00:00:00.000000000' '2019-01-03T00:00:00.000000000']


Unnamed: 0,B,A,D,C
2019-01-06,3,1,2,6
2019-01-04,5,1,7,5
2019-01-05,1,4,8,8
2019-01-02,7,1,8,2
2019-01-01,0,9,7,1
2019-01-03,0,0,2,4


            B  A  D  C
2019-01-01  0  9  7  1
2019-01-02  7  1  8  2
2019-01-03  0  0  2  4
2019-01-04  5  1  7  5
2019-01-05  1  4  8  8
2019-01-06  3  1  2  6


Unnamed: 0,B,A,D,C
2019-01-03,0,0,2,4
2019-01-02,7,1,8,2
2019-01-04,5,1,7,5
2019-01-06,3,1,2,6
2019-01-05,1,4,8,8
2019-01-01,0,9,7,1


Unnamed: 0,B,A,D,C
2019-01-03,0,0,2,4
2019-01-06,3,1,2,6
2019-01-04,5,1,7,5
2019-01-02,7,1,8,2
2019-01-05,1,4,8,8
2019-01-01,0,9,7,1


Unnamed: 0,0,1,2,3
0,5,8,9,5
1,0,0,1,7
2,6,9,2,4
3,5,2,4,2
4,4,7,7,9
5,1,7,0,6


In [115]:
## DataFrane Merge
# inner, outer, left, right

import numpy as np
import pandas as pd

data1 = {
    "학번" : [1,2,3,4],
    "이름" : ["홍길동","최길동","아이유","김연아"],
    "학년" : [2,3,3,1],
}

data2 = {
    "학번" : [1,2,4,5],
    "학과" : ["컴퓨터","미술","철학","사회"],
    "학점" : [1.3, 3.5, 4.3, 2.3]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
display(df1)
display(df2)

#################### 합 쳐 보 자 #######################

# 어떤 것을 mapping시켜서 결합할 것인가
pd.merge(df1,df2,on="학번",how="inner")
pd.merge(df1,df2,on="학번",how="outer") # R에서 full join
pd.merge(df1,df2,on="학번",how="left")
pd.merge(df1,df2,on="학번",how="right")



Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,최길동,3
2,3,아이유,3
3,4,김연아,1


Unnamed: 0,학번,학과,학점
0,1,컴퓨터,1.3
1,2,미술,3.5
2,4,철학,4.3
3,5,사회,2.3


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2.0,컴퓨터,1.3
1,2,최길동,3.0,미술,3.5
2,4,김연아,1.0,철학,4.3
3,5,,,사회,2.3


In [127]:
import numpy as np
import pandas as pd

data1 = {
    "학번" : [1,2,3,4],
    "이름" : ["홍길동","최길동","아이유","김연아"],
    "학년" : [2,3,3,1],
}

data2 = {
    "학번" : [1,2,4,5],
    "학과" : ["컴퓨터","미술","철학","사회"],
    "학점" : [1.3, 3.5, 4.3, 2.3]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
display(df1)
display(df2)

pd.merge(df1,df2,on="학번",how="inner")

##############################################
# 학번이라는 column명이 다르면 column명을 바꿔주고 join하자
# 대신 원본 데이터는 바꾸지 않는다 !!!

data1 = {
    "학번" : [1,2,3,4],
    "이름" : ["홍길동","최길동","아이유","김연아"],
    "학년" : [2,3,3,1],
}

data2 = {
    "학생학번" : [1,2,4,5],
    "학과" : ["컴퓨터","미술","철학","사회"],
    "학점" : [1.3, 3.5, 4.3, 2.3]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

pd.merge(df1,df2,
         left_on = "학번",
         right_on = "학생학번",
         how ="inner")
##############################################
data1 = {
    "학번" : [1,2,3,4],
    "이름" : ["홍길동","최길동","아이유","김연아"],
    "학년" : [2,3,3,1],
}

data2 = {
    "학과" : ["컴퓨터","미술","철학","사회"],
    "학점" : [1.3, 3.5, 4.3, 2.3]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
df2.index = [1,2,4,5]

display(pd.merge(df1,df2,
                left_on ="학번",
                right_index = True,
                how = "inner"))
############################################
data1 = {
    "이름" : ["홍길동","최길동","아이유","김연아"],
    "학년" : [2,3,3,1],
}

data2 = {
    "학과" : ["컴퓨터","미술","철학","사회"],
    "학점" : [1.3, 3.5, 4.3, 2.3]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
df1.index=[1,2,3,4]
df2.index=[1,2,4,5]
display(pd.merge(df1,df2,
                left_on =True,
                right_index = True,
                how = "inner"))

## series 를 연결해서 DataFrame을 샏성하는 방법
import numpy as np
import pandas as pd

s1=pd.Series([0,1],index=["a","c"])
print(s1)

s2=pd.Series([4,3,2],index=["b","c","e"])
print(s2)


########### series 결합 #####################
pd.concat([s1,s2], axis = 0)
pd.concat([s1,s2], axis = 1, sort=True)


Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,최길동,3
2,3,아이유,3
3,4,김연아,1


Unnamed: 0,학번,학과,학점
0,1,컴퓨터,1.3
1,2,미술,3.5
2,4,철학,4.3
3,5,사회,2.3


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,1.3
1,2,최길동,3,미술,3.5
3,4,김연아,1,철학,4.3


KeyError: True

In [132]:
@@@@@@@@@@@@@@@@@@@@@@ 11/27 @@@@@@@@@@@@@@@@@@@@
## multi index
import numpy as np
import pandas as pd

np.random.seed(1)

######################### series ###########################
### 간단하게 Series을 하나 생성해보자
 # 1-4까지 3개의 난수 추출
s = pd.Series(np.random.randint(1,5,(3,)),
             index=["총무처","관리처","정보전산처"])
print(s)

# 결과 :
#총무처      2
#관리처      4
#정보전산처    1
#dtype: int32

###리스트를 중첩시키면?
t = pd.Series(np.random.randint(1,5,(3,)),
             index=[["총무처","관리처","정보전산처"],
                    ["인력개발팀","건축팀","개발팀"]])
print(t)
# 결과 :
#총무처    인력개발팀    1
#관리처    건축팀      4
#정보전산처  개발팀      2
#dtype: int32


### 중첩된 리스트의 인덱스도 중첩된다면?
### 이렇게 하면 계층형으로 멀티인덱스를 만들 수 있다.
k = pd.Series(np.random.randint(1,5,(6,)),
             index=[["총무처","관리처","정보전산처","총무처","관리처","정보전산처"],
                    ["인력개발팀","건축팀","개발팀","재무팀","안전팀","운영팀"]])
print(k)

# 결과 : 
#총무처    인력개발팀    4
#관리처    건축팀      2
#정보전산처  개발팀      4
#총무처    재무팀      1
#관리처    안전팀      1
#정보전산처  운영팀      2
#dtype: int32

# 1) 총무처만 추출해보자
print(k["총무처"])
# 결과 :
#인력개발팀    4
#재무팀      1
#dtype: int32

# 2) 관리처와 정보전산처를 추출해보자
# 두개 떨어져있으니까 fancy indexing 사용
print(k[["관리처","정보전산처"]])
# 결과 :
#관리처    건축팀    2
#정보전산처  개발팀    4
#관리처    안전팀    1
#정보전산처  운영팀    2
#dtype: int32

# 1차 인덱스와 2차 인덱스를 이용해서 데이터를 추출해보자
# 튜플을 이용한다.( 1차인덱스, 2차인덱스 )를 지칭
# 3) 총무처의 재무팀 인원은 몇 명인가요?
print(k[("총무처","재무팀")])
# 결과 : 1
print(k["총무처","재무팀"])         #=> 튜플은 괄호 생략 가능!!! 
# 결과 : 1
print(k[:,"재무팀"])                # 모든 부처의 재무팀
# 결과 :
#총무처    1
#dtype: int32
#print(k[(:,"재무팀")])              # 이건 오류임; : 기호 사용시에는 괄호 생략


########################DataFrame  #######################

import numpy as np
import pandas as pd
np.random.seed(100)

df = pd.DataFrame(np.random.randint(1,5,(6,5)),
                 index=[["총무처","관리처","정보전산처","총무처","관리처","정보전산처"],
                       ["인력개발팀","건축팀","개발팀","재무팀","안전팀","운영팀"]],
                 columns=[["아시아","유럽","아시아","유럽","아시아"],
                         ["한국","독일","일본","프랑스","중국"]])
# (난수,index=[[],[]],columns=[[],[]])
# index가 6개, columns가 5개
display(df)

# 이 보기좋지않은 표를 정렬해서 보기좋게 만들어보자
new_df = df.sort_index(axis=0)
display(new_df)
new_dff = new_df.sort_index(axis=1)
display(new_dff)

## 유럽지역만 추출해보자
new_df["유럽"]

## 아시아의 한국만 추출해보자 => Series
new_df["아시아","한국"]

## 지역에 상관없이 총무처 정보만 추출해보자 => DataFrame
new_df.loc["총무처"]

# 총무처의 재무팀만 추출  => Series
new_df.loc[("총무처","재무팀")]

# 아시아 지역 중국의 정보전산처 개발팀 인원은 몇명? => 3
new_df.loc[("정보전산처","개발팀")]["아시아","중국"]


#### df 이름 명시하기
df.index.names=["부처","팀"]
df.columns.names=["대륙","국가"]
display(df)

#### "팀"이름으로 행을 내림차순으로 정렬하자
df.sort_index(axis=0) 
df.sort_index(axis=0,level=0)
# => 부처별로 정렬된다
df.sort_index(axis=0,level=1, ascending=False)
df.sort_index(axis=0,level="팀", ascending=False)
# => 팀 이름으로 내림차순 정렬 

# 국가별로 컬럼을 오름차순으로 정렬
df.sort_index(axis=1,level="국가")

### 값을 이용해서 정렬할 수 있다.
# 아시아 지역의 한국 직원수를 기준으로 내림차순 정렬하자
df.sort_values(by=("아시아","한국"),ascending=False)
# 아시아 지역의 한국 직원수를 기준으로 내림차순 정렬, 
# 만약 동률이 존재할 경우 아시아 지역의 일본 직원수를 기준으로 오름차순 정렬
df.sort_values(by=[("아시아","한국"),("아시아","일본")],ascending=[False,True])

#### df 이름 명시하기
df.index.names=["부처","팀"]
df.columns.names=["대륙","국가"]
display(df)

# 각 도시별 직원수의 합은 얼마인가?
df.sum(axis=0)

# 각 도시 부처별 직원수의 합은 얼마인가?
df.sum(axis=0,level="부처")
df.sum(axis=0,level=0)

# 모든 지역의 각 부처-팀별 평균 인원은?
df.mean(axis=1)


a    0
c    1
dtype: int64
b    4
c    3
e    2
dtype: int64


Unnamed: 0,0,1
a,0.0,
b,,4.0
c,1.0,3.0
e,,2.0


In [None]:
#######################  DF column을 인덱스로 설정하기  #####################
import numpy as np
import pandas as pd

df=pd.DataFrame({"이름":["홍길동","김연아","아이유","김길동","신사임당"],
                "성적":[1.5,4.4,4.5,2.3,4.0],
                "학과":["컴퓨터","철학","컴퓨터","철학","컴퓨터"],
                "학년":[1,2,3,2,2]})
display(df)
# 학과column을index로변경
new_df=df.set_index("학과")
display(new_df)

# 학과, 학년column을index로변경
new_df2=df.set_index(["학과","학년"])
display(new_df2)

# 원래형태로 변경
origin_df = new_df.reset_index()
display(origin_df)


#############  열과 행 자유자재로 바꾸기 #################
np.random.seed(1)
df = pd.DataFrame(np.random.randint(1,5,(2,3)),
                 index = ["서울","부산"],
                 columns = ["마케팅","개발","운영"])
display(df)

new_df = df.stack()    # stack은 index의 최하위 index로 생성
display(new_df)

new_df2 = df.unstack()  # unstack은 index의 최하위 index를 column으로 보낸다
display(new_df2)

new_df3 = df.unstack(level=0) 
display(new_df3)

new_df4 = new_df.unstack()
display(new_df4)

new_df5 = new_df.unstack(level=0)
display(new_df5)


################    중복행 제거   ###################
df = pd.DataFrame({"k1":["one"]*3+["two"]*4,
                  "k2":[1,1,2,3,3,4,4]})
print(df)
df.duplicated()        #mask가 나온다
# 결과 :
#0    False
#1     True
#2    False
#3    False
#4     True
#5    False
#6     True
#dtype: bool

# 중복행인지 아닌지 판단하여 bool type으로 나온다
# 중복행들 중에서 처음에 나오는 항은 False가 나온다
# True는 중복된 값을 의미한다

# 모든 중복행들이 뽑히게 된다.
df.loc[df.duplicated(),:]

# 중복행이 아닌것을 뽑으려면?
df.loc[~df.duplicated(),:]

# 중복행을 모두 제거할 수 있다.
df.drop_duplicates()

# 마스크를 만드는건 ? duplicated
# 실제로 제거하는건 ? duplicates

In [None]:
###################### Grouping ##########################

# DataFrame의 Grouping
df=pd.DataFrame({"이름":["홍길동","김연아","아이유","김길동","신사임당"],
                "성적":[1.5,4.4,4.5,2.3,4.0],
                "학과":["컴퓨터","철학","컴퓨터","철학","컴퓨터"],
                "학년":[1,2,3,2,2]})

display(df)

# 학과를 기준으로 grouping 해보자( grouping 대상은 성적)
dept = df["성적"].groupby(df["학과"])
dept.mean()
# 결과 : 
#학과
#철학     3.350000
#컴퓨터    3.333333
#Name: 성적, dtype: float64

# 학과와 학년을 기준으로 grouping
dept = df["성적"].groupby([df["학과"],df["학년"]])
dept.mean().unstack()



In [21]:
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
##################  연습문제  ######################
# R에서 데이터 추출해서 
# csv 파일로 만들고
# 이를 이용해서 pandas에서 DataFrame을 만들고 

import numpy as np
import pandas as pd
import csv


data = pd.read_csv("C:/python_DA/DA/mpg data.csv")
data.describe(include="all")
# 1. displ(배기량)이 4 이하인 자동차와 5 이상인 자동차 중 
#    어떤 자동차의 hwy(고속도로 연비)가 평균적으로 더 높은지 확인하세요.

lower = data["hwy"].groupby(data["displ"]<=4)
lower_mean=lower.mean()[True]
print(lower_mean)

higher = data["hwy"].groupby(data["displ"]>=5)
higher_mean = higher.mean()[True]
print(higher_mean)

# 2. 자동차 제조 회사에 따라 도시 연비가 다른지 알아보려고 한다.
#"audi"와 "toyota" 중 어느 manufacturer(제조회사)의 cty(도시 연비)가 평균적으로 더 높은지 확인하세요.

audi = data["cty"].groupby(data["manufacturer"]== "audi")
audi = audi.mean()[True]
print(audi)

toyota = data["cty"].groupby(data["manufacturer"]== "toyota")
toyota = toyota.mean()[True]
print(toyota)

# 3. "chevrolet", "ford", "honda" 자동차의 고속도로 연비 평균을 알아보려고 한다. 
#이 회사들의 데이터를 추출한 후 hwy(고속도로 연비) 전체 평균을 구하세요.

cfh = data["hwy"].groupby(data["manufacturer"])
cfh_mean = cfh.mean()[["chevrolet","ford","honda"]].mean()
display(cfh.mean()[["chevrolet","ford","honda"]])
display(cfh_mean)


# 4. "audi"에서 생산한 자동차 중에 어떤 자동차 모델의 hwy(고속도로 연비)가 높은지 알아보려고 한다. 
#"audi"에서 생산한 자동차 중 hwy가 1~5위에 해당하는 자동차의 데이터를 출력하세요.

k = data.loc[data["manufacturer"]=="audi",["manufacturer","model","hwy"]]
k.sort_values(by="hwy",ascending=False)[0:5]

# 5. mpg 데이터는 연비를 나타내는 변수가 2개입니다. 
#두 변수를 각각 활용하는 대신 하나의 통합 연비 변수를 만들어 사용하려 합니다. 
#평균 연비 변수는 두 연비(고속도로와 도시)의 평균을 이용합니다. 
#회사별로 "suv" 자동차의 평균 연비를 구한후 내림차순으로 정렬한 후 1~5위까지 데이터를 출력하세요.

data["mean"]= (data["cty"]+data["hwy"])/2
# display(data.head())

mean2 = data["mean"].groupby([data["manufacturer"], data["class"]=="suv"])
mean2 = mean2.mean().unstack()[True].dropna().sort_values(ascending=False)[0:5]
print(mean2)

# 6. mpg 데이터의 class는 "suv", "compact" 등 자동차의 특징에 따라 일곱 종류로 분류한 변수입니다. 
#어떤 차종의 도시 연비가 높은지 비교하려 합니다. 
#class별 cty 평균을 구하고 cty 평균이 높은 순으로 정렬해 출력하세요.

mean3 = data["cty"].groupby(data["class"])
mean3 = mean3.mean()
mean3.sort_values(ascending=False)

# 7. 어떤 회사 자동차의 hwy(고속도로 연비)가 가장 높은지 알아보려 합니다. 
#hwy(고속도로 연비) 평균이 가장 높은 회사 세 곳을 출력하세요.

mean4 = data["hwy"].groupby(data["manufacturer"])
mean4 = mean4.mean()
mean4.sort_values(ascending=False)[0:3]

# 8. 어떤 회사에서 "compact" 차종을 가장 많이 생산하는지 알아보려고 합니다. 
#각 회사별 "compact" 차종 수를 내림차순으로 정렬해 출력하세요.

mean5 = data["cty"].groupby([data["manufacturer"],data["class"]=="compact"])
mean5 = mean5.count().unstack()[True].dropna().sort_values(ascending=False)
print(mean5)

Unnamed: 0.1,Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
0,1,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,2,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,3,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,4,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,5,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...,...
229,230,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,231,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,232,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,233,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize
