In [3]:
## pandas는 python data분석의 핵심 module(package)
## 데이터 분석
## 1. EDA(탐색적 데이터 분석) :예) 엑셀로 데이터 분석
##    python언어로 pandas를 이용해서 EDA 수행
## 2. 통계적 데이터 분석 : 통계적쪽 이론을 이용한 분석
## 3. 머신러닝 : 기존 데이터를 이요해서 프로그램을 학습
##               이 학습된 결과를 이용해 예측
##   딥러닝

## Pandas는 고유한 자료구조를 2개 사용해요!
## Series: numpy의 1차원 배열과 상당히 유사
##         동일한 데이터 타입의 복수개의 요소로 구성
## DataFrame : Table형식으로 구성된 자료구조
##             2차원 배열과 상당히 유사
##             데이터베이스 테이블과 상당히 유사


In [6]:
import numpy as np
import pandas as pd

print("=" * 30)
arr = np.array([-1,10,50,99], dtype=np.float64)
print(arr)
print("=" * 30)
s = pd.Series([-1,10,50,99], dtype=np.float64)
display(s)
print(s.values) # numpy 1차원 array로 리턴
print(s.index)
print(s.dtype)

[-1. 10. 50. 99.]


0    -1.0
1    10.0
2    50.0
3    99.0
dtype: float64

[-1. 10. 50. 99.]
RangeIndex(start=0, stop=4, step=1)
float64


In [10]:
import numpy as np
import pandas as pd

s=pd.Series([-1,10,50,99], index=['c','a','k','tt'])
display(s)

print(s['a']) # 다른 형식의 인덱스를 사용할 수 있어요
print(s[1])

print("==")
print(s[1:3])
print(s['c':'k']) # 애는 양쪽다 inclusive네 ? # slicing가능(슬라이싱되는 범위에 주의)
print("--")
print(s.sum())

c     -1
a     10
k     50
tt    99
dtype: int64

10
10
==
a    10
k    50
dtype: int64
c    -1
a    10
k    50
dtype: int64
--
158


In [25]:
## A 공장의 2019-01-01부터 10일간 제품 생산량을 Series에 저장
## 단,생산량의 평균은 50이고, 표준편차는 5인 정규분포에서 생산량을 랜덤하게 추출

## B 공장의 2019-01-01부터 10일간 제품 생산량을 Series에 저장
## 단,생산량의 평균은 70이고, 표준편차는 8인 정규분포에서 생산량을 랜덤하게 추출

# 2019-01-01부터 10일간 모든 공장(A,B)의 생산량을 날짜별로 출력하세요

import numpy as np
import pandas as pd
from datetime import date,timedelta
from dateutil.parser import parse
import matplotlib.pyplot as plt

start_day = parse("2019-01-01")
factory_a= pd.Series([int(x) for x in np.random.normal(50,5,(10,))], # 평균,표준편차,(행,렬) 인듯하다
                     index=[start_day + timedelta(days=x) for x in range(10)])

display(factory_a)

start_day = parse("2019-01-01")
factory_b= pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
                     index=[start_day + timedelta(days=x) for x in range(10)])
display(factory_b)

display(factory_a + factory_b) # index가 똑같은것끼리 더하게 됩니다!!!

[[51.15115345 49.24758669 48.77067193]
 [48.82477957 50.15438727 50.69285671]
 [48.93654511 51.27390241 48.65484517]
 [51.03179557 49.21401359 50.25056105]]


2019-01-01    49
2019-01-02    49
2019-01-03    53
2019-01-04    59
2019-01-05    46
2019-01-06    50
2019-01-07    52
2019-01-08    45
2019-01-09    50
2019-01-10    47
dtype: int64

2019-01-01    73
2019-01-02    74
2019-01-03    79
2019-01-04    72
2019-01-05    64
2019-01-06    59
2019-01-07    79
2019-01-08    74
2019-01-09    83
2019-01-10    73
dtype: int64

2019-01-01    122
2019-01-02    123
2019-01-03    132
2019-01-04    131
2019-01-05    110
2019-01-06    109
2019-01-07    131
2019-01-08    119
2019-01-09    133
2019-01-10    120
dtype: int64

In [29]:
## 이전에는 Series라는 자료구조를 만들때 python의 list를 이용해서 만들었는데 이번에는 dictionary를 이용해서
## 만들어 보아요!
import numpy as np
import pandas as pd

my_dict = {"서울":3000, "부산":2000, "제주":8000}
s = pd.Series(my_dict)

s.name = "지역별 가격 데이터"
s.index_name="지역"
display(s)

서울    3000
부산    2000
제주    8000
Name: 지역별 가격 데이터, dtype: int64

In [33]:
## pandas의 두번째 자료구조인 DataFrame을 살펴보야요!
## 거의 대부분의경우 DataFrame을 이용해서 데이터 분석
## dictionary를 이용해서 생성
import numpy as np
import pandas as pd

data = {"name" :["kim","lee","park","moon","kim"],
       "year" : [2015,2016,2019,2019,2015],
        "point" : [3.1, 4.3, 1.2, 2.3, 3.9]}
df = pd.DataFrame(data)
display(df)
print("DataFrame의 shape : {}"  .format(df.shape))
print("DataFrame의 요소개수 : {}" .format(df.size))
print("DataFrame의 차원 : {}" .format(df.ndim))
print("DataFrame의 인덱스 : {}" .format(df.index))
print("DataFrame의 컬럼 : {}" .format(df.columns))
print("DataFrame의 데이터 : {}" .format(df.values))

print("===")
ms = pd.Series(data)
display(ms)


Unnamed: 0,name,year,point
0,kim,2015,3.1
1,lee,2016,4.3
2,park,2019,1.2
3,moon,2019,2.3
4,kim,2015,3.9


DataFrame의 shape : (5, 3)
DataFrame의 요소개수 : 15
DataFrame의 차원 : 2
DataFrame의 인덱스 : RangeIndex(start=0, stop=5, step=1)
DataFrame의 컬럼 : Index(['name', 'year', 'point'], dtype='object')
DataFrame의 데이터 : [['kim' 2015 3.1]
 ['lee' 2016 4.3]
 ['park' 2019 1.2]
 ['moon' 2019 2.3]
 ['kim' 2015 3.9]]
===


name        [kim, lee, park, moon, kim]
year     [2015, 2016, 2019, 2019, 2015]
point         [3.1, 4.3, 1.2, 2.3, 3.9]
dtype: object

In [73]:
### CSV파일을 이용해서 DataFrame을 생성해 보아요!
### 일반적으로 CSV파일의 첫번째 행은 컬럼을 명시
import numpy as np
import pandas as pd

df = pd.read_csv("./data/movielens/ratings.csv")

# display(df)
print(df.shape)
# 상위 5개
display(df.head())
# 하위 5개
display(df.tail())

(100836, 4)


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


Unnamed: 0,userId,movieId,rating,timestamp
100831,610,166534,4.0,1493848402
100832,610,168248,5.0,1493850091
100833,610,168250,5.0,1494273047
100834,610,168252,5.0,1493846352
100835,610,170875,3.0,1493846415


In [35]:
## Database로부터 데이터를 얻어내서 DataFrame을 생성
## mysql을 이용해서 처리해 보아요!
## phton에서 mysql을 사용할 수 있도록 도와주는 module을 설치
import pymysql.cursors
import numpy as np
import pandas as pd

## mysql을 다운로드 받아서 간단하게 설치-설정
## 데이터베이스를 연결하기 위핸 변수를 하나 생성
conn = pymysql.connect(host="localhost", user="python", password="python", db="library",charset="utf8")

sql = "select bisbn,btitle,bauthor,bprice from books"

df = pd.read_sql(sql,con=conn)
display(df)

Unnamed: 0,bisbn,btitle,bauthor,bprice
0,89-7914-063-0,C로 구현한 알고리즘,카일 루든(Kyle Loudon),25000
1,89-7914-206-4,"IT EXPERT, 모바일 자바 프로그래밍","권기경, 박용우",23000
2,89-7914-245-5,초보자를 위한 Linux & Unix C 프로그래밍,"김종훈, 김종진, 김동균",28000
3,89-7914-254-4,스트럿츠 프레임워크 워크북,박재성,20000
4,89-7914-274-9,나는 프로그래머다,임백준외 6명,12800
5,89-7914-278-1,알기 쉽게 풀어 쓴 웹로직과 EJB,김성박,25000
6,89-7914-288-9,Programming Challenges: 알고리즘 트레이닝 북,"스티븐 스키에나, 미구엘 레비야",26000
7,89-7914-295-1,"IT EXPERT, 리눅스 디바이스 드라이버",유영창,35000
8,89-7914-308-7,Head First EJB : EJB가 여러분의 머리 속으로,"케이시 시에라, 버트 베이츠",30000
9,89-7914-309-5,데이터베이스 설계와 구축 : 성능까지 고려한 데이터 모델링(개정판),이춘식,27000


In [41]:
# 3가지 형태의 데이터 파일을 이용
# CSV파일을 읽어들여서 pandas의 DataFrame으로 표현
import numpy as np
import pandas as pd

df = pd.read_csv("./data/movielens/ratings.csv")

display(df)

## DataFrame에 들어있는 데이터를 JSON형태로 저장하고 싶어요
new_df = df.head()
display(new_df)
new_df.to_json("./data/movielens/ratings.json")
display(new_df)



Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931
5,1,70,3.0,964982400
6,1,101,5.0,964980868
7,1,110,4.0,964982176
8,1,151,5.0,964984041
9,1,157,5.0,964984100


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


{"userId":{"0":1,"1":1,"2":1,"3":1,"4":1},"movieId":{"0":1,"1":3,"2":6,"3":47,"4":50},"rating":{"0":4.0,"1":4.0,"2":4.0,"3":5.0,"4":5.0},"timestamp":{"0":964982703,"1":964981247,"2":964982224,"3":964983815,"4":964982931}}


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [13]:
## JSON파일을 읽어서 DataFrame을 만들어보아요!!
## Python3에 기본 내장되어 있는 module
import numpy as np
import pandas as pd
import json

file = open("./data/movielens/ratings.json","r")

my_dict = json.load(file)
file.close()
df = pd.DataFrame(my_dict)
display(df)
# df.to_json("./data/movielens/rating.csv")

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [34]:
## pandas의 DataFrame의 제어

import numpy as np
import pandas as pd

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,2,3,4],
        "학점" : [3.1,2.9,4.5,3.9]
       }

df = pd.DataFrame(data,
                 columns=["학과","이름","학년","학점"],
                 index=["one","two","three","four"])
display(df)
## DataFrame은 기본적인 분석함수를 제공
display(df.describe())

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,2,2.9
three,철학,이순신,3,4.5
four,미술,신사임당,4,3.9


학년    2.5
학점    3.6
dtype: float64

In [43]:
data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,2,3,4],
        "학점" : [3.1,2.9,4.5,3.9]
       }

df = pd.DataFrame(data,
                 columns=["학과","이름","학년","학점"],
                 index=["one","two","three","four"])
display(df)
## DataFrame에서 특정 column만 추출
## 컬럼 1개만 들고오면 => Series
# display(df["이름"])
# year = df["학년"] # year => Series => View로 가져와요!
year = df["학년"].copy() # View가 아닌 복사본을 이용하려면
year[0] = 100 
display(year)
display(df)

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,2,2.9
three,철학,이순신,3,4.5
four,미술,신사임당,4,3.9


one      100
two        2
three      3
four       4
Name: 학년, dtype: int64

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,2,2.9
three,철학,이순신,3,4.5
four,미술,신사임당,4,3.9


In [42]:
import numpy as np
import pandas as pd
import warnings

## warning을 출력하지 않기 위한 설정
warnings.filterwarnings(action ="ignore") # 경고창 off
# warnings.filterwarnings(action ="default") # 경고창 on

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,2,3,4],
        "학점" : [3.1,2.9,4.5,3.9]
       }

df = pd.DataFrame(data,
                 columns=["학과","이름","학년","학점"],
                 index=["one","two","three","four"])
display(df)


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,2,2.9
three,철학,이순신,3,4.5
four,미술,신사임당,4,3.9


In [46]:
import numpy as np
import pandas as pd
import warnings

## warning을 출력하지 않기 위한 설정
warnings.filterwarnings(action ="ignore") # 경고창 off
# warnings.filterwarnings(action ="default") # 경고창 on

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,2,3,4],
        "학점" : [3.1,2.9,4.5,3.9]
       }

df = pd.DataFrame(data,
                 columns=["학과","이름","학년","학점"],
                 index=["one","two","three","four"])

### 2개 이상의 컬럼을 추출하려면??
# display(df["이름","학년"]) # Error
### Fancy indexing을 이용.
## 인덱싱하는 부분에 인덱스 배열을 이용하는 indexing방법
display(df[["학과","이름"]]) ## DataFrame이 추출돼요!

# 컬럼의 값을 수정하려면 ??
# df["학년"] = 4
#df["학년"] = [1,1,2,2]
df["학년"] = np.array([1,1,3,3])
display(df)

## 기존에 없는 새로운 칼럼을 추가하려면?
display(df)
#df["나이"] = [20,21,23,np.nan] # [20,21,23,None]
df["나이"] = pd.Series([20,21,23,24],
                    index=["one","two","three","four"])
display(df)
df["장학금여부"] = df["학점"] > 3.0
display(df)

## 컬럼을 삭제하려면 ???
# display(df)
# del df["학점"] # 학점컬럼을삭제, 근데 실제로는 이런식으로 사용하지는 않음!!!

# display(df)

## 컬럼을 삭제하는 일반적인 방법
#df.drop("학점",axis=1, inplace=True) ## inplace=true 원본삭제
new_df=df.drop("학점",axis=1,inplace=False)
display(df)
display(new_df)

#############################
## DataFrame의 컬럼을 제어하기 위한 CRUD 방법
#############################

Unnamed: 0,학과,이름
one,컴퓨터,홍길동
two,경영,강감찬
three,철학,이순신
four,미술,신사임당


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,1,2.9
three,철학,이순신,3,4.5
four,미술,신사임당,3,3.9


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,1,2.9
three,철학,이순신,3,4.5
four,미술,신사임당,3,3.9


Unnamed: 0,학과,이름,학년,학점,나이
one,컴퓨터,홍길동,1,3.1,20
two,경영,강감찬,1,2.9,21
three,철학,이순신,3,4.5,23
four,미술,신사임당,3,3.9,24


Unnamed: 0,학과,이름,학년,학점,나이,장학금여부
one,컴퓨터,홍길동,1,3.1,20,True
two,경영,강감찬,1,2.9,21,False
three,철학,이순신,3,4.5,23,True
four,미술,신사임당,3,3.9,24,True


Unnamed: 0,학과,이름,학년,학점,나이,장학금여부
one,컴퓨터,홍길동,1,3.1,20,True
two,경영,강감찬,1,2.9,21,False
three,철학,이순신,3,4.5,23,True
four,미술,신사임당,3,3.9,24,True


Unnamed: 0,학과,이름,학년,나이,장학금여부
one,컴퓨터,홍길동,1,20,True
two,경영,강감찬,1,21,False
three,철학,이순신,3,23,True
four,미술,신사임당,3,24,True


In [99]:
import numpy as np
import pandas as pd
import warnings

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,2,3,4],
        "학점" : [3.1,2.9,4.5,3.9]
       }

df = pd.DataFrame(data,
                 columns=["학과","이름","학년","학점"],
                 index=["one","two","three","four"])

## row indexing
#display(df)
# display(df[0]) ## index 번호로 row를 선택할 수 없어요
# index 번호로 특정 row를 선택하는건 안돼요!!
# 하지만 슬라이싱은 가능, 슬라이싱 결과는 DataFrame
# display(ds[:-1])
#display(df["one":"three"])

## row indexing
#display(df)
# display(df[0:1]) ## df["~~~"] => 컬럼제어할 때
## 일반적으로 행을 제어할때

# df.loc[0]
# 0번째 행을 indexing하려는 의미이지만 사용할 수 없어요!

print("_")
display(df.loc["one"])
display(df)
# index 기반으로 indexing은 가능
# 1개의 행을 선택하는 것이기 때문에 Series로 리턴
#display(df.loc["one":"three"])
#display(df.loc[["one","three"]]) # Fancy indexing
## loc 사용 시 컬럼에 대한 indexing도 할 수 있어요!
display(df.loc["one":"three",["이름","학점"]]) # ,를 기준으로 행 과 열

## row indexing
display(df)
## 새로운 행을 추가하려면 어떻게 해야 하나요?
df.loc["five",:] = ["물리","유관순",2,3.5]
display(df)
## row를 삭제하려면
df.drop(["one","three"],axis=0, inplace=True) # axis는 축 0으로하면 행지우기 1로하면 열지우기
display(df)


_


학과    컴퓨터
이름    홍길동
학년      1
학점    3.1
Name: one, dtype: object

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,2,2.9
three,철학,이순신,3,4.5
four,미술,신사임당,4,3.9


Unnamed: 0,이름,학점
one,홍길동,3.1
two,강감찬,2.9
three,이순신,4.5


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,2,2.9
three,철학,이순신,3,4.5
four,미술,신사임당,4,3.9


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1.0,3.1
two,경영,강감찬,2.0,2.9
three,철학,이순신,3.0,4.5
four,미술,신사임당,4.0,3.9
five,물리,유관순,2.0,3.5


Unnamed: 0,학과,이름,학년,학점
two,경영,강감찬,2.0,2.9
four,미술,신사임당,4.0,3.9
five,물리,유관순,2.0,3.5


In [176]:
import numpy as np
import pandas as pd
import warnings

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,2,3,4],
        "학점" : [3.1,2.9,4.5,3.9]
       }

df = pd.DataFrame(data,
                 columns=["학과","이름","학년","학점"],
                 index=["one","two","three","four"])


display(df.loc)
df["이름"] == "강감찬" ## boolean mask가 생성
display(df["이름"] == "강감찬")

# 1. 이름이 "강감찬"인 사람을 찾아서 이름과 학점을 DataFrame으로 출력하세요!
display(df.loc[df["이름"] == "강감찬",["이름","학점"]]) # loc[True인 애들의 , 이름이랑 학점 반환해라]

# 2. 학점이 2.5초과, 3.5미만인 사람을 찾아 학과와 이름을 출력하세요
print("--")
display(df.loc[(df["학점"] > 2.5) & (df["학점"] < 3.5),["이름","학과"]])

# 3. Grade라는 컬럼을 추가한 후 학점이 4.0 이상인 사람을 찾아 해당 사람만 Grade를 A로 설정하세요
df["Grade"] = df["학점"] > 4.0
df.loc[df["학점"] >4.0,"Grade"] = 'A'

display(df)


<pandas.core.indexing._LocIndexer at 0x96fb188>

one      False
two       True
three    False
four     False
Name: 이름, dtype: bool

Unnamed: 0,이름,학점
two,강감찬,2.9


--


Unnamed: 0,이름,학과
one,홍길동,컴퓨터
two,강감찬,경영


Unnamed: 0,학과,이름,학년,학점,Grade
one,컴퓨터,홍길동,1,3.1,False
two,경영,강감찬,2,2.9,False
three,철학,이순신,3,4.5,A
four,미술,신사임당,4,3.9,False


In [55]:
# DataFrame 조작을 위해 간단한 DataFrame을 생성
# 난수의 재연을 위해 seed값 고정
# 사용하는 DataFrame의 value값은 [0,10) 범위의 난수형 정수
# 균등분포에서 추출해서 사용
# 6핸 4열짜리 DataFrame을 생성
import numpy as np
import pandas as pd

np.random.seed(0)
df = pd.DataFrame(np.random.randint(0,10,(6,4)))

df.columns = ["A","B","C","D"]
df.index = pd.date_range("20190101",periods=6)

# 컬럼 : ["A","B","C","D"]
# index : 날짜를 이용 ( 2019-01-01 부터 하루씩 증가)

# NaN을 포함하는 새로운 컬럼 'E'를 추가
#[7, np.nan, 4, np.nan, 2, np.nan] 데이터 추가

df["E"]=[7, np.nan, 4, np.nan, 2, np.nan]

display(df)
# ###################
# ## 결측값 처리
# ###################
# # 결측값을 제거(NaN이 포함된 row를 제거)
# df.dropna(how="any", inplace=True)
# display(df)

# 결측값을 다른 값으로 대체
# df.fillna(value=0, inplace=True)
display(df)

# 결측값을 찾기 위한 mask
display(df.isnull()) # NaN찾는거

# 간단한 예제
# "E" column의 값이 NaN인 모든 row를 찾고 해당 row의 모든 column의 값을 출력하세요!!
display(df.loc[df["E"].isnull(),:])


Unnamed: 0,A,B,C,D,E
2019-01-01,5,0,3,3,7.0
2019-01-02,7,9,3,5,
2019-01-03,2,4,7,6,4.0
2019-01-04,8,8,1,6,
2019-01-05,7,7,8,1,2.0
2019-01-06,5,9,8,9,


Unnamed: 0,A,B,C,D,E
2019-01-01,5,0,3,3,7.0
2019-01-02,7,9,3,5,
2019-01-03,2,4,7,6,4.0
2019-01-04,8,8,1,6,
2019-01-05,7,7,8,1,2.0
2019-01-06,5,9,8,9,


Unnamed: 0,A,B,C,D,E
2019-01-01,False,False,False,False,False
2019-01-02,False,False,False,False,True
2019-01-03,False,False,False,False,False
2019-01-04,False,False,False,False,True
2019-01-05,False,False,False,False,False
2019-01-06,False,False,False,False,True


Unnamed: 0,A,B,C,D,E
2019-01-02,7,9,3,5,
2019-01-04,8,8,1,6,
2019-01-06,5,9,8,9,


In [1]:
# 평균(mean) : 수학적 확률의 기댓값.
#              어떤 사건을 무한히 반복했을때
#              얻을 수 있는 평균으로서 기대할 수 있는 값.

# 편차(deviation) : 확률변수 X와 평균값의 차이
#                   데이터의 흩어진 정도를 수치화 하기에는 적합하지 않아요
#                   편차의 합은 0이기 때문에..

# 분산(Variance) : 데이터의 흩어진 정도를 알기 위해서
#                  사용되는 편차의 제곱의 평균
#                  제곱을 사용했기 때문에 단위표현이
#                  애매해지는 경우가 존재

# 표준편차(standard deviation) : 분산의 제곱근

# 공분산 (covariance) : 두개의 확률변수에 대한 관계를 보여주는 값

# 두개의 확률변수에 대한 공분산값이 양수
# => 하나의 확률변수가 증가할 때 다른 확률변수도 증가하는 경향이 있다
# 두개의 확률변수에 대한 공분산값이 음수
# 공분산값이 0 : 두 데이터는 독립,

# 상관관계(corelation) : 두 대상이 서로 연관성이 있다고 추측되는 관계
# 성적 vs 자존감
# 온라인 게임 vs 폭력성

# 상관계수(corelation coefficient) : 
# -1과 1사이의 실수, 0에 가까울수록 연관성이 없다고 판단
# 절대값이 1에 가까울수록 밀접한 연관이 있다고 판단

# 상관관계는 인과관계를 설명할 수 없어요

In [12]:
import numpy as np
import pandas as pd

data = [[2,np.nan],
        [7,-3],
        [np.nan, np.nan],
        [1,-2]]
df = pd.DataFrame(data,
                  columns=["one","two"],
                 index=["a","b","c","d"])
display(df)
print("=" * 30)
# display(df.sum(axis=0)) # display(df.sum())랑 같은거  #결과값은 Series
display(df.sum(axis=1)) # 결과값은 Series
# NaN은 숫자 0.0으로 간주

Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0




a    2.0
b    4.0
c    0.0
d   -1.0
dtype: float64

In [28]:
import numpy as np
import pandas as pd

data = [[2,np.nan],
        [7,-3],
        [np.nan, np.nan],
        [1,-2]]
df = pd.DataFrame(data,
                  columns=["one","two"],
                 index=["a","b","c","d"])
display(df)
## "one" 컬럼의 값만 모두 더할꺼에요!!

display(df["one"].sum())
df["one"].sum()
df # 요렇게도 출력이되는데 이러면 맨 마지막꺼만 출력댐~ 바루위에 df["one"].sum() 이건안나오잖음 ?
# df.loc["b"].sum()

## "one" 컬럼의 평균을 구해보아요!!
df["one"].mean() ## 평균 구할때 NaN을 배제 2 + 7 + 1 = 10 / 3 = 3.3333

Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0


10.0

3.3333333333333335

In [43]:
import numpy as np
import pandas as pd

data = [[2,np.nan],
        [7,-3],
        [np.nan, np.nan],
        [1,-2]]
df = pd.DataFrame(data,
                  columns=["one","two"],
                 index=["a","b","c","d"])
## 결측값을 처리
## "one" column의 결측값은 "one" columns의 평균으로 대체
## "two" column의 결측값은 "two" columns의 최소값으로 대체

one_avg = df["one"].mean()
two_min = df["two"].min()
df["one"] = df["one"].fillna(value=one_avg)
df["two"] = df["two"].fillna(value=two_min)
df

# display(df.isnull()) # NaN찾는거
# display(df.loc[df["one"].isnull(),:])
# display(df.loc[df["two"].isnull(),:])


Unnamed: 0,one,two
a,2.0,-3.0
b,7.0,-3.0
c,3.333333,-3.0
d,1.0,-2.0


In [81]:
import numpy as np
import pandas as pd

## random값을 도출해서 DataFrame을 생성
np.random.seed(0)
## 0~9까지의 정수형 난수를 생성(6,4)형태로 생성
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
df.columns=["A","B","C","D"] # 열 이름 잡아주기
df.index=pd.date_range("20190101",periods=6) # 행 이름 잡아주기


# 순열 랜덤 치환
random_date = np.random.permutation(df.index)
# 원본은 고정되어 있고 바뀐 결과 DataFrame이 리턴

df2 = df.reindex(index = random_date,
          columns=["B","A","D","C"])
display(df)
display(df2)
# index(column) 기반의 정렬
df2.sort_index(axis=0, ascending=True) # True하면 오름차순, False하면 내림차순 정렬

# value 기반의 정렬
## 2차 정렬 지정은 배열로
## B 컬럼으로 먼저 정렬하고 같은 값이면 A 컬럼으로
df2.sort_values(by=["B","A"]) # B값을 가지고 오름차순 정렬해 + 동률이생기면 A로 정렬

Unnamed: 0,A,B,C,D
2019-01-01,5,0,3,3
2019-01-02,7,9,3,5
2019-01-03,2,4,7,6
2019-01-04,8,8,1,6
2019-01-05,7,7,8,1
2019-01-06,5,9,8,9


Unnamed: 0,B,A,D,C
2019-01-03,4,2,6,7
2019-01-06,9,5,9,8
2019-01-02,9,7,5,3
2019-01-01,0,5,3,3
2019-01-04,8,8,6,1
2019-01-05,7,7,1,8


Unnamed: 0,B,A,D,C
2019-01-01,0,5,3,3
2019-01-03,4,2,6,7
2019-01-05,7,7,1,8
2019-01-04,8,8,6,1
2019-01-06,9,5,9,8
2019-01-02,9,7,5,3


In [91]:
import numpy as np
import pandas as pd

## random값을 도출해서 DataFrame을 생성
np.random.seed(0)
## 0~9까지의 정수형 난수를 생성(6,4)형태로 생성
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
df.columns=["A","B","C","D"] # 열 이름 잡아주기
df.index=pd.date_range("20190101",periods=6) # 행 이름 잡아주기

## 새로운 column을 추가해 보아요!
df["E"] = ["AA","BB","CC","CC","AA","CC"]

## 중복을 제거하기 위한 함수
df["E"].unique() # 중복제거 후 ndarray 리턴

## 각 value값들의 개수를 세는 함수
df["E"].value_counts()

## boolean mask를 만들기 위한 함수
display(df)
df["E"].isin(["AA","BB"])


Unnamed: 0,A,B,C,D,E
2019-01-01,5,0,3,3,AA
2019-01-02,7,9,3,5,BB
2019-01-03,2,4,7,6,CC
2019-01-04,8,8,1,6,CC
2019-01-05,7,7,8,1,AA
2019-01-06,5,9,8,9,CC


2019-01-01     True
2019-01-02     True
2019-01-03    False
2019-01-04    False
2019-01-05     True
2019-01-06    False
Freq: D, Name: E, dtype: bool

In [205]:
import numpy as np
import pandas as pd

data1 = {"학번" : [1,2,3,4],
        "이름" : ["홍길동","김길동","이순신","강감찬"],
        "학년" : [2,4,1,3]}
data2 = {"학번": [1,2,3,5],
        "학과" : ["컴퓨터","경영","철학","기계"],
        "학점": [3.4, 1.9, 4.5, 2.7]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
display(df1)
display(df2)
# pd.merge(df1,df2, on="학번", how="inner") # 공통된거 가져오는게 inner, 싺다가져오는게 outer
# pd.merge(df1,df2, on="학번", how="outer")
display(pd.merge(df1,df2, on="학번", how="right")) # right, left
display(pd.merge(df1,df2, on="학번", how="left"))

Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,김길동,4
2,3,이순신,1
3,4,강감찬,3


Unnamed: 0,학번,학과,학점
0,1,컴퓨터,3.4
1,2,경영,1.9
2,3,철학,4.5
3,5,기계,2.7


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2.0,컴퓨터,3.4
1,2,김길동,4.0,경영,1.9
2,3,이순신,1.0,철학,4.5
3,5,,,기계,2.7


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,3.4
1,2,김길동,4,경영,1.9
2,3,이순신,1,철학,4.5
3,4,강감찬,3,,


In [186]:
import numpy as np
import pandas as pd

data1 = {"학번" : [1,2,3,4],
        "이름" : ["홍길동","김길동","이순신","강감찬"],
        "학년" : [2,4,1,3]}
data2 = {"학생학번": [1,2,3,5],
        "학과" : ["컴퓨터","경영","철학","기계"],
        "학점": [3.4, 1.9, 4.5, 2.7]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
display(df1)
display(df2)
pd.merge(df1,df2,
         left_on="학번",right_on="학생학번",how="inner")


Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,김길동,4
2,3,이순신,1
3,4,강감찬,3


Unnamed: 0,학생학번,학과,학점
0,1,컴퓨터,3.4
1,2,경영,1.9
2,3,철학,4.5
3,5,기계,2.7


Unnamed: 0,학번,이름,학년,학생학번,학과,학점
0,1,홍길동,2,1,컴퓨터,3.4
1,2,김길동,4,2,경영,1.9
2,3,이순신,1,3,철학,4.5


In [191]:
import numpy as np
import pandas as pd

data1 = {"학번" : [1,2,3,4],
         "이름" : ["홍길동","김길동","이순신","강감찬"],
         "학년" : [2,4,1,3]}

data2 = {
         "학과" : ["컴퓨터","경영","철학","기계"],
         "학점" : [3.4, 1.9, 4.5, 2.7]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2, index=[1,2,4,5])
display(df1)
display(df2)
display(pd.merge(df1,df2,left_on="학년",right_index=True,how="inner"))
pd.merge(df1,df2,left_on="학번",right_index=True,how="inner")

Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,김길동,4
2,3,이순신,1
3,4,강감찬,3


Unnamed: 0,학과,학점
1,컴퓨터,3.4
2,경영,1.9
4,철학,4.5
5,기계,2.7


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,경영,1.9
1,2,김길동,4,철학,4.5
2,3,이순신,1,컴퓨터,3.4


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,3.4
1,2,김길동,4,경영,1.9
3,4,강감찬,3,철학,4.5


In [204]:
import numpy as np
import pandas as pd

data1 = {"학번" : [1,2,3,4],
        "이름" : ["홍길동","김길동","이순신","강감찬"],
        "학년" : [2,4,1,3]}
data2 = {"학생학번": [1,2,3,5],
        "학과" : ["컴퓨터","경영","철학","기계"],
        "학점": [3.4, 1.9, 4.5, 2.7]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

df3 = pd.DataFrame(data1,index=[val for val in range(1,len(df1)+1)])

display(df1)
display(df3)

pd.merge(df1,df2,left_index=True, right_index=True,how="inner")

Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,김길동,4
2,3,이순신,1
3,4,강감찬,3


Unnamed: 0,학번,이름,학년
1,1,홍길동,2
2,2,김길동,4
3,3,이순신,1
4,4,강감찬,3


Unnamed: 0,학번,이름,학년,학생학번,학과,학점
0,1,홍길동,2,1,컴퓨터,3.4
1,2,김길동,4,2,경영,1.9
2,3,이순신,1,3,철학,4.5
3,4,강감찬,3,5,기계,2.7
