In [1]:
# Pandas
# Pandas는 ndarray(NumPy)를 기본 자료구조로 이용
# 이 ndarray를 가지고 Pandas는 두개의 또 다른 자료구조를 이용
# Series, DataFrame

# Series : 동일한 데이터 타입의 복수개의 성분으로 구성되는 자료구조 (1차원)
# DataFrame : 엑셀에서 Table과 같은 개념. Database의 Table과 같은 개념
#             Series로 구성되어 있음 (2차원)

import numpy as np
import pandas as pd

# ndarray
arr = np.array([-1, 4, 5, 99], dtype=np.float64)
print(arr)

# pandas의 Series
s = pd.Series([-1, 4, 5, 99], dtype=np.float64)
print(s)

# 0    -1.0
# 1     4.0
# 2     5.0
# 3    99.0
# dtype: float64

print(s.values)  # [-1.  4.  5. 99.] ndarray
print(s.index)   # RangeIndex(start=0, stop=4, step=1) RangeIndex라는 클래스객체
print(s.dtype)   # float64

[-1.  4.  5. 99.]
0    -1.0
1     4.0
2     5.0
3    99.0
dtype: float64
[-1.  4.  5. 99.]
RangeIndex(start=0, stop=4, step=1)
float64


In [4]:
# Series 생성 시 index를 지정할 수 있다 => list로 지정할 수 있음
# 숫자 index는 기본으로 사용이 가능

s = pd.Series([1, -8, 5, 10], 
              dtype=np.float64, 
              index=['c','b','a','k']) # index 설정

print(s)
print(s[0])   # 1.0
print(s['c']) # 1.0 # 숫자 인덱스 대신 내가 지정해둔 인덱스를 사용하여 value를 추출할 수 있음




## 만약 index를 새로 지정해서 사용할 때 같은 index가 있으면 어떻게 될까?

s = pd.Series([1, -8, 5, 10], 
              dtype=np.float64, 
              index=['c','b','c','k'])

# print(s)  # 같은 인덱스를 넣어도 출력됨

# # c     1.0
# # b    -8.0
# # c     5.0
# # k    10.0
# # dtype: float64

# print(s['c']) # 전부 다 가져오고, Series로 리턴

# c    1.0
# c    5.0
# dtype: float64


# Series에서 slicing 가능

s = pd.Series([1, -8, 5, 10], 
              dtype=np.float64, 
              index=['c','b','c','k'])

# print(s[1:3]) # Series로 리턴
# b   -8.0
# c    5.0
# dtype: float64


# # 숫자인덱스와 slicing 한 결과와 다름. 
# # 문자인덱스는 앞 뒤 둘다 포함

# print(s['b':'k']) 
# b    -8.0
# c     5.0
# k    10.0
# dtype: float64


# # boolean indexing
# print(s[s % 2 == 0]) # 짝수만 출력

# # Fancy indexing
# print(s[[0,2,3]])
# # c     1.0
# # c     5.0
# # k    10.0
# # dtype: float64

# print(s.sum())

c     1.0
b    -8.0
a     5.0
k    10.0
dtype: float64
1.0
1.0
c     1.0
c     5.0
k    10.0
dtype: float64
8.0


In [145]:
# 연습문제

# A공장의 2020-01-01부터 10일간 생산량을 Series로 저장
# 생산량은 평균이 50, 표준편차가 5인 정규분포에서 랜덤하게 생성(정수 형태)


# B공장의 2020-01-01부터 10일간 생산량 Series
# 생산량 평균 70, 표준편차 8일 전규 분포에서 추출(정수 형태)

#     index     value
# 예) 2020-01-01 53

import numpy as np
import pandas as pd

from datetime import date, datetime, timedelta

start_day = datetime(2020,1,1)
print(start_day)



# list comprehension
factory_A = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
                     index=[start_day + timedelta(days=x) for x in range(10)])

# print(factory_A)


factory_B = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
                     index=[start_day + timedelta(days=x) for x in range(10)])
# print(factory_B)


print(factory_A)
print(factory_B)


# 날짜별로 모든 공장의 생산량 합계
print('====================')
# 같은 인덱스를 기준으로 더함
print(factory_A + factory_B)


b_start_day = datetime(2020,1,5)
factory_B = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
                     index=[b_start_day + timedelta(days=x) for x in range(10)])

print(factory_B)



2020-01-01 00:00:00
2020-01-01    57
2020-01-02    44
2020-01-03    53
2020-01-04    41
2020-01-05    54
2020-01-06    45
2020-01-07    48
2020-01-08    54
2020-01-09    47
2020-01-10    45
dtype: int64
2020-01-01    62
2020-01-02    63
2020-01-03    74
2020-01-04    66
2020-01-05    78
2020-01-06    67
2020-01-07    75
2020-01-08    78
2020-01-09    84
2020-01-10    56
dtype: int64
2020-01-01    119
2020-01-02    107
2020-01-03    127
2020-01-04    107
2020-01-05    132
2020-01-06    112
2020-01-07    123
2020-01-08    132
2020-01-09    131
2020-01-10    101
dtype: int64
2020-01-05    55
2020-01-06    66
2020-01-07    85
2020-01-08    66
2020-01-09    57
2020-01-10    67
2020-01-11    53
2020-01-12    78
2020-01-13    59
2020-01-14    80
dtype: int64


In [33]:
# 시작날짜가 다를 경우 연산은? (인덱스가 다를 경우)

factory_A = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
                     index=[start_day + timedelta(days=x) for x in range(10)])

print(factory_A)



b_start_day = datetime(2020,1,5)
factory_B = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
                     index=[b_start_day + timedelta(days=x) for x in range(10)])

print(factory_B)

print('====================')

print(factory_A + factory_B)

# 2020-01-01      NaN
# 2020-01-02      NaN
# 2020-01-03      NaN
# 2020-01-04      NaN
# 2020-01-05    119.0
# 2020-01-06    119.0
# 2020-01-07    114.0
# 2020-01-08    126.0
# 2020-01-09    112.0
# 2020-01-10    114.0
# 2020-01-11      NaN
# 2020-01-12      NaN
# 2020-01-13      NaN
# 2020-01-14      NaN
# dtype: float64

# = > Series가 합집합이 되어버림

2020-01-01    52
2020-01-02    41
2020-01-03    49
2020-01-04    49
2020-01-05    51
2020-01-06    54
2020-01-07    43
2020-01-08    52
2020-01-09    52
2020-01-10    49
dtype: int64
2020-01-05    87
2020-01-06    67
2020-01-07    67
2020-01-08    72
2020-01-09    83
2020-01-10    73
2020-01-11    85
2020-01-12    58
2020-01-13    70
2020-01-14    60
dtype: int64
2020-01-01      NaN
2020-01-02      NaN
2020-01-03      NaN
2020-01-04      NaN
2020-01-05    138.0
2020-01-06    121.0
2020-01-07    110.0
2020-01-08    124.0
2020-01-09    135.0
2020-01-10    122.0
2020-01-11      NaN
2020-01-12      NaN
2020-01-13      NaN
2020-01-14      NaN
dtype: float64


In [37]:
s = pd.Series([1,2,3,4])
print(s)

# 0    1
# 1    2
# 2    3
# 3    4
# dtype: int64

# 새로운 데이터를 Series에 추가하려면??
s[4] = 100
print(s)

# 0      1
# 1      2
# 2      3
# 3      4
# 4    100
# dtype: int64

# 연속되지 않고 숫자를 건너뛰고 생성됨
s[6] = 200 
print(s)

# Series에서 특정 index를 삭제하려면??
s = s.drop(2)
print(s)

# 0      1
# 1      2
# 3      4
# 4    100
# 6    200
# dtype: int64


0    1
1    2
2    3
3    4
dtype: int64
0      1
1      2
2      3
3      4
4    100
dtype: int64
0      1
1      2
2      3
3      4
4    100
6    200
dtype: int64
0      1
1      2
3      4
4    100
6    200
dtype: int64


In [39]:
# python의 dictionary를 이용해서 Series를 만들 수 있음

# dictionary의 key가 index가 됨

import numpy as np
import pandas as pd

my_dict = { '서울':1000, '부산':2000, '제주':3000 }

s = pd.Series(my_dict)
print(s)

# 서울    1000
# 부산    2000
# 제주    3000
# dtype: int64


# Series와 인덱스에 이름을 부여할 수 있음
# value 이름 부여는 안됨..ㅜㅜㅠㅠ

s.name = '지역별 가격 데이터!!'
s.index.name = '지역명'

print(s)

# 지역명
# 서울    1000
# 부산    2000
# 제주    3000
# Name: 지역별 가격 데이터!!, dtype: int64

서울    1000
부산    2000
제주    3000
dtype: int64
지역명
서울    1000
부산    2000
제주    3000
Name: 지역별 가격 데이터!!, dtype: int64


In [259]:
# pandas DataFrame

# python의 dictionary를 가지고 만든다

# dictionary로 DataFrame을 생성할 때 데이터의 개수가 맞지 않으면 Error 발생
# dictionary의 key가 DataFrame의 column으로 들어가게 된다
# DataFrame은 Series의 집합으로 구성(각각의 Colume이 Series)

import numpy as np
import pandas as pd

data = { 'names':['아이유', '청하', '김연아', '이효리', '화사'],
         'year' :[2015, 2019, 2020, 2013, 2017],
         'point':[3.5, 1.5, 2.9, 4.0, 3.7] }

# DataFrame 생성
df = pd.DataFrame(data)

# 출력
# DataFrame 출력할 때는 display()를 이용해서 출력하는게 좋음

display(df)

print(df.shape) # tuple로 표현 (5, 3)
print(df.size)  # 전체 요소의 갯수 : 15 
print(df.ndim)  # 차원 : 2

Unnamed: 0,names,year,point
0,아이유,2015,3.5
1,청하,2019,1.5
2,김연아,2020,2.9
3,이효리,2013,4.0
4,화사,2017,3.7


(5, 3)
15
2


In [260]:
# DataFrame의 index, values, columns

import numpy as np
import pandas as pd

data = { 'names':['아이유', '청하', '김연아', '이효리', '화사'],
         'year' :[2015, 2019, 2020, 2013, 2017],
         'point':[3.5, 1.5, 2.9, 4.0, 3.7] }

# DataFrame 생성
df = pd.DataFrame(data)

display(df)

print(df.index)    # RangeIndex(start=0, stop=5, step=1)
print(df.columns)  # Index(['names', 'year', 'point'], dtype='object')

print(df.values)   # 2차원 ndarray로 나온다

# [['아이유' 2015 3.5]
#  ['청하' 2019 1.5]
#  ['김연아' 2020 2.9]
#  ['이효리' 2013 4.0]
#  ['화사' 2017 3.7]]

df.index.name = '학번'
df.columns.name = '학생정보'

display(df)

## python dictionary를 이용한 DataFrame 생성 방법

Unnamed: 0,names,year,point
0,아이유,2015,3.5
1,청하,2019,1.5
2,김연아,2020,2.9
3,이효리,2013,4.0
4,화사,2017,3.7


RangeIndex(start=0, stop=5, step=1)
Index(['names', 'year', 'point'], dtype='object')
[['아이유' 2015 3.5]
 ['청하' 2019 1.5]
 ['김연아' 2020 2.9]
 ['이효리' 2013 4.0]
 ['화사' 2017 3.7]]


학생정보,names,year,point
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,아이유,2015,3.5
1,청하,2019,1.5
2,김연아,2020,2.9
3,이효리,2013,4.0
4,화사,2017,3.7


In [57]:
## DataFrame을 생성하는 다양한 방법

# 1) CSV 파일 이용하여 생성

# csv파일을 하나 만들어서 DataFrame을 생성해보자
# student.csv

import pandas as pd

df = pd.read_csv('./data/student.csv', encoding='CP949')

display(df)

Unnamed: 0,이름,입학연도,성적
0,아이유,2015,1.5
1,김연아,2016,2.0
2,홍길동,2019,3.0
3,강감찬,2020,3.4
4,이순신,2017,3.1


In [63]:
## 2번문제는 movies.csv 파일을 읽어들여서 처리
## 이 movies.csv 파일을 읽어들여서 DataFrame으로 만들자

df = pd.read_csv('./data/movies.csv')
display(df)

# 위쪽 5개 행만 출력하려면??
display(df.head())


# 아래쪽 5개 행만 출력하려면??
display(df.tail())

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


Unnamed: 0,movieId,title,genres
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation
9741,193609,Andrew Dice Clay: Dice Rules (1991),Comedy


In [261]:
## DataFrame을 생성하는 다양한 방법

# 2) DataBase 파일 이용하여 생성

# MySQL이라는 DBMS로 데이터베이스를 생성해서 데이터베이스를 구축
# 그안에 있는 데이터를 추출해서 DataFrame으로 생성

# 1) 사용할 MYSQL 5.6 버전 # 난 brew install mysql 5.7 버전 설치

# 2) mysqld를 실행해서 MySQL DBMS Server를 실행
#    mysql.server start
# 3) 종료 : mysql.server stop
# mysqladmin -u root shutdown (윈도우용)
# 4) 확인 : mysql.server status
# 5) 유저권한으로 콘솔에 접근 : mysql -u root
# 6) 새로운 사용자 생성 : create user data identified by 'data';
# 7) 새로운 사용자 하나 더 생성 : 
#    create user data@localhost identified by 'data';
# 8) 데이터베이스 생성 : create database library;
# 9) 생성한 데이터베이스(library)에 대한 사용권한을 새롭게 생성한 data 사용자에게 부여
#    grant all privileges on library.* to data;
# 10) 생성한 사용자가 data@localhoste 있기때문에
#    grant all privileges on library.* to data@localhost;
# 11) 지금까지 작업한 권한부여 작업을 flush
#    flush privileges;
# 12) 작업이 완료되었으니 콘솔 종료 : exit;

# 13) 제공된 파일을 이용해서 실제 사용할 데이터베이스를 구축해보자
# 14) 파일을 복사한 다음 명령어를 터미널에 실행 
#     mysql -u data -p library < _BookTableDump.sql

# 데이터베이스 구축이 끝났으니 pandas로 데이터베이스에 접속해서 
# 데이터를 가져다가 DataFrame으로 만들어보자
# python으로 MySQL database를 사용하는 기능이 필요하다

import pymysql.cursors
import pandas as pd

# pymysql이라는 module을 이용해서 데이터베이스에 연결

conn = pymysql.connect(host='localhost',
                      user='data',
                      password='data',
                      db='library',
                      charset='utf8')

# 데이터베이스에 접속되면 SQL문을 실행시켜서 Database로부터 
# 데이터를 가저온 후 DataFrame으로 생성
# book이란 이름의 테이블에서 btitle, bauthor, bprice 가져오라는 뜻

sql = 'select btitle, bauthor, bprice from book'

df = pd.read_sql(sql, con=conn)

display(df)



Unnamed: 0,btitle,bauthor,bprice
0,C로 구현한 알고리즘,카일 루든(Kyle Loudon),25000
1,"IT EXPERT, 모바일 자바 프로그래밍","권기경, 박용우",23000
2,초보자를 위한 Linux & Unix C 프로그래밍,"김종훈, 김종진, 김동균",28000
3,스트럿츠 프레임워크 워크북,박재성,20000
4,나는 프로그래머다,임백준외 6명,12800
...,...,...,...
743,허리만 펴도 다이어트 : 날씬 체질로 바꿔주는 하루 1분 스트레칭,기즈 다다아키,10000
744,마사 스튜어트 미술놀이대백과 175,마사 스튜어트 리빙,18000
745,잘 자고 잘 먹는 아기의 시간표,정재호,13800
746,엄마는 약 선생 : 먹이고 바르고 붙이기 전에 꼭 봐야 할 아이 약 사용설명서,윤수진,13800


In [10]:
# 9월 10일 

# Database 안에 Table을 사용하는 방법이 크게 2가지 있다
# 1. Django에서 사용했던 ORM(Model을 이용해서 Table을 사용하는 방법)
# => SQL이라고 불리는 Database 언어를 몰라도 Table을 사용할 수 있음
# 2. 일반적으로 SQL 구문을 이용해서 Database안의 Table을 사용
# => SQL구문을 알아야 Table에서 내가 원하는 데이터를 추출할 수 있다


import pymysql.cursors
import pandas as pd


conn = pymysql.connect(host='localhost',
                      user='data',
                      password='data',
                      db='library',
                      charset='utf8')

# sql = 'SELECT btitle FROM book'
# sql = 'SELECT btitle, bprice FROM book'


# sql = 'SELECT btitle, bauthor, bprice from book WHERE btitle like'
# 
# sql = 'SELECT btitle, bauthor, bprice from book WHERE bprice>30000'

# 책 제목에 특정 키워드가 들어가 있는 책들만 골라오고 싶다
sql = 'SELECT btitle, bauthor, bprice from book WHERE btitle like "%java%"'

df = pd.read_sql(sql, con=conn)

# display(df)


In [15]:
# Database나 CSV파일로부터 데이터를 읽어들여서 DataFrame으로 만들었음
# DataFrame을 JSON으로 저장할 수 있다!!
# 4가지 방식이 있음

# Database안의 book table에서 원하는 내용의 데이터를 가져온 후 DataFrame으로 만들어서
# 이 DataFrame을 JSON파일로 저장해보자

import pymysql.cursors
import pandas as pd


conn = pymysql.connect(host='localhost',
                      user='data',
                      password='data',
                      db='library',
                      charset='utf8')


sql = 'SELECT btitle, bauthor, bprice from book WHERE btitle like "%여행%"'

df = pd.read_sql(sql, con=conn)

display(df)

# DataFrame을 JSON 파일로 저장할 떄 총 4가지 형식이 존재
# unicode로 파일을 생성한 후 데이터를 저장해야 한글이 정상처리가 된다
# 파일을 저장할 폴더는 미리 생성이 되어 있어야 한다

# with : 일반적으로 파일처리할 때 순서 파일 열기 - 내용쓰기 - 파일닫기 이 순서
#        with구문을 이용하면 resource의 close처리(해제처리)가 자동으로 이루어진다


with open('./data/json/books_columns_json', 'w', encoding='utf-8') as file:
    df.to_json(file, force_ascii=False, orient='columns')
    # orient = columns로 설정하면 df의 columns이 json의 key값으로 들어간다
    
with open('./data/json/books_records_json', 'w', encoding='utf-8') as file:
    df.to_json(file, force_ascii=False, orient='records')
    

with open('./data/json/books_index_json', 'w', encoding='utf-8') as file:
    df.to_json(file, force_ascii=False, orient='index')
    
with open('./data/json/books_values_json', 'w', encoding='utf-8') as file:
    df.to_json(file, force_ascii=False, orient='values')

Unnamed: 0,btitle,bauthor,bprice
0,"IT CookBook, C++ 하이킹 : 객체지향과 만나는 여행","성윤정, 김태은",25000
1,게스트하우스 창업 A to Z : 청춘여행자의 낭만적 밥벌이,김아람,15000
2,크로아티아의 작은 마을을 여행하다 : 자다르의 일몰부터 두브로브니크의 붉은 성벽까지,양미석,15800
3,도쿄의 오래된 상점을 여행하다 : 소세키의 당고집부터 백 년 된 여관까지,"여지영, 이진숙",15000


In [263]:
# JSON 파일을 읽어서 DataFrame을 생성해보자

import numpy as np
import pandas as pd
import json


with open('./data/json/books_columns_json', 'r', encoding='utf-8') as file:
    dict_books = json.load(file) # json 데이터를 pyehon dictionary로 저장
    
print(dict_books)
    
df = pd.DataFrame(dict_books)
display(df)

{'btitle': {'0': 'IT CookBook, C++ 하이킹 : 객체지향과 만나는 여행', '1': '게스트하우스 창업 A to Z : 청춘여행자의 낭만적 밥벌이', '2': '크로아티아의 작은 마을을 여행하다 : 자다르의 일몰부터 두브로브니크의 붉은 성벽까지', '3': '도쿄의 오래된 상점을 여행하다 : 소세키의 당고집부터 백 년 된 여관까지'}, 'bauthor': {'0': '성윤정, 김태은', '1': '김아람', '2': '양미석', '3': '여지영, 이진숙'}, 'bprice': {'0': 25000, '1': 15000, '2': 15800, '3': 15000}}


Unnamed: 0,btitle,bauthor,bprice
0,"IT CookBook, C++ 하이킹 : 객체지향과 만나는 여행","성윤정, 김태은",25000
1,게스트하우스 창업 A to Z : 청춘여행자의 낭만적 밥벌이,김아람,15000
2,크로아티아의 작은 마을을 여행하다 : 자다르의 일몰부터 두브로브니크의 붉은 성벽까지,양미석,15800
3,도쿄의 오래된 상점을 여행하다 : 소세키의 당고집부터 백 년 된 여관까지,"여지영, 이진숙",15000


In [271]:
## DataFrame을 생성하는 방법 - Open API를 이용해서 생성

## 일일박스오피스 순위를 알려주는 영화진흥위원회 open api를 이용해서 json으로 받아온 후 DataFrame으로 만들자


## network연결을 통해서 open api를 호출


import numpy as np
import pandas as pd
import json
import urllib


# 우리가 호출할 open api url

openapi_url = 'http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=dcc8cb114359e2c52eb06dba68ef03ac&targetDt=20200909' 
# open api 호출하는 url


load_page = urllib.request.urlopen(openapi_url)

# request를 보냈으니 response가 와요
# load_page => response 객체

json_page = json.loads(load_page.read()) #dictionary 추출

#print(json_page) # dictionary 추출해서 dataFrame 생성

#open_data= {d['rank']: [d['movieNm'],d['salesAcc']] for d in json_page['boxOfficeResult']['dailyBoxOfficeList']}
#print(open_data)
#open_df = pd.DataFrame(open_data)
#display(open_df)




list_R = [d['rank'] for d in json_page['boxOfficeResult']['dailyBoxOfficeList']]
print(list_rank) #-> index


# values
movie_values= [[d['movieNm'],d['salesAcc']] for d in json_page['boxOfficeResult']['dailyBoxOfficeList']]

print(movie_values)


movie_df = pd.DataFrame(movie_values,
                  columns=['영화제목', '총매출액'],
                  index=list_R)

display(movie_df)


#display(movie_df.loc[[1,3]]) # OK. Fancy indexing도 가능




['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
[['테넷', '10462060430'], ['오! 문희', '1341921180'], ['기기괴괴 성형수', '66365700'], ['에이바', '52475830'], ['다만 악에서 구하소서', '38336555150'], ['결백', '7661786340'], ['아무도 없다', '8029550'], ['오케이 마담', '10939225110'], ['극장판 짱구는 못말려: 신혼여행 허리케인~ 사라진 아빠!', '905375500'], ['드라이브', '222262680']]


Unnamed: 0,영화제목,총매출액
1,테넷,10462060430
2,오! 문희,1341921180
3,기기괴괴 성형수,66365700
4,에이바,52475830
5,다만 악에서 구하소서,38336555150
6,결백,7661786340
7,아무도 없다,8029550
8,오케이 마담,10939225110
9,극장판 짱구는 못말려: 신혼여행 허리케인~ 사라진 아빠!,905375500
10,드라이브,222262680


In [62]:
# pandas의 DataFrame을 위 방식으로 만들 수 있다

# DataFrame

# dictionary
data = {'이름':['이지은', '박동훈','홍길동','강감찬','오혜영'],
        '학과':['컴퓨터', '기계', '철학','컴퓨터','국어국문'],
        '학년':[1, 2, 2, 4, 3],
        '학점':[1.5, 2.0, 3.1, 1.1, 2.7]}

# columns를 활용해서 인덱스 순서를 바꿀 수 있다
# index로 index명을 바꿀 수 있다

# df = pd.DataFrame(data,
#                   columns=['학과', '이름', '학점', '학년'],
#                   index=['one','two','three','four','five'])

# 만약 평균 학점이라고 쓰면??
# NaN 값이 없다고 나온다 (해당 index가 없기 때문에; index이름 똑같이 이름 써야함)

# 만약 없는 컬럼을 쓰면?
# 없는 컬럼이 생성되지만 NaN값이 나온다

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one','two','three','four','five'])

display(df)

# DataFrame은 기본 분석 함수 제공
# 기본 분석 함수 => Count, 평균, 표준편차, 최대, 최소, 사분위

# DaraFrame안에 있는 숫자연산이 가능한 column에 한해서
# 기본 분석 함수를 적용해서 수치값들을 DataFrame으로 return

display(df.describe()) 


# DataFrame 생성에 대한 이야기 !!

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,1.5,1,
two,기계,박동훈,2.0,2,
three,철학,홍길동,3.1,2,
four,컴퓨터,강감찬,1.1,4,
five,국어국문,오혜영,2.7,3,


Unnamed: 0,학점,학년
count,5.0,5.0
mean,2.08,2.4
std,0.825833,1.140175
min,1.1,1.0
25%,1.5,2.0
50%,2.0,2.0
75%,2.7,3.0
max,3.1,4.0


In [68]:
## DataFrame의 indexing

# column 추출 방법

# DataFrame에서 특정 column을 추출할 수 있다
# 만약 하나의 column을 DataFrame에서 추출하면 그결과 => Series

import numpy as np
import pandas as pd

data = {'이름': ['이지은', '박동훈', '장한솔', '조을연', '으료니'],
        '학과': ['컴퓨터', '기계', '경영', '사학', '귀요미'],
        '학년': [1, 2, 3, 4, 2],
        '학점': [2.2, 1.1, 2.2, 4.3, 1.9]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

display(df)

# column을 추출하고 싶다 
# print(df['이름']) # Series로 리턴
# print(df.이름)    # 많이 사용되지 않음 : 프로그래밍에 적합한 형태가 아님

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,2.2,1,
two,기계,박동훈,1.1,2,
three,경영,장한솔,2.2,3,
four,사학,조을연,4.3,4,
five,귀요미,으료니,1.9,2,


one      이지은
two      박동훈
three    장한솔
four     조을연
five     으료니
Name: 이름, dtype: object


In [71]:
# column을 추출한 후 데이터를 변경해보자


import numpy as np
import pandas as pd

data = {'이름': ['이지은', '박동훈', '장한솔', '조을연', '으료니'],
        '학과': ['컴퓨터', '기계', '경영', '사학', '귀요미'],
        '학년': [1, 2, 3, 4, 2],
        '학점': [2.2, 1.1, 2.2, 4.3, 1.9]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

display(df)

year = df['학년'] # year는 Series가 된다 => View!!

year['one'] = 100 # Series의 내용을 변경

print(year)

display(df)

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,2.2,1,
two,기계,박동훈,1.1,2,
three,경영,장한솔,2.2,3,
four,사학,조을연,4.3,4,
five,귀요미,으료니,1.9,2,


one      100
two        2
three      3
four       4
five       2
Name: 학년, dtype: int64


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,2.2,1,
two,기계,박동훈,1.1,2,
three,경영,장한솔,2.2,3,
four,사학,조을연,4.3,4,
five,귀요미,으료니,1.9,2,


In [75]:
# DataFrame에서 두 개 이상의 column을 추출하려면?
# Fancy indexing

# 두 개 이상의 column을 추출하면 DataFrame

import numpy as np
import pandas as pd

data = {'이름': ['이지은', '박동훈', '장한솔', '조을연', '으료니'],
        '학과': ['컴퓨터', '기계', '경영', '사학', '귀요미'],
        '학년': [1, 2, 3, 4, 2],
        '학점': [2.2, 1.1, 2.2, 4.3, 1.9]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

display(df)



# display(df['학과', '학점']) # error

# display(df['학과':'학점']) # error (slicing 적용할 수 없음)

# Fancy indexing을 활용해서 여러 column을 추출해야 함
display(df[['학과','학점']])

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,2.2,1,
two,기계,박동훈,1.1,2,
three,경영,장한솔,2.2,3,
four,사학,조을연,4.3,4,
five,귀요미,으료니,1.9,2,


Unnamed: 0,학과,학점
one,컴퓨터,2.2
two,기계,1.1
three,경영,2.2
four,사학,4.3
five,귀요미,1.9


In [90]:
# DataFrame에서 특정 column의 값을 수정할 때
# 1개 칼럼 수정
# 단일값, numpy array, list를 이용해서 수정할 수 있다

import numpy as np
import pandas as pd

data = {'이름': ['이지은', '박동훈', '장한솔', '조을연', '으료니'],
        '학과': ['컴퓨터', '기계', '경영', '사학', '귀요미'],
        '학년': [1, 2, 3, 4, 2],
        '학점': [2.2, 1.1, 2.2, 4.3, 1.9]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

display(df)

# 단일값을 입력하면 broadcating하여 전체 A값을 입력함
#df['등급'] = 'A'

# list
# df['등급'] = ['A', 'B', 'A', 'A', 'B']

# ndarray
df['등급'] = np.array(['A', 'B', 'A', 'A', 'B'])

display(df)

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,2.2,1,
two,기계,박동훈,1.1,2,
three,경영,장한솔,2.2,3,
four,사학,조을연,4.3,4,
five,귀요미,으료니,1.9,2,


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,2.2,1,A
two,기계,박동훈,1.1,2,B
three,경영,장한솔,2.2,3,A
four,사학,조을연,4.3,4,A
five,귀요미,으료니,1.9,2,B


In [78]:
# DataFrame에서 두 개 이상의 특정 column 값을 수정


import numpy as np
import pandas as pd

data = {'이름': ['이지은', '박동훈', '장한솔', '조을연', '으료니'],
        '학과': ['컴퓨터', '기계', '경영', '사학', '귀요미'],
        '학년': [1, 2, 3, 4, 2],
        '학점': [2.2, 1.1, 2.2, 4.3, 1.9]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

display(df)

# df[['학과','등급']] = 'A'

# list

df[['학과','등급']] = [['영어영문','A'],
                     ['철학','C'],
                     ['컴공', 'A'],
                     ['컴공', 'A'],
                     ['이쁘니','A']]
display(df)

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,2.2,1,
two,기계,박동훈,1.1,2,
three,경영,장한솔,2.2,3,
four,사학,조을연,4.3,4,
five,귀요미,으료니,1.9,2,


Unnamed: 0,학과,이름,학점,학년,등급
one,영어영문,이지은,2.2,1,A
two,철학,박동훈,1.1,2,C
three,컴공,장한솔,2.2,3,A
four,컴공,조을연,4.3,4,A
five,이쁘니,으료니,1.9,2,A


In [85]:
# 새로운 column을 DataFrame에 추가하려면?
# scalar, ndarray, list, Series를 이용해서 추가할 수 있다


import numpy as np
import pandas as pd

data = {'이름': ['이지은', '박동훈', '장한솔', '조을연', '으료니'],
        '학과': ['컴퓨터', '기계', '경영', '사학', '귀요미'],
        '학년': [1, 2, 3, 4, 2],
        '학점': [2.2, 1.1, 2.2, 4.3, 1.9]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

display(df)

# 현재 DataFrame에 없는 '나이' column을 추가하고 싶다

# df['나이'] = [20,22,22,23,24] # column을 추가할 수 있다
# df['나이'] = [20,22,22]       # 갯수가 맞지 않으면 추가할 수 없다
 
 
# df['나이'] = pd.Series([20,21,22,23,24]) =>  값 : NaN
# 추가 시 값이 들어가지 않음 => Series로 column을 추가할 때는 값의 대입기준이 index

# index를 매칭시켜야 값이 정상적으로 들어간다
# df['나이'] = pd.Series([20,21,22,23,24],
#                       index=['one','two','three', 'four', 'five'])


# index 기준으로 값이 매핑되기 때문에 데이터의 갯수가 맞지 않아도
# 데이터를 입력할 수 있다

df['나이'] = pd.Series([20,21,22],
                      index=['one','three', 'five'])


display(df)

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,2.2,1,
two,기계,박동훈,1.1,2,
three,경영,장한솔,2.2,3,
four,사학,조을연,4.3,4,
five,귀요미,으료니,1.9,2,


Unnamed: 0,학과,이름,학점,학년,등급,나이
one,컴퓨터,이지은,2.2,1,,20.0
two,기계,박동훈,1.1,2,,
three,경영,장한솔,2.2,3,,21.0
four,사학,조을연,4.3,4,,
five,귀요미,으료니,1.9,2,,22.0


In [87]:
# 새로운 column을 연산을 통해서 추가하는 방법

import numpy as np
import pandas as pd

data = {'이름': ['이지은', '박동훈', '장한솔', '조을연', '으료니'],
        '학과': ['컴퓨터', '기계', '경영', '사학', '귀요미'],
        '학년': [1, 2, 3, 4, 2],
        '학점': [2.2, 1.1, 2.2, 4.3, 1.9]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

display(df)

# 마지막에 column을 하나 추가. '장학생여부'
# 만약 학점이 3.0 이상이면 True, 그렇지 않으면 False

df['장학생여부'] = df['학점'] > 3.0

display(df)

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,2.2,1,
two,기계,박동훈,1.1,2,
three,경영,장한솔,2.2,3,
four,사학,조을연,4.3,4,
five,귀요미,으료니,1.9,2,


Unnamed: 0,학과,이름,학점,학년,등급,장학생여부
one,컴퓨터,이지은,2.2,1,,False
two,기계,박동훈,1.1,2,,False
three,경영,장한솔,2.2,3,,False
four,사학,조을연,4.3,4,,True
five,귀요미,으료니,1.9,2,,False


In [94]:
# DataFrame에서 column을 삭제
# 함수를 이용해서 삭제



import numpy as np
import pandas as pd

data = {'이름': ['이지은', '박동훈', '장한솔', '조을연', '으료니'],
        '학과': ['컴퓨터', '기계', '경영', '사학', '귀요미'],
        '학년': [1, 2, 3, 4, 2],
        '학점': [2.2, 1.1, 2.2, 4.3, 1.9]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

display(df)

# 열(column)을 삭제할 경우, 행(row)을 삭제할 경우 둘 다 drop()을 사용
# inplace = True 이면 원본을 지운다
# inplace = False이면 원본을 보존하고 삭제된 결과 df를 만들어서 return
# default값은 False

# new_df = df.drop('학년', axis=1, inplace=False)

display(new_df)


# 학점과 등급 2개의 column을 삭제하고 싶다면 => Fancy indexing
new_df = df.drop(['학점','등급'], axis=1, inplace=False)

display(new_df)
                 
    

# 총

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,2.2,1,
two,기계,박동훈,1.1,2,
three,경영,장한솔,2.2,3,
four,사학,조을연,4.3,4,
five,귀요미,으료니,1.9,2,


Unnamed: 0,학과,이름,학점,등급
one,컴퓨터,이지은,2.2,
two,기계,박동훈,1.1,
three,경영,장한솔,2.2,
four,사학,조을연,4.3,
five,귀요미,으료니,1.9,


Unnamed: 0,학과,이름,학년
one,컴퓨터,이지은,1
two,기계,박동훈,2
three,경영,장한솔,3
four,사학,조을연,4
five,귀요미,으료니,2


In [120]:
# row indexing


import numpy as np
import pandas as pd

data = {'이름': ['이지은', '박동훈', '장한솔', '조을연', '으료니'],
        '학과': ['컴퓨터', '기계', '경영', '사학', '귀요미'],
        '학년': [1, 2, 3, 4, 2],
        '학점': [2.2, 1.1, 2.2, 4.3, 1.9]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

display(df)


## column indexing
# 단일 column indexing

# print(df['이름']) # Series로 리턴

# display(df['학과':'학점']) # error slicing 안된다

# display(df[['학과', '이름']]) # Fancy indexing은 가능



# row indexing  - part. 1 (행에 대한 숫자 index 이용)

# print(df[0])       # Error. row에 대해서 숫자 index로 단일 indexing이 안된다
# display(df[1:3])   # OK. slicing 가능. slicing한 결과는 View! DataFrame으로 return
# display(df[1:])    # OK
# display(df[[0,2]]) # Error. row에 대해서 index 숫자를 이용한 Fancy indexing은 지원 안된다 


# row indexing  - part. 2 (행에 대한 별도의 index 이용)

# df['one']  # Error
# display(df['one' : 'three']) # OK. index를 이용한 row slicing이 가능
# display(df['three':]) # OK
# display(df['three':-1]) # Error. 숫자 index와 index를 혼용해서 슬라이싱 할 수 없다!!
# display(df[['two','four']]) # Error. Fancy indexing 지원 안함


# row indexint - part. 3 ( loc[]를 이용한 row indexing. 많이 사용하는 방법 중 하나)
# loc를 이용할 때는 숫자 index 대신 부여한 index를 이용

# print(df.loc['one']) # OK! loc와 index를 이용하면 단일 row를 추출할 수 있음 => Series로 return

# display(df.loc['one':'three']) # OK. slicing 가능
# display(df.loc['three':]) # OK
# display(df.loc['three':-1]) # Error
# display(df.loc[['two','four']]) # OK. Fancy indexing도 가능


# 숫자 index를 넣으면...??
# print(df.loc[0])  # Error. 숫자 index사용 불가



Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,2.2,1,
two,기계,박동훈,1.1,2,
three,경영,장한솔,2.2,3,
four,사학,조을연,4.3,4,
five,귀요미,으료니,1.9,2,


학과    컴퓨터
이름    이지은
학점    2.2
학년      1
등급    NaN
Name: one, dtype: object


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,2.2,1,
two,기계,박동훈,1.1,2,


ValueError: invalid literal for int() with base 10: 'two'

In [151]:
# row indexint - part. 4 (iloc[]를 이용한 row indexing.)
# loc[]와의 차이점 : 무조건 숫자 index만 사용할 수 있다!!!!!
# print(df.iloc[0])
# display(df.iloc[0:2])


import numpy as np
import pandas as pd

data = {'이름': ['이지은', '박동훈', '장한솔', '조을연', '으료니'],
        '학과': ['컴퓨터', '기계', '경영', '사학', '귀요미'],
        '학년': [1, 2, 3, 4, 2],
        '학점': [2.2, 1.1, 2.2, 4.3, 1.9]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

display(df)

# loc 복습

# 행을 추출해보자
# display(df.loc['one':'three'])

# 행 뿐 아니라 열도 같이 추출할 수 있다

# display(df.loc['one':'three', '이름']) # Series
# display(df.loc['one':'three', '이름':'학년']) # DataFrame
# display(df.loc['one':'three', ['이름','학년']]) # Fancyindexing도 가능 

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,2.2,1,
two,기계,박동훈,1.1,2,
three,경영,장한솔,2.2,3,
four,사학,조을연,4.3,4,
five,귀요미,으료니,1.9,2,


Unnamed: 0,이름,학년
one,이지은,1
two,박동훈,2
three,장한솔,3


In [157]:
import numpy as np
import pandas as pd

data = { '이름':['이지은','박동훈','홍길동','강감찬','오혜영'],
         '학과':['컴퓨터','기계','철학','컴퓨터','철학'],
         '학년':[1, 2, 2, 4, 3],
         '학점':[1.5, 2.0, 3.1, 1.1, 2.7]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

display(df)


# 학점이 1.5점을 초과하는 학생의 이름과 학점을 DaraFrame으로 출력하세요

df['이름','학점'] = df['학점'] > 1.5

display(df.loc[df['학점'] > 1.5,['이름', '학점']])




Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,1.5,1,
two,기계,박동훈,2.0,2,
three,철학,홍길동,3.1,2,
four,컴퓨터,강감찬,1.1,4,
five,철학,오혜영,2.7,3,


Unnamed: 0,이름,학점
two,박동훈,2.0
three,홍길동,3.1
five,오혜영,2.7


In [171]:
data = { '이름':['이지은','박동훈','홍길동','강감찬','오혜영'],
         '학과':['컴퓨터','기계','철학','컴퓨터','철학'],
         '학년':[1, 2, 2, 4, 3],
         '학점':[1.5, 2.0, 3.1, 1.1, 2.7]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

# display(df)


# 1. 이름이 '박동훈'인 사람을 찾아 이름과 학점을 DataFrame으로 출력
# display(df.loc[df['이름'] == '박동훈',['이름','학점']]) 

# 2. 학점이 1.5 초과이고 2.5 미만인 모든 사람을 찾아서 학과, 이름, 학점을 DataFrame으로 출력
# df['학점'] > 1.5
# df['학점'] < 2.5
# df.loc[(df['학점'] > 1.5) & (df['학점'] < 2.5),'학과':'학점']

# 3. 학점이 3.0을 초과하는 사람을 찾아서 등급을 'A'로 설정한 후 출력
# df.loc[df['학점'] > 3.0,'등급'] = 'A'
# display(df)

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,1.5,1,
two,기계,박동훈,2.0,2,
three,철학,홍길동,3.1,2,A
four,컴퓨터,강감찬,1.1,4,
five,철학,오혜영,2.7,3,


In [174]:
data = { '이름':['이지은','박동훈','홍길동','강감찬','오혜영'],
         '학과':['컴퓨터','기계','철학','컴퓨터','철학'],
         '학년':[1, 2, 2, 4, 3],
         '학점':[1.5, 2.0, 3.1, 1.1, 2.7]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

display(df)

# iloc[]를 이용한 행과 열의 indexing
# 숫자 index를 이용해서 처리할때는 iloc[]를 이용하면 된다
# print(df.iloc[0,0]) # 컴퓨터
# print(df.iloc[1])  # Series
# display(df.iloc[1:4]) 
display(df.iloc[[0,2],[1,3]]) # numpy Fancy indexing은 안됐지만 
                             # dataFramedptjsms iloc[]을 활용한 행과 열의 Fancy indexing 가능
    
    


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,1.5,1,
two,기계,박동훈,2.0,2,
three,철학,홍길동,3.1,2,
four,컴퓨터,강감찬,1.1,4,
five,철학,오혜영,2.7,3,


Unnamed: 0,이름,학년
one,이지은,1
three,홍길동,2


In [178]:
# 새로운 행 추가 방법??

data = { '이름':['이지은','박동훈','홍길동','강감찬','오혜영'],
         '학과':['컴퓨터','기계','철학','컴퓨터','철학'],
         '학년':[1, 2, 2, 4, 3],
         '학점':[1.5, 2.0, 3.1, 1.1, 2.7]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

display(df)

# 새로운 행 추가 방법??

# df.loc['six',:] = ['영어영문', '최길동', 4.0, 3, 'A']
# display(df)


# 일부 데이터만 채우는 방법

df.loc['six',['학과','이름']] = ['영어영문', '최길동']
display(df)


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,1.5,1,
two,기계,박동훈,2.0,2,
three,철학,홍길동,3.1,2,
four,컴퓨터,강감찬,1.1,4,
five,철학,오혜영,2.7,3,


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,1.5,1.0,
two,기계,박동훈,2.0,2.0,
three,철학,홍길동,3.1,2.0,
four,컴퓨터,강감찬,1.1,4.0,
five,철학,오혜영,2.7,3.0,
six,영어영문,최길동,,,


In [181]:
data = { '이름':['이지은','박동훈','홍길동','강감찬','오혜영'],
         '학과':['컴퓨터','기계','철학','컴퓨터','철학'],
         '학년':[1, 2, 2, 4, 3],
         '학점':[1.5, 2.0, 3.1, 1.1, 2.7]}

df = pd.DataFrame(data,
                  columns=['학과', '이름', '학점','학년','등급'],
                  index=['one','two','three','four','five'])

display(df)

# 특정 행 삭제 방법


# 특정 column 삭제 방법
# display(df.drop('학점', axis=1, inplace=False))

# 특정 행 삭제 방법
display(df.drop('three', axis=0, inplace=False))

# Fancy indexing을 활용한 특정 행 삭제 방법 
display(df.drop(['three','five'], axis=0, inplace=False))

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,1.5,1,
two,기계,박동훈,2.0,2,
three,철학,홍길동,3.1,2,
four,컴퓨터,강감찬,1.1,4,
five,철학,오혜영,2.7,3,


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,1.5,1,
two,기계,박동훈,2.0,2,
four,컴퓨터,강감찬,1.1,4,
five,철학,오혜영,2.7,3,


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지은,1.5,1,
two,기계,박동훈,2.0,2,
four,컴퓨터,강감찬,1.1,4,


In [198]:
# DataFrame이 제공하는 함수(집계함수, 통계기반 함수)

# 기댓값 (expected value) : 어떤 확률을 가진 사건을 무한히 반복했을 경우 얻을 수 있는 값의 평균으로 기대할 수 있는 값

# 주사위 1개 던지는 사건을 무한히 반복했을 때 기댓값은 얼마인가요?

import numpy as np

result = np.random.randint(1,7,(1000000,))
# print(result.mean())


# 편차 (deviation) : 확률변수 x와 평균(기댓값)의 차이

# 국민 개개인의 소득
# 국민 평균 소득을 산출
# 홍길동소득 - 평균소득, 김길동소득 - 평균소득 ... => 각각의 값이 편차
# 편차를 이용하면 데이터의 흩어진 정도를 알기 쉽다

# 편차의 가장 큰 단점 : 데이터의 흩어진 정도를 하나의 숫자로 표현하기 힘들다. 편차의 합은 0!

# 분산 (variance) : 데이터의 흩어진 정도를 알기 위해서 사용하는 편차의 제곱의 평균

# std(standard deviation) : 표준편차 : 분산의 제곱근

# arr = np.array([4,6,1,3,8,8], dtype=np.int32)
# print(arr)
# print(arr.sum())
# print(arr.mean())
# print(arr.var())
# print(arr.std())

# 공분산(covariance)
# 두 개의 확률변수의 관계를 보여줄 때 사용하는 값
# 두 확률 변수의 편차의 곱에 대한 평균

# 확률변수 X(독립변수)와 Y(종속변수)에 대해 X가 변할 때 Y가 변하는 정도

# 그래프를 이용해서 공분산의 의미 파악
import numpy as np
import matplotlib.pyplot as plt


# 독립변수 X에 대해 종속변수 Y의 값을 랜덤으로 생성해서 알아보자
# np.random.seed(1)

# x = np.random.randint(-20,20,(10,))
# y = np.random.randint(-10,10,(10,))

# x_mean = x.mean() # X의 평균
# y_mean = y.mean() # Y의 평균

# scatter(산점도)데이터가 흩어져있는 정도를 알아보자

# plt.scatter(x,y,color='red') # x,y 값에 대한 산점도
# plt.scatter(x_mean,y_mean,color='blue') # x,y 평균에 대한 산점도
# plt.show


# 공분산은 데이터의 변화량에 대한 총합을 의미
# 공분산이 양수인지, 음수인지에 따라서 데이터의 방향성을 알 수 있다
# 공분산의 단점 => 단위의 문제때문에 연관성은 알 수 있지만 그 강도는 알 수 없다

# 만약 확률변수 X와 Y가 독립이면 공분산을 계산하면 0에 수렴
# 서로의 방향성이 관계가 없음을 의미
# 역은 성립하지 않음. 공분산이 0이면 두 확률변수는 독립이라고 할 수 없음


## 프로그램으로 공분산 계산해보기 ##

np.random.seed(2)
sampleNum = 100 # 데이터의 개수

x = np.random.randint(0,10,(sampleNum,))
y = np.random.randint(-20,20,(sampleNum,))

x_mean = x.mean() # X의 평균
y_mean = y.mean() # Y의 평균

# 공분산은 편차의 곱의 평균

x_deviation = x - x_mean
y_deviation = y - y_mean

result = 0

for tmp in range(sampleNum):
    result += (x_deviation[tmp] * y_deviation[tmp])
    
result_covariance = result / (sampleNum - 1) # 표준공분산을 사용하기 때문에 (n-1)로 나눈다

print(result_covariance)
# -0.591515151515151

###############################

print(np.cov(x,y)) # 함수로는 이렇게 쓴다

# [[  7.52767677  -0.59151515]
#  [ -0.59151515 123.99636364]]

# 1/4분면과 3/4분면만 확인한다 (x,y)의 비교분면이기 때문에
# 나머지 2/4분면(y,y)/ 4/4분면(x,x)의 비교분면이기 때문에 



-0.591515151515151
[[  7.52767677  -0.59151515]
 [ -0.59151515 123.99636364]]


In [258]:
# 공분산 예제

# 주가를 이용해서 공분산이 양수, 음수의 의미가 배운 내용과 일치하는 지 확인해보자
# KOSPI 200안에서 삼성전자의 비중이 34% 정도
# 일반적으로 삼성전자가 오르면 KOSPI가 오른다
# 일반적으로 삼성전자가 떨어지면 KOSPI가 떨어진다

# pip install pandas_datareader
# 이건 conda로 설치 안된다

import numpy as np
import pandas as pd
import pandas_datareader.data as pdr  # 주가 데이터를 받기위해서 필요
from datetime import datetime         # 날짜객체를 만들기 위해서


# 특정 날짜 간격동안 주식데이터를 받아 올 예정
# datetime을 이용해서 시작 날짜와 끝 날짜를 지정
start = datetime(2018,1,1) # 2019년 1월 1일
end = datetime(2018,12,31)

# YAHOO에서 제공하는 주가지수를 얻어와요
# df_KOSPI = pdr.DataReader('^KS11','yahoo', start, end)
# df_SE = pdr.DataReader('005930.KS','yahoo', start, end)

# display(df_KOSPI.head()) # 종가를 알아야 함. 'Close' column을 이용
# head() 괄호안에 갯수쓰면 갯수만큼 가져올 수 있다

# closed_KOSPI = df_KOSPI['Close']  # Series
# cloesd_SE =df_SE['Close']

# 공분산 구해보자
# print(np.cov(closed_KOSPI.values, cloesd_SE.values))

# 이 값이 양수. 하나가 증가하면 다른 하나가 증가하는 관계에 있다
# 공분산으로는 두 데이터의 관계가 얼마나 강한지 알 수 없다


## 남북경협주, 방위산업주 (음의 관계)
df_LIG = pdr.DataReader('079550.KS','yahoo', start, end) # LIG넥스원 
df_PUSAN = pdr.DataReader('011390.KS','yahoo', start, end) # 부산산업

closed_LIG = df_LIG['Close']  # Series
cloesd_PUSAN =df_PUSAN['Close']

display(df_LIG.head())

print(closed_LIG)

print(np.cov(closed_LIG.values, cloesd_PUSAN.values))
# 2018년을 기간으로 뒀을 때 음의 상관관계가 나옴

Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-03,60300.0,58800.0,60300.0,59200.0,150080.0,59200.0
2018-01-04,59500.0,57700.0,58600.0,57800.0,141177.0,57800.0
2018-01-05,57500.0,55400.0,56100.0,55800.0,281124.0,55800.0
2018-01-08,56000.0,54000.0,56000.0,54500.0,223472.0,54500.0
2018-01-09,55200.0,54000.0,54500.0,54600.0,95582.0,54600.0


Date
2018-01-03    59200.0
2018-01-04    57800.0
2018-01-05    55800.0
2018-01-08    54500.0
2018-01-09    54600.0
               ...   
2018-12-21    33550.0
2018-12-24    33800.0
2018-12-26    33350.0
2018-12-27    33700.0
2018-12-28    36950.0
Name: Close, Length: 242, dtype: float64
[[ 6.24988174e+07 -3.81494283e+08]
 [-3.81494283e+08  4.64412566e+09]]


In [219]:
# 공분산보다는 상관계수(피어슨 상관계수)를 더 많이 이용한다
# 상관계수는 공분산을 이용해서 도출한 값이고 방향성과 두 데이터의 
# 관련성(얼마나 밀접한 관계가 있는지, 연관성의 강도)을 알 수 있다
# 상관계수는 -1 ~ 1 사이의 실수값
# 0 : 서로 독립
# 1쪽으로 갈 수록 양의 상관관계
# -1쪽으로 갈 수록 음의 상관관계
# 상관계수(correlation coefficient)

# 상관관계(correlation):두 대상이 서로 연관성이 있다고 추측되는 관계
# 성적과 자존감

# 상관관계를 얘기할 때 조심해야 할 점은 상관관계는 인과관계를 설명할 수 없다..!!
# 인과관계는 regression을 이용해서 분석한다


start = datetime(2018,1,1) # 2019년 1월 1일
end = datetime(2018,12,31)


df_KOSPI = pdr.DataReader('^KS11','yahoo', start, end)
df_SE = pdr.DataReader('005930.KS','yahoo', start, end)

# display(df_KOSPI.head()) # 종가를 알아야 함. 'Close' column을 이용

closed_KOSPI = df_KOSPI['Close']  # Series
cloesd_SE =df_SE['Close']

print(cloesd_SE)

print(np.corrcoef(closed_KOSPI, cloesd_SE))

# [[1.         0.91357384]
# [0.91357384 1.        ]]

Date
2018-01-03    51620.0
2018-01-04    51080.0
2018-01-05    52120.0
2018-01-08    52020.0
2018-01-09    50400.0
               ...   
2018-12-21    38650.0
2018-12-24    38800.0
2018-12-26    38350.0
2018-12-27    38250.0
2018-12-28    38700.0
Name: Close, Length: 242, dtype: float64
[[1.         0.91357384]
 [0.91357384 1.        ]]


In [226]:
# DataFrame 분석용 함수

# DataFrame 생성할 때 지금까지는 dictionary로 만들었다
# DataFrame을 중첩리스트를 이용해서 만들어보자 => matrix를 이용해서!
# np.nan => NaN

data = [[2, np.nan],
        [7, -3],
        [np.nan, np.nan],
        [1, -2]]

df = pd.DataFrame(data,
                  columns = ['one', 'two'],
                  index = ['a','b','c','d'])

display(df)  # DataFrame 생성!!

print(df.sum())  # numpy일 때는 sum()에 axis를 주지 않으면 axis=None으로 설정
                 # ndarray 전체 요소를 다 더했음
                 # DataFrame일 때는 sum()을 수행하면 axis=0 기준으로 수행
                 # skipna = True(default) NaN은 0으로 간주
                 

# Series로 리턴
# one    10.0
# two    -5.0
# dtype: float64


# print(df.sum(axis=1))

# a    2.0
# b    4.0
# c    0.0
# d   -1.0
# dtype: float64

print(df['one'].sum()) # 10



Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0


one    10.0
two    -5.0
dtype: float64
10.0


In [247]:
# DataFrame의 정렬! - ndarray matrix의 sort와 다르다!

import numpy as np
import pandas as pd

# 냔수의 재현성을 확보
np.random.seed(7)

# 2차원 ndarray를 정수형 난수로 생성하고 ndarray를 이용해서 Dataframe을 생성

df = pd.DataFrame(np.random.randint(0,10,(6,4)))
# display(df)

# column 추가
df.columns = ['A','B','C','D']
# display(df)
             
# 숫자 index 대신 날짜 추가
df.index = pd.date_range('20200101', periods=6)
# display(df)


# index부분을 shuffle하고 싶다!!

# arr = np.array([1,2,3,4,5])
# np.random.shuffle(arr) # 원본이 바뀐다
# print(arr)

# np.random.shuffle(df.index) # Error -> Index does not support mutable operations
# 이미 만들어져 있는 인덱스를 내부에서 셔플할 수는 없다

random_date = np.random.permutation(df.index) # index를 수정하지 않고 랜덤으로 섞은 또다른 ndarray를 리턴

# 열과 행을 수정할 수 있음 => reindex()
df2 = df.reindex(index = random_date, columns=['B','C','A','D'])

# display(df2)

# DataFrame에서 정렬은 두 가지만 알면 된다
# sort_index 정렬
# ascending=True 오름차순 / False 내림차순

# display(df2.sort_index(axis=0, ascending=True))
# display(df2.sort_index(axis=1, ascending=False))


# 값으로 정렬
display(df2.sort_values(by=['B','A'])) #'B'라는 column 기준으로 정렬하되 동률일때는 다음은 'A'가 우선순위

Unnamed: 0,B,C,A,D
2020-01-05,0,7,7,6
2020-01-06,5,8,3,8
2020-01-04,6,4,7,0
2020-01-02,7,7,3,9
2020-01-03,8,9,7,8
2020-01-01,9,6,4,3


In [251]:
## DataFrame에서 알아두어야 하는 기본함수

# sum(), mean().. 집계함수
# 공분산, 상관계수
# 정렬에 대한 함수 sort()

np.random.seed(1)
df = pd.DataFrame(np.random.randint(0,10,(6,4)),
                  index=pd.date_range('20200101', periods=6),
                  columns=['A','B','C','D'])

df['E'] = ['AA','BB', 'CC', 'CC', 'AA', 'CC']

display(df)

# 중복을 없애고 unique한 값만을 추출
# print(df['E'].unique()) # ['AA' 'BB' 'CC'] 



# 각각의 값들의 개수를 Series로 알아낼 수 있다
# print(df['E'].value_counts())

# CC    3
# AA    2
# BB    1
# Name: E, dtype: int64


# 값이 포함되어 있는지 확인하는 함수 => boolean mask
# print(df['E'].isin(['AA','BB']))

# 2020-01-01     True
# 2020-01-02     True
# 2020-01-03    False
# 2020-01-04    False
# 2020-01-05     True
# 2020-01-06    False
# Freq: D, Name: E, dtype: bool



                  

Unnamed: 0,A,B,C,D,E
2020-01-01,5,8,9,5,AA
2020-01-02,0,0,1,7,BB
2020-01-03,6,9,2,4,CC
2020-01-04,5,2,4,2,CC
2020-01-05,4,7,7,9,AA
2020-01-06,1,7,0,6,CC


2020-01-01     True
2020-01-02     True
2020-01-03    False
2020-01-04    False
2020-01-05     True
2020-01-06    False
Freq: D, Name: E, dtype: bool


In [255]:
# DataFrame의 많이 사용되지만 사용하기 쉽지 않은 것??
# apply와 lambda를 이용한 처리

np.random.seed(1)
df = pd.DataFrame(np.random.randint(0,10,(6,4)),
                  index=pd.date_range('20200101', periods=6),
                  columns=['A','B','C','D'])


display(df)

# python의 lambda식
my_func = lambda x: x.max() - x.min()

# df['최대-최소'] = df.apply(my_func, axis=1)# 열에서 최대값과 최소값을 뽑아서 계산한 뒤 새로운 열을 추가 : DataFrame으로 나옴

# display(df)


print(df.apply(my_func, axis=0)) # Series로 값이 나온다

# A    6
# B    9
# C    9
# D    7
# dtype: int64

Unnamed: 0,A,B,C,D
2020-01-01,5,8,9,5
2020-01-02,0,0,1,7
2020-01-03,6,9,2,4
2020-01-04,5,2,4,2
2020-01-05,4,7,7,9
2020-01-06,1,7,0,6


A    6
B    9
C    9
D    7
dtype: int64


In [279]:
# DataFrame의 결합(merge) -> Database의 Table join 기능
# DataFrame 두 개를 연결시켜서 새로운 DataFrame을 만들어보자

import numpy as np
import pandas as pd

data1 = { '학번' : [1, 2, 3, 4],
          '이름' : ['만옥',  '천옥', '은비', '실비'],
          '학년' : [2, 4, 1, 3] }

data2 = { '학번' : [1, 2, 4, 5],
          '학과' : ['MATH', 'CS', 'MATH', 'CS'],
          '학점' : [3.4, 2.9, 4.5, 1.9] }

# df1 = pd.DataFrame(data1)
# df2 = pd.DataFrame(data2)

display(df1)
display(df2)

# inner join
# on= 어떤 컬럼 기준으로 합칠건지, how=컬럼 기준으로 교집합(inner) 
result = pd.merge(df1, df2, on='학번', how='inner')

display(result)





Unnamed: 0,학번,이름,학년
0,1,만옥,2
1,2,천옥,4
2,3,은비,1
3,4,실비,3


Unnamed: 0,학번,학과,학점
0,1,MATH,3.4
1,2,CS,2.9
2,4,MATH,4.5
3,5,CS,1.9


Unnamed: 0,학번,이름,학년,학과,학점
0,1,만옥,2,MATH,3.4
1,2,천옥,4,CS,2.9
2,4,실비,3,MATH,4.5


In [280]:
import numpy as np
import pandas as pd

data1 = { '학번' : [1, 2, 3, 4],
          '이름' : ['만옥',  '천옥', '은비', '실비'],
          '학년' : [2, 4, 1, 3] }

data2 = { '학번' : [1, 2, 4, 5],
          '학과' : ['MATH', 'CS', 'MATH', 'CS'],
          '학점' : [3.4, 2.9, 4.5, 1.9] }

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

# outer join
result1 = pd.merge(df1, df2, on='학번', how='outer')

# left join
result2 = pd.merge(df1, df2, on='학번', how='left')

# right join
result3 = pd.merge(df1, df2, on='학번', how='right')


display(result1)
display(result2)
display(result3)

Unnamed: 0,학번,이름,학년,학과,학점
0,1,만옥,2.0,MATH,3.4
1,2,천옥,4.0,CS,2.9
2,3,은비,1.0,,
3,4,실비,3.0,MATH,4.5
4,5,,,CS,1.9


Unnamed: 0,학번,이름,학년,학과,학점
0,1,만옥,2,MATH,3.4
1,2,천옥,4,CS,2.9
2,3,은비,1,,
3,4,실비,3,MATH,4.5


Unnamed: 0,학번,이름,학년,학과,학점
0,1,만옥,2.0,MATH,3.4
1,2,천옥,4.0,CS,2.9
2,4,실비,3.0,MATH,4.5
3,5,,,CS,1.9


In [281]:
# 여러가지 경우에 대한 사용법

# 만약 컬럼명이 다르면 어떻게 하나요?

import numpy as np
import pandas as pd


data1 = { '학번' : [1, 2, 3, 4],
          '이름' : ['만옥', '천옥', '은비', '실비'],
          '학년' : [2, 4, 1, 3] }

data2 = { '학생학번' : [1, 2, 4, 5],
          '학과' : ['MATH', 'CS', 'MATH', 'CS'],
          '학점' : [3.4, 2.9, 4.5, 1.9] }

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

display(df1)
display(df2)

# inner join
# on= 어떤 컬럼 기준으로 합칠건지, how=컬럼 기준으로 교집합(inner) 
result = pd.merge(df1, df2, left_on='학번', right_on='학생학번', how='inner')

display(result)





Unnamed: 0,학번,이름,학년
0,1,만옥,2
1,2,천옥,4
2,3,은비,1
3,4,실비,3


Unnamed: 0,학생학번,학과,학점
0,1,MATH,3.4
1,2,CS,2.9
2,4,MATH,4.5
3,5,CS,1.9


Unnamed: 0,학번,이름,학년,학생학번,학과,학점
0,1,만옥,2,1,MATH,3.4
1,2,천옥,4,2,CS,2.9
2,4,실비,3,4,MATH,4.5


In [285]:
# DataFrame의 column과 index를 이용한 merge

import numpy as np
import pandas as pd


data1 = { '학번' : [1, 2, 3, 4],
          '이름' : ['만옥', '천옥', '은비', '실비'],
          '학년' : [2, 4, 1, 3] }

data2 = { '학과' : ['MATH', 'CS', 'MATH', 'CS'],
          '학점' : [3.4, 2.9, 4.5, 1.9] }

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2,
                   index=[1,2,4,5]) #학번을 index로 사용

display(df1)
display(df2)

result = pd.merge(df1,df2,
                  left_on='학번',
                  right_index=True,
                  how='inner')

display(result)
# index로 이용해 결합하면 기존 dataframe의 index를 그대로 가지고 온다

# result.loc[2] # ERROR : 2가 없으니까
# result.iloc[2] # 실비

Unnamed: 0,학번,이름,학년
0,1,만옥,2
1,2,천옥,4
2,3,은비,1
3,4,실비,3


Unnamed: 0,학과,학점
1,MATH,3.4
2,CS,2.9
4,MATH,4.5
5,CS,1.9


Unnamed: 0,학번,이름,학년,학과,학점
0,1,만옥,2,MATH,3.4
1,2,천옥,4,CS,2.9
3,4,실비,3,MATH,4.5


학번       4
이름      실비
학년       3
학과    MATH
학점     4.5
Name: 3, dtype: object

In [286]:
# DataFrame의 index를 이용한 merge

import numpy as np
import pandas as pd


data1 = { '이름' : ['만옥', '천옥', '은비', '실비'],
          '학년' : [2, 4, 1, 3] }

data2 = { '학과' : ['MATH', 'CS', 'MATH', 'CS'],
          '학점' : [3.4, 2.9, 4.5, 1.9] }

df1 = pd.DataFrame(data1,
                   index=[1,2,3,4])
df2 = pd.DataFrame(data2,
                   index=[1,2,4,5]) #학번을 index로 사용

display(df1)
display(df2)


result = pd.merge(df1,df2,
                  left_index=True,
                  right_index=True,
                  how='inner')

display(result)

Unnamed: 0,이름,학년
1,만옥,2
2,천옥,4
3,은비,1
4,실비,3


Unnamed: 0,학과,학점
1,MATH,3.4
2,CS,2.9
4,MATH,4.5
5,CS,1.9


Unnamed: 0,이름,학년,학과,학점
1,만옥,2,MATH,3.4
2,천옥,4,CS,2.9
4,실비,3,MATH,4.5


In [295]:
# Series를 1차원, 2차원으로 연결
# concatenation(연결)

import numpy as np
import pandas as pd

s1 = pd.Series([0,1], index=['a', 'c'])

s2 = pd.Series([4,3,2], index=['b','c','e'])

s3 = pd.Series([5,6], index=['f','g'])

# Series는 1차원 vector

# 행방향 연결, 열방향 연결 2가지 방법

# print(pd.concat([s1, s2, s3], axis=0)) # Series를 1차원으로 연결

display(pd.concat([s1, s2, s3], axis=1, sort=True)) # sort=True : 정렬

Unnamed: 0,0,1,2
a,0.0,,
b,,4.0,
c,1.0,3.0,
e,,2.0,
f,,,5.0
g,,,6.0


In [305]:
df1 = pd.DataFrame(np.arange(6).reshape(3,2),
                   index=['a','b','c'],
                   columns=['one','two'])

df2 = pd.DataFrame(5 + np.arange(4).reshape(2,2),
                   index=['a','b'],
                   columns=['three','four'])

result =  pd.concat([df1,df2],
                     axis=1,
                     sort=True)

display(result)


result =  pd.concat([df1,df2],
                     axis=0,
                     ignore_index=False, # 인덱스를 무시해라
                     sort=True) # column을 정렬

display(result)

Unnamed: 0,one,two,three,four
a,0,1,5.0,6.0
b,2,3,7.0,8.0
c,4,5,,


Unnamed: 0,four,one,three,two
a,,0.0,,1.0
b,,2.0,,3.0
c,,4.0,,5.0
a,6.0,,5.0,
b,8.0,,7.0,


In [3]:
# DataFrame 생성

# random seed 고정
# 0 이상 10 미만 정수형 난수를 균등분포로 추출
# 6행 4열 DataFrame 생성
# index와 column은 따로 지정하지 않을 예정


# column과 index 설정
# column : 'A', 'B', 'C', 'D'
# index : 날짜를 이용, 2020-01-01부터 1일씩 증가

# NaN값을 포함하는 새로운 column 'E'를 추가
# 'E' column : [7, np.nan, 4, np.nan, 2, np.nan]

# 결측치 처리
# 일반적으로 NaN이 결측치
# 결측치 처리
# 결측치가 들어가 있는 행을 무조건 삭제?? -> 편하지만 그 열의 데이터가 유실
# 만약 결측치가 몇개 안되면 삭제하는게 좋을 수 있다

# 일반적으로는 결측치를 다른 값으로 대체해서 사용한다
# 평균값 또는 max, min 등의 방법을 이용해서 대체해서 사용


import numpy as np
import pandas as pd


np.random.seed(0)

df = pd.DataFrame(np.random.randint(0,10,(6,4)))

df.index = pd.date_range('20200101', '20200106')
df.columns = ['A', 'B', 'C', 'D']

df['E'] = [7, np.nan, 4, np.nan, 2, np.nan]



# 결측치 제거

new_df = df.dropna(how='any', inplace=False) # how='any' => NaN이 하나라도 행에 포함되어 있으면 행 자체를 삭제
                                             # how='all' => 행의 모든 열이 NaN인 경우 행을 삭제
                                             # inplace=False 원본값을 두고 복사해두겠다
display(df)

display(new_df)


# 결측치를 다른값으로 대체
new_df = df.fillna(value=0)

# my_mask = df['E'].isnull() # boolean mask
display(df.loc[df['E'].isnull(),:])



Unnamed: 0,A,B,C,D,E
2020-01-01,5,0,3,3,7.0
2020-01-02,7,9,3,5,
2020-01-03,2,4,7,6,4.0
2020-01-04,8,8,1,6,
2020-01-05,7,7,8,1,2.0
2020-01-06,5,9,8,9,


Unnamed: 0,A,B,C,D,E
2020-01-01,5,0,3,3,7.0
2020-01-03,2,4,7,6,4.0
2020-01-05,7,7,8,1,2.0


Unnamed: 0,A,B,C,D,E
2020-01-02,7,9,3,5,
2020-01-04,8,8,1,6,
2020-01-06,5,9,8,9,


In [11]:
# 중복행 처리

import numpy as np
import pandas as pd

df = pd.DataFrame({ 'k1' : ['one'] * 3 + ['two'] * 4,
                    'k2' : [1,1,2,3,3,4,4]})

# display(df)

# DataFrame에서 중복행에 대한 boolean mask를 추출

#print(df.duplicated()) # 중복행에 대한 boolean mask를 추출
# 맨 처음에 나온건 중복행이 아니다

# 0    False
# 1     True
# 2    False
# 3    False
# 4     True
# 5    False
# 6     True
# dtype: bool


# 중복행을 추출하려면??
# display(df.loc[df.duplicated(),:])

# 중복행을 찾아서 지우고 DataFrame을 리턴
# display(df.drop_duplicates()) 






df = pd.DataFrame({ 'k1' : ['one'] * 3 + ['two'] * 4,
                    'k2' : [1,1,2,3,3,4,4],
                    'k3' : np.arange(7)})

display(df)

display(df.drop_duplicates())  # 중복행이 없음

# 특정 열을 기준으로
display(df.drop_duplicates(['k1'])) # 중복행의 기준을 'k1' column 으로 잡는다
display(df.drop_duplicates(['k1','k2']))

Unnamed: 0,k1,k2,k3
0,one,1,0
1,one,1,1
2,one,2,2
3,two,3,3
4,two,3,4
5,two,4,5
6,two,4,6


Unnamed: 0,k1,k2,k3
0,one,1,0
1,one,1,1
2,one,2,2
3,two,3,3
4,two,3,4
5,two,4,5
6,two,4,6


Unnamed: 0,k1,k2,k3
0,one,1,0
3,two,3,3


Unnamed: 0,k1,k2,k3
0,one,1,0
2,one,2,2
3,two,3,3
5,two,4,5


In [16]:
# replace() => 대체ㅠㅠㅠㅠㅠㅠ

np.random.seed(100)
df = pd.DataFrame(np.random.randint(0,10,(6,4)),
                  columns=['A', 'B', 'C', 'D'])

df['E'] = [7, np.nan, 4, np.nan, 2, np.nan]

display(df)

# np.nan을 -100으로 대체한다
result = df.replace(np.nan, -100)

display(result)

Unnamed: 0,A,B,C,D,E
0,8,8,3,7,7.0
1,7,0,4,2,
2,5,2,2,2,4.0
3,1,0,8,4,
4,0,9,6,2,2.0
5,4,1,5,3,


Unnamed: 0,A,B,C,D,E
0,8,8,3,7,7.0
1,7,0,4,2,-100.0
2,5,2,2,2,4.0
3,1,0,8,4,-100.0
4,0,9,6,2,2.0
5,4,1,5,3,-100.0


In [27]:
# DataFrame Grouping

import numpy as np
import pandas as pd


my_dict = { '학과' : ['컴퓨터', '체육교육', '컴퓨터', '체육교육', '컴퓨터'],
            '학년' : [1,2,3,2,3],
            '이름' : ['만옥', '천옥', '은비', '실비', '지미유'],
            '학점' : [1.5, 4.4, 3.7, 4.5, 3.8]}

df = pd.DataFrame(my_dict)

display(df)

# 학과를 기준으로 학점 Grouping
# Series를 Grouping하는 개념

dept = df['학점'].groupby(df['학과'])

display(dept)  # pandas.core.groupby.generic.SeriesGroupBy object

# 그룹안에 데이터를 확인하고 싶은 경우 => get_group() 

# print(dept.get_group('컴퓨터')) # Series

# 0    1.5
# 2    3.7
# 4    3.8
# Name: 학점, dtype: float64


# 각 그룹의 사이즈를 확인하고 싶은 경우 size()
# print(dept.size()) # Series

# 학과
# 체육교육    2
# 컴퓨터     3
# Name: 학점, dtype: int64



# print(dept.mean())

# 학과
# 체육교육    4.45
# 컴퓨터     3.00
# Name: 학점, dtype: float64


# 2단계 그룹핑도 가능

dept_year = df['학점'].groupby([df['학과'],df['학년']])

print(dept_year.mean())

# 학과    학년
# 체육교육  2     4.45
# 컴퓨터   1     1.50
#       3     3.75
# Name: 학점, dtype: float64

# 우리가 사용하는 Series와 DataFrame은 index와 column에 multi index 개념을 지원

# unstack() : 최하위 index를 column으로 설정
display(dept_year.mean().unstack())



Unnamed: 0,학과,학년,이름,학점
0,컴퓨터,1,만옥,1.5
1,체육교육,2,천옥,4.4
2,컴퓨터,3,은비,3.7
3,체육교육,2,실비,4.5
4,컴퓨터,3,지미유,3.8


<pandas.core.groupby.generic.SeriesGroupBy object at 0x7f8aca11e0d0>

학과    학년
체육교육  2     4.45
컴퓨터   1     1.50
      3     3.75
Name: 학점, dtype: float64


학년,1,2,3
학과,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
체육교육,,4.45,
컴퓨터,1.5,,3.75


In [35]:
import numpy as np
import pandas as pd


my_dict = { '학과' : ['컴퓨터', '체육교육', '컴퓨터', '체육교육', '컴퓨터'],
            '학년' : [1,2,3,2,3],
            '이름' : ['만옥', '천옥', '은비', '실비', '지미유'],
            '학점' : [1.5, 4.4, 3.7, 4.5, 3.8]}

df = pd.DataFrame(my_dict)

display(df)


# DataFrame을 grouping

# dept_year = df['학점'].groupby([df['학과'],df['학년']])

df_group_dept =  df.groupby(df['학과'])
# print(df_group_dept)  # <pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f8acb649ad0>


# display(df_group_dept.get_group('컴퓨터'))

# display(df_group_dept.mean()) # 숫자로 계산할 수 있는 모든 칼럼의 평균을 다 뽑아냄


df_dept_year = df.groupby(['학과','학년'])

display(df_dept_year.mean().unstack())

Unnamed: 0,학과,학년,이름,학점
0,컴퓨터,1,만옥,1.5
1,체육교육,2,천옥,4.4
2,컴퓨터,3,은비,3.7
3,체육교육,2,실비,4.5
4,컴퓨터,3,지미유,3.8


Unnamed: 0_level_0,학점,학점,학점
학년,1,2,3
학과,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
체육교육,,4.45,
컴퓨터,1.5,,3.75


In [45]:


import numpy as np
import pandas as pd


my_dict = { '학과' : ['컴퓨터', '체육교육', '컴퓨터', '체육교육', '컴퓨터'],
            '학년' : [1,2,3,2,3],
            '이름' : ['만옥', '천옥', '은비', '실비', '지미유'],
            '학점' : [1.5, 4.4, 3.7, 4.5, 3.8]}

df = pd.DataFrame(my_dict)

display(df)


# 학과별 평균 학점
# print(df['학점'].groupby(df['학과']).mean())


# 학과별 몇 명이 존재하는가?
print(df.groupby(['학과']).size())

Unnamed: 0,학과,학년,이름,학점
0,컴퓨터,1,만옥,1.5
1,체육교육,2,천옥,4.4
2,컴퓨터,3,은비,3.7
3,체육교육,2,실비,4.5
4,컴퓨터,3,지미유,3.8


학과
체육교육    2
컴퓨터     3
dtype: int64


In [43]:
# 해당 그룹을 반복해서 어떤 처리를 하고 싶다면??

# 학과로 Grouping한 후 for문을 이용해서 반복처리

# for (dept, group) in df.groupby(df['학과']):
#     print(dept)
#     display(group)
#     print('======')
    
    
for ((dept,year), group) in df.groupby(['학과', '학년']):
    print(dept)
    print(year)
    display(group)
    print('======')   

체육교육
2


Unnamed: 0,학과,학년,이름,학점
1,체육교육,2,천옥,4.4
3,체육교육,2,실비,4.5


컴퓨터
1


Unnamed: 0,학과,학년,이름,학점
0,컴퓨터,1,만옥,1.5


컴퓨터
3


Unnamed: 0,학과,학년,이름,학점
2,컴퓨터,3,은비,3.7
4,컴퓨터,3,지미유,3.8


