In [1]:
# 외부 resource를 이용해서 DataFrame 생성
# 1. CSV 파일을 이용해서 DataFrame을 생성
# 2. MySQL안에 Database로 부터 SQL을 이용해 DataFrame을 생성
#    - 프로그램적으로 SQL을 직접 이용
#    - ORM 방식을 이용해서 사용(Django)

In [2]:
# 프로그램적으로 SQL을 직접 이용
# 외부 모듈이 필요 => pymysql module이 필요
# conda install pymysql
# => MySQL안에 데이터베이스를 생성하고 제공된 Script를 이용해서 Table을 생성

In [2]:
import pymysql
import numpy as np
import pandas as pd

In [4]:
# Database 연결
# 연결을 시도해보고 만약 성공하면 연결객체를 얻음
con = pymysql.connect(host='localhost',
                      user='root',
                      password='test1234',
                      db='lecture0317',
                      charset='utf8')
print(con) # 연결 성공해서 연결 객체를 얻음 > _<

<pymysql.connections.Connection object at 0x0000024C34ED0610>


In [7]:
# 연결 성공했으니까
# SQL을 작성해보자
sql = "SELECT bisbn, btitle, bauthor, bprice \
       FROM book \
       WHERE btitle \
       LIKE '%java%'"

df = pd.read_sql(sql, con) # con에 대해서 sql문을 실행해줘
display(df)



Unnamed: 0,bisbn,btitle,bauthor,bprice
0,89-7914-371-0,Head First Java: 뇌 회로를 자극하는 자바 학습법(개정판),"케이시 시에라,버트 베이츠",28000
1,89-7914-397-4,뇌를 자극하는 Java 프로그래밍,김윤명,27000
2,978-89-6848-042-3,모던 웹을 위한 JavaScript + jQuery 입문(개정판) : 자바스크립트에...,윤인성,32000
3,978-89-6848-132-1,"JavaScript+jQuery 정복 : 보고, 이해하고, 바로 쓰는 자바스크립트 공략집",김상형,28000
4,978-89-6848-147-5,이것이 자바다 : 신용권의 Java 프로그래밍 정복,신용권,30000
5,978-89-6848-156-7,Head First JavaScript Programming : 게임과 퍼즐로 배우...,"에릭 프리먼, 엘리자베스 롭슨",36000
6,978-89-7914-582-3,Head First JavaScript : 대화형 웹 애플리케이션의 시작,마이클 모리슨,28000
7,978-89-7914-659-2,UML과 JAVA로 배우는 객체지향 CBD 실전 프로젝트 : 도서 관리 시스템,채흥석,40000
8,978-89-7914-832-9,"IT CookBook, 웹 프로그래밍 입문 : XHTML, CSS2, JavaScript","김형철, 안치현",23000
9,978-89-7914-855-8,자바스크립트 성능 최적화: High Performance JavaScript,니콜라스 자카스,20000


In [8]:
# DataFrame을 얻으면
# 이 DataFrame의 내용을 JSON으로 저장할 수 있음(4가지 형태의 JSON으로 저장 가능)

# 현재 DataFrame의 내용을 JSON 파일로 저장해 봅시당
# with 구문을 이용하고 폴더는 미리 생성되어 있어야 해용
# with 구문을 이용하는 이유!
# 파일을 open -> 파일안에 내용을 저장 -> 파일을 close    절차로 파일 저장을 진행
# with 구문을 이용하면 close하는 부분을 코드로 작성하지 않아도 됨
# with 구문을 이용하면 자동으로 닫힘!

with open('data/json/books.json', 'w', encoding='utf-8') as file:
    df.to_json(file, force_ascii=False)

In [12]:
# JSON을 얻으면
# 이 JSON을 어떻게 DataFrame으로 변형할 수 있을까?????

# JSON을 읽어서 DataFrame 생성하기!
import numpy as np
import pandas as pd
import json   # 내장 module 사용!

with open('data/json/books.json', 'r', encoding='utf-8') as file:
    dict_books = json.load(file)
    
#print(dict_books)

df = pd.DataFrame.from_dict(dict_books)
display(df)

Unnamed: 0,bisbn,btitle,bauthor,bprice
0,89-7914-371-0,Head First Java: 뇌 회로를 자극하는 자바 학습법(개정판),"케이시 시에라,버트 베이츠",28000
1,89-7914-397-4,뇌를 자극하는 Java 프로그래밍,김윤명,27000
2,978-89-6848-042-3,모던 웹을 위한 JavaScript + jQuery 입문(개정판) : 자바스크립트에...,윤인성,32000
3,978-89-6848-132-1,"JavaScript+jQuery 정복 : 보고, 이해하고, 바로 쓰는 자바스크립트 공략집",김상형,28000
4,978-89-6848-147-5,이것이 자바다 : 신용권의 Java 프로그래밍 정복,신용권,30000
5,978-89-6848-156-7,Head First JavaScript Programming : 게임과 퍼즐로 배우...,"에릭 프리먼, 엘리자베스 롭슨",36000
6,978-89-7914-582-3,Head First JavaScript : 대화형 웹 애플리케이션의 시작,마이클 모리슨,28000
7,978-89-7914-659-2,UML과 JAVA로 배우는 객체지향 CBD 실전 프로젝트 : 도서 관리 시스템,채흥석,40000
8,978-89-7914-832-9,"IT CookBook, 웹 프로그래밍 입문 : XHTML, CSS2, JavaScript","김형철, 안치현",23000
9,978-89-7914-855-8,자바스크립트 성능 최적화: High Performance JavaScript,니콜라스 자카스,20000


In [13]:
# DataFrame 생성
# 외부 resource를 이용한 DataFrame생성
# CSV파일, Database이용, JSON파일에 DataFrame을 저장, JSON파일로부터 DataFrame 생성

In [26]:
# Open API를 이용해서 DataFrame을 생성해봅시다!
# 영화진흥위원회 OPEN API

import numpy as np
import pandas as pd
import urllib   # => open api를 호출하기 위해 필요한 module
import json

# 영화진흥위원회 OPEN API 호출에 대한 URL을 Query String을 이용해서 작성
# key : 773f105076ee0b76a8eda4f6642c00b5
url = 'http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json'
query_string = '?key=06f89b292b7f78ee81fb8dc7e371444b&targetDt=20220301'
movie_url= url + query_string

load_page = urllib.request.urlopen(movie_url)
print(load_page) # request에 대한 response객체(이 안에 결과 JSON이 들어 있음)

# 결과 JSON을 얻으려면
my_dict = json.loads(load_page.read())
print(my_dict)

# open api호출 결과(json)를 dictionary로 얻어냄!
# 이 dictionary를 잘 분해해서 DataFrame으로 만들어야함
# 로직을 만들어서 DataFrame으로 만들어보셈
# => DataFrame으로 만드는 것이 과제임!

<http.client.HTTPResponse object at 0x0000024C354AA2B0>
{'boxOfficeResult': {'boxofficeType': '일별 박스오피스', 'showRange': '20220301~20220301', 'dailyBoxOfficeList': [{'rnum': '1', 'rank': '1', 'rankInten': '3', 'rankOldAndNew': 'OLD', 'movieCd': '20212973', 'movieNm': '더 배트맨', 'openDt': '2022-03-01', 'salesAmt': '1946514750', 'salesShare': '74.1', 'salesInten': '1873788030', 'salesChange': '2576.5', 'salesAcc': '2032351470', 'audiCnt': '192841', 'audiInten': '187395', 'audiChange': '3441', 'audiAcc': '199161', 'scrnCnt': '2370', 'showCnt': '7544'}, {'rnum': '2', 'rank': '2', 'rankInten': '-1', 'rankOldAndNew': 'OLD', 'movieCd': '20211200', 'movieNm': '언차티드', 'openDt': '2022-02-16', 'salesAmt': '272829540', 'salesShare': '10.4', 'salesInten': '26524900', 'salesChange': '10.8', 'salesAcc': '6269626510', 'audiCnt': '27212', 'audiInten': '331', 'audiChange': '1.2', 'audiAcc': '642054', 'scrnCnt': '800', 'showCnt': '1627'}, {'rnum': '3', 'rank': '3', 'rankInten': '-1', 'rankOldAndNew': 'OLD', 

In [30]:
import numpy as np
import pandas as pd

my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학과': ['철학', '수학', '컴퓨터', '국어국문'],
           '학년': [1, 3, 2, 4],
           '학점': [1.4, 2.7, 3.5, 4.0]}

df = pd.DataFrame(my_dict,
                  columns=['학과','이름','학점','학년'],
                  index=['one','two','three','four'])
display(df)

Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2
four,국어국문,신사임당,4.0,4


In [37]:
import numpy as np
import pandas as pd

my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학과': ['철학', '수학', '컴퓨터', '국어국문'],
           '학년': [1, 3, 2, 4],
           '학점': [1.4, 2.7, 3.5, 4.0]}

df = pd.DataFrame(my_dict,
                  columns=['학과','이름','학점','학년'],
                  index=['one','two','three','four'])
display(df)

# 1. 하나의 컬럼을 추출하기
#print(df['이름']) #  => 결과는 Series로 나옴

# 2. 하나의 column을 추출하면 view로 추출됨
my_name = df['이름']
print(my_name)

my_name['one']='강감찬' # Series를 변경하면 원본도 변경됨 주의!!
print(my_name)

display(df)

Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2
four,국어국문,신사임당,4.0,4


one       홍길동
two       아이유
three     김연아
four     신사임당
Name: 이름, dtype: object
one       홍길동
two       아이유
three     김연아
four     신사임당
Name: 이름, dtype: object
one       강감찬
two       아이유
three     김연아
four     신사임당
Name: 이름, dtype: object


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  my_name['one']='강감찬'


Unnamed: 0,학과,이름,학점,학년
one,철학,강감찬,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2
four,국어국문,신사임당,4.0,4


In [39]:
import numpy as np
import pandas as pd

my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학과': ['철학', '수학', '컴퓨터', '국어국문'],
           '학년': [1, 3, 2, 4],
           '학점': [1.4, 2.7, 3.5, 4.0]}

df = pd.DataFrame(my_dict,
                  columns=['학과','이름','학점','학년'],
                  index=['one','two','three','four'])
display(df)

# 3. 두개 이상의 column을 추출해보자
#    => Fancy indexing
display(df[['이름', '학년']]) # DataFrame으로 결과물이 나옴

Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2
four,국어국문,신사임당,4.0,4


Unnamed: 0,이름,학년
one,홍길동,1
two,아이유,3
three,김연아,2
four,신사임당,4


In [41]:
import numpy as np
import pandas as pd

my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학과': ['철학', '수학', '컴퓨터', '국어국문'],
           '학년': [1, 3, 2, 4],
           '학점': [1.4, 2.7, 3.5, 4.0]}

df = pd.DataFrame(my_dict,
                  columns=['학과','이름','학점','학년'],
                  index=['one','two','three','four'])
display(df)

# 4. 특정 컬럼의 값을 수정
#df['학년'] = 1 # => broadcasting 발생
df['학년'] = [2, 3, 1, 4]
display(df)


Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2
four,국어국문,신사임당,4.0,4


Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,2
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,1
four,국어국문,신사임당,4.0,4


In [1]:
import numpy as np
import pandas as pd

my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학과': ['철학', '수학', '컴퓨터', '국어국문'],
           '학년': [1, 3, 2, 4],
           '학점': [1.4, 2.7, 3.5, 4.0]}

df = pd.DataFrame(my_dict,
                  columns=['학과','이름','학점','학년'],
                  index=['one','two','three','four'])
display(df)

# 5. 새로운 컬럼 추가하기 - 나이 column
df['나이'] = [21, 20, 25, 27]
display(df)

# 6. 연산을 통해 새로운 컬럼을 추가하기
#    모든 사람의 학점을 20% 증가시켜서 '조정학점'컬럼으로 저장
df['조정학점'] = df['학점'] * 1.2
display(df)

Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2
four,국어국문,신사임당,4.0,4


Unnamed: 0,학과,이름,학점,학년,나이
one,철학,홍길동,1.4,1,21
two,수학,아이유,2.7,3,20
three,컴퓨터,김연아,3.5,2,25
four,국어국문,신사임당,4.0,4,27


Unnamed: 0,학과,이름,학점,학년,나이,조정학점
one,철학,홍길동,1.4,1,21,1.68
two,수학,아이유,2.7,3,20,3.24
three,컴퓨터,김연아,3.5,2,25,4.2
four,국어국문,신사임당,4.0,4,27,4.8


In [3]:
import numpy as np
import pandas as pd

my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학과': ['철학', '수학', '컴퓨터', '국어국문'],
           '학년': [1, 3, 2, 4],
           '학점': [1.4, 2.7, 3.5, 4.0]}

df = pd.DataFrame(my_dict,
                  columns=['학과','이름','학점','학년'],
                  index=['one','two','three','four'])
display(df)

# 7. column 삭제
# drop() 함수 -> 행이나 열을 삭제할 때 사용
new_df = df.drop('학점', axis=1, inplace=False)
display(new_df)

###  DataFrame column에 대한 생성, 수정, 삭제, 추출에 대한 내용 끝!

Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2
four,국어국문,신사임당,4.0,4


Unnamed: 0,학과,이름,학년
one,철학,홍길동,1
two,수학,아이유,3
three,컴퓨터,김연아,2
four,국어국문,신사임당,4


In [12]:
my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학과': ['철학', '수학', '컴퓨터', '국어국문'],
           '학년': [1, 3, 2, 4],
           '학점': [1.4, 2.7, 3.5, 4.0]}

df = pd.DataFrame(my_dict,
                  columns=['학과','이름','학점','학년'],
                  index=['one','two','three','four'])
display(df)

# column indexing
#print(df['이름'])  # Series
## print(df['이름':'학년'])   # error!! column은 slicing 안됨!
display(df[['학과', '이름', '학년']]) # Fancy indexing은 가능! => 결과값은 DataFrame으로 나타남


# row indexing(숫자를 이용한 indexing)
## print(df[0])   # error!! 단일 indexing 안됨!
display(df[0:2])   # 가능! slicing은 됨!   
                   # => 결과값은 DataFrame으로 나타나고, View임!(그저 보여주는 것. 원본 수정 안됨)
## df[[0, 2]]  # error! Fancy Indexing 안됨!


# row indexing(지정 index를 이용한 indexing)
## print(df['one']) # error!   => print(df['one']) 'one'이라는 column을 가져오라는 뜻임...!
display(df['one':'three']) # slicing 가능!
## display(df[['one', 'three']])  # error! Fancy Indexing 안됨!

'''
df[] => column indexing할 때만 써라!!
     => row indexing에는 쓰지 마라

df.loc[] => 하이브리드임
         => row, column 둘 다 indexing 할 수 있음
'''

Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2
four,국어국문,신사임당,4.0,4


Unnamed: 0,학과,이름,학년
one,철학,홍길동,1
two,수학,아이유,3
three,컴퓨터,김연아,2
four,국어국문,신사임당,4


Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3


Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2


#### 하이브리드 loc에 대해 알아보자!

In [17]:
# df.loc[]
# df.loc[]는 행과 열에 대한 indexing을 할 수 있음!
my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학과': ['철학', '수학', '컴퓨터', '국어국문'],
           '학년': [1, 3, 2, 4],
           '학점': [1.4, 2.7, 3.5, 4.0]}

df = pd.DataFrame(my_dict,
                  columns=['학과','이름','학점','학년'],
                  index=['one','two','three','four'])
display(df)

print(df.loc['one'])  # Series로 결과가 나옴. 단일 row 추출 가능
display(df.loc['one':'three'])
display(df.loc[['one', 'three']])

## print(df.loc[0])  # error! loc는 숫자 index를 사용할 수 없음!!!
#                           => iloc를 사용하면 숫자 index 가능~ > _<
print(df.iloc[0])    #      => 단, iloc는 숫자 index만 가능함~~ 지정 index를 못 씀!

Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2
four,국어국문,신사임당,4.0,4


학과     철학
이름    홍길동
학점    1.4
학년      1
Name: one, dtype: object


Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2


Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
three,컴퓨터,김연아,3.5,2


학과     철학
이름    홍길동
학점    1.4
학년      1
Name: one, dtype: object


In [22]:
my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학과': ['철학', '수학', '컴퓨터', '국어국문'],
           '학년': [1, 3, 2, 4],
           '학점': [1.4, 2.7, 3.5, 4.0]}

df = pd.DataFrame(my_dict,
                  columns=['학과','이름','학점','학년'],
                  index=['one','two','three','four'])
display(df)

# loc를 이용해서 row indexing과 colum indexing을 같이 할 수 있음
display(df.loc['two':'three']) # row slicing
print(df.loc['one':'three','학과']) # ['행', '열']  => 결과는 Series
display(df.loc['one':'three',['이름','학년']])

Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2
four,국어국문,신사임당,4.0,4


Unnamed: 0,학과,이름,학점,학년
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2


one       철학
two       수학
three    컴퓨터
Name: 학과, dtype: object


Unnamed: 0,이름,학년
one,홍길동,1
two,아이유,3
three,김연아,2


In [36]:
my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학과': ['철학', '수학', '컴퓨터', '국어국문'],
           '학년': [1, 3, 2, 4],
           '학점': [1.4, 2.7, 3.5, 4.0]}

df = pd.DataFrame(my_dict,
                  columns=['학과','이름','학점','학년'],
                  index=['one','two','three','four'])
display(df)

# boolean indexing
# 학점이 3.0 이상인 학생의 학과와 이름을 출력
df.loc[df['학점']>= 3.0, ['학과', '이름']]

Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2
four,국어국문,신사임당,4.0,4


Unnamed: 0,학과,이름
three,컴퓨터,김연아
four,국어국문,신사임당


In [39]:
my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학과': ['철학', '수학', '컴퓨터', '국어국문'],
           '학년': [1, 3, 2, 4],
           '학점': [1.4, 2.7, 3.5, 4.0]}

df = pd.DataFrame(my_dict,
                  columns=['학과','이름','학점','학년'],
                  index=['one','two','three','four'])
display(df)

# 새로운 row를 추가
'''
df.loc['five',:] = ['영어영문','강감찬',3.2, 1]
display(df)
'''
df.loc['five',['학과','이름']] = ['물리학과','파이썬']
display(df)    #  학점, 학년은 안줘서 NaN => 결치값(값이 없는 것을 나타내는 것) - 실수로 간주함!

Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2
four,국어국문,신사임당,4.0,4


Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1.0
two,수학,아이유,2.7,3.0
three,컴퓨터,김연아,3.5,2.0
four,국어국문,신사임당,4.0,4.0
five,물리학과,파이썬,,


In [40]:
my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학과': ['철학', '수학', '컴퓨터', '국어국문'],
           '학년': [1, 3, 2, 4],
           '학점': [1.4, 2.7, 3.5, 4.0]}

df = pd.DataFrame(my_dict,
                  columns=['학과','이름','학점','학년'],
                  index=['one','two','three','four'])
display(df)

# row 삭제
new_df = df.drop('three', axis=0, inplace=False)
display(new_df)

Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
three,컴퓨터,김연아,3.5,2
four,국어국문,신사임당,4.0,4


Unnamed: 0,학과,이름,학점,학년
one,철학,홍길동,1.4,1
two,수학,아이유,2.7,3
four,국어국문,신사임당,4.0,4


In [41]:
#### dataframe의 row, column indexing은 여기까지! > _<

#### DataFrame이 제공하는 함수(기능)들을 배워보장

In [42]:
# 데이터셋을 받아서 사용해볼 것임
# UCI Machine Learning Repository에서 제공하는
# MPG Data set을 이용할 것!!
# MPG(Mile Per Gallon) => 자동차 연비에 관련된 데이터셋

In [None]:
# mpg           : 연비(mile per gallon)
# cylinders     : 실린더 개수
# displacement  : 배기량
# horsepower    : 마력(출력)
# weight        : 중량
# acceleration  : 가속능력
# year          : 출시년도
# origin        : 제조국(1: USA, 2: EU, 3: JPN)
# name         : 차량이름

In [55]:
import numpy as np
import pandas as pd

df = pd.read_csv('data/MPG/auto-mpg.csv', header=None)

df.columns = ['mpg','cylinders','displacement','horsepower',
              'weight','acceleration','year','origin','name']
#display(df)

'''
# 1. head(), tail()
#    DataFrame 안의 데이터를 앞에서 5개(기본), 뒤에서 5개(기본)를 추출
display(df.head()) # 상위 5개의 행
display(df.tail()) # 하위 5개의 행

# 2. shape
print(df.shape) # (398, 9)

# 3. info() : DataFrame의 기본 정보를 알려줌
print(df.info())

# 4. count() : 유효한 값의 개수(NaN이 아닌 값의 개수)
print(df.count()) # Series로 결과가 return

# 5. value_counts() : Series에 대해서 unique value의 개수를 알려줌
# origin이라는 컬럼은 제조국을 나타내고 1,2,3 중 하나의 값을 가짐
# 1: USA, 2: EU, 3: JPN
print(df['origin'].value_counts()) # Series로 결과가 return
### 만약 NaN값이 있으면 value_counts()는 어떻게 동작 할까용?
### => 기본적으로 NaN을 포함해서 계산함!!
#   => 옵션을 줘서 NaN을 제외하고 수행할 수 있음
print(df['origin'].value_counts(dropna=True))

# 6. unique() : Series에 대해서 중복해서 유일한 값이 어떤 값이 있는지 알려줌
print(df['year'].unique())

# 7. isin() : boolean mask를 만들기 위해서 사용
df['origin'].isin([3])   # 제조국이 일본(3)인 mask
df.loc[df['origin'].isin([3]),:]    # boolean indexing
'''

[70 71 72 73 74 75 76 77 78 79 80 81 82]


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
14,24.0,4,113.0,95.00,2372.0,15.0,70,3,toyota corona mark ii
18,27.0,4,97.0,88.00,2130.0,14.5,70,3,datsun pl510
29,27.0,4,97.0,88.00,2130.0,14.5,71,3,datsun pl510
31,25.0,4,113.0,95.00,2228.0,14.0,71,3,toyota corona
53,31.0,4,71.0,65.00,1773.0,19.0,71,3,toyota corolla 1200
...,...,...,...,...,...,...,...,...,...
382,34.0,4,108.0,70.00,2245.0,16.9,82,3,toyota corolla
383,38.0,4,91.0,67.00,1965.0,15.0,82,3,honda civic
384,32.0,4,91.0,67.00,1965.0,15.7,82,3,honda civic (auto)
385,38.0,4,91.0,67.00,1995.0,16.2,82,3,datsun 310 gx


##### 정렬(DataFrame안의 데이터를 정렬)

In [68]:
import numpy as np
import pandas as pd
'''
# 난수의 재현성을 확보하기 위해 seed값 설정
np.random.seed(1)
df = pd.DataFrame(np.random.randint(0,10,(6,4)),
                  columns=['A','B','C','D'],
                  index=pd.date_range('220101', periods=6))
display(df)
'''
# index를 랜덤하게 섞을거임!
## np.random.shuffle(df.index)  # error!!    # shuffle()은 원본 데이터를 변경하는 특징을 가짐
# DataFrame의 index는 mutable operation을 지원하지 않음   // 이게 멍개소리야~
# => index 자체를 변경시킬 수 없음!! 이라는 뜻!!   =>  shuffle을 못쓴다는 뜻   // ??? 그럼 뭐 씀?
'''
# permutation() 을 쓰면 됨!
# => 원본은 변경하지 않고 복사본을 만듬
random_index = np.random.permutation(df.index)
print(random_index)
'''
'''
# 변경된 index로 DataFrame 재설정하기
df2 = df.reindex(index=random_index,
           columns=['B','A','D','C'])
display(df2)
'''
## 정렬해보기!
'''
# 1. index를 기반으로 정렬
display(df2.sort_index(axis=1, ascending=True))  # column을 정렬
display(df2.sort_index(axis=0, ascending=True))  # 행을 정렬
'''
# 2. value를 기반으로 정렬
display(df2.sort_values(by='B', ascending=True))  # 특정 컬럼의 값으로 행을 정렬

Unnamed: 0,B,A,D,C
2001-01-23,0,0,7,1
2001-01-25,2,5,2,4
2001-01-26,7,4,9,7
2001-01-27,7,1,6,0
2001-01-22,8,5,5,9
2001-01-24,9,6,4,2
