In [None]:
# Numpy에 대해서 잠깐 정리를 하고 넘어가요
# Numpy는 ndarray라는 다차원 배열을 제공하는 모듈

# 1.ndarray의 생성
# python의 list를 이용해서 만들 수 잇음 -np.array()
# 제공되는 함수를 이용해서 만들 수 있음 - zeros(), ones()
#                                         full()
# 난수를 이용해서 만들 수 있어요 - np.random.randint()
#                                  np.random.normal()
# 파일로부터 데이터를 읽어들여서 만들 수 있음
# 이 방식을 하지 않았어요 왜냐하면  pandas로 함

In [None]:
# 간단하게 Series의 연산에 대해
# 예제를 통해 알아봄
# Series를 만들건데... index값을 날짜로 함

import numpy as np
import pandas as pd
from datetime import date, datetime, timedelta

start_day = datetime(2020,1,1)
print(start_day)

# python의 list를 만드는 방법중에
# list comprehension이 있음
factory_a= pd.Series([int(x) for x in np.random.normal(50,2,(10,))],
                     index = [start_day + x for x in range(10)])

print(factory_a)
start_day = datetime(2020,1,5)
factory_b = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
                      index=[start_day + timedelta(days=x) for x in range(10)])
print(factory_b)

print(factory_a + factory_b)

2020-01-01 00:00:00
0    55
1    50
2    52
3    51
4    49
5    49
6    51
7    49
8    49
9    49
dtype: int64


In [None]:
# Series에 대한 내용을 일단 요정도까지 알고 있으면 됨
# 나머지 Series에 대한 내용은 DataFrame하면서 같이 설명을 함
# Series를 여러개 모아놓은게 DataFrame임
# DataFrame은 아주 쉽게 생각하면 Excel로 생각(table , 표)
#하나의 Series가 2차원의 열(column)로 사용

In [None]:
#Pandas의 DataFrame을 생성
#가장 간단한 방법은 Dictionary를 이용

data = {'name': ['홍길동', '신사임당', '강감찬', '이순신'],
        'year': [2020, 2021, 2022, 2020],
        'point': [3.5, 2.0, 1.3, 4.3]}

df = pd.DataFrame(data)
#Jupyter notebook에서 dataFrame을 출력할 때 display를 사용
display(df)
print(df.ndim) #2차원(dataframe은 2차원임  Series 는 1차원)
print(df.shape) #4.3
print(df.index) #RangeINdex(start=0, stop = 4, step=1))
print(df.values)

Unnamed: 0,name,year,point
0,홍길동,2020,3.5
1,신사임당,2021,2.0
2,강감찬,2022,1.3
3,이순신,2020,4.3


2
(4, 3)
RangeIndex(start=0, stop=4, step=1)
[['홍길동' 2020 3.5]
 ['신사임당' 2021 2.0]
 ['강감찬' 2022 1.3]
 ['이순신' 2020 4.3]]


In [None]:
# 이런 DataFrame을 어떻게 제어할 수 있나요??
# 이 방법들에 대해서 천천히 알아보아요!

# DataFrame의 index와 column에 이름을 지정하는 방법부터 알아보아요!
data = {'names' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        'year': [2020, 2021, 2019, 2022, 2021],
        'point': [3.5, 2.1, 3.1, 1.1, 2.7]}

df = pd.DataFrame(data)
display(df)

# 기존 DataFrame의 형태를 변경해서 새로운 DataFrame을 만들어요!
# inplace라는 속성은 만약 True이면 원본 DataFrame을 변경하고 리턴하지
# 않아요. 만약 False라면 원본을 변경하지 않고 변경된 복사본을 리턴해요!
new_df = df.rename(columns={'year':'입학연도',
                            'point': '학점'},
                   index={0: 'one'},
                   inplace=False)
display(new_df)

In [None]:
# DataFrame의 index를 다시 설정하고 싶어요!
# 특정 column을 index로 사용하고 싶어요!
data = {'names' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        'year': [2020, 2021, 2019, 2022, 2021],
        'point': [3.5, 2.1, 3.1, 1.1, 2.7]}

df = pd.DataFrame(data)
display(df)

new_df = df.set_index(new_df)

In [None]:
# 그럼 이런 DataFrame은 우리가 직접 입력한 데이터로 만들어야 하나요?
# 많은 양의 데잉터는 우리가 직접 코드에 입력할 수 없음
# 그래서 다양한 방식으로 데이터를 읽어들여서 DataFrame을 만들어서 사용
# 대표적인 방법
# 1. csv파일을 이용해서 데이터를 읽어들여서 dataframe을 생성
# 2. Database에서 데이터를 읽어와서 DataFrame으로 생성
# 3. Json을 이용해서 DataFrame을 생성할 수 있음
# 4. Open Api이용해서 (JSon)DataFrame을 생성할 수 있어요

# 우리는 그중에 가장 간단하고 많이 사용하는 CSV파일 로딩하는 방법만
# 살펴봄 ->read_csv()

df =pd.read_csv('/content/drive/MyDrive/빅데이터 과정 폴더/data/movies/movies.csv')

display(df)
print(df.shape) #(9742, 3) row : 9742, columns : 3
#이렇게 파일을 불러들일 수 있음
# 만약 상위 5개만 보고싶다면
# head() 함수를 이용하면 상위 5개 row만 출력!
display(df.head()) #데이터 확인용도로 사용

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# 이번에는 DataFrame 만들 때 컬럼과 index를 지정
# 기본적으로 우리 DataFrame만드는 코드는
# index를 지정하고 있지 않아요 index도 지정해서 만들어 볼꺼에요
data = {'names' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        'year': [2020, 2021, 2019, 2022, 2021],
        'point': [3.5, 2.1, 3.1, 1.1, 2.7]}

df = pd.DataFrame(data,
                  columns = ['year', 'point','names', 'dept'],
                  index = ['one', 'two', 'three', 'four', 'five'])
display(df)

In [None]:
# 이렇게 해서 DataFrame생성하는 방법에 대해서 간단하게 알아봄
# dictionary이용, csv파일 loading
# 자 이제는 indexing부터 알아보자

In [None]:
from numpy.lib.function_base import disp
# DataFrame의 indexing은 조금 다름
# 어떻게 처리해야 하는지 알아보아요

# DataFrame에서특정 column을 추출할 수 있음
data = {'이름' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        '입학연도': [2020, 2021, 2019, 2022, 2021],
        '학점': [3.5, 2.1, 3.1, 1.1, 2.7],
        '학과' :['컴퓨터' , '철학', '경제', '기계', '물리']}

df = pd.DataFrame(data,
                  index = ['one','two','three','four','five'])
display(df)

#column indexing(컬럼을 추출해 보아요)
names = df['이름'] # Series로 추출되요
print(names)

names['three'] = '신사임당'
print(names)

disp(df)
# 결론적으로 우리가 DataFrame에서 column을 추출하면 (indexing)
# view가 나와요
# 그래서 추출된 Series를 변경하려면  원본 DataFrame이 변경되요!

Unnamed: 0,이름,입학연도,학점,학과
one,아이유,2020,3.5,컴퓨터
two,김연아,2021,2.1,철학
three,홍길동,2019,3.1,경제
four,강감찬,2022,1.1,기계
five,이순신,2021,2.7,물리


one      아이유
two      김연아
three    홍길동
four     강감찬
five     이순신
Name: 이름, dtype: object
one       아이유
two       김연아
three    신사임당
four      강감찬
five      이순신
Name: 이름, dtype: object


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  names['three'] = '신사임당'


In [None]:
#그럼 이렇게 column을 DataFrame으로부터 하나만 추출할 수 있나요?
#=>당연히 2개 이상의 column을 추출할 수 있어요!

# DataFrame에서특정 column을 추출할 수 있음
data = {'이름' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        '입학연도': [2020, 2021, 2019, 2022, 2021],
        '학점': [3.5, 2.1, 3.1, 1.1, 2.7],
        '학과' :['컴퓨터' , '철학', '경제', '기계', '물리']}

df = pd.DataFrame(data,
                  index = ['one','two','three','four','five'])
#display(df)
# Fancy Indexing하면 됨(index의 배열(list)을 이용해서 처리)
display(df[['이름','학과']])

In [None]:
data = {'이름' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        '입학연도': [2020, 2021, 2019, 2022, 2021],
        '학점': [3.5, 2.1, 3.1, 1.1, 2.7],
        '학과': ['컴퓨터', '철학', '경제', '기계', '물리']}

df = pd.DataFrame(data,
                  columns=['입학연도','이름','학과','학점','등급'],
                  index=['one','two','three','four','five'])
display(df)

# 만약 데이터가 존재하지 않으면 NaN이라는 상수를 이용해서 처리
# NaN은 데이가 없음을 지칭 => 결측치(결치)

df['등급'] = 'A'
# Series(1차원) = Scalar(0차원)
# Series(1차원) = broadcasting =>1차원으로 변경
# df['등급'] = ['A', 'A','A','A','A']
display(df)

Unnamed: 0,입학연도,이름,학과,학점,등급
one,2020,아이유,컴퓨터,3.5,
two,2021,김연아,철학,2.1,
three,2019,홍길동,경제,3.1,
four,2022,강감찬,기계,1.1,
five,2021,이순신,물리,2.7,


Unnamed: 0,입학연도,이름,학과,학점,등급
one,2020,아이유,컴퓨터,3.5,A
two,2021,김연아,철학,2.1,A
three,2019,홍길동,경제,3.1,A
four,2022,강감찬,기계,1.1,A
five,2021,이순신,물리,2.7,A


In [None]:
# 새로운 column을 추가하고 싶어요!

data = {'이름' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        '입학연도': [2020, 2021, 2019, 2022, 2021],
        '학점': [3.5, 2.1, 3.1, 1.1, 2.7],
        '학과': ['컴퓨터', '철학', '경제', '기계', '물리']}

df = pd.DataFrame(data,
                  columns=['입학연도','이름','학과','학점'],
                  index=['one','two','three','four','five'])
display(df)

df['등급'] = 'B'  # 상식적으로 말이 안되는데..

In [None]:
# 주어진 데이터를 이용해서
# 학점 * 2를 계산한 값이 5 이상이면 장학생으로
# 선발할거에요 장학생은 '장학여부'라는 컬럼을
# 이용해서 True 라고 명시하고 그렇지 않으면 False라고 명시

# 새로운 column을 추가하고 싶어요!

data = {'이름' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        '입학연도': [2020, 2021, 2019, 2022, 2021],
        '학점': [3.5, 2.1, 3.1, 1.1, 2.7],
        '학과': ['컴퓨터', '철학', '경제', '기계', '물리']}

df = pd.DataFrame(data,
                  columns=['입학연도','이름','학과','학점'],
                  index=['one','two','three','four','five'])

display(df)
df['학점2배'] = df['학점'] * 2

display(df)
df['장학여부'] = df['학점2배'] > 5
display(df)

Unnamed: 0,입학연도,이름,학과,학점
one,2020,아이유,컴퓨터,3.5
two,2021,김연아,철학,2.1
three,2019,홍길동,경제,3.1
four,2022,강감찬,기계,1.1
five,2021,이순신,물리,2.7


Unnamed: 0,입학연도,이름,학과,학점,학점2배
one,2020,아이유,컴퓨터,3.5,7.0
two,2021,김연아,철학,2.1,4.2
three,2019,홍길동,경제,3.1,6.2
four,2022,강감찬,기계,1.1,2.2
five,2021,이순신,물리,2.7,5.4


Unnamed: 0,입학연도,이름,학과,학점,학점2배,장학여부
one,2020,아이유,컴퓨터,3.5,7.0,True
two,2021,김연아,철학,2.1,4.2,False
three,2019,홍길동,경제,3.1,6.2,True
four,2022,강감찬,기계,1.1,2.2,False
five,2021,이순신,물리,2.7,5.4,True


In [None]:
# DataFrame 제어 - indexing
# 컬럼 indexing
#없는 컬럼을 추가
#컬럼을 삭제
data = {'이름' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        '입학연도': [2020, 2021, 2019, 2022, 2021],
        '학점': [3.5, 2.1, 3.1, 1.1, 2.7],
        '학과': ['컴퓨터', '철학', '경제', '기계', '물리']}

df = pd.DataFrame(data,
                  columns=['입학연도','이름','학과','학점'],
                  index=['one','two','three','four','five'])

display(df)

#  new_df = df.drop('학점',axis = 1, inplace=False)


df[1]
print (df[1]) #row에 대한 숫자 index로 단일 indexing은 불가
print(df[1:3]) #row에 대한 숫자 index를 사용한 slicing은 가능
print(df[1,3]) #row에 대한 숫자 index를 사용한
# fancy indexing은 불가


Unnamed: 0,입학연도,이름,학과,학점
one,2020,아이유,컴퓨터,3.5
two,2021,김연아,철학,2.1
three,2019,홍길동,경제,3.1
four,2022,강감찬,기계,1.1
five,2021,이순신,물리,2.7


In [None]:
# DataFrame의 column처리에 대해서 알아보았어요
# 1. column indexing( 단일 컬럼인 경우 Series로 나와요)
# 2. 새로운 컬럼을 추가할 수 있음
# 3. 있는 컬럼을 삭제할 수 있음

In [None]:
# DataFrame의 row처리에 대해서 알아보아요
# row(행) indexing

In [None]:
# 위에서 살펴본 것처럼 DataFrame의 row indexing은
# 너무 복잡해요! 어떤건되고 어떤건 안되요!!
# 사용하기가 껄끄러워요!
# 그래서 일반적으로 DataFrame의 indexing(row)은
# loc를 사용해요!

In [None]:
data = {'이름' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        '입학연도': [2020, 2021, 2019, 2022, 2021],
        '학점': [3.5, 2.1, 3.1, 1.1, 2.7],
        '학과': ['컴퓨터', '철학', '경제', '기계', '물리']}

df = pd.DataFrame(data,
                  columns=['입학연도','이름','학과','학점'],
                  index=['one','two','three','four','five'])

display(df)
# loc를 이용해서 dataFrame의 row indexing을 할 수 있음
# 그런데 loc를 이용하려면 반드시 지정 index를 사용해야 함
# 만약 기본으로 제공되는 숫자 index를 이용하려면
# loc가 아니라 iloc를 이용해야 해요

#하나의 row만 가져올 경우(단일 row만 추출)

print(df.loc['two']) #Series로 추출 됨

#슬라이싱도 됨
print(df.loc['two':'four']) #DataFrame으로 추출됨

#슬라이싱할 때 지정인덱스와 숫자인덱스 혼합사용은 안됨
display(df.loc['two':'four']) #DataFrame으로 추출됨

#숫자 index를 사용할 경우 iloc을 사용
display(df.iloc[[1,3]])#DataFrame으로 추출

# 1.이름이 강감찬인 사람을 찾아 이름과 학점을 dataframe으로 출력

# 2.학점이 1.5이상 , 2.5미만인 사람을 찾아서 학고, 이름, 학점으로 dataframe으로 출력

# 3.학점이 3.0을 초과하는 사람을 찾아 등급을 A로 설정


Unnamed: 0,입학연도,이름,학과,학점
one,2020,아이유,컴퓨터,3.5
two,2021,김연아,철학,2.1
three,2019,홍길동,경제,3.1
four,2022,강감찬,기계,1.1
five,2021,이순신,물리,2.7


Unnamed: 0,입학연도,이름,학과,학점
two,2021,김연아,철학,2.1
four,2022,강감찬,기계,1.1


In [None]:
#loc를 이용할 경우 이렇게 하자
data = {'이름' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        '입학연도': [2020, 2021, 2019, 2022, 2021],
        '학점': [3.5, 2.1, 3.1, 1.1, 2.7],
        '학과': ['컴퓨터', '철학', '경제', '기계', '물리']}

df = pd.DataFrame(data,
                  columns=['입학연도','이름','학과','학점'],
                  index=['one','two','three','four','five'])

display(df)

#df.loc['four','이름':'학과'].
df['이름'] == '강감찬'
display(df.loc[df['이름'] == '강감찬','이름':'학점'])

Unnamed: 0,입학연도,이름,학과,학점
one,2020,아이유,컴퓨터,3.5
two,2021,김연아,철학,2.1
three,2019,홍길동,경제,3.1
four,2022,강감찬,기계,1.1
five,2021,이순신,물리,2.7


Unnamed: 0,이름,학과,학점
four,강감찬,기계,1.1


In [None]:
# 2.학점이 1.5이상 , 2.5미만인 사람을 찾아서 학과, 이름, 학점으로 dataframe으로 출력
data = {'이름' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        '입학연도': [2020, 2021, 2019, 2022, 2021],
        '학점': [3.5, 2.1, 3.1, 1.1, 2.7],
        '학과': ['컴퓨터', '철학', '경제', '기계', '물리']}

df = pd.DataFrame(data,
                  columns=['입학연도','이름','학과','학점'],
                  index=['one','two','three','four','five'])

display(df)

df.loc[(df['학점'] >= 1.5)&(df['학점'] < 2.5),'이름':'학점']

Unnamed: 0,입학연도,이름,학과,학점
one,2020,아이유,컴퓨터,3.5
two,2021,김연아,철학,2.1
three,2019,홍길동,경제,3.1
four,2022,강감찬,기계,1.1
five,2021,이순신,물리,2.7


Unnamed: 0,이름,학과,학점
two,김연아,철학,2.1


In [None]:
data = {'이름' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        '입학연도': [2020, 2021, 2019, 2022, 2021],
        '학점': [3.5, 2.1, 3.1, 1.1, 2.7],
        '학과': ['컴퓨터', '철학', '경제', '기계', '물리']}

df = pd.DataFrame(data,
                  columns=['입학연도','이름','학과','학점'],
                  index=['one','two','three','four','five'])

display(df)

df.loc[df['학점'] >= 3.0 , '등급'] = 'A'
display(df)

Unnamed: 0,입학연도,이름,학과,학점
one,2020,아이유,컴퓨터,3.5
two,2021,김연아,철학,2.1
three,2019,홍길동,경제,3.1
four,2022,강감찬,기계,1.1
five,2021,이순신,물리,2.7


Unnamed: 0,입학연도,이름,학과,학점,등급
one,2020,아이유,컴퓨터,3.5,A
two,2021,김연아,철학,2.1,
three,2019,홍길동,경제,3.1,A
four,2022,강감찬,기계,1.1,
five,2021,이순신,물리,2.7,


In [None]:
#이번에는 row를 삭제하는걸 알아보아요
data = {'이름' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        '입학연도': [2020, 2021, 2019, 2022, 2021],
        '학점': [3.5, 2.1, 3.1, 1.1, 2.7],
        '학과': ['컴퓨터', '철학', '경제', '기계', '물리']}

df = pd.DataFrame(data,
                  columns=['입학연도','이름','학과','학점'],
                  index=['one','two','three','four','five'])

display(df)
new_df = df.drop('three', axis =0, inplace=False)
display(new_df)

Unnamed: 0,입학연도,이름,학과,학점
one,2020,아이유,컴퓨터,3.5
two,2021,김연아,철학,2.1
three,2019,홍길동,경제,3.1
four,2022,강감찬,기계,1.1
five,2021,이순신,물리,2.7


Unnamed: 0,입학연도,이름,학과,학점
one,2020,아이유,컴퓨터,3.5
two,2021,김연아,철학,2.1
four,2022,강감찬,기계,1.1
five,2021,이순신,물리,2.7


In [None]:
#여기까지해서 dataframe의 indexing(column과 row에 대한)
#slicing, fancy indexing, boolean indexing에 대해서 알아봄
# loc[]를 이용해서 처리

In [None]:
# 이번에는 DataFrame에서 사용할 수 있는 함수에 대해서 알아보아요
# pandas가 제공하는 무지막지하게 많은 함수들이 있는데
# 그 중 인간적으로 이건 알고 있자..라는 함수들만 알아봄
# 사용하는 데이터셋은 mpg data set을 이용해보아요

# mpg data set은 나름 유명한 예제 데이터셋인데
# 자동차 연비에 대한 데이터셋

df = pd.read_csv('/content/drive/MyDrive/빅데이터 과정 폴더/data/auto/auto-mpg.csv',
                header=None)

df.columns =df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower',
              'weight', 'acceleration', 'model year', 'origin', 'name']
display(df)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
395,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


In [None]:
# 1. head(), tail() 함수에 대해소 알아보아요
# 2. DataFrame안에 데이터를 간단하게 확인하는 용도
# heade() : 상위 5개만 출력
# tail() : 하위 5개만 출력
#display (df.head()) #상위 5개만 출력
display(df.head(3)) #상위 3개만 출력
display(df.tail(3)) #하위 3개만 출력

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
395,32.0,4,135.0,84.0,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.0,2625.0,18.6,82,1,ford ranger
397,31.0,4,119.0,82.0,2720.0,19.4,82,1,chevy s-10


In [None]:
# 2. shape :행과 열의 개수를 알 수 있음 tuple로 알려주
print(df.shape) #(398, 9)
print(df.info())

(398, 9)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    object 
 4   weight        398 non-null    float64
 5   acceleration  398 non-null    float64
 6   model year    398 non-null    int64  
 7   origin        398 non-null    int64  
 8   name          398 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB
None


In [None]:
# 3. count(): DataFrame의 각 열이 가지고 있는 데이터의 개수를 Series로 리턴해요, 주의할 점은 유효한 값의 개수만 계산

# value_counts() : Series객체의 고유값의 개수를 세는데 사용
print(df['origin'].value_counts())
# 인덱스로 고유값이 사용되고 몇개가 있는지도 value값으로 출력

#print(df.count())

1    249
3     79
2     70
Name: origin, dtype: int64


In [None]:
# 4. unipue()라는 함수가 있어요. 중복제거를 위한 함수
df = pd.read_csv('/content/drive/MyDrive/빅데이터 과정 폴더/data/auto/auto-mpg.csv',
                header=None)

df.columns =df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower',
              'weight', 'acceleration', 'model year', 'origin', 'name']
#display(df)

#unique는 Series에 대해서 중복을 제거해줘요
print(df['origin'].unique()) # [1 3 2]

# isin() : 특정 값이 포함되어 있는지 여부를 알아내는 함수로
# boolean mask를 만들 때 많이 이용
print(df['origin'].isin([1,2])) #자동차 제조국이 1 혹은 2인 자동차만 선택하는 boolean mask

[1 3 2]
0      True
1      True
2      True
3      True
4      True
       ... 
393    True
394    True
395    True
396    True
397    True
Name: origin, Length: 398, dtype: bool


In [None]:
# 5. sort()라는 함수는 당연히 정렬하는 함수
# 데이터프레임의 내용을 내가 원하는 조건으로 정렬시킴

import numpy as np
import pandas as pd

# 난수(랜덤값)은 우리가 생각하는 랜덤값과 약간 다름
# 세상살 때의 랜덤값은 진짜 랜덤값이다
# 컴퓨터에서 발생시키는 랜덤값은 진짜 랜덤값일까?
# 사실 컴퓨터의 랜덤값은 특정 알고리즘을 기반으로 도출된 값
# 이 알고리즘의 기반이 되는 값이 잇는데 이 값을 seed라고 함
# 이 seed값을 고정시키면 발생되는 난수값이 고정
np.random.seed(3)
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
display(df)

df.columns = ['A','B','C','D']
df.index =pd.date_range('20200101', periods = 6)
display(df)
# 이렇게 DataFrame을 만듦
# 이제 정렬을 좀 알아보자

# 만들어진 DataFrame의 column의 순서와 row의 순서를 섞음
random_index = np.random.permutation(df.index)
print(random_index)
df2 = df.reindex(index = random_index,
                 columns = ['B', 'A', 'D','C'])
display(df2)

# 일단 이렇게 DataFrame의 내용을 마구마구 섞음
# 정렬! 정렬의 기본은 당연히 오름차순
# 오름차순은 작은게 위로, 작은게 앞으로 오는게 오름차순
# sort_index(), sort_values()
display(df2.sort_index(axis = 0))
# axis = 0 이면 열을 기준으로 정렬
# axis = 1 이면 열(column)을 기준으로 정렬

df2.sort_values(by='B')

# index를 이용할건지, 혹은 값을 이용해서 정렬할 수 있다

Unnamed: 0,0,1,2,3
0,8,9,3,8
1,8,0,5,3
2,9,9,5,7
3,6,0,4,7
4,8,1,6,2
5,2,1,3,5


Unnamed: 0,A,B,C,D
2020-01-01,8,9,3,8
2020-01-02,8,0,5,3
2020-01-03,9,9,5,7
2020-01-04,6,0,4,7
2020-01-05,8,1,6,2
2020-01-06,2,1,3,5


['2020-01-04T00:00:00.000000000' '2020-01-06T00:00:00.000000000'
 '2020-01-03T00:00:00.000000000' '2020-01-05T00:00:00.000000000'
 '2020-01-02T00:00:00.000000000' '2020-01-01T00:00:00.000000000']


Unnamed: 0,B,A,D,C
2020-01-04,0,6,7,4
2020-01-06,1,2,5,3
2020-01-03,9,9,7,5
2020-01-05,1,8,2,6
2020-01-02,0,8,3,5
2020-01-01,9,8,8,3


Unnamed: 0,B,A,D,C
2020-01-01,9,8,8,3
2020-01-02,0,8,3,5
2020-01-03,9,9,7,5
2020-01-04,0,6,7,4
2020-01-05,1,8,2,6
2020-01-06,1,2,5,3


Unnamed: 0,B,A,D,C
2020-01-04,0,6,7,4
2020-01-02,0,8,3,5
2020-01-06,1,2,5,3
2020-01-05,1,8,2,6
2020-01-03,9,9,7,5
2020-01-01,9,8,8,3


In [None]:
# 데이터 분석, Machine Learning, Deep Learning 쪽은 다른분야와 마찬가지로
# 하나의 개념을 이용해서 다른 개념을 설명하고 그걸 이용해서 다른 개념을 계속 설명
# 중간에 나사가 빠지면 감당이 안됨
# 처음부터 내용을 좀 쌓아가면서 공부를 해야함
# 그래서 정리를 잘 해두어야함
# 그날 배운 코드 그냥 가져다가 붙여넣은 식은 지양해야함
# 풀어서 나중에 보더라도 쉽게 이해할 수 있도록 자료를 잘 조직화
# notion,  git 등 같은 여러가지 방법을 이용
# 자주 쉽게 찾아볼 수 있어야 함