# 판다스 총 정리

`pip install pandas` or `conda install pandas`

## Series, Dataframe

In [18]:
%%time

"""
* conda install pandas
Series 생성
"""
import numpy as np
import pandas as pd

# numpy 배열, 정수
arr = np.array([-1,5,10,99])
print(arr)
print(arr.dtype)

# numpy 배열, 실수
arr = np.array([-1,5,10,99], dtype=np.float64)
print(arr)
print(arr.dtype)

# numpy 배열, 문자열
arr = np.array([-1,5,10,99], dtype=np.str)
print(arr)
print(arr.dtype)

# numpy 배열, object type
arr = np.array([-1,3.14, "Hello",True], dtype=np.object)
print(arr)
print(arr.dtype)

print("="*60)

'''
판다스 자료형은 딕셔너리와 리스트 혼합된 형태
k(index), value
dtype
'''
# 자동으로 int64 dtype으로 나옴
s = pd.Series([-1,5,10,99])
print(s)

# numpy의 int32 dtype을 사용할수 있다.
s = pd.Series([-1,5,10,99], dtype=np.int32)
print(s)

# 넘파이 FLOAT64 형태
s = pd.Series([-1,5,10,99], dtype=np.float64)
print(s)

[-1  5 10 99]
int32
[-1.  5. 10. 99.]
float64
['-1' '5' '10' '99']
<U2
[-1 3.14 'Hello' True]
object
0    -1
1     5
2    10
3    99
dtype: int64
0    -1
1     5
2    10
3    99
dtype: int32
0    -1.0
1     5.0
2    10.0
3    99.0
dtype: float64
Wall time: 4 ms


In [33]:
import numpy as np
import pandas as pd
'''
판다스 시리즈
1. 배열.index
2. 배열.values >> 1차원 ndarray가 리턴된다.
'''

s = pd.Series([-1,5,10,99], dtype=np.int64)
print(s.index)
print(s.values)
# s.values의 리턴값의 타입 확인
print(type(s.values))

s = pd.Series([-1,5,10,99],
             index=["1st","2nd","3rd","4th"]
             )
# 인덱싱을 int로 할수있고, 지정한 string값으로도 가능
print("s[0]의 값은: {}".format(s[0]))
print("s['1st']의 값은: {}".format(s["1st"]))

print("="*30)

print("s[0:3]의 값은: \n{}".format(s[0:3]))
print("="*30)

print("s[0:3].values의 값은: \n{}".format(s[0:3].values))
print("="*30)

'''
지정 인덱싱의 사용은 숫자인덱싱이랑 다르다.
숫자경우 0~5 = 1번째~4번쨰
'''
print("s['1st':'3rd'].values: ",s["1st":"3rd"].values)

RangeIndex(start=0, stop=4, step=1)
[-1  5 10 99]
<class 'numpy.ndarray'>
s[0]의 값은: -1
s['1st']의 값은: -1
s[0:3]의 값은: 
1st    -1
2nd     5
3rd    10
dtype: int64
s[0:3].values의 값은: 
[-1  5 10]
s['1st':'3rd'].values:  [-1  5 10]


In [35]:
"""
집계함수!!!
파이썬 반복문으로 실행한 배열의 값들에 대한 연산 속도와
판다스/numpy 내장집계함수의 연산 속도와 차이가 크다!!!

가능한 프로그램적으로 해결하는것보단
numpy, pandas의 내부집계함수를 사용하라~
"""

s = pd.Series([-1,5,10,99])

#시리즈 안 데이터 합 출력 (지양**하지 말라는 뜻)
result = 0.0
for tmp in s:
    result += tmp
print(result)

# 판다스 집계함수 .sum()
print("시리즈 s 데이터 총합: {}".format(s.sum()))

113.0
시리즈 s 데이터 총합: 113


In [61]:
"""
Dictionary를 사용해서 시리즈 만들기
1. pd.Series(dictionary)
2. 이름 정하기 : 시리즈.name = ""
3. 인덱스 이름 정하기: 시리즈.index.name = ""
4. 인덱스 변경: 인덱스 배열 생성 (idx=[]), 시리즈.index = idx
"""
import numpy as np
import pandas as pd

my_dict = {"서울":3000, "인천":5000, "제주":2000}
s= pd.Series(my_dict)

# Series에 이름 부여 가능!
s.name= "지역별 가격 데이터"

# 인덱스에 대한 이름 부려 가능!
s.index.name = "-지역명-"

print(s)

print("="*30)
idx = ["SEOUL","INCHEON","JEJU"]
s.index = idx
s.index.name = "-Areas-"
print(s)

-지역명-
서울    3000
인천    5000
제주    2000
Name: 지역별 가격 데이터, dtype: int64
-Areas-
SEOUL      3000
INCHEON    5000
JEJU       2000
Name: 지역별 가격 데이터, dtype: int64


In [73]:
import numpy as np
import pandas as pd
"""
데이터 프레임 생성
"""

data = {"names":["Kim","Lee","Park","Lee","Kim"],
       "year":[2015,2016,2017,2015,2019],
        "points":[1.5, 2.3, 3.1, 4.0, 4.5]}
df = pd.DataFrame(data)

display(df)
display(df.index) # dataframe 인덱스 정보
display(df.values) # dataframe값들을 ndarray2차원 배열로 출력

Unnamed: 0,names,year,points
0,Kim,2015,1.5
1,Lee,2016,2.3
2,Park,2017,3.1
3,Lee,2015,4.0
4,Kim,2019,4.5


RangeIndex(start=0, stop=5, step=1)

array([['Kim', 2015, 1.5],
       ['Lee', 2016, 2.3],
       ['Park', 2017, 3.1],
       ['Lee', 2015, 4.0],
       ['Kim', 2019, 4.5]], dtype=object)

## 데이터 파일 (CSV, XML, JSON) 간단 이해

일반적으로 데이터를 주고 받기 위해서 데이터를 표현하는 표준

    1. CSV방식 (Comma Seperated Value)
        형식: 1,홍길동,서울,2,김길동,인천,3,최길동,부산
    
        장점:
            부가적인 데이터가 상대적으로 작다.
            많은 양의 데이터를 표현하기에 적합
        단점:
            데이터 핸들링이 쉽지 않다.
            지정한 데이터의 형식(약속)을 따라서 코딩해야 된다.
            그럼으로서 새로운 데이터(열)을 추가할 때 다시 코딩해야 된다.
            유지보수에 문제점이 있다.
    
    결론: 데이터가 너무 많을떄는 무조건 .csv!
    
    2. XML (Extended Markup Language)
        형식: <person><age>10</age><name>Hong</name></person>
        
        장점:
            유지보수성이 높다
        단점: 
            부가적인 데이터가 많다.
            (데이터를 넣기 위해 태그가 너무 생성된다.)
            모바일 시대가 옮으로서 데이터>부가세,
            아주 큰 단점으로 되버렸다.
    
    3. JSON (JavaScript Object Notation)
        형식: {person:{age:10,name:"Hong",addr:"Seoul"}}
        
        장점:
            유지보수성이 높고,
            xml보단 데이터 크기가 작다.
        단점:
            없다?

### csv 파일 읽기

In [82]:
import numpy as np
import pandas as pd

df = pd.read_csv('./data/sample/student.csv')

display(df)

movies = pd.read_csv('./data/movie/movies.csv')

display(movies.head())
display(movies.tail())

Unnamed: 0,이름,입학연도,학점
0,kim,2015,1.5
1,lee,2016,4.5
2,park,2015,3.4
3,choi,2017,2.2
4,park,2012,1.9


Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


Unnamed: 0,movieId,title,genres
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation
9741,193609,Andrew Dice Clay: Dice Rules (1991),Comedy


## 행/열 재정렬

1. columns
2. index

In [11]:
import numpy as np
import pandas as pd

data = {
    "이름":["이지안","박동훈","홍길동","강감찬"],
    "학과":["컴퓨터","기계","철학","컴퓨터"],
    "학년":[1,1,2,4],
    "학점":[2.4, 3.3, 2.9, 4.3]
}

# columns를 지정하면 순서와 새로운 열을 생성할 수 있다.
# 인덱스 재정의도 가능!
df = pd.DataFrame(data,
                  columns=["학과","이름","학점","학년","등급"],
                  index=["one","two","three","four"])

'''
.describe() > 계산 가능한 데이터에 있어 여러 연산값을 준다.
'''
display(df.describe())

'''
특정 column을 선택할려면 어떻게 해야 하나요~~
'''
display(df)

# dataframe에서 하나의 column만 선택 > 시리즈가 된다!
display(df["이름"])

Unnamed: 0,학점,학년
count,4.0,4.0
mean,3.225,2.0
std,0.805709,1.414214
min,2.4,1.0
25%,2.775,1.0
50%,3.1,1.5
75%,3.55,2.5
max,4.3,4.0


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.4,1,
two,기계,박동훈,3.3,1,
three,철학,홍길동,2.9,2,
four,컴퓨터,강감찬,4.3,4,


one      이지안
two      박동훈
three    홍길동
four     강감찬
Name: 이름, dtype: object

In [14]:
import numpy as np
import pandas as pd

data = {
    "이름":["이지안","박동훈","홍길동","강감찬"],
    "학과":["컴퓨터","기계","철학","컴퓨터"],
    "학년":[1,1,2,4],
    "학점":[2.4, 3.3, 2.9, 4.3]
}

df = pd.DataFrame(data,
                  columns=["학과","이름","학점","학년","등급"],
                  index=["one","two","three","four"])

# 두개의 방식으로 지정 열의 값을 갖고 올수 있다.
display(df["이름"])
# 굳이 권하지 않는 방식:
display(df.이름)

display(type(df["이름"]))

one      이지안
two      박동훈
three    홍길동
four     강감찬
Name: 이름, dtype: object

one      이지안
two      박동훈
three    홍길동
four     강감찬
Name: 이름, dtype: object

pandas.core.series.Series

In [23]:
import numpy as np
import pandas as pd

data = {
    "이름":["이지안","박동훈","홍길동","강감찬"],
    "학과":["컴퓨터","기계","철학","컴퓨터"],
    "학년":[1,1,2,4],
    "학점":[2.4, 3.3, 2.9, 4.3]
}

df = pd.DataFrame(data,
                  columns=["학과","이름","학점","학년","등급"],
                  index=["one","two","three","four"])

"""
dataframe > 열 > 시리즈 == 이건 view임으로서
수정을 하면 원본데이터에 영향이 간다.
"""
names = df["이름"]
names["three"] # = 홍길동
names["three"] = "유관순"
display(names)
display(df)

print("="*60)

# 여기선 view가 아닌 카피본 생성
_names = df["이름"].copy()
_names["three"] = "김나래"
display(_names)
display(df)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy


one      이지안
two      박동훈
three    유관순
four     강감찬
Name: 이름, dtype: object

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.4,1,
two,기계,박동훈,3.3,1,
three,철학,유관순,2.9,2,
four,컴퓨터,강감찬,4.3,4,




one      이지안
two      박동훈
three    김나래
four     강감찬
Name: 이름, dtype: object

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.4,1,
two,기계,박동훈,3.3,1,
three,철학,유관순,2.9,2,
four,컴퓨터,강감찬,4.3,4,


## 인덱싱

In [29]:
"""
간단한 numpy 인덱싱!!
indexing, boolean indexing, fancy indexing, slicing
"""
import numpy as np

arr = np.array([1,2,3,4,5,6])
display(arr[-1]) # 인덱싱
display(arr[1:3]) # 슬라이싱
display(arr>3) # boolean masking
display(arr[arr>3]) # boolean indexing

'''
Fancy indexing!
배열 안의 인덱스 부분에 배열(인덱스 배열)을 사용하는 방법
'''
display(arr[[1,4]])

6

array([2, 3])

array([False, False, False,  True,  True,  True])

array([4, 5, 6])

array([2, 5])

In [31]:
"""
판다스 Dataframe 인덱싱!
"""
import numpy as np
import pandas as pd

data = {
    "이름":["이지안","박동훈","홍길동","강감찬"],
    "학과":["컴퓨터","기계","철학","컴퓨터"],
    "학년":[1,1,2,4],
    "학점":[2.4, 3.3, 2.9, 4.3]
}

df = pd.DataFrame(data,
                  columns=["학과","이름","학점","학년","등급"],
                  index=["one","two","three","four"])

display(df[["이름","학년"]]) # 팬시 인덱싱~

Unnamed: 0,이름,학년
one,이지안,1
two,박동훈,1
three,홍길동,2
four,강감찬,4


In [34]:
import numpy as np
import pandas as pd

data = {
    "이름":["이지안","박동훈","홍길동","강감찬"],
    "학과":["컴퓨터","기계","철학","컴퓨터"],
    "학년":[1,1,2,4],
    "학점":[2.4, 3.3, 2.9, 4.3]
}

df = pd.DataFrame(data,
                  columns=["학과","이름","학점","학년","등급"],
                  index=["one","two","three","four"])

# 지정 열의 값들을 한꺼번에 다 바꿔버리기!
df["등급"] = "A"
display(df)

# 지정 열의 값을 파이썬 리스트로 바꾸기!
df["등급"] = ["a","b","c","d"]
display(df)

# 팬시 인덱싱한 값들 수정
df[["이름","등급"]] = [
    ["홍길동","A"],
    ["김길동","C"],
    ["최길동","B"],
    ["박길동","F"]
]
display(df)

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.4,1,A
two,기계,박동훈,3.3,1,A
three,철학,홍길동,2.9,2,A
four,컴퓨터,강감찬,4.3,4,A


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.4,1,a
two,기계,박동훈,3.3,1,b
three,철학,홍길동,2.9,2,c
four,컴퓨터,강감찬,4.3,4,d


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,2.4,1,A
two,기계,김길동,3.3,1,C
three,철학,최길동,2.9,2,B
four,컴퓨터,박길동,4.3,4,F


## pd.DataFrame에 새로운 열 추가

새로운 열을 정의하고 그 값을 명시

scalar, list, numpy array, pandas Series를 이용

In [44]:
import numpy as np
import pandas as pd

data = {
    "이름":["이지안","박동훈","홍길동","강감찬"],
    "학과":["컴퓨터","기계","철학","컴퓨터"],
    "학년":[1,1,2,4],
    "학점":[2.4, 3.3, 2.9, 4.3]
}

df = pd.DataFrame(data,
                  columns=["학과","이름","학점","학년","등급"],
                  index=["one","two","three","four"])

# scalar를 사용하여 열과 값 생성
df["Scalar"] = 20
display(df)

# 리스트 사용
df["List"] = [20,22,23,21]
display(df)

# numpy array 사용
df["Ndarray"] = np.array([21,23,22,20])
display(df)

# 시리즈 사용
# 시리즈는 이런 식으로 하면 안된다!
df["Series"] = pd.Series([20,22,23,21])
display(df)

'''
시리즈 사용
시리즈는 이런 식으로 하면 안된다!
시리즈는 인덱스 기반이다!
인덱스 기반, 즉, 순서대로가 아닌기라 지정인덱스 수정가능
'''
df["Series"] = pd.Series([20,22,21],
                        index=["one","two","four"])
display(df)

Unnamed: 0,학과,이름,학점,학년,등급,Scalar
one,컴퓨터,이지안,2.4,1,,20
two,기계,박동훈,3.3,1,,20
three,철학,홍길동,2.9,2,,20
four,컴퓨터,강감찬,4.3,4,,20


Unnamed: 0,학과,이름,학점,학년,등급,Scalar,List
one,컴퓨터,이지안,2.4,1,,20,20
two,기계,박동훈,3.3,1,,20,22
three,철학,홍길동,2.9,2,,20,23
four,컴퓨터,강감찬,4.3,4,,20,21


Unnamed: 0,학과,이름,학점,학년,등급,Scalar,List,Ndarray
one,컴퓨터,이지안,2.4,1,,20,20,21
two,기계,박동훈,3.3,1,,20,22,23
three,철학,홍길동,2.9,2,,20,23,22
four,컴퓨터,강감찬,4.3,4,,20,21,20


Unnamed: 0,학과,이름,학점,학년,등급,Scalar,List,Ndarray,Series
one,컴퓨터,이지안,2.4,1,,20,20,21,
two,기계,박동훈,3.3,1,,20,22,23,
three,철학,홍길동,2.9,2,,20,23,22,
four,컴퓨터,강감찬,4.3,4,,20,21,20,


Unnamed: 0,학과,이름,학점,학년,등급,Scalar,List,Ndarray,Series
one,컴퓨터,이지안,2.4,1,,20,20,21,20.0
two,기계,박동훈,3.3,1,,20,22,23,22.0
three,철학,홍길동,2.9,2,,20,23,22,
four,컴퓨터,강감찬,4.3,4,,20,21,20,21.0


## pd.DataFrame에 대한 간단 연산

In [48]:
"""
데이터프레임 열에 대한 연산
"""
import numpy as np
import pandas as pd

data = {
    "이름":["이지안","박동훈","홍길동","강감찬"],
    "학과":["컴퓨터","기계","철학","컴퓨터"],
    "학년":[1,1,2,4],
    "학점":[2.4, 3.3, 2.9, 4.3]
}

df = pd.DataFrame(data,
                  columns=["학과","이름","학점","학년","등급"],
                  index=["one","two","three","four"])

df["학점"]= df["학점"] + 1

df["장학여부"] = df["학점"]>4.0

display(df)

Unnamed: 0,학과,이름,학점,학년,등급,장학여부
one,컴퓨터,이지안,3.4,1,,False
two,기계,박동훈,4.3,1,,True
three,철학,홍길동,3.9,2,,False
four,컴퓨터,강감찬,5.3,4,,True


In [55]:
import numpy as np
import pandas as pd

data = {
    "이름":["이지안","박동훈","홍길동","강감찬"],
    "학과":["컴퓨터","기계","철학","컴퓨터"],
    "학년":[1,1,2,4],
    "학점":[2.4, 3.3, 2.9, 4.3]
}

df = pd.DataFrame(data,
                  columns=["학과","이름","학점","학년","등급","성별"],
                  index=["one","two","three","four"])

# 데이터 프레임 원본이 변형됨!
# 이런 방법이 가능하지만 거의 사용되지는 않는다.
del df["등급"]

# 판다 .drop()함수는 행/열 둘다 지울수 있다.
# axis=1 > 열
# inplace는 원본을 건드냐 안 건드냐다.
df.drop("성별", axis=1, inplace=True)

df.drop("one", axis=0, inplace=True)

display(df)

Unnamed: 0,학과,이름,학점,학년
two,기계,박동훈,3.3,1
three,철학,홍길동,2.9,2
four,컴퓨터,강감찬,4.3,4


## 데이터프레임 행(row) 제어 with .loc[]

In [66]:
"""
데이터프레임에서 행 제어
"""
import numpy as np
import pandas as pd

data = {
    "이름":["이지안","박동훈","홍길동","강감찬"],
    "학과":["컴퓨터","기계","철학","컴퓨터"],
    "학년":[1,1,2,4],
    "학점":[2.4, 3.3, 2.9, 4.3]
}

df = pd.DataFrame(data,
                  columns=["학과","이름","학점","학년","등급","성별"],
                  index=["one","two","three","four"])

# 데이터프레임의 행은 약간 헷갈린다.
# 행을 df[0]방식으로 갖고올수 없다.
# 슬라이싱은 가능
display(df[0:1])
display(type(df[0:1]))

# 요것도 df["one"]은 불가능, 슬라이싱은 가능
display(df["one":"three"])

'''
위에 방법처럼 행 인덱싱 하는게 귀찮아서
.loc[]라는 함수가 있다!!!
'''
display(df.loc["one"]) # 이것도 역시 순서보단 인덱스로
display(type(df.loc["one"])) # 이건 시리즈!

# 팬시 인덱싱을 사용하여 데이터프레임 추출
display(df.loc[["one","two","three"]])

Unnamed: 0,학과,이름,학점,학년,등급,성별
one,컴퓨터,이지안,2.4,1,,


pandas.core.frame.DataFrame

Unnamed: 0,학과,이름,학점,학년,등급,성별
one,컴퓨터,이지안,2.4,1,,
two,기계,박동훈,3.3,1,,
three,철학,홍길동,2.9,2,,


학과    컴퓨터
이름    이지안
학점    2.4
학년      1
등급    NaN
성별    NaN
Name: one, dtype: object

pandas.core.series.Series

Unnamed: 0,학과,이름,학점,학년,등급,성별
one,컴퓨터,이지안,2.4,1,,
two,기계,박동훈,3.3,1,,
three,철학,홍길동,2.9,2,,


In [70]:
import numpy as np
import pandas as pd

data = {
    "이름":["이지안","박동훈","홍길동","강감찬"],
    "학과":["컴퓨터","기계","철학","컴퓨터"],
    "학년":[1,1,2,4],
    "학점":[2.4, 3.3, 2.9, 4.3]
}

df = pd.DataFrame(data,
                  columns=["학과","이름","학점","학년","등급","성별"],
                  index=["one","two","three","four"])

# .loc[] 인덱싱 > boolean indexing 결합체
# 학점이 3이상인 행들을 dataframe형태로 출력
display(df.loc[df["학점"] > 3.0])

# .loc에 boolean indexing과 fancy indexing 둘다 사용
# 학점이 3이상인 행들의 이름과 학점만 dataframe형태로 출력
display(df.loc[df["학점"]>3.0, ["이름","학점"]])

Unnamed: 0,학과,이름,학점,학년,등급,성별
two,기계,박동훈,3.3,1,,
four,컴퓨터,강감찬,4.3,4,,


Unnamed: 0,이름,학점
two,박동훈,3.3
four,강감찬,4.3


In [28]:
import numpy as np
import pandas as pd

# 시리즈는 인덱스 기반이기에 꼭 인덱스를 지정해줘야 된다.
data = {
    "이름":["이지안","박동훈","홍길동"],
    "학과":pd.Series(["컴퓨터","철학","기계"],
                  index=["2019001","2019002","2019003"]),
    "학년":np.array([1,2,3])}

df = pd.DataFrame(data, columns=["이름","학과","학년","학점"],
                 index=["2019001","2019002","2019003"])

display(df)

display(type(df["이름"]))
display(type(df[["이름","학과"]]))

df["장학여부"] = df["학점"]>3
display(df)

df.drop(["학점","장학여부"],axis=1,inplace=True)
display(df)

display(df[0:2])

display(df.loc[["2019003","2019001"]])

display(df.loc["2019001",["이름","학과"]])

df.loc["2019004",["학년","학과","이름"]] = ["4","기계","최길동"]

display(df)

df.drop("2019001",axis=0,inplace=True)
display(df)

Unnamed: 0,이름,학과,학년,학점
2019001,이지안,컴퓨터,1,
2019002,박동훈,철학,2,
2019003,홍길동,기계,3,


pandas.core.series.Series

pandas.core.frame.DataFrame

Unnamed: 0,이름,학과,학년,학점,장학여부
2019001,이지안,컴퓨터,1,,False
2019002,박동훈,철학,2,,False
2019003,홍길동,기계,3,,False


Unnamed: 0,이름,학과,학년
2019001,이지안,컴퓨터,1
2019002,박동훈,철학,2
2019003,홍길동,기계,3


Unnamed: 0,이름,학과,학년
2019001,이지안,컴퓨터,1
2019002,박동훈,철학,2


Unnamed: 0,이름,학과,학년
2019003,홍길동,기계,3
2019001,이지안,컴퓨터,1


이름    이지안
학과    컴퓨터
Name: 2019001, dtype: object

Unnamed: 0,이름,학과,학년
2019001,이지안,컴퓨터,1
2019002,박동훈,철학,2
2019003,홍길동,기계,3
2019004,최길동,기계,4


Unnamed: 0,이름,학과,학년
2019002,박동훈,철학,2
2019003,홍길동,기계,3
2019004,최길동,기계,4


In [75]:
import numpy as np
import pandas as pd

np.random.seed(4)
arr = np.random.randint(0,10,(4,3))

df = pd.DataFrame(arr)
df.columns = ["A","B","C"]
df.index = pd.date_range("20190101", periods=4)

df["D"] = [7, np.nan, 4, np.nan]

display(df)

"""
-- 전처리 (pre-processing) --
연산에 사용할수 없는 값을 결측값*이라 부른다.
* 결측값= 결함이 있는 측정 값

결측값을 없애는 방식:
df.dropna() 함수
- how="any"를 지정하면 nan하나라도 포함된 행을 삭제
- inplace=True로 원본을 제어
"""
new_df = df.dropna(how="any")
display(new_df)

df.dropna(how="any", inplace=True)
# df.dropna(how="all") > 행의 값들이 모두 NaN이라면 행 삭제
display(df)

Unnamed: 0,A,B,C,D
2019-01-01,7,5,1,7.0
2019-01-02,8,7,8,
2019-01-03,2,9,7,4.0
2019-01-04,7,7,9,


Unnamed: 0,A,B,C,D
2019-01-01,7,5,1,7.0
2019-01-03,2,9,7,4.0


Unnamed: 0,A,B,C,D
2019-01-01,7,5,1,7.0
2019-01-03,2,9,7,4.0


In [78]:
import numpy as np
import pandas as pd

np.random.seed(4)
arr = np.random.randint(0,10,(4,3))

df = pd.DataFrame(arr)
df.columns = ["A","B","C"]
df.index = pd.date_range("20190101", periods=4)

df["D"] = [7, np.nan, 4, np.nan]

display(df)

# NaN이 있는 값을 찾는 함수 > boolean mask이다!
display(df.isnull()["D"])

# 결측값을 삭제하는 대시 대체값으로 변경
# 보통 평균값으로 대체한다

new_df = df.fillna(value=0)
display(new_df)

df.fillna(value=1,inplace=True)
display(df)

Unnamed: 0,A,B,C,D
2019-01-01,7,5,1,7.0
2019-01-02,8,7,8,
2019-01-03,2,9,7,4.0
2019-01-04,7,7,9,


2019-01-01    False
2019-01-02     True
2019-01-03    False
2019-01-04     True
Freq: D, Name: D, dtype: bool

Unnamed: 0,A,B,C,D
2019-01-01,7,5,1,7.0
2019-01-02,8,7,8,0.0
2019-01-03,2,9,7,4.0
2019-01-04,7,7,9,0.0


Unnamed: 0,A,B,C,D
2019-01-01,7,5,1,7.0
2019-01-02,8,7,8,1.0
2019-01-03,2,9,7,4.0
2019-01-04,7,7,9,1.0


## 판다스 함수 (unique, value count, isin)
1. df[c1].unique()
2. df[c1].value_counts()
3. df[c1].isin([v1,v2])

In [4]:
import numpy as np
import pandas as pd

np.random.seed(0)
df = pd.DataFrame(np.random.randint(0,10,(6,5)),
                 columns=["A","B","C","D","E"],
                  index=pd.date_range('20190101',periods=6))

df['E'] = ["AA","BB","CC","AA","CC","CC"]

display(df)

display(df["E"].unique()) # unique 값들 호출
display(df["E"].value_counts()) # 값 개수 새기
display(df["E"].isin(["AA","BB"])) # 값이 있는지 확인

Unnamed: 0,A,B,C,D,E
2019-01-01,5,0,3,3,AA
2019-01-02,9,3,5,2,BB
2019-01-03,7,6,8,8,CC
2019-01-04,6,7,7,8,AA
2019-01-05,5,9,8,9,CC
2019-01-06,3,0,3,5,CC


array(['AA', 'BB', 'CC'], dtype=object)

CC    3
AA    2
BB    1
Name: E, dtype: int64

2019-01-01     True
2019-01-02     True
2019-01-03    False
2019-01-04     True
2019-01-05    False
2019-01-06    False
Freq: D, Name: E, dtype: bool

## 판다스 lambda 함수 응용

In [10]:
import numpy as np
import pandas as pd

np.random.seed(0)
df = pd.DataFrame(np.random.randint(0,10,(6,4)),
                 columns=["A","B","C","D"],
                  index=pd.date_range('20190101',periods=6))

display(df)

# lambda식 > 최대치 - 최저치 값 계산
func = lambda x: x.max() - x.min()
# df.apply(식, 축) 으로 식을 부여!
df["max-min"] = df.apply(func, axis=1)

display(df)

Unnamed: 0,A,B,C,D
2019-01-01,5,0,3,3
2019-01-02,7,9,3,5
2019-01-03,2,4,7,6
2019-01-04,8,8,1,6
2019-01-05,7,7,8,1
2019-01-06,5,9,8,9


Unnamed: 0,A,B,C,D,max-min
2019-01-01,5,0,3,3,5
2019-01-02,7,9,3,5,6
2019-01-03,2,4,7,6,5
2019-01-04,8,8,1,6,7
2019-01-05,7,7,8,1,7
2019-01-06,5,9,8,9,4


## 판다스 merge() 함수 응용

In [23]:
import numpy as np
import pandas as pd

df1 = pd.DataFrame({
    "학번":['2019001','2019002','2019003'],
    "이름":['이지안','박동훈','홍길동']
})

df2 = pd.DataFrame({
    "학번":['2019001','2019003','2019004'],
    "학과":['컴퓨터','철학','수학']
})

### inner, outer, left, right join

In [19]:
# .merge(배열1, 배열2, on="기준", how="inner")
# how로 inner join인지 outer join인지 정해줌~
pd.merge(df1,df2, on="학번", how="inner")

Unnamed: 0,학번,이름,학과
0,2019001,이지안,컴퓨터
1,2019003,홍길동,철학


In [14]:
pd.merge(df1,df2, on="학번", how="outer")

Unnamed: 0,학번,이름,학과
0,2019001,이지안,컴퓨터
1,2019002,박동훈,
2,2019003,홍길동,철학
3,2019004,,수학


In [15]:
pd.merge(df1,df2, on="학번", how="left")

Unnamed: 0,학번,이름,학과
0,2019001,이지안,컴퓨터
1,2019002,박동훈,
2,2019003,홍길동,철학


In [16]:
pd.merge(df1,df2, on="학번", how="right")

Unnamed: 0,학번,이름,학과
0,2019001,이지안,컴퓨터
1,2019003,홍길동,철학
2,2019004,,수학


### 상황1: 합칠려는 열 이름이 서로 다를 때
left_on="", right_on=""

In [22]:
df3 = pd.DataFrame({
    "학생학번":['2019001','2019003','2019004'],
    "학과":['컴퓨터','철학','수학']
})

pd.merge(df1,df3, left_on="학번",right_on="학생학번", how="inner")

Unnamed: 0,학번,이름,학생학번,학과
0,2019001,이지안,2019001,컴퓨터
1,2019003,홍길동,2019003,철학


### 상황2: 열과 인덱스를 기준으로 합칠려 할 때
left_index=True, right_index=True

In [26]:
df4 = pd.DataFrame({"학과":['컴퓨터','철학','수학']},
                   index = ['2019001','2019003','2019004'])

pd.merge(df1,df4, left_on="학번", right_index=True, how="inner")

Unnamed: 0,학번,이름,학과
0,2019001,이지안,컴퓨터
2,2019003,홍길동,철학
