#### Pandas 
##### 01. Pandas의 자료 구조 
- Pandas Library는 데이터를 수집하고 정리하는데 최적화된 도구 
- Pandas 는 여러 종류의 class 와 built in function으로 구성되어 있다. 
- Pandas는 Series와 DataFrame는 데이터 구조를 표현하는 대표적인 클래스 객체이다.  
- Pandas의 1차원적인 목적은 서로 다른 여러가지 유형의 데이터를 공통의 포맷으로 정리하는 것이다.  

##### 02. Series 
- 데이터가 순차적으로 나열된 1차원 배열의 형태를 갖는다. 
- index와 value가 1:1 대응이 되기때문에 Python의 dictionary와 비슷한 구조를 가진다. 
- dictionary - Series 변환 : pandas.Series(dictionary)
    
    ##### 1) Index의 구조   
    - Index는 자기와 짝을 이루는 데이터 값의 순서와 주소를 저장한다. Index를 잘 활용하면 데이터 값의 탐색, 정렬, 선택, 결합 등 데이터 조작이 유용하다. 
    - integer position 과 index name(index-label) 

    ##### 2) 원소 선택 
    - integer position : []안에 위치를 나타내는 숫자를 입력 
    - index name : []안에 이름과 함께 따옴표를 입력
    

In [3]:
import pandas as pd 

dict_data = {"a":1, "b":2, "c":3, "d":4}
sr = pd.Series(dict_data)
print(type(dict_data))
print(type(sr))
print(sr)

<class 'dict'>
<class 'pandas.core.series.Series'>
a    1
b    2
c    3
d    4
dtype: int64


In [26]:
import pandas as pd 

list_data = ["2022-03-14", "Monday", 3.14, 100, True]
sr = pd.Series(list_data)
val = sr.values
idx = sr.index
print(sr)
print(val)
print(idx)

print("="*40)

tup_data = ("Mike", "2022-03-14", "Male", True)
sr2 = pd.Series(tup_data, index=["Name", "Birth", "Gender", "Flag"])
print(sr2)
print(sr2[0])
print(sr2["Name"])

print("="*40)

print(sr2[[-1, -2]])
print(sr2[["Flag", "Gender"]])



0    2022-03-14
1        Monday
2          3.14
3           100
4          True
dtype: object
['2022-03-14' 'Monday' 3.14 100 True]
RangeIndex(start=0, stop=5, step=1)
Name            Mike
Birth     2022-03-14
Gender          Male
Flag            True
dtype: object
Mike
Mike
Flag      True
Gender    Male
dtype: object
Flag      True
Gender    Male
dtype: object


##### 03. Dataframe 
- Dataframe 는 2차원의 배열이다.
- 행과 열로 만들어지는 배열 구조는 MS의 Excel, RDBMS 등 컴퓨터 다양한 분야에서 사용된다. 
- Dataframe의 column은 각각 Series 객체이다. 
- Series를 열벡터(vector)이라고 하면 Dataframe는 여러 개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 matrix이다.  
- Dataframe은 열과 행을 나타내기 위해 두가지 종류의 주소를 사용한다. row index, column name 또는 column label 로 구분된다. 
    ##### 1) DataFrame 생성 
    - DataFrame를 생성하기 위해서는 길이가 동일한 1차원의 배열 여러개가 필요하다. 
    - DataFrame는 여러 개의 Series를 모아놓은 집합으로 이해하면 된다. 
    - dictionary - DataFrame 변환 : pandas.DataFrame(dictionary)
    ##### 2) 행 인덱스 / 열 이름 설정 
    - Dataframe 의 구조적 특성 때문에 2차원 배열 형태의 데이터를 Dataframe로 변환하기 용이하다. 

    ##### 3) 행 선택 
    - Dataframe에서 행 데이터를 선택하기 위해서는 loc , iloc 인덱서를 사용한다
    - index name = loc 
    - integer position = iloc 



In [3]:
import pandas as pd 

dict_data = {"c0":[1, 2, 3], 
             "c1":[4, 5, 6],
             "c2":[7, 8, 9],
             "c3":[10, 11, 12],
             "c4":[13, 14, 15]}

df = pd.DataFrame(dict_data)
print(df)
print(type(df))
print(len(df))

   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15
<class 'pandas.core.frame.DataFrame'>
3


In [23]:
import pandas as pd 

df = pd.DataFrame([[15, "Male", "Mike", "student"],
                   [22, "Male", "Kane", "teacher"], 
                   [32, "Female", "Kate", "developer"],
                   [33, "Male", "Jack", "Designer"],
                   [28, "Female","Han", "CEO"]], 
                  index= [1, 2, 3, 4, 5],
                  columns= ["Age", "Gender", "Name", "Job"])

print(df)
print("="*30)
print(df.values)
print("="*30)
print(df.index)
print(len(df))
print("="*30)

# df.index = ["one", "two", "three", "four", "five"]
# df.columns = ["나이", "성별", "이름", "직업"]
# print(df.index)
# print(df.values)
# print(df)
print("="*30)
df.rename(index={1:"one"}, inplace=True)
df.rename(columns={"Age": "나이"}, inplace=True)
print(df)

print("="*30)

   Age  Gender  Name        Job
1   15    Male  Mike    student
2   22    Male  Kane    teacher
3   32  Female  Kate  developer
4   33    Male  Jack   Designer
5   28  Female   Han        CEO
[[15 'Male' 'Mike' 'student']
 [22 'Male' 'Kane' 'teacher']
 [32 'Female' 'Kate' 'developer']
 [33 'Male' 'Jack' 'Designer']
 [28 'Female' 'Han' 'CEO']]
Int64Index([1, 2, 3, 4, 5], dtype='int64')
5
     나이  Gender  Name        Job
one  15    Male  Mike    student
2    22    Male  Kane    teacher
3    32  Female  Kate  developer
4    33    Male  Jack   Designer
5    28  Female   Han        CEO


In [36]:
import pandas as pd 

dict_data = {"수학": [90, 80, 70],
             "영어": [98, 89, 95],
             "음악": [85, 95, 100],
             "체육": [100, 90, 90]}

df = pd.DataFrame(dict_data, index=[1, 2, 3])
print(df)
print("="*30)

df2 = df[:]
print(df2)
df2.drop(1, inplace=True)
print(df2)
print("="*30)
df3 = df[:]
df3.drop([1, 2], axis=0, inplace=True)
print(df3)
print("="*30)
print(df)

   수학  영어   음악   체육
1  90  98   85  100
2  80  89   95   90
3  70  95  100   90
   수학  영어   음악   체육
1  90  98   85  100
2  80  89   95   90
3  70  95  100   90
   수학  영어   음악  체육
2  80  89   95  90
3  70  95  100  90
   수학  영어   음악  체육
3  70  95  100  90
   수학  영어   음악   체육
1  90  98   85  100
2  80  89   95   90
3  70  95  100   90


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


In [43]:
import pandas as pd 

dict_data = {"수학": [90, 80, 70],
             "영어": [98, 89, 95],
             "음악": [85, 95, 100],
             "체육": [100, 90, 90]}

df = pd.DataFrame(dict_data, index = ["Mike", "Kane", "John"])
print(df)

df4 = df.copy()

print("="*30)
df4.drop('수학', axis=1, inplace=True)
print(df4)
df5 = df.copy()
df5.drop(['음악', '체육'], axis=1, inplace=True)
print(df5)

      수학  영어   음악   체육
Mike  90  98   85  100
Kane  80  89   95   90
John  70  95  100   90
      영어   음악   체육
Mike  98   85  100
Kane  89   95   90
John  95  100   90
      수학  영어
Mike  90  98
Kane  80  89
John  70  95


In [67]:
import pandas as pd 

dict_data = {"수학": [90, 80, 70],
             "영어": [98, 89, 95],
             "음악": [85, 95, 100],
             "체육": [100, 90, 90]}
df = pd.DataFrame(dict_data, index=["Mike", "Kane", "Kate"])
label1 = df.loc["Mike"]
position1 = df.iloc[0]
print(type(label1))
print(type(position1))
print("="*30)

print(df.loc[["Kane", "Kate"]])
print(df.iloc[[0, 1]])

math1 = df["수학"]
print("="*20)
print(math1)
english = df.영어
print(english)

music_gym = df[["음악", "체육"]]
print(music_gym)

df2 = df.iloc[::1]
df3 = df.iloc[::-1]
print(df2)
print("="*30)
print(df3)

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
      수학  영어   음악  체육
Kane  80  89   95  90
Kate  70  95  100  90
      수학  영어  음악   체육
Mike  90  98  85  100
Kane  80  89  95   90
Mike    90
Kane    80
Kate    70
Name: 수학, dtype: int64
Mike    98
Kane    89
Kate    95
Name: 영어, dtype: int64
       음악   체육
Mike   85  100
Kane   95   90
Kate  100   90
      수학  영어   음악   체육
Mike  90  98   85  100
Kane  80  89   95   90
Kate  70  95  100   90
      수학  영어   음악   체육
Kate  70  95  100   90
Kane  80  89   95   90
Mike  90  98   85  100


In [81]:
import pandas as pd 

dict_data = {"이름":["철수", "영희", "철호"],
             "수학": [90, 80, 70],
             "영어": [98, 89, 95],
             "음악": [85, 95, 100],
             "체육": [100, 90, 90]}
df = pd.DataFrame(dict_data)
print(df)

df.set_index('이름', inplace=True)
print(df)
print(df.loc["철수", "음악"])
print(df.iloc[0, 2])

print("="*30)
c = df.loc["철수", ["영어","수학"]]
print(c)
print(df.iloc[0, [1, 0]])

print(df.loc[["철수", "영희"], ["음악", "체육"]])
print(df.iloc[[0, 1], [2, 3]])

# 열추가 
df["국어"] = [10, 20, 30]
print(df)

   이름  수학  영어   음악   체육
0  철수  90  98   85  100
1  영희  80  89   95   90
2  철호  70  95  100   90
    수학  영어   음악   체육
이름                  
철수  90  98   85  100
영희  80  89   95   90
철호  70  95  100   90
85
85
영어    98
수학    90
Name: 철수, dtype: int64
영어    98
수학    90
Name: 철수, dtype: int64
    음악   체육
이름         
철수  85  100
영희  95   90
    음악   체육
이름         
철수  85  100
영희  95   90
    수학  영어   음악   체육  국어
이름                      
철수  90  98   85  100  10
영희  80  89   95   90  20
철호  70  95  100   90  30


In [100]:
import pandas as pd 

dict_data = {"이름":["철수", "영희", "철호"],
             "수학": [90, 80, 70],
             "영어": [98, 89, 95],
             "음악": [85, 95, 100],
             "체육": [100, 90, 90]}
df = pd.DataFrame(dict_data, index = [1, 2, 3])
print(df)
print("\n")
df.set_index("이름", inplace=True)
print(df)
df.loc["창수"] = [100, 90, 80, 100]
print(df)

   이름  수학  영어   음악   체육
1  철수  90  98   85  100
2  영희  80  89   95   90
3  철호  70  95  100   90


    수학  영어   음악   체육
이름                  
철수  90  98   85  100
영희  80  89   95   90
철호  70  95  100   90
     수학  영어   음악   체육
이름                   
철수   90  98   85  100
영희   80  89   95   90
철호   70  95  100   90
창수  100  90   80  100


#### 04. 인덱스 활용 
##### 1) 특정 열을 행 인덱스로 지정 
- set_index() 활용

##### 2) 행 인덱스 재배열 
- reindex()를 사용하면 Dataframe의 행 인덱스를 새로운 배열로 재지정할 수 있다. 
- 기존객체를 변경하지 않고 새로운 Dataframe 객체를 반환한다. 

##### 3) 행 인덱스 초기화 
- reset_index() 

##### 4) 행 인덱스 기준으로 Dataframe 정렬 
- sort_index()

In [102]:
import pandas as pd 

exam_data = {"이름" : ["서준", "우현", "인아"],
             "수학" : [90, 80, 70],
             "영어" : [98, 89, 95],
             "음악" : [85, 95, 100], 
             "체육" : [100, 90, 90] }

df = pd.DataFrame(exam_data)
print(df)
print("\n")
df2 = df.set_index(["이름"])
print(df2)


   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90


    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


In [115]:
import pandas as pd 

dict_data = {"c0":[1, 2, 3, 4], 
             "c1":[5, 6, 7, 8],
             "c2":[9, 10, 11, 12],
             "c3":[13, 14, 15, 16],
             "c4":[17, 18, 19, 20]}

df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2', 'r3'])
print(df)
print("\n")
# df2 =df.set_index(["c0"])
# print(df2)
# print("\n")

new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf1 = df.reindex(new_index)
ndf2 = df.reindex(new_index, fill_value=0)
print(ndf1)
print(ndf2)
ndf3 = df.reset_index()
print("\n")
print(ndf3)


    c0  c1  c2  c3  c4
r0   1   5   9  13  17
r1   2   6  10  14  18
r2   3   7  11  15  19
r3   4   8  12  16  20


     c0   c1    c2    c3    c4
r0  1.0  5.0   9.0  13.0  17.0
r1  2.0  6.0  10.0  14.0  18.0
r2  3.0  7.0  11.0  15.0  19.0
r3  4.0  8.0  12.0  16.0  20.0
r4  NaN  NaN   NaN   NaN   NaN
    c0  c1  c2  c3  c4
r0   1   5   9  13  17
r1   2   6  10  14  18
r2   3   7  11  15  19
r3   4   8  12  16  20
r4   0   0   0   0   0


  index  c0  c1  c2  c3  c4
0    r0   1   5   9  13  17
1    r1   2   6  10  14  18
2    r2   3   7  11  15  19
3    r3   4   8  12  16  20


In [120]:
import pandas as pd 

dict_data = {"c0": [1, 2, 3, 4], 
             "c1": [5, 6, 7, 8],
             "c2": [9, 10, 11, 12],
             "c3": [13, 14, 15, 16], 
             "c4": [17, 18, 19, 20]}
df = pd.DataFrame(dict_data, index=["r0", "r1", "r2", "r3"])
print(df)
print("\n")
ndf1 = df.sort_index(ascending=True)
ndf2 = df.sort_index(ascending=False)
print(ndf2)
print("\n")
print(ndf1)

sort_value_df = df.sort_values(by='c1', ascending=False)
print(sort_value_df)


    c0  c1  c2  c3  c4
r0   1   5   9  13  17
r1   2   6  10  14  18
r2   3   7  11  15  19
r3   4   8  12  16  20


    c0  c1  c2  c3  c4
r3   4   8  12  16  20
r2   3   7  11  15  19
r1   2   6  10  14  18
r0   1   5   9  13  17


    c0  c1  c2  c3  c4
r0   1   5   9  13  17
r1   2   6  10  14  18
r2   3   7  11  15  19
r3   4   8  12  16  20
    c0  c1  c2  c3  c4
r3   4   8  12  16  20
r2   3   7  11  15  19
r1   2   6  10  14  18
r0   1   5   9  13  17
