# Pandas_basic

### 1. 판다스 기초

##### 1-1. 판다스 개념
- Panel Datas의 약자로 패널 자료를 처리
- 엑셀의 워크시트를 처리하듯이 패널을 처리하는 기능이 통합된 라이브러리로 볼 수 있음 
- 대개 넘파이 및 맷플롯립과 함께 사용됨

##### 1-2. 판다스 데이터프레임
- 넘파이는 동일한 데이터 형식의 배열을 사용하지만, 판다스는 다양한 데이터 형식을 배열로 사용
- DataFrame(데이터프레임)

##### 1-3. 데이터프레임 핵심 용어
- 행 하나에 접근: df.loc[인덱스 이름] 또는 df.iloc[행번호]
- 열 하나에 접근: df[열이름] 또는 df.열이름
- 셀 하나에 접근: df[인덱스이름, 열이름] 또는 df.iloc[행번호][열번호]

##### 1-4. 판다스 사용 방법

In [26]:
import pandas as pd

data = {"이름":["유정", "유나", "민영", "은지"], 
        "나이":[30, 28, 31, 29], 
        "생일":["1991.5.2", "1993.4.6", "1990.9.12", "1992.7.19"]}
df1 = pd.DataFrame(data)
df1

Unnamed: 0,이름,나이,생일
0,유정,30,1991.5.2
1,유나,28,1993.4.6
2,민영,31,1990.9.12
3,은지,29,1992.7.19


In [27]:
df2 = pd.DataFrame(data, index=["하나", "둘", "셋", "넷"])
df2

Unnamed: 0,이름,나이,생일
하나,유정,30,1991.5.2
둘,유나,28,1993.4.6
셋,민영,31,1990.9.12
넷,은지,29,1992.7.19


In [28]:
print(df2.index)
print(df2.columns)

Index(['하나', '둘', '셋', '넷'], dtype='object')
Index(['이름', '나이', '생일'], dtype='object')


In [29]:
# 시리즈

sr_name = df2["이름"]
print(sr_name)
print(type(sr_name))

하나    유정
둘     유나
셋     민영
넷     은지
Name: 이름, dtype: object
<class 'pandas.core.series.Series'>


In [30]:
sr_name.name = "브브걸"
print(sr_name)

하나    유정
둘     유나
셋     민영
넷     은지
Name: 브브걸, dtype: object


In [31]:
sr_two = df2.loc["둘"]
print(type(sr_two))
print(sr_two)

<class 'pandas.core.series.Series'>
이름          유나
나이          28
생일    1993.4.6
Name: 둘, dtype: object


In [32]:
print(df2.loc["넷"]["생일"])
print(df2.loc["넷", "생일"])
print(df2.iloc[3][2])
print(df2.iloc[3, 2])

1992.7.19
1992.7.19
1992.7.19
1992.7.19


In [33]:
# 열 추가

df2["키"] = [163, 165, 168, 166]
df2

Unnamed: 0,이름,나이,생일,키
하나,유정,30,1991.5.2,163
둘,유나,28,1993.4.6,165
셋,민영,31,1990.9.12,168
넷,은지,29,1992.7.19,166


In [34]:
# 열 추가
# 순서를 다르게 지정하거나, 데이터의 일부만 있는 경우

sr_vision = pd.Series([1.8, 0.9, 1.2], index=["셋", "하나", "넷"])
df2["시력"] = sr_vision
df2

Unnamed: 0,이름,나이,생일,키,시력
하나,유정,30,1991.5.2,163,0.9
둘,유나,28,1993.4.6,165,
셋,민영,31,1990.9.12,168,1.8
넷,은지,29,1992.7.19,166,1.2


In [35]:
# 열 추가
# 열을 중간에 삽입하는 경우

df2.insert(1, "꽃", ["장미", "백합", "튤립", "데이지"])
df2

Unnamed: 0,이름,꽃,나이,생일,키,시력
하나,유정,장미,30,1991.5.2,163,0.9
둘,유나,백합,28,1993.4.6,165,
셋,민영,튤립,31,1990.9.12,168,1.8
넷,은지,데이지,29,1992.7.19,166,1.2


In [36]:
# 열 추가
# 열을 중간에 삽입하면서 순서까지 지정, df.insert(위치, 시리즈)
# 제일 뒤에 열을 삽입하는 경우, df_assign(열이름=[값1, 값2...])

In [37]:
# 행 추가

df2.loc['다섯'] = ["재남", "들꽃", 33, "1988.8.8", 177, 1.1]
df2

Unnamed: 0,이름,꽃,나이,생일,키,시력
하나,유정,장미,30,1991.5.2,163,0.9
둘,유나,백합,28,1993.4.6,165,
셋,민영,튤립,31,1990.9.12,168,1.8
넷,은지,데이지,29,1992.7.19,166,1.2
다섯,재남,들꽃,33,1988.8.8,177,1.1


In [38]:
# 행 추가
# 딕셔너리를 사용하여 필요한 열에만 데이터를 삽입할 수 있음
# 생략된 값은 NaN

df2.loc["여섯"] = {"이름":"보라", "꽃":"민들레", "키":163, "나이":34}
df2

Unnamed: 0,이름,꽃,나이,생일,키,시력
하나,유정,장미,30,1991.5.2,163,0.9
둘,유나,백합,28,1993.4.6,165,
셋,민영,튤립,31,1990.9.12,168,1.8
넷,은지,데이지,29,1992.7.19,166,1.2
다섯,재남,들꽃,33,1988.8.8,177,1.1
여섯,보라,민들레,34,,163,


In [39]:
# 행 추가
# 여러 행을 한번에 추가

new_data = {"이름":["리사", "제니"], 
            "나이":[23, 22]}
new_df = pd.DataFrame(new_data, index=["블핑", "블핑"])
new_df

Unnamed: 0,이름,나이
블핑,리사,23
블핑,제니,22


In [40]:
df2 = pd.concat([df2, new_df])
df2

Unnamed: 0,이름,꽃,나이,생일,키,시력
하나,유정,장미,30,1991.5.2,163.0,0.9
둘,유나,백합,28,1993.4.6,165.0,
셋,민영,튤립,31,1990.9.12,168.0,1.8
넷,은지,데이지,29,1992.7.19,166.0,1.2
다섯,재남,들꽃,33,1988.8.8,177.0,1.1
여섯,보라,민들레,34,,163.0,
블핑,리사,,23,,,
블핑,제니,,22,,,


In [41]:
# 열과 행 삭제

df2 = df2.drop(["키"], axis=1)  # 열 삭제
df2 = df2.drop(["셋"], axis=0)  # 행 삭제
df2

Unnamed: 0,이름,꽃,나이,생일,시력
하나,유정,장미,30,1991.5.2,0.9
둘,유나,백합,28,1993.4.6,
넷,은지,데이지,29,1992.7.19,1.2
다섯,재남,들꽃,33,1988.8.8,1.1
여섯,보라,민들레,34,,
블핑,리사,,23,,
블핑,제니,,22,,


In [42]:
# 열과 행 삭제
# 여러 열, 행을 삭제

df2 = df2.drop(["꽃", "시력"], axis=1)
df2 = df2.drop(["블핑", "하나"])
df2

Unnamed: 0,이름,나이,생일
둘,유나,28,1993.4.6
넷,은지,29,1992.7.19
다섯,재남,33,1988.8.8
여섯,보라,34,


In [43]:
data = {"이름":["여자친구", "소녀시대", "레드벨벳", "에이핑크", "마마무"], 
        "인원":[6, 8, 4, 6, 4], 
        "데뷔 일자":["2015.01.15", "2007.08.02", "2014.08.01", "2011.02.10", "2014.06.19"]}
df = pd.DataFrame(data, index=["WMN", "GRL", "RED", "APN", "MMU"])
df

Unnamed: 0,이름,인원,데뷔 일자
WMN,여자친구,6,2015.01.15
GRL,소녀시대,8,2007.08.02
RED,레드벨벳,4,2014.08.01
APN,에이핑크,6,2011.02.10
MMU,마마무,4,2014.06.19


In [46]:
df.loc["ABC"] = {"인원":1, "데뷔 일자":"2023.03.03"}
df

Unnamed: 0,이름,인원,데뷔 일자
WMN,여자친구,6,2015.01.15
GRL,소녀시대,8,2007.08.02
RED,레드벨벳,4,2014.08.01
APN,에이핑크,6,2011.02.10
MMU,마마무,4,2014.06.19
ABC,,1,2023.03.03


In [47]:
df = df.drop(["이름"], axis=1)
df = df.drop(["GRL", "RED", "APN"])
df

Unnamed: 0,인원,데뷔 일자
WMN,6,2015.01.15
MMU,4,2014.06.19
ABC,1,2023.03.03


In [50]:
# 시리즈 연산
# 두 시리즈의 인덱스가 동일한 경우에는 그냥 연산
# 두 시리즈의 인덱스가 다를 때는 주의가 필요

import pandas as pd

sr1 = pd.Series([10, 20, 30, 40], index=["다현", "정연", "쯔위", "사나"])
sr2 = pd.Series([50, 60, 70, 80], index=["다현", "정연", "쯔위", "사나"])
sr3 = pd.Series([11, 22, 33, 44], index=["다현", "사나", "모모", "재남"])

sr12 = sr1 + sr2
print(sr12)
print()

sr13 = sr1 + sr3
print(sr13)
print()

sr23 = sr2 + sr3
print(sr23)

다현     60
정연     80
쯔위    100
사나    120
dtype: int64

다현    21.0
모모     NaN
사나    62.0
재남     NaN
정연     NaN
쯔위     NaN
dtype: float64

다현     61.0
모모      NaN
사나    102.0
재남      NaN
정연      NaN
쯔위      NaN
dtype: float64


In [1]:
import pandas as pd
import numpy as np

data1 = np.arange(9).reshape((3,3))
data2 = np.arange(12).reshape((4,3))
df1 = pd.DataFrame(data1, columns=list('가나다'), index=["서울", "부산", "광주"])
df2 = pd.DataFrame(data2, columns=list('가다라'), index=["고양", "서울", "광주", "대전"])
print(df1)
print(df2)

new_df = df1 + df2
print(new_df)

    가  나  다
서울  0  1  2
부산  3  4  5
광주  6  7  8
    가   다   라
고양  0   1   2
서울  3   4   5
광주  6   7   8
대전  9  10  11
       가   나     다   라
고양   NaN NaN   NaN NaN
광주  12.0 NaN  15.0 NaN
대전   NaN NaN   NaN NaN
부산   NaN NaN   NaN NaN
서울   3.0 NaN   6.0 NaN
