### 판다스 (Pandas)
- 데이터 처리 라이브러리 중 가장 인기있는 라이브러리이다.
- 2차원 데이터(테이블, 엑셀, CSV 등)를 효율적으로 가공 및 처리할 수 있다.

#### 판다스 구성 요소
- DataFrame: 행과 열로 구성된 2차원 Dataset을 의미한다.
- Series: 1개의 열로만 구성된 열벡터 Dataset을 의미한다.
- Index: DataFrame과 Series에서 중복없는 행 번호를 의미한다.

In [1]:
import pandas as pd

pd.__version__

'2.1.4'

#### DataFrame()
- dict를 DataFrame으로 변환하고자 할 때 DataFrame 생성자에 전달한다.
- 컬럼명을 추가하거나 인덱스명을 변경하는 등 다양하게 설정할 수 있다.

In [10]:
import pandas as pd
film = {
    'title': ['명량', '극한 직업', '범죄 도시3', '국제 시장'],
    'audience': [17_615_919, 16_266_480, 10_682_674, 14_265_222],
    'country': ['한국', '한국', '한국', '한국']
}
film_df = pd.DataFrame(film)
display(film_df)

# 새로운 컬럼명
film_df['income'] = [135_758_658_810, 139_657_105_516, 104_686_489_632, 110_951_970_230]
display(film_df)

# 인덱스명 병경
film_df.index = ['one', 'two', 'three', 'four']
display(film_df)

# 인덱스 초기화
film_df = film_df.reset_index()
display(film_df)

# feature 삭제
film_df = film_df.drop(labels=['index'], axis=1)
display(film_df)

# feature 이름 변경
film_df = film_df.rename(columns={'title': 'name'})
display(film_df)

# 행 삭제
film_df = film_df.drop(index=[2], axis=0)
display(film_df)

# 인덱스 초기화, 기존 인덱스 삭제
film_df.reset_index(drop=True, inplace=True)
display(film_df)

Unnamed: 0,title,audience,country
0,명량,17615919,한국
1,극한 직업,16266480,한국
2,범죄 도시3,10682674,한국
3,국제 시장,14265222,한국


Unnamed: 0,title,audience,country,income
0,명량,17615919,한국,135758658810
1,극한 직업,16266480,한국,139657105516
2,범죄 도시3,10682674,한국,104686489632
3,국제 시장,14265222,한국,110951970230


Unnamed: 0,title,audience,country,income
one,명량,17615919,한국,135758658810
two,극한 직업,16266480,한국,139657105516
three,범죄 도시3,10682674,한국,104686489632
four,국제 시장,14265222,한국,110951970230


Unnamed: 0,index,title,audience,country,income
0,one,명량,17615919,한국,135758658810
1,two,극한 직업,16266480,한국,139657105516
2,three,범죄 도시3,10682674,한국,104686489632
3,four,국제 시장,14265222,한국,110951970230


Unnamed: 0,title,audience,country,income
0,명량,17615919,한국,135758658810
1,극한 직업,16266480,한국,139657105516
2,범죄 도시3,10682674,한국,104686489632
3,국제 시장,14265222,한국,110951970230


Unnamed: 0,name,audience,country,income
0,명량,17615919,한국,135758658810
1,극한 직업,16266480,한국,139657105516
2,범죄 도시3,10682674,한국,104686489632
3,국제 시장,14265222,한국,110951970230


Unnamed: 0,name,audience,country,income
0,명량,17615919,한국,135758658810
1,극한 직업,16266480,한국,139657105516
3,국제 시장,14265222,한국,110951970230


Unnamed: 0,name,audience,country,income
0,명량,17615919,한국,135758658810
1,극한 직업,16266480,한국,139657105516
2,국제 시장,14265222,한국,110951970230


### read_csv()
- csv 파일을 DataFrame으로 읽어온다.

In [12]:
import pandas as pd

happiness_df = pd.read_csv('./datasets/happiness_report_2022.csv')
display(happiness_df)

Unnamed: 0,country,score,income
0,Finland,7.821,High income
1,Denmark,7.636,High income
2,Iceland,7.557,High income
3,Switzerland,7.512,High income
4,Netherlands,7.415,High income
...,...,...,...
141,Botswana,3.471,Upper middle income
142,Rwanda,3.268,Low income
143,Zimbabwe,2.995,Lower middle income
144,Lebanon,2.955,Lower middle income


#### head()
- 전체 데이터 중 앞부분 일부를 가져온다.

In [14]:
display(happiness_df.head(10))

Unnamed: 0,country,score,income
0,Finland,7.821,High income
1,Denmark,7.636,High income
2,Iceland,7.557,High income
3,Switzerland,7.512,High income
4,Netherlands,7.415,High income
5,Luxembourg,7.404,High income
6,Sweden,7.384,High income
7,Norway,7.365,High income
8,Israel,7.364,High income
9,New Zealand,7.2,High income


#### tail()
- 전체 데이터 중 뒷부분 일부를 가져온다.

In [13]:
display(happiness_df.tail(10))

Unnamed: 0,country,score,income
136,Zambia,3.76,Low income
137,Malawi,3.75,Low income
138,Tanzania,3.702,Lower middle income
139,Sierra Leone,3.574,Low income
140,Lesotho,3.512,Lower middle income
141,Botswana,3.471,Upper middle income
142,Rwanda,3.268,Low income
143,Zimbabwe,2.995,Lower middle income
144,Lebanon,2.955,Lower middle income
145,Afghanistan,2.404,Low income


#### iloc[], loc[]
- 원하는 행 또는 열을 가져온다.
- iloc은 인덱스 번호로 가져오고, loc은 인덱스 값 또는 컬럼명으로 가져온다.

In [19]:
happiness_df.index += 1
happiness_df

Unnamed: 0,country,score,income
1,Finland,7.821,High income
2,Denmark,7.636,High income
3,Iceland,7.557,High income
4,Switzerland,7.512,High income
5,Netherlands,7.415,High income
...,...,...,...
142,Botswana,3.471,Upper middle income
143,Rwanda,3.268,Low income
144,Zimbabwe,2.995,Lower middle income
145,Lebanon,2.955,Lower middle income


In [20]:
# []에 1개의 정수만 전달하면 행을 가져온다.

# iloc: 인덱스 번호로 가져온다.
print(type(happiness_df.iloc[0]))
print(happiness_df.iloc[0])

print(type(happiness_df.iloc[[0]]))
display(happiness_df.iloc[[0]])

# loc: 인덱스 값으로 가져온다.
print(type(happiness_df.loc[1]))
print(happiness_df.loc[1])

print(type(happiness_df.loc[[1]]))
display(happiness_df.loc[[1]])

<class 'pandas.core.series.Series'>
country        Finland
score            7.821
income     High income
Name: 1, dtype: object
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,country,score,income
1,Finland,7.821,High income


<class 'pandas.core.series.Series'>
country        Finland
score            7.821
income     High income
Name: 1, dtype: object
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,country,score,income
1,Finland,7.821,High income


In [26]:
# []에 2개의 정수를 콤마로 구분해서 전달하면, 행과 열을 가져온다.

# 전체 행과 마지막 열 가져오기(Series)
display(type(happiness_df.iloc[:, -1]))
print(happiness_df.iloc[:, -1])

display(type(happiness_df.loc[:, 'income']))
print(happiness_df.loc[:, 'income'])

# 전체 행과 마지막 열 가져오기(DataFrame)
display(happiness_df[['income']])

# 전체 행과 여러 feature 가져오기
display(happiness_df[['score', 'income']])

pandas.core.series.Series

1              High income
2              High income
3              High income
4              High income
5              High income
              ...         
142    Upper middle income
143             Low income
144    Lower middle income
145    Lower middle income
146             Low income
Name: income, Length: 146, dtype: object


pandas.core.series.Series

1              High income
2              High income
3              High income
4              High income
5              High income
              ...         
142    Upper middle income
143             Low income
144    Lower middle income
145    Lower middle income
146             Low income
Name: income, Length: 146, dtype: object


Unnamed: 0,score,income
1,7.821,High income
2,7.636,High income
3,7.557,High income
4,7.512,High income
5,7.415,High income
...,...,...
142,3.471,Upper middle income
143,3.268,Low income
144,2.995,Lower middle income
145,2.955,Lower middle income
