# 판다스(Pandas) 01 - 기본 개념, 데이터프레임, 시리즈

판다스(Pandas) - 개요

- 판다스(Pandas)는 데이터프레임(DataFrame)과 시리즈(Series)라는 데이터타입(DataType)과 데이터 분석을 위한 다양한 기능을 제공 해주는 파이썬 라이브러리
- 데이터프레임(DataFrame)은 엑셀 시트와 같은 테이블 형태의 DataType, 즉 2차원 배열을 나타냄
- 시리즈(Series)는 데이터프레임에서 한 개의 열(column)을 나타내는 DataType
- 즉, 판다스(Pandas)에서 데이터프레임(DataFrame)이라는 것은 1개 이상의 시리즈(Series)로 구성된 DataType 이라고 할 수 있음

Quick Tour - 파일에서 데이터 불러오기

- 데이터 분석을 하기 위해서는 분석할 데이터를 불러오는 것부터 시작할 수 있는데, Pandas 에서는 'read_csv(...)'를 이용하여 파일에서 데이터를 불러올 수 있음.

In [1]:
import pandas as pd
df = pd.read_csv('LEC_01_data.csv')

In [2]:
df

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO
6,David,USA,48,Banker


In [3]:
type(df) # df 데이터 타입 확인

pandas.core.frame.DataFrame

In [4]:
type(df.Name) # df.Name 데이터 타입 확인

pandas.core.series.Series

Quick Tour - 열(column) 데이터 추출하기

- 데이터프레임(DataFrame)에서 열(column) 단위 데이터를 추출하기 위해서는 대괄호 안에 열 이름을 사용함

In [5]:
df_job = df['Job']
df_job

0      Student
1       Lawyer
2    Developer
3         Chef
4    Professor
5          CEO
6       Banker
Name: Job, dtype: object

In [7]:
df_country_job = df[['Country', 'Job']]

In [8]:
df_country_job

Unnamed: 0,Country,Job
0,USA,Student
1,France,Lawyer
2,Korea,Developer
3,Japan,Chef
4,Korea,Professor
5,USA,CEO
6,USA,Banker


Quick Tour - 행(row) 데이터 추출하기

- 행 데이터를 추출하기 위해서는 loc, iloc 속성을 사용할 수 있지만 인덱스(index)를 인수로 갖는 loc가 주로 사용됨

In [9]:
df

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO
6,David,USA,48,Banker


In [11]:
df_1st_row = df.loc[0]
df_1st_row

Name          John
Country        USA
Age             31
Job        Student
Name: 0, dtype: object

In [12]:
df_1st_4th_row = df.loc[[0, 3]]
df_1st_4th_row

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
3,Sato,Japan,40,Chef


Quick Tour - 데이터 분석을 위한 데이터 그룹화 및 통계 계산

- 데이터프레임은 데이터를 그룹화 하는 기능과 함께 데이터들의 평균 / 표준편차 / 상관계수 등을 계산하여 데이터 분석을 쉽게 할 수 있는 기능을 제공하고 있음.

In [13]:
df

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO
6,David,USA,48,Banker


In [14]:
df_country_group = df.groupby('Country')
age_average = df_country_group['Age'].mean()
print(age_average)

Country
France    33.000000
Japan     40.000000
Korea     32.000000
USA       44.666667
Name: Age, dtype: float64
