## 5.1.1 CSV 파일 불러오기

In [22]:
import pandas as pd

df = pd.read_csv('data/example.csv') # CSV 파일 불러오기
print(df) # 데이터 출력

      Name  Age          City  Salary
0    Alice   25      New York   70000
1      Bob   30   Los Angeles   80000
2  Charlie   35       Chicago   90000
3    David   40       Houston   85000
4      Eva   22       Phoenix   60000
5    Frank   28  Philadelphia   75000
6    Grace   32   San Antonio   82000
7   Hannah   27     San Diego   78000
8      Ian   45        Dallas   95000
9     Jane   31      San Jose   83000


## 5.1.2 엑셀 파일 불러오기

In [23]:
df = pd.read_excel('data/example.xlsx') # 엑셀 파일 불러오기
print(df) # 데이터 출력

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago


## 5.1.3 다양한 옵션
- 데이터 파일에서 특정 열만 불러오기
- 열 이름(헤더)가 없는 파일 불러오기

In [24]:
# 특정 열만 불러오기
df = pd.read_csv('data/example.csv', usecols=['Name', 'Age'])
print(df)

      Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35
3    David   40
4      Eva   22
5    Frank   28
6    Grace   32
7   Hannah   27
8      Ian   45
9     Jane   31


In [25]:
# 헤더 없는 파일 불러오기
df = pd.read_csv('data/example_no_header.csv', header=None)
print(df)

         0   1             2      3
0    Alice  25      New York  70000
1      Bob  30   Los Angeles  80000
2  Charlie  35       Chicago  90000
3    David  40       Houston  85000
4      Eva  22       Phoenix  60000
5    Frank  28  Philadelphia  75000
6    Grace  32   San Antonio  82000
7   Hannah  27     San Diego  78000
8      Ian  45        Dallas  95000
9     Jane  31      San Jose  83000


## 5.2.1 초반 데이터 확인하기

In [26]:
df = pd.read_csv('data/example.csv')

# 처음 5개 행 확인
print(df.head())

      Name  Age         City  Salary
0    Alice   25     New York   70000
1      Bob   30  Los Angeles   80000
2  Charlie   35      Chicago   90000
3    David   40      Houston   85000
4      Eva   22      Phoenix   60000


In [7]:
# 처음 3개 행 확인
print(df.head(3))

      Name  Age         City  Salary
0    Alice   25     New York   70000
1      Bob   30  Los Angeles   80000
2  Charlie   35      Chicago   90000


## 5.2.2 후반 데이터 확인하기

In [8]:
# 마지막 5개 행 확인
print(df.tail())

     Name  Age          City  Salary
5   Frank   28  Philadelphia   75000
6   Grace   32   San Antonio   82000
7  Hannah   27     San Diego   78000
8     Ian   45        Dallas   95000
9    Jane   31      San Jose   83000


In [9]:
# 마지막 3개 행 확인
print(df.tail(3))

     Name  Age       City  Salary
7  Hannah   27  San Diego   78000
8     Ian   45     Dallas   95000
9    Jane   31   San Jose   83000


## 5.2.3 통계 요약하기

In [10]:
# 기본 통계 정보 확인
print(df.describe())

             Age        Salary
count  10.000000     10.000000
mean   31.500000  79800.000000
std     6.948221   9953.223933
min    22.000000  60000.000000
25%    27.250000  75750.000000
50%    30.500000  81000.000000
75%    34.250000  84500.000000
max    45.000000  95000.000000


In [11]:
# 비수치형 데이터도 포함한 통계 정보 확인
print(df.describe(include='all'))

         Name        Age      City        Salary
count      10  10.000000        10     10.000000
unique     10        NaN        10           NaN
top     Alice        NaN  New York           NaN
freq        1        NaN         1           NaN
mean      NaN  31.500000       NaN  79800.000000
std       NaN   6.948221       NaN   9953.223933
min       NaN  22.000000       NaN  60000.000000
25%       NaN  27.250000       NaN  75750.000000
50%       NaN  30.500000       NaN  81000.000000
75%       NaN  34.250000       NaN  84500.000000
max       NaN  45.000000       NaN  95000.000000


## 5.2.4 데이터 크기 확인하기
데이터프레임의 크기가 튜플 형태로 반환된다.

In [12]:
# 데이터프레임의 크기 확인
df.shape

(10, 4)

## 5.3.1 평균 구하기

In [13]:
# Age 열의 평균
print(df['Age'].mean())

31.5


In [14]:
# Salary 열의 평균
print(df['Salary'].mean())

79800.0


In [15]:
# 여러 열의 평균
print(df[['Age', 'Salary']].mean())

Age          31.5
Salary    79800.0
dtype: float64


## 5.3.2 최댓값 구하기

In [16]:
print(df.max())

Name          Jane
Age             45
City      San Jose
Salary       95000
dtype: object


In [17]:
# Salary 열의 최댓값
print(df['Salary'].max())

95000


## 5.3.3 최솟값 구하기

In [18]:
print(df.min())

Name        Alice
Age            22
City      Chicago
Salary      60000
dtype: object


In [19]:
# Age 열의 최솟값
print(df['Age'].min())

22


## 5.3.4 데이터 더하기

In [20]:
print(df.sum())

Name         AliceBobCharlieDavidEvaFrankGraceHannahIanJane
Age                                                     315
City      New YorkLos AngelesChicagoHoustonPhoenixPhilad...
Salary                                               798000
dtype: object


In [21]:
# 수치형 데이터만 더하기
print(df.sum(numeric_only=True))

Age          315
Salary    798000
dtype: int64
