1. pandas 라이브러리 설치

In [1]:
import pandas as pd

Pandas의 핵심: DataFrame과 Series

In [2]:
# 1. Series 생성 (1차원 배열)

s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])

print(s)

# Output:
# a 10
# b 20
# c 30
# dtype: int64

a    10
b    20
c    30
dtype: int64


In [3]:
# 2. DataFrame 생성 (Dictionary 활용)

data = {
    'Name': ['Alice', 'Bob'],
    'Age': [25, 30]
}
df = pd.DataFrame(data)

print(df)

# Output:
# Name Age
# 0 Alice 25
# 1 Bob 30

    Name  Age
0  Alice   25
1    Bob   30


데이터 로드: CSV, Excel, JSON

In [4]:
# 3. 주요 속성 확인

print(f"모양(Shape): {df.shape}") # (2, 2)
print(f"컬럼(Columns): {df.columns}") # Index(['Name', 'Age'], ...)
print(f"인덱스(Index): {df.index}") # RangeIndex(start=0, stop=2, step=1)

print(df.dtypes)
# Name object
# Age int64

모양(Shape): (2, 2)
컬럼(Columns): Index(['Name', 'Age'], dtype='object')
인덱스(Index): RangeIndex(start=0, stop=2, step=1)
Name    object
Age      int64
dtype: object


In [7]:
# 1. CSV 파일 로드 (가장 기본)
# index_col=0: 첫 번째 열을 인덱스로 사용
df_csv = pd.read_csv(
    './data.csv',
    encoding='utf-8'
)
print(df_csv.head())

   annual_rainfall_mm  avg_temp  sunshine_hours soil_type  soil_ph  \
0              1760.0      22.1          2698.0       사양토      6.9   
1               656.0      22.8          1546.0       사양토      5.2   
2               821.0      12.7          2346.0        양토      6.3   
3              1461.0      24.1          2451.0       점질토      7.5   
4               503.0      22.8          2442.0       사양토      5.4   

  fertilizer_type  nitrogen_concentration  phosphorus_concentration  \
0              질소                   35.95                     33.37   
1              복합                   23.64                     31.49   
2              칼륨                   45.34                     30.08   
3               인                   25.66                     10.42   
4               인                   16.74                     24.89   

   potassium_concentration  yield_kg_per_ha  
0                    34.39           2422.0  
1                    10.71           1708.0  
2             

In [8]:
# 2. Excel 파일 로드 (Sheet 지정)
# engine='openpyxl'은 .xlsx 파일 처리에 필요할 수 있음
df_excel = pd.read_excel(
    'data.xlsx',
    sheet_name='Sheet1',
    engine='openpyxl'
)

print(df_excel.head())

   Unnamed: 0  annual_rainfall_mm  avg_temp  sunshine_hours soil_type  \
0           0                1760      22.1          2698.0       사양토   
1           1                 656      22.8          1546.0       사양토   
2           2                 821      12.7          2346.0        양토   
3           3                1461      24.1          2451.0       점질토   
4           4                 503      22.8          2442.0       사양토   

   soil_ph fertilizer_type  nitrogen_concentration  phosphorus_concentration  \
0      6.9              질소                   35.95                     33.37   
1      5.2              복합                   23.64                     31.49   
2      6.3              칼륨                   45.34                     30.08   
3      7.5               인                   25.66                     10.42   
4      5.4               인                   16.74                     24.89   

   potassium_concentration  yield_kg_per_ha  
0                    34.39        

In [9]:
# 3. JSON 파일 로드
# orient='records'는 [{col:val}, {col:val}] 형태일 때 사용
df_json = pd.read_json(
    'data.json',
    orient='records'
)

print(df_json.head())

   annual_rainfall_mm  avg_temp  sunshine_hours soil_type  soil_ph  \
0                1760      22.1          2698.0       사양토      6.9   
1                 656      22.8          1546.0       사양토      5.2   
2                 821      12.7          2346.0        양토      6.3   
3                1461      24.1          2451.0       점질토      7.5   
4                 503      22.8          2442.0       사양토      5.4   

  fertilizer_type  nitrogen_concentration  phosphorus_concentration  \
0              질소                   35.95                     33.37   
1              복합                   23.64                     31.49   
2              칼륨                   45.34                     30.08   
3               인                   25.66                     10.42   
4               인                   16.74                     24.89   

   potassium_concentration  yield_kg_per_ha  
0                    34.39             2422  
1                    10.71             1708  
2             

데이터 파악을 위한 필수 메서드

In [None]:
# 1. 상위 3개 행 확인 (데이터 미리보기)
print(df.head(3))

In [None]:
# 2. 데이터프레임 구조 및 결측치 확인 (필수!)
df.info()

In [None]:
# 3. 기초 통계량 확인 (수치형 컬럼)
print(df.describe())

In [None]:
# 4. 데이터 타입만 별도로 확인
print(df.dtypes)