Pandas 소개 및 설치

Pandas는 데이터 분석을 위한 고성능의 사용하기 쉬운 데이터 구조와 도구를 제공합니
다.
특히 표 형태의 데이터를 다루는 데 매우 효과적입니다

Pandas 임포트:

여기서 pd 는 pandas의 일반적인 별칭(alias)입니다.
이를 통해 pandas 대신 pd 로 간단히 참조할 수 있습니다.
import pandas as pd

Pandas의 주요 데이터 구조: Series와 DataFrame

Pandas의 두 가지 주요 데이터 구조는 Series와 DataFrame입니다.
1. Series: 1차원 레이블된 배열
2. DataFrame: 2차원 레이블된 데이터 구조 (표와 유사)


Series


1차원 레이블된 배열입니다

In [None]:
import pandas as pd
import numpy as np

pd.Series() : 1차원 데이터를 저장하는 Pandas의 데이터 구조

In [None]:
s = pd.Series([1, 3, 5, 7, 6, 8])
s

인덱스가 있는 Series 생성

In [None]:
s2 = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
s2

Series의 주요 속성
values 속성: Series의 데이터 값들을 NumPy 배열로 반환
values 는 Series에 저장된 실제 데이터 값들을 NumPy 배열 형태로 제공합니
다.

index 속성: Series의 인덱스를 반환
index 는 Series의 각 데이터 포인트에 대한 라벨을 제공합니다.
dtype 속성: Series의 데이터 타입을 반환
dtype 은 Series에 저장된 데이터의 타입을 나타냅니다

In [None]:
s2.values

In [None]:
s2.index

In [None]:
s2.dtype

DataFrame

2차원 레이블된 데이터 구조입니다. 표와 유사한 형태입니다.
pd.DataFrame() : 2차원 데이터를 저장하는 Pandas의 주요 데이터 구조


In [None]:
data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Age': [28, 34, 29, 32],
    'City': ['New York', 'Paris', 'Berlin', 'London']
}
df = pd.DataFrame(data)
df

CSV 파일에서 DataFrame 생성
pd.read_csv() : CSV 파일을 읽어 DataFrame으로 변환하는 함수
df = pd.read_csv('example.csv')

df.info() : DataFrame의 요약 정보를 출력하는 메서드


In [None]:
df.info()

df.head() : DataFrame의 처음 몇 행을 반환하는 메서드 (기본값은 5행)

In [None]:
df.head()

df.describe() : 수치형 열의 기본 통계 정보를 계산하는 메서드

In [None]:
df.describe()

DataFrame의 주요 속성
values 속성: DataFrame의 데이터 값들을 2D NumPy 배열로 반환
values 는 DataFrame에 저장된 실제 데이터 값들을 2차원 NumPy 배열 형태
로 제공합니다.
index 속성: DataFrame의 행 인덱스를 반환
index 는 DataFrame의 각 행에 대한 라벨을 제공합니다.
columns 속성: DataFrame의 열 이름을 반환
columns 는 DataFrame의 각 열에 대한 이름을 제공합니다.
dtypes 속성: 각 열의 데이터 타입을 반환
dtypes 는 DataFrame의 각 열에 저장된 데이터의 타입을 나타냅니다.
shape 속성: DataFrame의 차원(행과 열의 수)을 튜플로 반환
shape 는 DataFrame의 행 수와 열 수를 (행, 열) 형태의 튜플로 제공합니다.

In [None]:
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': ['a', 'b', 'c'],
    'C': [4.5, 5.5, 6.5]
})
df

In [None]:
df.values

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.dtypes

In [None]:
df.shape

데이터 선택 및 필터링
Pandas는 데이터를 쉽게 선택하고 필터링할 수 있는 다양한 방법을 제공합니다.


In [None]:
data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Age': [28, 34, 29, 32],
    'City': ['New York', 'Paris', 'Berlin', 'London']
}
df = pd.DataFrame(data)
df

In [None]:
# 열 선택
df['Age']

In [None]:
# 열 선택
df[['Age']]

In [None]:
# 여러 열 선택
df[['Name', 'City']]

In [None]:
# 조건부 필터링
young_people = df[df['Age'] < 30]
young_people

데이터 처리 및 변환
Pandas는 데이터 처리와 변환을 위한 다양한 기능을 제공합니다

In [None]:
df

In [None]:
# 새로운 열 추가
df['Country'] = ['USA', 'France', 'Germany', 'UK']
df

df.sort_values() : 지정된 열을 기준으로 DataFrame을 정렬하는 메서드


In [None]:
df.sort_values('Age')

In [None]:
df

df.dropna() : 결측치가 있는 행을 제거하는 메서드

In [None]:
data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Age': [28, None, 29, 32], # None은 파이썬의 널(null) 값을 나타냅니다.
    'City': ['New York', 'Paris', 'Berlin', 'London'],
    'Country': ['USA', 'France', 'Germany', 'UK']
}
df = pd.DataFrame(data)
df

In [None]:
df.dropna() # df.dropna(): 결측치가 있는 행을 제거하는 메서드

df.fillna() : 결측치를 지정된 값으로 채우는 메서드


In [None]:
df.fillna(df['Age'].mean()) # df.fillna(): 결측치를 지정된 값으로 채우는 메서드

데이터 분석과 인공지능에서의 활용
Pandas는 NumPy와 더불어 데이터 분석의 기초가 되는 라이브러리입니다.
예) 간단한 데이터 분석
이 예제는 Pandas를 사용하여 다음과 같은 기본적인 데이터 분석 작업을 수행합니
다:
1. 기본 통계 계산
2. 변수 간 상관관계 계산
3. 데이터 범주화

In [None]:
import pandas as pd

In [None]:
data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda', 'Tom', 'Jane', 'Mike', 'Elizabeth'],
    'Age': [28, 34, 29, 32, 31, 27, 35, 30],
    'City': ['New York', 'Paris', 'Berlin', 'London', 'Tokyo', 'Sydney', 'Toronto',
    'Salary': [50000, 60000, 55000, 65000, 70000, 52000, 58000, 62000]
}
df = pd.DataFrame(data)

1. 기본 통계 계산:

In [None]:
# 기본 통계
df.describe()

1. 변수 간 상관관계 계산
df['column'].corr() : 두 열 간의 상관계수를 계산하는 메서드


In [None]:
# 상관관계
df['Age'].corr(df['Salary'])

In [None]:
df['Salary'].corr(df['Age'])

1. 데이터 범주화
pd.cut() : 연속형 변수를 범주형 변수로 변환하는 함수

In [None]:
# 나이 구간별 평균 급여
df['Age_Group'] = pd.cut(df['Age'], bins = [25, 30, 35, 40], labels = ['26-30', '31-
df