# Pandas
### 데이터프레임 생성 및 탐색

#### **1. 데이터프레임**

**(1) 데이터프레임 이해**
- Pandas 사용 목적 : 데이터프레임을 사용하기 위함
- 데이터를 처리, 조회, 분석하는 가장 효율적인 방법 -> 데이터프레임을 사용하는 것
- 일반적으로 테이블 형태, 엑셀 형태
- 보통은 csv 파일, 엑셀 파일 또는 DB에서 읽어옴

  
**(2) 데이터프레임 형태**
- 데이터프레임은 인덱스(=행 이름)와 열 이름이 있고 없고에 따라 다른 형태를 갖는다
- 인덱스 : 행을 지정할 때 사용하는 정보
- 열 이름 : 열을 지정할 때 사용하는 정보

**(2) 데이터프레임 직접 만들기**
- **pd.DataFrame()** 함수를 사용
- 대부분 리스트, 딕셔너리, Numpy 배열로부터 데이터프레임을 만든다
- 데이터프레임을 만들기 위해서는 세 가지 데이터가 필요
     - 데이터
     - 열 이름
     - 인덱스 이름
- 열 이름을 지정하지 않으면 열 번호에 기반한 정수(0, 1, 2...)가 열 이름이 된다
- 인덱스 이름을 지정하지 않으면 행 번호에 기반한 정수(0, 1, 2...)가 인덱스 이름이 된다

**(3) 라이브러리 불러오기** <br>
import pandas as pd

**(4) 딕셔너리로 만들기**
- 딕셔너리로 데이터프레임을 만들면 딕셔너리의 키가 열 이름
- 인덱스를 지정하지 않으면 행 번호가 인덱스

**(5) CSV파일 읽어오기**
- **read_csv()** 함수 사용

**(5) 데이터프레임 탐색**
- 파일에서 불러온 데이터의 크기, 내용, 분포, 누락된 값 등을 확인할 수 있어야 한다
- 확인된 내용을 통해 데이터 전처리 필요 여부를 결정

**(5) 자주 사용하는 메서드들**
- head(): 상위 데이터 확인
- tail(): 하위 데이터 확인
- shape: 데이터프레임 크기
- values: 값 정보 확인(저장하면 2차원 numpy 배열이 된다)
- columns: 열 정보 확인
- dtypes: 열 자료형 확인
- info(): 열에 대한 상세한 정보 확인
- describe(): 기초통계정보 확인

**(6) 상위, 하위 일부 데이터, 크기 확인**
- head(n) : 앞 데이터 확인 
- tail(n) : 뒤 데이터 확인
- 개수를 지정하지 않으면 기본적으로 5개 행이 조회된다

**(7) 크기 확인**
- .shape
- (rows, cols) 값을 갖는 튜플 형태로 확인 가능
- 데이터를 분석할 때 처리할 데이터 양을 확인하는 목적으로 많이 사용

**(8) 자료형 확인**
- int64: 정수형 데이터(int)
- float64: 실수형 데이터(float)
- object: 문자열 데이터(string)

**(9) 기초통계정보 확인**
- describe() 
    - 데이터에 대한 많은 정보를 제공한다
    - 개수(count), 평균(mean), 표준편차(std), 최솟값(min), 사분위값(25%, 50%, 75%), 최댓값(max)을 표시

**(10) 정렬해서 보기**
1) 인덱스를 기준으로 정렬하는 방법
2) 특정 열을 기준으로 정렬하는 방법
    - sort_values() 메소드로 특정 열을 기준으로 정렬
- ascending : 오름차순, 내림차순 설정
    - ascending=True: 오름차순 정렬(기본값)
    - ascending=False: 내림차순 정렬

**(11) 데이터 집계**
1. 고유값 확인
    - unique() : 고유값을 확인하는 메서드, 결괏값은 배열 형태
    - 범주형 열(열이 가진 값이 일정한 값인 경우, 성별, 등급 등)인지 확인할 때 사용한다

2. 고유값과 개수 확인
    - value_counts() : 고유값과 그 개수를 확인하고 결괏값은 시리즈 형태가 된다





In [1]:
import pandas as pd

In [2]:
# 딕셔너리 만들기
dict1 = {'Product': ['a', 'b', 'c', 'd'],
        'Count': ['1', '2', '3', '4'],
        'Price': [5600, 2300, 4400, 5200]}

# 확인
print(dict1)

# 데이터프레임 만들기
df = pd.DataFrame(dict1)

# 확인
print(df.head())

{'Product': ['a', 'b', 'c', 'd'], 'Count': ['1', '2', '3', '4'], 'Price': [5600, 2300, 4400, 5200]}
  Product Count  Price
0       a     1   5600
1       b     2   2300
2       c     3   4400
3       d     4   5200


In [4]:
# 데이터 읽어오기
path = './Global Temperature.csv'
data = pd.read_csv(path)  

# 상위 10행만 확인
data.head(10)

Unnamed: 0,Year,Month,Monthly Anomaly,Monthly Unc.,Annual Anomaly,Annual Unc,Five-Year Anomaly,Five-Year Unc.,Ten-Year Anomaly,Ten-Year Unc.,Twenty-Year Anomaly,Twenty-year Unc.
0,1850,1,-0.801,0.482,,,,,,,,
1,1850,2,-0.102,0.592,,,,,,,,
2,1850,3,-0.119,0.819,,,,,,,,
3,1850,4,-0.485,0.575,,,,,,,,
4,1850,5,-0.351,0.549,,,,,,,,
5,1850,6,-0.528,0.448,-0.326,0.189,,,,,,
6,1850,7,0.036,0.457,-0.27,0.186,,,,,,
7,1850,8,-0.276,0.369,-0.283,0.143,,,,,,
8,1850,9,-0.328,0.33,-0.301,0.155,,,,,,
9,1850,10,-0.325,0.623,-0.296,0.148,,,,,,


In [5]:
# 하위 2개 행 데이터
data.tail(2)

Unnamed: 0,Year,Month,Monthly Anomaly,Monthly Unc.,Annual Anomaly,Annual Unc,Five-Year Anomaly,Five-Year Unc.,Ten-Year Anomaly,Ten-Year Unc.,Twenty-Year Anomaly,Twenty-year Unc.
2075,2022,12,0.923,,,,,,,,,
2076,2023,1,0.963,,,,,,,,,


In [6]:
# 행 수와 열 수 확인
data.shape

(2077, 12)

In [7]:
# 열 확인
print(data.columns)
print(data.columns.values) # np array 형태

# 열 이름을 리스트로 반환
list(data)

Index(['Year', ' Month', 'Monthly Anomaly', ' Monthly Unc.',
       '  Annual Anomaly', ' Annual Unc', 'Five-Year Anomaly',
       ' Five-Year Unc.', ' Ten-Year Anomaly', ' Ten-Year Unc.',
       '  Twenty-Year Anomaly', ' Twenty-year Unc.'],
      dtype='object')
['Year' ' Month' 'Monthly Anomaly' ' Monthly Unc.' '  Annual Anomaly'
 ' Annual Unc' 'Five-Year Anomaly' ' Five-Year Unc.' ' Ten-Year Anomaly'
 ' Ten-Year Unc.' '  Twenty-Year Anomaly' ' Twenty-year Unc.']


['Year',
 ' Month',
 'Monthly Anomaly',
 ' Monthly Unc.',
 '  Annual Anomaly',
 ' Annual Unc',
 'Five-Year Anomaly',
 ' Five-Year Unc.',
 ' Ten-Year Anomaly',
 ' Ten-Year Unc.',
 '  Twenty-Year Anomaly',
 ' Twenty-year Unc.']

In [8]:
# 열 자료형 확인
data.dtypes

Year                       int64
 Month                     int64
Monthly Anomaly          float64
 Monthly Unc.             object
  Annual Anomaly          object
 Annual Unc               object
Five-Year Anomaly         object
 Five-Year Unc.           object
 Ten-Year Anomaly         object
 Ten-Year Unc.            object
  Twenty-Year Anomaly     object
 Twenty-year Unc.         object
dtype: object

In [9]:
# 열 자료형, 값 개수 확인
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2077 entries, 0 to 2076
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Year                   2077 non-null   int64  
 1    Month                 2077 non-null   int64  
 2   Monthly Anomaly        2077 non-null   float64
 3    Monthly Unc.          2077 non-null   object 
 4     Annual Anomaly       2077 non-null   object 
 5    Annual Unc            2077 non-null   object 
 6   Five-Year Anomaly      2077 non-null   object 
 7    Five-Year Unc.        2077 non-null   object 
 8    Ten-Year Anomaly      2077 non-null   object 
 9    Ten-Year Unc.         2077 non-null   object 
 10    Twenty-Year Anomaly  2077 non-null   object 
 11   Twenty-year Unc.      2077 non-null   object 
dtypes: float64(1), int64(2), object(9)
memory usage: 194.8+ KB


In [10]:
# 기초통계정보 확인
data.describe()

Unnamed: 0,Year,Month,Monthly Anomaly
count,2077.0,2077.0,2077.0
mean,1936.041887,6.497352,0.039636
std,49.976436,3.454161,0.418716
min,1850.0,1.0,-0.97
25%,1893.0,3.0,-0.253
50%,1936.0,6.0,-0.039
75%,1979.0,9.0,0.252
max,2023.0,12.0,1.499


In [11]:
# 단일 열 정렬
data.sort_values(by='Year', ascending=False) # Year 열을 기준으로 내림차순 정렬

Unnamed: 0,Year,Month,Monthly Anomaly,Monthly Unc.,Annual Anomaly,Annual Unc,Five-Year Anomaly,Five-Year Unc.,Ten-Year Anomaly,Ten-Year Unc.,Twenty-Year Anomaly,Twenty-year Unc.
2076,2023,1,0.963,,,,,,,,,
2070,2022,7,1.062,,0.962,,,,,,,
2064,2022,1,0.995,,1.003,,,,,,,
2065,2022,2,0.885,,1.003,,,,,,,
2066,2022,3,1.066,,0.996,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...
8,1850,9,-0.328,0.33,-0.301,0.155,,,,,,
9,1850,10,-0.325,0.623,-0.296,0.148,,,,,,
10,1850,11,-0.219,0.532,-0.276,0.122,,,,,,
11,1850,12,-0.417,0.462,-0.25,0.132,,,,,,


In [12]:
# 복합 열 정렬
data.sort_values(by=['Year', ' Month'], ascending=[True, False]) # Year 열을 기준으로 오름차순, Month열 기준으로 내림차순 정렬

Unnamed: 0,Year,Month,Monthly Anomaly,Monthly Unc.,Annual Anomaly,Annual Unc,Five-Year Anomaly,Five-Year Unc.,Ten-Year Anomaly,Ten-Year Unc.,Twenty-Year Anomaly,Twenty-year Unc.
11,1850,12,-0.417,0.462,-0.25,0.132,,,,,,
10,1850,11,-0.219,0.532,-0.276,0.122,,,,,,
9,1850,10,-0.325,0.623,-0.296,0.148,,,,,,
8,1850,9,-0.328,0.33,-0.301,0.155,,,,,,
7,1850,8,-0.276,0.369,-0.283,0.143,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...
2067,2022,4,0.952,,0.993,,,,,,,
2066,2022,3,1.066,,0.996,,,,,,,
2065,2022,2,0.885,,1.003,,,,,,,
2064,2022,1,0.995,,1.003,,,,,,,


In [13]:
# Year 열 고유값 확인
print(data['Year'].unique())

[1850 1851 1852 1853 1854 1855 1856 1857 1858 1859 1860 1861 1862 1863
 1864 1865 1866 1867 1868 1869 1870 1871 1872 1873 1874 1875 1876 1877
 1878 1879 1880 1881 1882 1883 1884 1885 1886 1887 1888 1889 1890 1891
 1892 1893 1894 1895 1896 1897 1898 1899 1900 1901 1902 1903 1904 1905
 1906 1907 1908 1909 1910 1911 1912 1913 1914 1915 1916 1917 1918 1919
 1920 1921 1922 1923 1924 1925 1926 1927 1928 1929 1930 1931 1932 1933
 1934 1935 1936 1937 1938 1939 1940 1941 1942 1943 1944 1945 1946 1947
 1948 1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961
 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975
 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989
 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
 2018 2019 2020 2021 2022 2023]


In [14]:
# Year 열 고유값 개수 확인
print(data['Year'].value_counts())

1850    12
1969    12
1961    12
1962    12
1963    12
        ..
1909    12
1910    12
1911    12
1912    12
2023     1
Name: Year, Length: 174, dtype: int64


In [15]:
# Year열 합계 조회
print(data['Year'].sum())

4021159


In [16]:
# Year열 최댓값 조회
print(data['Year'].max())

2023


In [17]:
# 'Year', ' Month'열 평균값 확인
print(data[['Year', ' Month']].mean())

Year      1936.041887
 Month       6.497352
dtype: float64


In [18]:
# 'Year', ' Month' 열 중앙값 확인
print(data[['Year', ' Month']].median())

Year      1936.0
 Month       6.0
dtype: float64
