# SOIL DATA - Troubles finding what to use?!

- SSURGO is more detail can I can work with in the timeframe I need it
    - USDA NRCS 
        - https://sdmdataaccess.nrcs.usda.gov/Default.aspx
- STATSGO may be too limiting
    - USDA NRCS (shares tables in data source as above)
- How about The Global Soil Dataset for Earth System Modeling
    - Land-Atmosphere Interaction Research Group at Sun Yat-sen University
        - http://globalchange.bnu.edu.cn/research/soilwd.jsp

## Explore Soil Organic Carbon Density in The Global Soil Dataset

_I've already done quite a bit of noodling around the USDA data in other notebooks so I'll take a look at whether this one will fit my needs better (and my timeframe and level of pre-aggregation and simplification desired)._

### Load the NetCDF 

Network common data form (NetCDF) is commonly used to store multidimensional geographic data, and especially common with geographic time series data. I'll load the 5 minute geospatial resolution version of the Soil organic carbon density (SOCD5min.zip) NetCDF file in after downloading it from The Global Soil Dataset.

In [60]:
# import package dependencies for environment
import netCDF4 as nc
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [61]:
# check working directory using Shell command in IPython syntax preceded by '!'
!pwd

/Users/kathrynhurchla/Documents/GitHub/soil-health-risk-and-climate-change/analysis


In [62]:
# list directory contents
!ls

soil_data_analysis.ipynb           soil_data_analysis_STATSGO.Rmd
soil_data_analysis_SSURGO.R        soil_data_analysis_STATSGO.nb.html


In [63]:
# can I see my data folder in the root directory of my project 
# (i.e. in the parent of current analysis/notebooks folder working directory)?
#!echo ../*/ #alternately
!ls ..

LICENSE
README.md
Style_Tile_soil_health_and_climate_change.ai
[34manalysis[m[m
[34mdata[m[m
[34mdocs[m[m
[34mimg[m[m
[34moutput[m[m
[34mresearch[m[m


In [64]:
# now can I see the files in my data folder?
!ls ../data

SOCD5min.nc
SOCD5min.zip
USDA_Soil_Data_Access_Table_Relationships.csv
ipcc_efdb_cat3B2_CH4_CO2_N2O_output.xls
ipcc_efdb_cat3_CH4_CO2_N2O_output.xls


In [65]:
# Great! Now I've checked and copied the filename from right here in my Notebook!
# load NetCDF .nc file using the netcdf4 package (note can also be done using gdal package)
fn = '../data/SOCD5min.nc' # relative path to netcdf file
ds = nc.Dataset(fn) # read as netcdf dataset
# view info about the variables
print(ds)
# print(ds.__dict__) #alternately print metadata as a Python dictionary

<class 'netCDF4._netCDF4.Dataset'>
root group (NETCDF3_CLASSIC data model, file format NETCDF3):
    Conventions: CF-1.0
    dimensions(sizes): lon(4320), lat(1680), depth(8)
    variables(dimensions): float32 lon(lon), float32 lat(lat), float32 depth(depth), int16 SOCD(depth, lat, lon)
    groups: 


In [66]:
# access information about the single specific variable metadata (that is not a dimension) 
# SOCD is Soil Organic Carbon Density
# measured and recorded in t/ha (tonnes per hectare)
print(ds['SOCD'])

<class 'netCDF4._netCDF4.Variable'>
int16 SOCD(depth, lat, lon)
    missing_value: -999
    units: t/ha
    long_name: soil organic carban density
unlimited dimensions: 
current shape = (8, 1680, 4320)
filling on, default _FillValue of -32767 used


In [67]:
# just print dimensions as a python dictionary
print(ds.dimensions)

{'lon': <class 'netCDF4._netCDF4.Dimension'>: name = 'lon', size = 4320, 'lat': <class 'netCDF4._netCDF4.Dimension'>: name = 'lat', size = 1680, 'depth': <class 'netCDF4._netCDF4.Dimension'>: name = 'depth', size = 8}


In [68]:
socd

masked_array(
  data=[[[--, --, --, ..., --, --, --],
         [--, --, --, ..., --, --, --],
         [--, --, --, ..., --, --, --],
         ...,
         [--, --, --, ..., --, --, --],
         [--, --, --, ..., --, --, --],
         [--, --, --, ..., --, --, --]],

        [[--, --, --, ..., --, --, --],
         [--, --, --, ..., --, --, --],
         [--, --, --, ..., --, --, --],
         ...,
         [--, --, --, ..., --, --, --],
         [--, --, --, ..., --, --, --],
         [--, --, --, ..., --, --, --]],

        [[--, --, --, ..., --, --, --],
         [--, --, --, ..., --, --, --],
         [--, --, --, ..., --, --, --],
         ...,
         [--, --, --, ..., --, --, --],
         [--, --, --, ..., --, --, --],
         [--, --, --, ..., --, --, --]],

        ...,

        [[--, --, --, ..., --, --, --],
         [--, --, --, ..., --, --, --],
         [--, --, --, ..., --, --, --],
         ...,
         [--, --, --, ..., --, --, --],
         [--, --, --, ..., --,

In [69]:
# check the type of the new named variable socd
type(socd)

numpy.ma.core.MaskedArray

In [70]:
# access the data values just like a numpy array
socd = ds['SOCD'][:]
print(socd)

[[[-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  ...
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]]

 [[-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  ...
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]]

 [[-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  ...
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]]

 ...

 [[-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  ...
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]]

 [[-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  ...
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]]

 [[-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  ...
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]
  [-- -- -- ... -- -- --]]]


In [71]:
# see the shape of the array
socd.shape

(8, 1680, 4320)

In [72]:
# view an element about midway through
socd[0, 1000, 1000]

masked

In [73]:
# try another
socd[0, 0, 0]

masked

In [74]:
# get the non-masked data, specifically by removing rows with all masked data
# returns invlid syntax error on the axis=1
socd_unmasked_all = socd[~socd.mask.all[axis=1]]

SyntaxError: invalid syntax (2995376633.py, line 3)

In [None]:
# the compressed method will remove masked items, but flattens the result to a 1 dimensional array
# so I fear I've lost the location dimensions that way
# socd_compressed = socd.compressed()
# print(socd_compressed)
# socd_compressed.shape

In [82]:
# reshape the masked array to 2D, so it can be made into a dataframe
socd.reshape(-1, 1)

masked_array(
  data=[[--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
        [--],
      

In [81]:
# I'll try to change the masked array to a pandas dataframe, and
# call the numpy.ma.filled option during this in order to applly the default fill value -999 to the masked values
df = pd.DataFrame(np.ma.filled(socd), columns=['lon', 'lat', 'depth'])


ValueError: Must pass 2-d input. shape=(8, 1680, 4320)