<div id='id0' />

# Transformación datos superficie de cultivo

Este notebook está destinado a tratar y realizar una primera visualización de los datos de superficie de los cultivos en EEUU descargados con Rstudio. 

Para la descarga de los datos se ha utilizado una dirección API proporcionada por la organización USDA (United States Department of Agriculture).

Los siguientes enlaces disponibles permiten entrar en el repositorio de la API y también a la interfaz de la web de USDA donde se permite visualizar los campos y datos disponibles:
- Fuente API: https://www.robertdinterman.com/usdarnass/articles/usdarnass
- Interfaz: https://quickstats.nass.usda.gov/#60CB39DB-E74C-3619-8851-E0EAD520AACA

1. [Concatenado](#id1)
2. [Estudio, transformación y visualización de los datos](#id2)

In [1]:
#--BASE--#
import pandas as pd
import seaborn as sns
import warnings
import numpy as np
import datetime
import os

#--VISUALIZACIÓN--#
import matplotlib as mpl
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.figure_factory as ff

#--CONFIGURACIÓN--#
pd.set_option('display.max_columns', None)
#pd.set_option('display.max_rows', None)
pd.options.display.float_format = '{:.2f}'.format
warnings.filterwarnings('ignore')

[up](#id0)

<div id='id1' />

## Concatenado

 Debido a que la API nos permite realizar un total de 50.000 valores por petición, para la descarga de los datos a través de la API lo normal ha sido hacer una petición para cada año de estudio. En algunos años los valores totales han superado el valor máximo por petición por lo que se ha hecho una descarga para cada año desglosando también por estado. Finalmente se concatenan todos estos dataset en uno solo.

#### 2002

In [2]:
path = '../DATOS/API_superficie_cultivada/2002/'
files = [os.path.join(path, file) for file in os.listdir(path) if ".csv" in file]
df = pd.concat(map(pd.read_csv, files))
df.to_csv('../DATOS/API_superficie_cultivada/TOTAL/2002.csv', index = False)

#### 2007

In [3]:
path = '../DATOS/API_superficie_cultivada/2007/'
files = [os.path.join(path, file) for file in os.listdir(path) if ".csv" in file]
df = pd.concat(map(pd.read_csv, files))
df.to_csv('../DATOS/API_superficie_cultivada/TOTAL/2007.csv', index = False)

#### 2009

In [4]:
path = '../DATOS/API_superficie_cultivada/2009/'
files = [os.path.join(path, file) for file in os.listdir(path) if ".csv" in file]
df = pd.concat(map(pd.read_csv, files))
df.to_csv('../DATOS/API_superficie_cultivada/TOTAL/2009.csv', index = False)

#### 2012

In [5]:
path = '../DATOS/API_superficie_cultivada/2012/'
files = [os.path.join(path, file) for file in os.listdir(path) if ".csv" in file]
df = pd.concat(map(pd.read_csv, files))
df.to_csv('../DATOS/API_superficie_cultivada/TOTAL/2012.csv', index = False)

#### 2014

In [6]:
path = '../DATOS/API_superficie_cultivada/2014/'
files = [os.path.join(path, file) for file in os.listdir(path) if ".csv" in file]
df = pd.concat(map(pd.read_csv, files))
df.to_csv('../DATOS/API_superficie_cultivada/TOTAL/2014.csv', index = False)

### 2017

In [7]:
path = '../DATOS/API_superficie_cultivada/2017/'
files = [os.path.join(path, file) for file in os.listdir(path) if ".csv" in file]
df = pd.concat(map(pd.read_csv, files))
df.to_csv('../DATOS/API_superficie_cultivada/TOTAL/2017.csv', index = False)

#### 2019

In [8]:
path = '../DATOS/API_superficie_cultivada/2019/'
files = [os.path.join(path, file) for file in os.listdir(path) if ".csv" in file]
df = pd.concat(map(pd.read_csv, files))
df.to_csv('../DATOS/API_superficie_cultivada/TOTAL/2019.csv', index = False)

### Total

In [9]:
path = '../DATOS/API_superficie_cultivada/TOTAL/'
files = [os.path.join(path, file) for file in os.listdir(path) if ".csv" in file]
df = pd.concat(map(pd.read_csv, files))
df.drop(columns= 'Unnamed: 0', inplace = True)

In [10]:
df.isnull().sum()

source_desc                    0
sector_desc                    0
group_desc                     0
commodity_desc                 0
class_desc                     0
prodn_practice_desc            0
util_practice_desc             0
statisticcat_desc              0
unit_desc                      0
short_desc                     0
domain_desc                    0
domaincat_desc                 0
agg_level_desc                 0
state_ansi                  6368
state_fips_code                0
state_alpha                    0
state_name                     0
asd_code                 2675028
asd_desc                 2675028
county_ansi              2675028
county_code              2675028
county_name              2675028
region_desc              2675028
zip_5                    2675028
watershed_code                 0
watershed_desc           2675028
congr_district_code      2675028
country_code                   0
country_name                   0
location_desc                  0
year      

In [11]:
df.head()

Unnamed: 0,source_desc,sector_desc,group_desc,commodity_desc,class_desc,prodn_practice_desc,util_practice_desc,statisticcat_desc,unit_desc,short_desc,domain_desc,domaincat_desc,agg_level_desc,state_ansi,state_fips_code,state_alpha,state_name,asd_code,asd_desc,county_ansi,county_code,county_name,region_desc,zip_5,watershed_code,watershed_desc,congr_district_code,country_code,country_name,location_desc,year,freq_desc,begin_code,end_code,reference_period_desc,week_ending,load_time,Value,CV (%)
0,SURVEY,CROPS,FIELD CROPS,BARLEY,ALL CLASSES,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,AREA HARVESTED,ACRES,BARLEY - ACRES HARVESTED,TOTAL,NOT SPECIFIED,STATE,4.0,4,AZ,ARIZONA,,,,,,,,0,,,9000,UNITED STATES,ARIZONA,1950,ANNUAL,0,0,YEAR,,2012-01-01 00:00:00.000,157000,
1,SURVEY,CROPS,FIELD CROPS,BARLEY,ALL CLASSES,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,AREA HARVESTED,ACRES,BARLEY - ACRES HARVESTED,TOTAL,NOT SPECIFIED,STATE,5.0,5,AR,ARKANSAS,,,,,,,,0,,,9000,UNITED STATES,ARKANSAS,1950,ANNUAL,0,0,YEAR,,2012-01-01 00:00:00.000,4000,
2,SURVEY,CROPS,FIELD CROPS,BARLEY,ALL CLASSES,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,AREA HARVESTED,ACRES,BARLEY - ACRES HARVESTED,TOTAL,NOT SPECIFIED,STATE,6.0,6,CA,CALIFORNIA,,,,,,,,0,,,9000,UNITED STATES,CALIFORNIA,1950,ANNUAL,0,0,YEAR,,2012-01-01 00:00:00.000,1765000,
3,SURVEY,CROPS,FIELD CROPS,BARLEY,ALL CLASSES,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,AREA HARVESTED,ACRES,BARLEY - ACRES HARVESTED,TOTAL,NOT SPECIFIED,STATE,8.0,8,CO,COLORADO,,,,,,,,0,,,9000,UNITED STATES,COLORADO,1950,ANNUAL,0,0,YEAR,,2012-01-01 00:00:00.000,489000,
4,SURVEY,CROPS,FIELD CROPS,BARLEY,ALL CLASSES,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,AREA HARVESTED,ACRES,BARLEY - ACRES HARVESTED,TOTAL,NOT SPECIFIED,STATE,10.0,10,DE,DELAWARE,,,,,,,,0,,,9000,UNITED STATES,DELAWARE,1950,ANNUAL,0,0,YEAR,,2012-01-01 00:00:00.000,12000,


[up](#id0)

<div id='id2' />

## Estudio, transformación y visualización de los datos

Se analizan las variables que proporciona la API y finalmente se seleccionan las columnas que son de interés para este estudio. El resto se eliminan ya que son columnas que únicamente contiene valores nulos o son información adicional del resto de columnas seleccionadas. A continuación, se muestra la selección de variables que nos ayudaran a definir el dataframe final.

Conforme se ira viendo a lo largo de este notebook, se van a ir realizando filtros y eliminando variables y elementos del dataframe, esto es debido a que existen valores de superficie que aparecen repetidos pero definidos de distintas formas o simplemente son valores que para este caso no son de interes.

In [12]:
df = df[['source_desc', 'commodity_desc', 'class_desc', 'prodn_practice_desc', 'util_practice_desc', 'statisticcat_desc', 'unit_desc', 'short_desc', 'domain_desc', 'domaincat_desc', 'state_name', 'year', 'Value']]

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2675028 entries, 0 to 49527
Data columns (total 13 columns):
 #   Column               Dtype 
---  ------               ----- 
 0   source_desc          object
 1   commodity_desc       object
 2   class_desc           object
 3   prodn_practice_desc  object
 4   util_practice_desc   object
 5   statisticcat_desc    object
 6   unit_desc            object
 7   short_desc           object
 8   domain_desc          object
 9   domaincat_desc       object
 10  state_name           object
 11  year                 int64 
 12  Value                object
dtypes: int64(1), object(12)
memory usage: 285.7+ MB


En la columna 'unit_desc' aparecen un gran número de valores los cuales definen diferentes unidades de medida, para este caso filtramos por "ACRES".

In [14]:
df = df[df['unit_desc'] == 'ACRES']

In [15]:
# Rango de años disponibles para el estudio con superficies de cultivo

df['year'].drop_duplicates().sort_values(ascending=True)

0     1950
0     1951
0     1952
0     1953
0     1954
      ... 
63    2017
0     2018
7     2019
50    2020
4     2021
Name: year, Length: 72, dtype: int64

In [16]:
#Explorando el dataset se ven valores extraños en la columna "Value" por lo que se eliminan las filas que contienen estos valores

df = df[df['Value'] != '(D)']
df = df[df['Value'] != '(Z)']
df = df[df['Value'] != '(X)']
df = df[df['Value'] != '(NA)']
df = df[df['Value'] != '(O)']
df = df[df['Value'] != '(1)']

In [17]:
#Se modifican los valores de la de la columna 'Value' para poder convertir los datos a "float"

df["Value"] = [float(str(i).replace(",", "")) for i in df["Value"]]

In [18]:
df['Value'] = df['Value'].astype(float)

Una vez tenemos filtrado por el valor de Acres y tranformados todos los valores a float se pasan estos valores de superficie a hectáreas

In [19]:
df['Value'] = df['Value'] * 0.404686

In [20]:
fig = px.line(
    pd.DataFrame(df.groupby('year')['Value'].sum()),
    title='Evolución histórica de la superfice de cultivo'
    )
fig.update_yaxes(title_text='Hectáreas')
fig.update_xaxes(title_text='')
fig.show()  

In [21]:
x = df[df['source_desc'] == 'SURVEY']
x.groupby('year')['year'].count()

year
1950    1728
1951    1723
1952    1710
1953    1718
1954    1767
        ... 
2017    2266
2018    2359
2019    1876
2020    1893
2021    2052
Name: year, Length: 72, dtype: int64

In [22]:
y = df[df['source_desc'] == 'CENSUS']
y.groupby('year')['year'].count()

year
1997    11199
2002    26213
2007    29839
2008     3219
2009      723
2011     1188
2012    88011
2013     6148
2014     4230
2015     1679
2016     1648
2017    87558
2018     5221
2019     2578
Name: year, dtype: int64

Los picos que aparecen en la gráfica anterior hacen referencia a los datos de Censos, que aparecen cada cinco años; estos se eliminan de la serie ya que según la información de la API los censos se realizan cada cinco años no siendo de interés para nuestro estudio.

In [23]:
df = df[df['source_desc'] == 'SURVEY']

Haciendo referencia a la columna "statisticcat_desc"; no se sabe si los valores de esta variable se complementan entre ellas mismas o hace referencia a las mismas unidades de superficie. En las siguientes celdas se estudian estos valores.
Finalmente se encuentra que:
- El valor "TOTAL AREA" se superpone con el valor de "AREA BEARING". Se llega a esta conclusión ya que, como se ve en el ejemplo siguiente, los valores de superficies en melocotón son muy similares en ambos casos. Finalmente se decide eliminar las filas con que contienen el valor de "TOTAL AREA" ya que solo aparecen en dos ocasiones (las representadas en el ejemplo).

In [24]:
#Ejemplo:

df[
    (df['commodity_desc'] == 'PEACHES') & 
    (df['state_name'] == 'CALIFORNIA') & 
    (df['class_desc'] == 'FREESTONE') & 
    (df['year'] == 2018)
    ]

Unnamed: 0,source_desc,commodity_desc,class_desc,prodn_practice_desc,util_practice_desc,statisticcat_desc,unit_desc,short_desc,domain_desc,domaincat_desc,state_name,year,Value
29562,SURVEY,PEACHES,FREESTONE,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,AREA BEARING,ACRES,"PEACHES, FREESTONE - ACRES BEARING",TOTAL,NOT SPECIFIED,CALIFORNIA,2018,8093.72
29564,SURVEY,PEACHES,FREESTONE,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,TOTAL AREA,ACRES,"PEACHES, FREESTONE - ACRES TOTAL",TOTAL,NOT SPECIFIED,CALIFORNIA,2018,8741.22


In [25]:
#Ejemplo:

df[
    (df['commodity_desc'] == 'PEACHES') & 
    (df['state_name'] == 'NEW JERSEY') & 
    (df['year'] == 2020)
    ]

Unnamed: 0,source_desc,commodity_desc,class_desc,prodn_practice_desc,util_practice_desc,statisticcat_desc,unit_desc,short_desc,domain_desc,domaincat_desc,state_name,year,Value
5839,SURVEY,PEACHES,ALL CLASSES,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,AREA BEARING,ACRES,PEACHES - ACRES BEARING,TOTAL,NOT SPECIFIED,NEW JERSEY,2020,1537.81
5852,SURVEY,PEACHES,ALL CLASSES,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,TOTAL AREA,ACRES,PEACHES - ACRES TOTAL,TOTAL,NOT SPECIFIED,NEW JERSEY,2020,1618.74


In [26]:
df = df[df['statisticcat_desc'] != 'TOTAL AREA']

Otro valor dentro de la columna "statisticcat_desc" que no son complementarias, sino que suman las mismas unidades de superficie, son:
- "AREA PLANTED" y "AREA HARVESTED"; En este caso se decide por quedarse con los valores de "AREA PLANTED" ya que tiene una mayor representación sobre la superficie cultivada.

In [27]:
# Ejemplo:
df[
    (df['commodity_desc'] == 'COTTON') & 
    (df['state_name'] == 'ALABAMA') & 
    (df['year'] == 1951)
    ]

Unnamed: 0,source_desc,commodity_desc,class_desc,prodn_practice_desc,util_practice_desc,statisticcat_desc,unit_desc,short_desc,domain_desc,domaincat_desc,state_name,year,Value
749,SURVEY,COTTON,ALL CLASSES,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,AREA HARVESTED,ACRES,COTTON - ACRES HARVESTED,TOTAL,NOT SPECIFIED,ALABAMA,1951,602982.14
769,SURVEY,COTTON,ALL CLASSES,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,AREA PLANTED,ACRES,COTTON - ACRES PLANTED,TOTAL,NOT SPECIFIED,ALABAMA,1951,619169.58
885,SURVEY,COTTON,UPLAND,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,AREA HARVESTED,ACRES,"COTTON, UPLAND - ACRES HARVESTED",TOTAL,NOT SPECIFIED,ALABAMA,1951,602982.14
896,SURVEY,COTTON,UPLAND,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,AREA PLANTED,ACRES,"COTTON, UPLAND - ACRES PLANTED",TOTAL,NOT SPECIFIED,ALABAMA,1951,606624.31


In [28]:
df = df[df['statisticcat_desc'] != 'AREA HARVESTED']

En el siguiente caso se estudia el valor de "AREA IN PRODUCTION" de la columna "statisticcat_desc". Se observa que solo aparece para los productos de floricultura. A partir de esta valor se observa que los productos provenientes de floricultura aparecen repetidos debido a que en la columna "domain_desc" aparecen los valores de "SALES OF FLORICULTURE" y "TOTALS" para un mismo producto, es decir, se entiende que en el valor de "TOTALS" incluye el valor de "SALES OF FLORICULTURE" Se decide eliminar la variable "SALES OF FLORICULTURE".

In [29]:
#Ejemplo:
df[
    (df['commodity_desc'] == 'FLORICULTURE TOTALS') & 
    (df['state_name'] == 'CONNECTICUT') & 
    (df['year'] == 2021)
    ]

Unnamed: 0,source_desc,commodity_desc,class_desc,prodn_practice_desc,util_practice_desc,statisticcat_desc,unit_desc,short_desc,domain_desc,domaincat_desc,state_name,year,Value
35573,SURVEY,FLORICULTURE TOTALS,ALL CLASSES,IN THE OPEN,ALL UTILIZATION PRACTICES,AREA IN PRODUCTION,ACRES,"FLORICULTURE TOTALS, IN THE OPEN - ACRES IN PR...",SALES OF FLORICULTURE,"SALES OF FLORICULTURE: (100,000 OR MORE $)",CONNECTICUT,2021,201.94
35602,SURVEY,FLORICULTURE TOTALS,ALL CLASSES,IN THE OPEN,ALL UTILIZATION PRACTICES,AREA IN PRODUCTION,ACRES,"FLORICULTURE TOTALS, IN THE OPEN - ACRES IN PR...",TOTAL,NOT SPECIFIED,CONNECTICUT,2021,292.99


In [30]:
df = df[df['domain_desc'] != 'SALES OF FLORICULTURE']

También se eliminan los datos de "AREA PLANTED, NET", ya que esta estos hacen referencia a los mismos datos que aparecen con el valor de "AREA PLANTED" y únicamente aparece durante un rango de años concreto:

In [31]:
#Ejemplo:

df[
    (df['commodity_desc'] == 'SORGHUM') & 
    (df['state_name'] == 'ARIZONA') & 
    (df['year'] == 1972)
    ]

Unnamed: 0,source_desc,commodity_desc,class_desc,prodn_practice_desc,util_practice_desc,statisticcat_desc,unit_desc,short_desc,domain_desc,domaincat_desc,state_name,year,Value
2434,SURVEY,SORGHUM,ALL CLASSES,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,AREA PLANTED,ACRES,SORGHUM - ACRES PLANTED,TOTAL,NOT SPECIFIED,ARIZONA,1972,48562.32
2480,SURVEY,SORGHUM,ALL CLASSES,ALL PRODUCTION PRACTICES,GRAIN,"AREA PLANTED, NET",ACRES,"SORGHUM, GRAIN - ACRES PLANTED, NET",TOTAL,NOT SPECIFIED,ARIZONA,1972,44110.77
2636,SURVEY,SORGHUM,ALL CLASSES,IRRIGATED,ALL UTILIZATION PRACTICES,AREA PLANTED,ACRES,"SORGHUM, IRRIGATED - ACRES PLANTED",TOTAL,NOT SPECIFIED,ARIZONA,1972,48562.32
2646,SURVEY,SORGHUM,ALL CLASSES,IRRIGATED,GRAIN,"AREA PLANTED, NET",ACRES,"SORGHUM, GRAIN, IRRIGATED - ACRES PLANTED, NET",TOTAL,NOT SPECIFIED,ARIZONA,1972,44110.77


In [32]:
df = df[df['statisticcat_desc'] != 'AREA PLANTED, NET']

In [33]:
fig = px.line(
    pd.DataFrame(df.groupby('year')['Value'].sum()),
    title='Evolución histórica de la superfice de cultivo'
    )
fig.update_yaxes(title_text='Hectáreas')
fig.update_xaxes(title_text='')
fig.show() 

El cambio brusco de unidades que aparece en la gráfica en el año 1993 es debido a los datos "FIELD CROP TOTAL" en la columna "commodity_desc". Esta se elimina ya que es información que se superpone con el resto de las variables.

In [34]:
commodity = df.pivot_table(index='year', columns='commodity_desc', values='Value', aggfunc=np.sum)
fig = px.line(
    pd.DataFrame(commodity),
    title='Evolución histórica de la superfice de cultivo para cada cultivo'
    )
fig.update_yaxes(title_text='Hectáreas')
fig.update_xaxes(title_text='')
fig.show()  

In [35]:
df = df[df['commodity_desc'] != 'FIELD CROP TOTALS']

Otra columna que aparentemente tiene valores superpuestos es la columna "prodn_practice_desc" en este caso aparecen para un mismo cultivo valores en los que agrupa todo tipo de prácticas pero a su vez también subdivide en diferentes tipos, como por ejemplo, plantación es en regadío o en secano. Las siguientes filas de codigo son ejemplos de esta columna. En este caso todos los cultivos tienen un valor de "ALL PRODUCTION PRACTICIES" por lo que se hace un filtro para filtrar únicamente con este valor de esta columna.

In [36]:
#Ejemplo:

df[
    (df['commodity_desc'] == 'BARLEY') & 
    (df['state_name'] == 'MONTANA') & 
    (df['year'] == 1950)
    ]

Unnamed: 0,source_desc,commodity_desc,class_desc,prodn_practice_desc,util_practice_desc,statisticcat_desc,unit_desc,short_desc,domain_desc,domaincat_desc,state_name,year,Value
57,SURVEY,BARLEY,ALL CLASSES,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,AREA PLANTED,ACRES,BARLEY - ACRES PLANTED,TOTAL,NOT SPECIFIED,MONTANA,1950,357742.42
205,SURVEY,BARLEY,ALL CLASSES,IRRIGATED,ALL UTILIZATION PRACTICES,AREA PLANTED,ACRES,"BARLEY, IRRIGATED - ACRES PLANTED",TOTAL,NOT SPECIFIED,MONTANA,1950,52851.99
221,SURVEY,BARLEY,ALL CLASSES,NON-IRRIGATED,ALL UTILIZATION PRACTICES,AREA PLANTED,ACRES,"BARLEY, NON-IRRIGATED - ACRES PLANTED",TOTAL,NOT SPECIFIED,MONTANA,1950,304890.43


In [37]:
#Ejemplo:

df[
    (df['commodity_desc'] == 'BARLEY') & 
    (df['state_name'] == 'MONTANA') & 
    (df['year'] == 1950)
    ]

Unnamed: 0,source_desc,commodity_desc,class_desc,prodn_practice_desc,util_practice_desc,statisticcat_desc,unit_desc,short_desc,domain_desc,domaincat_desc,state_name,year,Value
57,SURVEY,BARLEY,ALL CLASSES,ALL PRODUCTION PRACTICES,ALL UTILIZATION PRACTICES,AREA PLANTED,ACRES,BARLEY - ACRES PLANTED,TOTAL,NOT SPECIFIED,MONTANA,1950,357742.42
205,SURVEY,BARLEY,ALL CLASSES,IRRIGATED,ALL UTILIZATION PRACTICES,AREA PLANTED,ACRES,"BARLEY, IRRIGATED - ACRES PLANTED",TOTAL,NOT SPECIFIED,MONTANA,1950,52851.99
221,SURVEY,BARLEY,ALL CLASSES,NON-IRRIGATED,ALL UTILIZATION PRACTICES,AREA PLANTED,ACRES,"BARLEY, NON-IRRIGATED - ACRES PLANTED",TOTAL,NOT SPECIFIED,MONTANA,1950,304890.43


In [38]:
df = df[df['prodn_practice_desc'] == 'ALL PRODUCTION PRACTICES']

De nuevo se repite la misma situación del caso anterior, esta vez en la columna "cass_desc", en este caso aparecen cultivos que tienen el valor de "ALL CLASSES" junto con otras valores. Para estos cultivos se dejaran unicamente el valor de "ALL CLASSES": En las siguientes celdas se muestran algunos ejemplos:

In [39]:
#Ejemplo: 

df[(df['commodity_desc'] == 'CHICKPEAS')].groupby('class_desc')['Value'].sum()

class_desc
ALL CLASSES   2162641.98
LARGE         1308026.09
SMALL          410675.35
Name: Value, dtype: float64

In [40]:
#Ejemplo:

df[(df['commodity_desc'] == 'RICE')].groupby('class_desc')['Value'].sum()

class_desc
ALL CLASSES    75023644.89
LONG GRAIN     42211218.38
MEDIUM GRAIN   14781844.12
SHORT GRAIN     1467593.78
Name: Value, dtype: float64

In [41]:
#Ejemplo:

df[(df['commodity_desc'] == 'WHEAT')].groupby('class_desc')['Value'].sum()

class_desc
ALL CLASSES            1842534143.94
SPRING, (EXCL DURUM)    403241270.98
SPRING, DURUM            81445080.93
WINTER                 1357847792.03
Name: Value, dtype: float64

In [42]:
df = df[~df['class_desc'].str.contains('PIMA|UPLAND|RED SEEDLESS|WHITE SEEDLESS|JUICE TYPE|RAISIN TYPE|TABLE TYPE|WINE TYPE|MID & NAVEL|VALENCIA|CLINGSTONE|FREESTONE|FALL|SPRING|SUMMER|WINTER|LONG GRAIN|MEDIUM GRAIN|SHORT GRAIN|NON-OIL TYPE|OIL TYPE|SPRING, (EXCL DURUM)|SPRING, DURUM|WINTER|BARTLETT|(EXCL BARTLETT)')]

In [43]:
df = df[df['class_desc'] != 'LARGE']
df = df[df['class_desc'] != 'SMALL']

In [44]:
fig = px.line(
    pd.DataFrame(df.groupby('year')['Value'].sum()),
    title='Evolución histórica de la superfice de cultivo'
    )
fig.update_yaxes(title_text='Hectáreas')
fig.update_xaxes(title_text='')
fig.show()  

In [45]:
#Se guarda un dataframe con todas las variables por si es necesario hacer algún tipo de consulta

df.to_excel('../DATOS/archivos creados analisis/TOTAL_SUP.xlsx', index = False)

Como último paso se seleccionan las columnas que son de utiliada para el posterior análisis, se renombra la columna de "Values" y se agrupan los valores por cultivo, estado y año ya que aparecen diferenciadas por la columna "short_desc"

In [46]:
df = df[['commodity_desc', 'state_name', 'year', 'Value']]
df.rename(columns={'Value':'hectare'}, inplace = True)

In [47]:
df = df.groupby(['commodity_desc', 'state_name', 'year'])['hectare'].sum()
df = df.reset_index()

Estos son los datos finales que posteriormente se utilizaran para analizar la evolución histórica que ha tenido la superficie cultivable en los Estados Unidos.

In [48]:
df.to_excel('../DATOS/API_superficie_cultivada/TOTAL/TOTAL.xlsx', index = False)