# Abrir archivo Excel con tabulados de cultivos anuales (INE) y convertir datos

In [1]:
import pandas as pd

In [2]:
filename_excel = 'data/01_CultivosAnualesHistorico-03.04.2017.xls'
sheetname_superficie = 'Serie superficie sembrada'

In [3]:
df = pd.read_excel(filename_excel, sheetname=sheetname_superficie, skiprows=3, skip_footer=17)

In [4]:
df

Unnamed: 0,Cultivo,1979/80,1980/81,1981/82,1982/83,1983/84,1984/85,1985/86,1986/87,1987/88,...,2007/08,2008/09,2009/10,2010/11,2011/2012,1 2012/2013,2013/2014,2014/2015,2015/2016,2016/2017
0,Trigo,545740.0,432160.0,373800.0,359180.0,471320.0,506190.0,569170.0,676560.0,576630.0,...,270546.0,280644.0,264304.0,271415.0,245277.0,253627.0,254857.0,263164.302663,285297.0,225042.0
1,Trigo harinero,,,,,,,,,,...,258100.0,265246.0,246951.0,257060.0,228587.0,238410.0,236122.0,241160.0,257786.0,205189.0
2,Trigo candeal,,,,,,,,,,...,12446.0,15398.0,17353.0,14355.0,16690.0,15217.0,18735.0,22004.0,27511.0,19853.0
3,Avena,92380.0,80110.0,68330.0,84850.0,96250.0,84920.0,63860.0,55510.0,60710.0,...,97936.0,101101.0,75873.0,105643.0,100936.0,126833.0,136339.0,90449.066328,107805.0,136818.0
4,Maíz,116190.0,125530.0,107130.0,117950.0,138370.0,130520.0,104740.0,86680.0,90310.0,...,134706.0,128277.0,122547.0,119819.0,139268.0,142826.0,117418.0,125200.30586,101740.0,94668.0
5,Maíz consumo,,,,,,,,,,...,,,,,110233.0,106347.0,92378.0,117600.138775,92536.0,86421.0
6,Maíz semilla,,,,,,,,,,...,,,,,29035.0,36479.0,25040.0,7600.167085,9204.0,8247.0
7,Arroz,40840.0,31400.0,36960.0,30430.0,39880.0,38520.0,32020.0,37270.0,38900.0,...,20960.0,23680.0,24527.0,25121.0,23991.0,21000.0,22398.0,23714.0,26540.0,20937.0
8,Cebada,48620.0,45960.0,57480.0,38160.0,33150.0,35040.0,22720.0,16370.0,24070.0,...,20623.0,18513.0,16854.0,20184.0,14806.0,13202.0,15677.0,8809.32923,18330.0,13574.0
9,Cebada cervecera,,,,,,,,,,...,13378.0,13852.0,13446.0,17439.0,11411.0,9591.0,12289.0,5800.036288,10268.0,9414.0


In [5]:
# Realiza la desdinamización
df_desdinam = df.melt(id_vars='Cultivo', var_name='Temporada', value_name='Superficie (ha)')

In [6]:
df_desdinam

Unnamed: 0,Cultivo,Temporada,Superficie (ha)
0,Trigo,1979/80,545740.0
1,Trigo harinero,1979/80,
2,Trigo candeal,1979/80,
3,Avena,1979/80,92380.0
4,Maíz,1979/80,116190.0
5,Maíz consumo,1979/80,
6,Maíz semilla,1979/80,
7,Arroz,1979/80,40840.0
8,Cebada,1979/80,48620.0
9,Cebada cervecera,1979/80,


## La Temporada se encuentra como:
* aaaa/aa
* n aaaa/aa
* aaaa/aa n
* aaaa/aaaa

In [7]:
# Para la columna Temporada, reemplaza los espacios por ;
# Facilita verlo en el regex de más adelante
df_desdinam['Temporada'] = df_desdinam['Temporada'].str.replace(' ', ';')

In [8]:
# Bloque de interes 1
df_desdinam[1023:1029]

Unnamed: 0,Cultivo,Temporada,Superficie (ha)
1023,Otros cereales,2005/06,
1024,Otras leguminosas,2005/06,
1025,Total,2005/06,773417.0
1026,Trigo,2006/07;5,232439.880006
1027,Trigo harinero,2006/07;5,221564.430006
1028,Trigo candeal,2006/07;5,10875.45


In [9]:
re_pat = r'(?:\d;)?(.+)(/)(\d{4}|\d{2})?(?:;\d)?' #TODO: Podría ser mejor
df_ntemp = df_desdinam['Temporada'].str.extract(re_pat, expand=True)

In [10]:
# Bloque de interes 1 procesado
df_ntemp[1023:1029]

Unnamed: 0,0,1,2
1023,2005,/,6
1024,2005,/,6
1025,2005,/,6
1026,2006,/,7
1027,2006,/,7
1028,2006,/,7


In [11]:
# Bloque de interes 2
df_ntemp[643:649]

Unnamed: 0,0,1,2
643,1995,/,96
644,1995,/,96
645,1995,/,96
646,1996,/,97
647,1996,/,97
648,1996,/,97


In [12]:
# Muestra los registros unicos del grupo de captura 2
df_ntemp[2].unique()

array(['80', '81', '82', '83', '84', '85', '86', '87', '88', '89', '90',
       '91', '92', '93', '94', '95', '96', '97', '98', '99', '00', '01',
       '02', '03', '04', '05', '06', '07', '08', '09', '10', '11', '2012',
       '2013', '2014', '2015', '2016', '2017'], dtype=object)

In [13]:
# Para los valores 2012 a 2017, con más de dos caracteres, acortamos el numero de la temporada:
df_ntemp[2] = df_ntemp[2].apply(lambda temporada: temporada[-2:] if len(temporada) > 2 else temporada)

In [14]:
# Revisamos (al ojo) si quedó OK
#df_ntemp[2].unique()
for elem in df_ntemp[2].unique():
    if not len(elem) == 2:
        print(elem, 'es más largo que 2 caracteres')

In [15]:
# Cambia el nombre a las columnas
df_ntemp.columns = ['Año', 'Separador', 'Año_fin']

# Concatena las columnas con un separador '/'
# No es la forma más eficiente, pero es más legible
df_ntemp['Nueva_Temporada'] = df_ntemp[['Año', 'Año_fin']].apply(lambda x: '/'.join(x), axis=1)

In [16]:
df_ntemp

Unnamed: 0,Año,Separador,Año_fin,Nueva_Temporada
0,1979,/,80,1979/80
1,1979,/,80,1979/80
2,1979,/,80,1979/80
3,1979,/,80,1979/80
4,1979,/,80,1979/80
5,1979,/,80,1979/80
6,1979,/,80,1979/80
7,1979,/,80,1979/80
8,1979,/,80,1979/80
9,1979,/,80,1979/80


In [17]:
# Junta la columna Año y Nueva_Temporada con el DataFrame desdinamizado
df_desdinam = df_desdinam.join(df_ntemp[['Año', 'Nueva_Temporada']])

In [18]:
df_desdinam

Unnamed: 0,Cultivo,Temporada,Superficie (ha),Año,Nueva_Temporada
0,Trigo,1979/80,545740.0,1979,1979/80
1,Trigo harinero,1979/80,,1979,1979/80
2,Trigo candeal,1979/80,,1979,1979/80
3,Avena,1979/80,92380.0,1979,1979/80
4,Maíz,1979/80,116190.0,1979,1979/80
5,Maíz consumo,1979/80,,1979,1979/80
6,Maíz semilla,1979/80,,1979,1979/80
7,Arroz,1979/80,40840.0,1979,1979/80
8,Cebada,1979/80,48620.0,1979,1979/80
9,Cebada cervecera,1979/80,,1979,1979/80


In [19]:
# Filtrar y remover los valores blancos/nulos (NaN) en Superficie...
df_desdinam = df_desdinam[df_desdinam['Superficie (ha)'].notnull()]

# Resetea el indice a un correlativo (0,1,2...n)
df_desdinam = df_desdinam.reset_index(drop=True)

# Elimina la columna 'Temporada' que contiene las notas al pie
df_desdinam = df_desdinam.drop('Temporada', axis=1)

# Renombrar columna 'Nueva_Temporada'
df_desdinam = df_desdinam.rename(columns = {'Nueva_Temporada': 'Temporada'})

# Convertir 'Temporada' a dato numerico
df_desdinam['Temporada'] = pd.to_numeric(df_desdinam['Temporada'], errors='ignore', downcast='integer')

In [20]:
df_desdinam

Unnamed: 0,Cultivo,Superficie (ha),Año,Temporada
0,Trigo,545740.0,1979,1979/80
1,Avena,92380.0,1979,1979/80
2,Maíz,116190.0,1979,1979/80
3,Arroz,40840.0,1979,1979/80
4,Cebada,48620.0,1979,1979/80
5,Centeno 3,8250.0,1979,1979/80
6,Poroto,110700.0,1979,1979/80
7,Lenteja,52950.0,1979,1979/80
8,Garbanzo,20570.0,1979,1979/80
9,Arveja,18200.0,1979,1979/80


In [21]:
# Guardar a Excel
df_desdinam.to_excel('data/01_data_procesada.xlsx', index_label='Index')