In [None]:
#importo librerias
import pandas as pd
import numpy as np
import os
import glob

In [None]:
#Cargo archivo de producción de http://datosestimaciones.magyp.gob.ar/
prod = pd.read_csv("./Data/Produccion/Estimaciones.csv",sep=';',encoding='latin-1')

In [None]:
#Cargo datos de SIOGRANOS https://www.siogranos.com.ar/Consulta_publica/operaciones_informadas_exportar.aspx
#La descarga de datos solo habilita cada 90 días, asique hay un csv por c/trimestre desde el 2015 al 2019
path = r'./Data/Siogranos' 
all_files = glob.glob(path + "/*.csv")
li = []

for filename in all_files:
    df = pd.read_csv(filename, index_col=None, sep=";",encoding='UTF-8', header=0,error_bad_lines=False,warn_bad_lines=True)
    li.append(df)

Sio2019 = pd.concat(li, axis=0, ignore_index=True)

Sio2019.to_csv('./Data/Output/FullSiogranos.csv', encoding='utf-8')

del all_files, li, path

In [None]:
# Pre-Procesamiento de Producción

#selecciono los granos que me interesan
prod = prod.loc[(prod.Cultivo == 'Maíz') | (prod.Cultivo == 'Soja total') | (prod.Cultivo == 'Trigo total')]

#De la columna campaña le saco el "20" de adelante
prod['Campana'] = prod['Campana'].map(lambda x: x.lstrip('20'))

#Selecciono las columnas a utilizar
prod = prod[['Provincia',"Cultivo","Campana","Sup. Sembrada (Ha)","Sup. Cosechada (Ha)","Producción (Tn)"]]

#Agrupo por provincia, cultivo, campana
#sumarizo "Sup. Sembrada (Ha)","Sup. Cosechada (Ha)","Producción (Tn)"
prod = prod.groupby(['Provincia',"Cultivo","Campana"]).agg({"Sup. Sembrada (Ha)":'sum',"Sup. Cosechada (Ha)":'sum',"Producción (Tn)":'sum'}).reset_index()

#Genero columna area perdida
prod['Sup. Perdida (Ha)'] = prod["Sup. Sembrada (Ha)"] - prod["Sup. Cosechada (Ha)"]

#Genero columna % area perdida/area sembrada
prod["Porc. Sup. Perdida"] = prod['Sup. Perdida (Ha)']/prod["Sup. Sembrada (Ha)"]*100

#Defino problemas climaticos como % > 20
prod["Estres Climatico"] = np.where((prod["Porc. Sup. Perdida"] >= 20), True, False)

#Si hay nulos, dropeo las filas
if prod.shape == pd.notnull(prod).shape:
    print("no hay nulos")
else:
    print("hay nulos, dropeo las filas con NA")
    prod.dropna(inplace = True) 

#Genero campo Año con los ultimos números de la campaña
nuevo = prod['Campana'].str.split("/",expand = True)
prod["Ano"]= nuevo[1]
del nuevo
#Le agrego 20 adelante a cada Año
prod['Ano'] = "20" + prod['Ano']

#Renombro las columnas: estres climatico y produccion
prod = prod.rename(columns={'Producción (Tn)': 'ProdTns', 'Estres Climatico': 'EstresClimatico'})

#Re-inicio el índice
prod = prod.reset_index(drop = True)

#Cambio de tipos de las columnas
prod = prod.astype({"Provincia": str, "Cultivo": str, "Campana": str, "Ano": int})

#Saco las columnas que no voy a usar
del prod['Campana'],prod['Sup. Sembrada (Ha)'],prod['Sup. Cosechada (Ha)'],prod['Sup. Perdida (Ha)'],prod['Porc. Sup. Perdida']

In [None]:
# Pre-Procesamiento de SIO-GRANOS (parte 1)

#Paso el producto trigo candeal y pan a trigo total
Sio2019.loc[Sio2019.PRODUCTO == 'TRIGO CAND.', 'PRODUCTO'] = "Trigo total"
Sio2019.loc[Sio2019.PRODUCTO == 'TRIGO PAN', 'PRODUCTO'] = "Trigo total"

#Unifico los maiz y soja con los nombres del dato de producción
Sio2019.loc[Sio2019.PRODUCTO == 'MAIZ', 'PRODUCTO'] = "Maíz"
Sio2019.loc[Sio2019.PRODUCTO == 'SOJA', 'PRODUCTO'] = "Soja total"

#Renombro columna Producto = Cultivo
Sio2019 = Sio2019.rename(columns={'PRODUCTO': 'Cultivo'})

#Filtro por los Cultivos deseados
Sio2019 = Sio2019.loc[(Sio2019.Cultivo == 'Maíz') | (Sio2019.Cultivo == 'Soja total') | (Sio2019.Cultivo == 'Trigo total')]

#Filtro por tipo = Compraventa
Sio2019 = Sio2019.loc[(Sio2019.TIPO == "Compraventa")]

#Filtro Operacion = contrato, anulacion, ampliacion
Sio2019 = Sio2019.loc[Sio2019.OPERACION.isin(["Contrato","Ampliación","Anulación"])]

#Renombrar columnas importantes para el join
Sio2019 = Sio2019.rename(columns={'COSECHA': 'Campana','PROCEDENCIA PCIA': 'Provincia', "PROCEDENCIA LOCALID.": "Departamento"})

#Generar columna Mes y Ano
#Asigno al mayor mes de ambos y el año del 'FECHA ENTR. DESDE'
fecha1 = Sio2019['FECHA ENTR. DESDE'].str.split("/",expand = True)
fecha2 = Sio2019['FECHA ENTR. HASTA'].str.split("/",expand = True)
Sio2019["Mes"]= pd.concat([fecha1[1], fecha2[1]], axis=1).max(axis=1)
ano = fecha1[2].str.split(" ",expand=True)
Sio2019["Ano"]= ano[0]
del fecha1, fecha2, ano

#Modifico "LUGAR ENTREGA": Saco origen y destino al final, ya que esta la columna "ES FINAL"
entrega = Sio2019['LUGAR ENTREGA'].str.split("/",expand = True)
Sio2019["LUGAR ENTREGA"]= entrega[0]
del entrega

#Selecciono columnas deseadas
Sio2019 = Sio2019[["OPERACION",'Provincia','Departamento',"Cultivo","Campana",'CANT. (TN)','LUGAR ENTREGA','ES FINAL','Mes','Ano']]

#Dropeo nulos
Sio2019.dropna(inplace = True)

# Reemplazo la "," por "." en la columna "CANT. (TN)"
Sio2019["CANT. (TN)"] = Sio2019["CANT. (TN)"].str.replace(",",".")

#Reemplazo en la columna ES FINAL: SI por True y NO por False
Sio2019["ES FINAL"] = Sio2019["ES FINAL"].replace({'SI': True, 'NO': False})

#Cambio de tipo de datos de las columnas
Sio2019 = Sio2019.astype({"OPERACION": str,"Provincia": str, "Departamento": str, "Cultivo": str, "Campana": str, "CANT. (TN)": float, "LUGAR ENTREGA": str, "ES FINAL": bool, "Mes": int, "Ano": int})

#Renombro columnas
Sio2019 = Sio2019.rename(columns={'OPERACION': 'Operacion', "CANT. (TN)": "CantTn", "LUGAR ENTREGA": "LugarEntrega", "ES FINAL": "EsFinal"})

#Remuevo acentos de la provincia para el join
Sio2019['Provincia'] = Sio2019['Provincia'].str.normalize('NFKD')\
                       .str.encode('ascii', errors='ignore')\
                       .str.decode('utf-8')


In [None]:
# Pre-Procesamiento SIO-GRANOS (Parte 2)

#Particionar la data en 2: es final y no es final
Sio2019Final = Sio2019.loc[Sio2019.EsFinal == True]
Sio2019NoFinal = Sio2019.loc[Sio2019.EsFinal == False]

#Mensualizo las cantidades segun tipo de operacion, provincia, cultivo, lugarentrega, mes y año.
Sio2019Final = Sio2019Final.groupby(["Operacion","Provincia","Cultivo","LugarEntrega",'Mes','Ano']).agg({'CantTn':'sum'}).reset_index()
Sio2019NoFinal = Sio2019NoFinal.groupby(["Operacion","Provincia","Cultivo","LugarEntrega",'Mes','Ano']).agg({'CantTn':'sum'}).reset_index()

#Según el tipo de operacion y si es final o no
#Tomo columna CantTn de Contratos, le resto Anulación y le sumo Ampliación
#Aca se podría hacer un loop, para final o no final!!!!
    #Datos de destino final
FinalAnul = Sio2019Final.loc[Sio2019Final.Operacion == "Anulación"]
FinalAnul = FinalAnul.iloc[:,1:]
FinalCont = Sio2019Final.loc[Sio2019Final.Operacion == "Contrato"]
FinalCont = FinalCont.iloc[:,1:]
FinalAmp = Sio2019Final.loc[Sio2019Final.Operacion == "Ampliación"]
FinalAmp = FinalAmp.iloc[:,1:]

    #Merge entre los distintas operaciones
Sio2019Final = pd.merge(FinalCont, FinalAnul,how='outer', on=['Provincia', 'Cultivo', 'LugarEntrega', 'Mes', 'Ano'])
Sio2019Final = pd.merge(Sio2019Final, FinalAmp,how='outer', on=['Provincia', 'Cultivo', 'LugarEntrega', 'Mes', 'Ano'])

    #Reemplazo NaN por 0 en CantTn_x, CantTn_y, CantTn
Sio2019Final["CantTn_x"].fillna(0, inplace=True)
Sio2019Final["CantTn_y"].fillna(0, inplace=True)
Sio2019Final["CantTn"].fillna(0, inplace=True)

    #Creo nueva columna CantTn(Cont) - CantTn(Anul) + CantTn(Amp)
Sio2019Final["CantTns"] = Sio2019Final["CantTn_x"] - Sio2019Final["CantTn_y"] + Sio2019Final["CantTn"]

    #Elimino las columnas no deseadas y lo generado extra
del Sio2019Final["CantTn_x"], Sio2019Final["CantTn_y"], Sio2019Final["CantTn"], FinalAmp, FinalCont, FinalAnul

    #Vuelvo a hacer el group by y sumarizo CantTns
Sio2019Final = Sio2019Final.groupby(["Provincia","Cultivo","LugarEntrega",'Mes','Ano']).agg({'CantTns':'sum'}).reset_index()

    #Repito lo mismo para NoFinal
    #Datos destino no final
NoFinalAnul = Sio2019NoFinal.loc[Sio2019NoFinal.Operacion == "Anulación"]
NoFinalAnul = NoFinalAnul.iloc[:,1:]
NoFinalCont = Sio2019NoFinal.loc[Sio2019NoFinal.Operacion == "Contrato"]
NoFinalCont = NoFinalCont.iloc[:,1:]
NoFinalAmp = Sio2019NoFinal.loc[Sio2019NoFinal.Operacion == "Ampliación"]
NoFinalAmp = NoFinalAmp.iloc[:,1:]

    #Merge entre los distintas operaciones
Sio2019NoFinal = pd.merge(NoFinalCont, NoFinalAnul,how='outer', on=['Provincia', 'Cultivo', 'LugarEntrega', 'Mes', 'Ano'])
Sio2019NoFinal = pd.merge(Sio2019NoFinal, NoFinalAmp,how='outer', on=['Provincia', 'Cultivo', 'LugarEntrega', 'Mes', 'Ano'])

    #Reemplazo NaN por 0 en CantTn_x, CantTn_y, CantTn
Sio2019NoFinal["CantTn_x"].fillna(0, inplace=True)
Sio2019NoFinal["CantTn_y"].fillna(0, inplace=True)
Sio2019NoFinal["CantTn"].fillna(0, inplace=True)

    #Creo nueva columna CantTn(Cont) - CantTn(Anul) + CantTn(Amp)
Sio2019NoFinal["CantTns"] = Sio2019NoFinal["CantTn_x"] - Sio2019NoFinal["CantTn_y"] + Sio2019NoFinal["CantTn"]

    #Elimino las columnas no deseadas y lo generado extra
del Sio2019NoFinal["CantTn_x"], Sio2019NoFinal["CantTn_y"], Sio2019NoFinal["CantTn"], NoFinalAmp, NoFinalCont, NoFinalAnul

    #Vuelvo a hacer el group by y sumarizo CantTns
Sio2019NoFinal = Sio2019NoFinal.groupby(["Provincia","Cultivo","LugarEntrega",'Mes','Ano']).agg({'CantTns':'sum'}).reset_index()

#Agregar columna EsFinal a ambos Final y NoFinal
Sio2019Final["EsFinal"] = True
Sio2019NoFinal["EsFinal"] = False

#Junto Sio2019Final y Sio2019NoFinal en Sio2019
Sio2019 = pd.concat([Sio2019Final, Sio2019NoFinal])
del Sio2019Final, Sio2019NoFinal

#Agrego las columnas EleccionesNac y EleccionesPre como True/False según que año se comercializa.
EleccionesNac = ["2015", "2017", "2019"]
EleccionesPre = ["2015","2019"]
Sio2019["EleccionesNac"] = Sio2019["Ano"].isin(EleccionesNac)
Sio2019["EleccionesPre"] = Sio2019["Ano"].isin(EleccionesPre)
del EleccionesNac, EleccionesPre

#Dropeo datos con CantTns <=0
Sio2019.drop(Sio2019[Sio2019.CantTns <= 0].index, inplace=True)

In [None]:
#Merge de ambos datos: Prod y Sio2019 en Sio2019
#Hago la unión por Provincia, Cultivo y Año
Sio2019 = pd.merge(Sio2019, prod,how='left', on=['Provincia', 'Cultivo', 'Ano'])

# Cambio los NaN por Falso en estresClimatico
Sio2019["EstresClimatico"].fillna(False, inplace=True)

# Cambio los Nan por 0 en produccion
Sio2019["ProdTns"].fillna(0, inplace=True)

#saco acento a maíz
Sio2019['Cultivo'] = Sio2019['Cultivo'].str.normalize('NFKD')\
                       .str.encode('ascii', errors='ignore')\
                       .str.decode('utf-8')
del prod

In [None]:
#Cargo datos del destino de entrega
#https://www.siogranos.com.ar/Consulta_publica/consulta_localidad_zona.aspx

zonas = pd.read_csv("./Data/Zonas/zonas.csv",sep=';',encoding='utf-8')

#Cambio los nombres de las columnas
# PROVINCIA por LugarEntregaProvincias 
# ZONA por 'LugarEntrega'
zonas = zonas.rename(columns={'PROVINCIA': 'LugarEntregaProvincias', "ZONA": "LugarEntrega"})

#Saco los de LugarEntregaProvincias
zonas['LugarEntregaProvincias'] = zonas['LugarEntregaProvincias'].str.normalize('NFKD')\
                       .str.encode('ascii', errors='ignore')\
                       .str.decode('utf-8')

#group by zona y sumo los strngs de provincia
zonas = zonas.groupby(["LugarEntrega"])['LugarEntregaProvincias'].unique()
zonas = zonas.to_frame()
zonas.reset_index(level=0, inplace=True)

In [None]:
#Join con data por LugarEntrega y paso todas las prov
data = pd.merge(Sio2019, zonas,how='left', on=['LugarEntrega'])

#Genero columna "DestinoMismaProv" TRUE/FALSE si Provincia isin LugarEntregaProvincia
def find_value_column(row):
    return row.Provincia in row.LugarEntregaProvincias

data["MismaProvDestino"] = data.apply(find_value_column, axis=1)

#Selecciono columnas deseadas
del data['Unnamed: 0'], data['LugarEntregaProvincias'], Sio2019

#Genero csv en carpeta Output
data.to_csv('./Data/Output/data.csv', encoding='utf-8')