## Analisis exploratorio de datos

### Import de Librerias, carga de datos y funcion para sanitizar los DF

In [1]:
# Librerias necesarias para el desarrollo del proyecto
import os
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots

In [32]:
# Rutas de los datos
path_maiz = '/content/drive/MyDrive/UPSO ML & BD/DatasetGob/maiz-serie-1923-2019-anual.csv'
path_girasol = '/content/drive/MyDrive/UPSO ML & BD/DatasetGob/girasol-anual-1969-2019.csv'
path_trigo = '/content/drive/MyDrive/UPSO ML & BD/DatasetGob/trigo-serie-1923-2020-anual.csv'
path_centeno = '/content/drive/MyDrive/UPSO ML & BD/DatasetGob/centeno-anual-1923-2020.csv'
path_soja = '/content/drive/MyDrive/UPSO ML & BD/DatasetGob/soja-anual-1969-2020.csv'
path_estimacion = '/content/drive/MyDrive/UPSO ML & BD/DatasetGob/estimaciones-agricolas-2023-10-trigo.xlsx'
path_soja_estimacion = '/content/drive/MyDrive/UPSO ML & BD/DatasetGob/estimaciones-agricolas-2023-10.-soja.xlsx'
path_biocombustible = '/content/drive/MyDrive/UPSO ML & BD/DatasetGob/produccion-de-biodiesel-por-planta-de-produccion-.csv'

In [9]:
def sanitizar_dataframe(df):
    """
    Sanitiza el DataFrame eliminando filas con valores NaN y convierte las columnas numéricas al tipo correspondiente.

    Parameters:
    - df (pd.DataFrame): El DataFrame a sanitizar.

    Returns:
    - pd.DataFrame: DataFrame sanitizado.
    """
    for columna in df.columns:
        # Aplica las transformaciones
        if pd.api.types.is_numeric_dtype(df[columna]):
            # Si la columna es de tipo numérico
            df[columna] = pd.to_numeric(df[columna], errors='coerce')
            # Elimina filas con NaN
            df = df.loc[~df[columna].isna()]
            # Convierte la columna al tipo correspondiente
            df[columna] = df[columna].astype(df[columna].dtype)

    return df


### Maiz

In [10]:
df_maiz = pd.read_csv(path_maiz)   #cargar el archivo csv en un df
df_maiz.head()

Unnamed: 0,indice_tiempo,superficie_sembrada_maiz_ha,superficie_cosechada_maiz_ha,produccion_maiz_t,rendimiento_maiz_kgxha
0,1923,3435430,,7030000,
1,1924,3707700,2911768.0,4732235,1625.0
2,1925,4297000,3898912.0,8170000,2096.0
3,1926,4289000,3666650.0,8150000,2223.0
4,1927,4346000,3641826.0,7915000,2173.0


In [11]:
df_maiz.shape

(97, 5)

In [7]:
# Sanitizo el DF porque vi que tenia algunos NaN, asique por buena practica voy a sanitizar cualquier DF antes de usarlo
df_maiz = sanitizar_dataframe(df_maiz)
df_maiz.head()

Unnamed: 0,indice_tiempo,superficie_sembrada_maiz_ha,superficie_cosechada_maiz_ha,produccion_maiz_t,rendimiento_maiz_kgxha
1,1924,3707700,2911768.0,4732235,1625.0
2,1925,4297000,3898912.0,8170000,2096.0
3,1926,4289000,3666650.0,8150000,2223.0
4,1927,4346000,3641826.0,7915000,2173.0
5,1928,4788000,3652577.0,6411529,1755.0


In [8]:
df_maiz.shape

(96, 5)

In [45]:
fig = px.line(df_maiz, x='indice_tiempo',
              y=['superficie_sembrada_maiz_ha', 'superficie_cosechada_maiz_ha', 'produccion_maiz_t'],
              title='Tendencia de Características de maiz por Año',
              labels={'indice_tiempo': 'Año', 'value': 'Valor', 'variable': 'Característica'},
              width=800, height=500,
              color_discrete_map={'superficie_sembrada_maiz_ha': 'blue', 'superficie_cosechada_maiz_ha': 'orange', 'produccion_maiz_t': 'green'})

# Mostrar la figura
fig.show()

In [47]:
# Graficar el rendimiento de maiz por año
fig_rendimiento = px.line(df_maiz, x='indice_tiempo', y='rendimiento_maiz_kgxha',

                           title='Tendencia de Rendimiento de maiz por Año',
                           labels={'indice_tiempo': 'Año', 'rendimiento_maiz_kgxha': 'Rendimiento (kg/ha)'},
                           width=800, height=500, line_shape="linear", render_mode="auto",
                          )


# Mostrar la figura
fig_rendimiento.show()

### Girasol

In [12]:
df_girasol = pd.read_csv(path_girasol)   #cargar el archivo csv en un df
df_girasol = sanitizar_dataframe(df_girasol)
df_girasol.head()

Unnamed: 0,anio,superficie_sembrada_girasol_ha,superficie_cosechada_girasol_ha,produccion_girasol_t,rendimiento_girasol_kgxha
0,1969,1472300,1347400,1140000,846
1,1970,1614200,1313100,830000,632
2,1971,1532700,1286500,828000,644
3,1972,1652400,1337900,880000,658
4,1973,1341900,1189800,970000,815


In [13]:
df_girasol.shape

(51, 5)

In [37]:
fig = px.line(df_girasol, x='anio',
              y=['superficie_sembrada_girasol_ha', 'superficie_cosechada_girasol_ha', 'produccion_girasol_t'],
              title='Tendencia de Características de girasol por Año',
              labels={'anio': 'Año', 'value': 'Valor', 'variable': 'Característica'},
              width=800, height=500,
              color_discrete_map={'superficie_sembrada_girasol_ha': 'blue', 'superficie_cosechada_girasol_ha': 'orange', 'produccion_girasol_t': 'green'})

# Mostrar la figura
fig.show()

### Trigo

In [14]:
df_trigo = pd.read_csv(path_trigo)
df_trigo = sanitizar_dataframe(df_trigo)
df_trigo.head()

Unnamed: 0,indice_tiempo,superficie_sembrada_trigo_ha,superficie_cosechada_trigo_ha,produccion_trigo_t,rendimiento_trigo_kgxha
0,1923,6833343,6778430,6635565,979
1,1924,7200500,6465440,5201979,805
2,1925,6577970,5928650,4093998,691
3,1926,7800000,7669751,6261624,816
4,1927,8372990,8172990,7682990,940


In [15]:
df_trigo.shape

(98, 5)

In [16]:
df_trigo.columns

Index(['indice_tiempo', 'superficie_sembrada_trigo_ha',
       'superficie_cosechada_trigo_ha', 'produccion_trigo_t',
       'rendimiento_trigo_kgxha'],
      dtype='object')

In [18]:
# Agrupar por año y calcular el rendimiento promedio
df_agrupado = df_trigo.groupby('indice_tiempo')['rendimiento_trigo_kgxha'].mean().reset_index()

# Graficar con Plotly Express
fig = px.bar(df_agrupado, x='indice_tiempo', y='rendimiento_trigo_kgxha',
              title='Rendimiento de Trigo por Año',
              labels={'indice_tiempo': 'Año', 'rendimiento_trigo_kgxha': 'Rendimiento (kg/ha)'},
              width=800, height=500)

# Mostrar la figura
fig.show()

In [20]:
fig = px.bar(df_trigo, x='indice_tiempo',
              y=['superficie_sembrada_trigo_ha', 'superficie_cosechada_trigo_ha', 'produccion_trigo_t', 'rendimiento_trigo_kgxha'],
              title='Comparación de Características de Trigo por Año',
              labels={'indice_tiempo': 'Año', 'value': 'Valor', 'variable': 'Característica'},
              width=800, height=500,
              category_orders={'variable': ['superficie_sembrada_trigo_ha', 'superficie_cosechada_trigo_ha', 'produccion_trigo_t', 'rendimiento_trigo_kgxha']},
              color_discrete_map={'superficie_sembrada_trigo_ha': 'blue', 'superficie_cosechada_trigo_ha': 'orange', 'produccion_trigo_t': 'green', 'rendimiento_trigo_kgxha': 'red'})

# Mostrar la figura
fig.show()

In [23]:
fig = px.line(df_trigo, x='indice_tiempo',
              y=['superficie_sembrada_trigo_ha', 'superficie_cosechada_trigo_ha', 'produccion_trigo_t'],
              title='Tendencia de Características de Trigo por Año',
              labels={'indice_tiempo': 'Año', 'value': 'Valor', 'variable': 'Característica'},
              width=800, height=500,
              color_discrete_map={'superficie_sembrada_trigo_ha': 'blue', 'superficie_cosechada_trigo_ha': 'orange', 'produccion_trigo_t': 'green'})

# Mostrar la figura
fig.show()

In [26]:
# Graficar el rendimiento de trigo por año
fig_rendimiento = px.line(df_trigo, x='indice_tiempo', y='rendimiento_trigo_kgxha',

                           title='Tendencia de Rendimiento de Trigo por Año',
                           labels={'indice_tiempo': 'Año', 'rendimiento_trigo_kgxha': 'Rendimiento (kg/ha)'},
                           width=800, height=500, line_shape="linear", render_mode="auto",
                          )


# Mostrar la figura
fig_rendimiento.show()

### Soja

In [33]:
df_soja = pd.read_csv(path_soja)   #cargar el archivo csv en un df
df_soja = sanitizar_dataframe(df_soja)
df_soja.head()

Unnamed: 0,indice_tiempo,superficie_sembrada_soja_ha,superficie_cosechada_soja_ha,produccion_soja_t,rendimiento_soja_kgxha
0,1969,30470,25970,26800,1032
1,1970,37700,36330,59000,1624
2,1971,79800,68000,78000,1147
3,1972,169360,156950,271904,1732
4,1973,376600,344340,495880,1440


In [34]:
fig = px.line(df_soja, x='indice_tiempo',
              y=['superficie_sembrada_soja_ha', 'superficie_cosechada_soja_ha', 'produccion_soja_t'],
              title='Tendencia de Características de soja por Año',
              labels={'indice_tiempo': 'Año', 'value': 'Valor', 'variable': 'Característica'},
              width=800, height=500,
              color_discrete_map={'superficie_sembrada_soja_ha': 'blue', 'superficie_cosechada_soja_ha': 'orange', 'produccion_soja_t': 'green'})
fig.show()

In [35]:
# Graficar el rendimiento de trigo por año
fig_rendimiento = px.line(df_soja, x='indice_tiempo', y='rendimiento_soja_kgxha',

                           title='Tendencia de Rendimiento de soja por Año',
                           labels={'indice_tiempo': 'Año', 'rendimiento_soja_kgxha': 'Rendimiento (kg/ha)'},
                           width=800, height=500, line_shape="linear", render_mode="auto",
                          )


# Mostrar la figura
fig_rendimiento.show()

### Centeno

In [40]:
df_centeno = pd.read_csv(path_centeno)
df_centeno = sanitizar_dataframe(df_centeno)
df_centeno.head()

Unnamed: 0,indice_tiempo,superficie_sembrada_centeno_ha,superficie_cosechada_centeno_ha,produccion_centeno_t,rendimiento_centeno_kgxha
0,1923,157510,152652,97876.0,641
1,1924,156000,65471,37020.0,565
2,1925,202590,144092,121163.0,841
3,1926,220100,197095,142120.0,721
4,1927,339800,268663,207505.0,772


In [41]:
df_centeno.shape

(98, 5)

In [42]:
fig = px.line(df_centeno, x='indice_tiempo',
              y=['superficie_sembrada_centeno_ha', 'superficie_cosechada_centeno_ha', 'produccion_centeno_t'],
              title='Tendencia de Características de centeno por Año',
              labels={'indice_tiempo': 'Año', 'value': 'Valor', 'variable': 'Característica'},
              width=800, height=500,
              color_discrete_map={'superficie_sembrada_centeno_ha': 'blue', 'superficie_cosechada_centeno_ha': 'orange', 'produccion_centeno_t': 'green'})

# Mostrar la figura
fig.show()

In [44]:
# Graficar el rendimiento de trigo por año
fig_rendimiento = px.line(df_centeno, x='indice_tiempo', y='rendimiento_centeno_kgxha',

                           title='Tendencia de Rendimiento de centeno por Año',
                           labels={'indice_tiempo': 'Año', 'rendimiento_centeno_kgxha': 'Rendimiento (kg/ha)'},
                           width=800, height=500, line_shape="linear", render_mode="auto",
                          )


# Mostrar la figura
fig_rendimiento.show()

### Biocombustible

In [None]:
df_biocombustible = pd.read_csv(path_biocombustible)
df_biocombustible.head()

Unnamed: 0,id_cod_pais,id_ nom_pais,año,mes,id_uni_med,id_nom_med,grande,grande no integrada,mediana,pequeña
0,32,Argentina,2014,Enero,t,toneladas,86639,3545,44409,5879
1,32,Argentina,2014,Febrero,t,toneladas,100526,7885,21999,2179
2,32,Argentina,2014,Marzo,t,toneladas,81779,963,36880,1572
3,32,Argentina,2014,Abril,t,toneladas,74163,20169,45902,2236
4,32,Argentina,2014,Mayo,t,toneladas,144216,22853,57941,4292


In [None]:
df_biocombustible.shape

(65, 10)

### ESTIMACIONES AGRICOLAS

In [None]:
df_estimacion = pd.read_excel(path_estimacion)
df_estimacion.head()

Unnamed: 0,"id_provincia,provincia,id_departamento,departamento,id_cultivo,cultivo,id_campania,campania,sup_sembrada,sup_cosechada,produccion ,rendimiento"
0,"6,Buenos Aires,854,25 de Mayo,1,Ajo,1,1969/197..."
1,"6,Buenos Aires,14,Adolfo Gonzales Chaves,1,Ajo..."
2,"6,Buenos Aires,21,Alberti,1,Ajo,1,1969/1970,5,..."
3,"6,Buenos Aires,28,Almirante Brown,1,Ajo,1,1969..."
4,"6,Buenos Aires,77,Arrecifes,1,Ajo,1,1969/1970,..."


In [None]:
def organizar_datos(dataframe):
    # Divide la columna combinada en varias columnas
    columnas_separadas = dataframe[
        'id_provincia,provincia,id_departamento,departamento,id_cultivo,cultivo,id_campania,campania,sup_sembrada,sup_cosechada,produccion ,rendimiento'].str.split(',', expand=True)

    # Asigna los nombres de las columnas al DataFrame resultante
    columnas_separadas.columns = [
        'id_provincia', 'provincia', 'id_departamento', 'departamento', 'id_cultivo', 'cultivo', 'id_campania', 'campania', 'sup_sembrada', 'sup_cosechada', 'produccion', 'rendimiento']

    # Combina el DataFrame original con las nuevas columnas
    dataframe = pd.concat([dataframe, columnas_separadas], axis=1)

    # Elimina la columna combinada original
    dataframe.drop('id_provincia,provincia,id_departamento,departamento,id_cultivo,cultivo,id_campania,campania,sup_sembrada,sup_cosechada,produccion ,rendimiento', axis=1, inplace=True)

    return dataframe

df = pd.DataFrame(df_estimacion)

# Llama a la función para organizar los datos
df_organizado = organizar_datos(df)

# Muestra el DataFrame resultante
df_organizado

Unnamed: 0,id_provincia,provincia,id_departamento,departamento,id_cultivo,cultivo,id_campania,campania,sup_sembrada,sup_cosechada,produccion,rendimiento
0,6,Buenos Aires,854,25 de Mayo,1,Ajo,1,1969/1970,3,3,10,3333
1,6,Buenos Aires,14,Adolfo Gonzales Chaves,1,Ajo,1,1969/1970,15,15,82,5467
2,6,Buenos Aires,21,Alberti,1,Ajo,1,1969/1970,5,5,7,1400
3,6,Buenos Aires,28,Almirante Brown,1,Ajo,1,1969/1970,2,2,8,4000
4,6,Buenos Aires,77,Arrecifes,1,Ajo,1,1969/1970,6,6,15,2500
...,...,...,...,...,...,...,...,...,...,...,...,...
153884,90,Tucuman,49,La Cocha,28,Trigo total,53,2022/2023,11880,10440,7308,700
153885,90,Tucuman,56,Leales,28,Trigo total,53,2022/2023,15300,14325,8595,600
153886,90,Tucuman,63,Lules,28,Trigo total,53,2022/2023,300,300,330,1100
153887,90,Tucuman,91,Simoca,28,Trigo total,53,2022/2023,200,200,200,1000


In [None]:
df_organizado.shape

(153889, 12)

In [None]:
columnas_selec = ['id_provincia', 'provincia', 'id_cultivo', 'cultivo', 'sup_sembrada', 'sup_cosechada', 'produccion', 'rendimiento']

nuevo_df = df_organizado[columnas_selec]

# Muestra el nuevo DataFrame
nuevo_df

Unnamed: 0,id_provincia,provincia,id_cultivo,cultivo,sup_sembrada,sup_cosechada,produccion,rendimiento
0,6,Buenos Aires,1,Ajo,3,3,10,3333
1,6,Buenos Aires,1,Ajo,15,15,82,5467
2,6,Buenos Aires,1,Ajo,5,5,7,1400
3,6,Buenos Aires,1,Ajo,2,2,8,4000
4,6,Buenos Aires,1,Ajo,6,6,15,2500
...,...,...,...,...,...,...,...,...
153884,90,Tucuman,28,Trigo total,11880,10440,7308,700
153885,90,Tucuman,28,Trigo total,15300,14325,8595,600
153886,90,Tucuman,28,Trigo total,300,300,330,1100
153887,90,Tucuman,28,Trigo total,200,200,200,1000


In [None]:
df_new = df_organizado[['rendimiento', 'provincia','cultivo']]
df_new

Unnamed: 0,rendimiento,provincia,cultivo
0,3333,Buenos Aires,Ajo
1,5467,Buenos Aires,Ajo
2,1400,Buenos Aires,Ajo
3,4000,Buenos Aires,Ajo
4,2500,Buenos Aires,Ajo
...,...,...,...
153884,700,Tucuman,Trigo total
153885,600,Tucuman,Trigo total
153886,1100,Tucuman,Trigo total
153887,1000,Tucuman,Trigo total
