# Evaluaciones agropecuarias

Base histórica de los años 2019 a 2023, relacionada con la producción agrícola nacional. Además, brinda a los diversos actores, con especial énfasis en los productores, información agrícola regional y nacional que fortalece procesos productivos y de comercialización.

![image.png](attachment:image.png)

In [30]:
#importaciones
import pandas as pd
path_actual = '../Datos/Actual/Base_agricola.xlsx'

df = pd.read_excel(path_actual,sheet_name='BasePagina' , header=6)
df.head().T

Unnamed: 0,0,1,2,3,4
Código Dane departamento,5,5,5,5,5
Departamento,Antioquia,Antioquia,Antioquia,Antioquia,Antioquia
Código Dane municipio,5001,5001,5001,5001,5001
Municipio,Medellín,Medellín,Medellín,Medellín,Medellín
Desagregación cultivo,Aguacate demás variedades,Aguacate demás variedades,Aguacate demás variedades,Aguacate demás variedades,Aguacate demás variedades
Cultivo,Aguacate,Aguacate,Aguacate,Aguacate,Aguacate
Ciclo del cultivo,Permanente,Permanente,Permanente,Permanente,Permanente
Grupo cultivo,Frutales,Frutales,Frutales,Frutales,Frutales
Subgrupo,Demás frutales,Demás frutales,Demás frutales,Demás frutales,Demás frutales
Año,2019,2020,2021,2022,2023


In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 115572 entries, 0 to 115571
Data columns (total 18 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   Código Dane departamento       115572 non-null  int64  
 1   Departamento                   115572 non-null  object 
 2   Código Dane municipio          115572 non-null  int64  
 3   Municipio                      115572 non-null  object 
 4   Desagregación cultivo          115572 non-null  object 
 5   Cultivo                        115572 non-null  object 
 6   Ciclo del cultivo              115572 non-null  object 
 7   Grupo cultivo                  115572 non-null  object 
 8   Subgrupo                       115572 non-null  object 
 9   Año                            115572 non-null  int64  
 10  Periodo                        115572 non-null  object 
 11  Área sembrada (ha)             115572 non-null  float64
 12  Área cosechada (ha)           

## Renombre de variables

Se cambio el nombre de las columnas para que estas fueran mas especificas, bajo las normas de pascal case

In [32]:
df.rename(columns={
    'Código Dane departamento':'codDaneDpto'
    ,'Departamento':'Dpto'
    ,'Código Dane municipio':'codDaneMunicipio'
    ,'Municipio':'Municipio'
    ,'Desagregación cultivo':'desagregacionCultivo'
    ,'Cultivo':'Cultivo'
    ,'Ciclo del cultivo':'cicloDelCultivo'
    ,'Grupo cultivo':'grupoCultivo'
    ,'Subgrupo':'Subgrupo'
    ,'Año':'Anio'
    ,'periodo':'periodoSemestre'
    ,'Área sembrada (ha)':'areaSembradaHa'
    ,'Área cosechada (ha)':'areaCosechadaHa'
    ,'Producción (t)':'produccionTon'
    ,'Rendimiento (t/ha)':'rendimientoTonHa'
    ,'Código del cultivo':'codCultivo'
    ,'Nombre científico del cultivo':'nombreCientificoCultivo'
    ,'Estado físico del cultivo':'estadoFisicoCultivo'
    },
    inplace=True
    )
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 115572 entries, 0 to 115571
Data columns (total 18 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   codDaneDpto              115572 non-null  int64  
 1   Dpto                     115572 non-null  object 
 2   codDaneMunicipio         115572 non-null  int64  
 3   Municipio                115572 non-null  object 
 4   desagregacionCultivo     115572 non-null  object 
 5   Cultivo                  115572 non-null  object 
 6   cicloDelCultivo          115572 non-null  object 
 7   grupoCultivo             115572 non-null  object 
 8   Subgrupo                 115572 non-null  object 
 9   Anio                     115572 non-null  int64  
 10  Periodo                  115572 non-null  object 
 11  areaSembradaHa           115572 non-null  float64
 12  areaCosechadaHa          115572 non-null  float64
 13  produccionTon            115572 non-null  float64
 14  rend

In [33]:
df['Dpto'].value_counts()

Boyacá                                                      12265
Cundinamarca                                                10831
Antioquia                                                   10652
Santander                                                    9010
Huila                                                        8290
Nariño                                                       7931
Valle del Cauca                                              7465
Cauca                                                        5188
Norte de Santander                                           4957
Tolima                                                       4626
Bolívar                                                      3306
Magdalena                                                    2994
Cesar                                                        2951
Meta                                                         2885
Córdoba                                                      2859
Caldas    

## Tratamiento de datos faltantes y nulos

In [34]:
df.isnull().sum()

codDaneDpto                0
Dpto                       0
codDaneMunicipio           0
Municipio                  0
desagregacionCultivo       0
Cultivo                    0
cicloDelCultivo            0
grupoCultivo               0
Subgrupo                   0
Anio                       0
Periodo                    0
areaSembradaHa             0
areaCosechadaHa            0
produccionTon              0
rendimientoTonHa           0
nombreCientificoCultivo    0
codCultivo                 0
estadoFisicoCultivo        0
dtype: int64

Dado que una de las variables mas relaventes en esta investigación son las dependencias de tiempo se vio la necesidad de se realiza un cambio de los registros 'Periodo' por su valor alfabetico correspondiente al semestre del año
* A = Primer semestre
* B = Segundo semestre
* C = año completo 

esto con el fin de poder indentifcar los periodos por año mas productivos.

In [35]:
diccionario_periodo = {
     '2019':'C'
    ,'2020':'C'
    ,'2021':'C'
    ,'2022':'C'
    ,'2023':'C'
    ,'2019A':'A'
    ,'2020A':'A'
    ,'2021A':'A'
    ,'2022A':'A'
    ,'2023A':'A'
    ,'2019B':'B'
    ,'2020B':'B'
    ,'2021B':'B'
    ,'2022B':'B'
    ,'2023B':'B'
}
df[['Anio','Periodo']].head(10)

Unnamed: 0,Anio,Periodo
0,2019,2019
1,2020,2020
2,2021,2021
3,2022,2022
4,2023,2023
5,2020,2020
6,2021,2021
7,2022,2022
8,2023,2023
9,2022,2022A


In [36]:
df['Periodo'] = df['Periodo'].map(diccionario_periodo)
row_writter = len(df.index)
df[['Anio','Periodo']].tail(3)

Unnamed: 0,Anio,Periodo
115569,2021,A
115570,2022,A
115571,2023,A


In [39]:
path_procces = '../Datos/Procesados/Base_Agricola.csv'
df_Boyaca = df[df['Dpto']=='Boyacá']
row_writter = len(df_Boyaca.index)
df_Boyaca.to_csv(path_procces ,sep=';', index=False)
print(f'Se guardaron {row_writter} registros en la ruta {path_procces}')

Se guardaron 12265 registros en la ruta ../Datos/Procesados/Base_Agricola.csv
