
# Clase 2: ejercicios prácticos resueltos

In [None]:
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt

plt.style.use('ggplot')
%matplotlib inline

## Parámetros y extracción de datos

In [None]:
ESTIMACIONES_URL_S3 = "estimaciones_agricolas.zip"
ESTIMACIONES_PATH = "estimaciones-agricolas.csv"

In [None]:
converters = {
    "id_provincia": lambda x: str(x).zfill(2),
    "id_departamento": lambda x: str(x).zfill(3),
}

#estimaciones = pd.read_csv(ESTIMACIONES_URL, encoding="latin1", converters=converters)estimaciones = pd.read_csv(ESTIMACIONES_URL, encoding="latin1", converters=converters)
estimaciones = pd.read_csv(ESTIMACIONES_URL_S3, encoding="utf8", converters=converters)
#estimaciones.to_csv(ESTIMACIONES_PATH, encoding="utf8", index=False)
#estimaciones = pd.read_csv(ESTIMACIONES_PATH, converters=converters)

## Ejercicio 1 

Explorar descriptivamente el dataset de estimaciones agrícolas (https://datos.gob.ar/dataset/agroindustria-agricultura---estimaciones-agricolas) usando los elementos aprendidos en la clase 2, respondiendo las siguientes preguntas o mostrando:

* ¿Cuál es la producción total en toneladas estimada de todos los cultivos en la Argentina, cada año?
* ¿Cómo se distribuye el rendimiento (kg por hectárea) estimado promedio del cultivo de soja entre los departamentos que la siembran? ¿Qué tipo de distribución probabilística tiene? ¿Cuál es (y en qué departamento está) el rendimiento mínimo, mediano y máximo? ¿Cuál es el rendimiento promedio? ¿Hay valores potencialmente anómalos?
* Generá una tabla donde cada cultivo sea una columna, cada fila un año (una campaña) y los valores sean la producción total.

In [None]:
estimaciones.head()

In [None]:
estimaciones.columns

Algunos campos tienen espacios al final, es mejor tener nombres de campos sin espacios.

In [None]:
estimaciones.columns = [col.strip() for col in estimaciones.columns]

### Producción total anual 

In [None]:
estimaciones[["campania_inicio","campania_fin"]] = estimaciones.campaña.str.split("/", n=1,expand=True)

In [None]:
estimaciones["campania_inicio"] = estimaciones["campania_inicio"].astype(int)
estimaciones["campania_fin"] = estimaciones["campania_fin"].astype(int)

In [None]:
# pasamos los valores a millones
estimaciones["produccion"] = estimaciones.produccion.astype(float) / 1000000

In [None]:
produccion_anual = estimaciones.pivot_table(
    index="campania_fin",
    values="produccion",
    aggfunc="sum"
)

In [None]:
produccion_anual.tail()

In [None]:
produccion_anual.plot(
    figsize=(17, 8),
    title="Producción agrícola total anual (tn)"
)

¿Está bien ese pico en la campaña 2016/2017? Hay que buscar algún control. https://www.invenomica.com.ar/desempeno-de-la-cosecha-agricola-argentina-2017-2018/ Parece que los datos de 2016/2017 están duplicados! Busquemos cuál es el error en el dataset.

In [None]:
estimaciones[estimaciones.campaña == "2016/2017"].produccion.sum()

En realidad los datos de la campaña 2016/2017 parecen estar bien... el problema se da cuando sumamos por el el año de fin de campaña y 2017 aparece duplicado. Tal vez haya un error en los rótulos de las campañas.

In [None]:
estimaciones[["campaña", "campania_fin"]][
    estimaciones.campania_fin > 2000
].drop_duplicates().sort_values("campania_fin")

Parece que la campaña 2010/2011 está incorrectamente rotulada como 2010/2017. Antes de seguir adelante, hay que hacer esa corrección.

In [None]:
estimaciones["campaña"] = estimaciones.campaña.str.replace("2010/2017", "2010/2011")

estimaciones[["campania_inicio","campania_fin"]] = estimaciones.campaña.str.split("/", n=1,expand=True)
estimaciones["campania_inicio"] = estimaciones["campania_inicio"].astype(int)
estimaciones["campania_fin"] = estimaciones["campania_fin"].astype(int)

In [None]:
produccion_anual = estimaciones.pivot_table(
    index="campania_fin",
    values="produccion",
    aggfunc="sum"
)

In [None]:
produccion_anual.plot(
    figsize=(17, 8),
    title="Producción agrícola total anual (tn)"
)

In [None]:
produccion_anual.tail()

La camapaña 2018/2019 está incompleta (el dataset fue actualizado en septiembre de 2019 por última vez) así que también debemos excluirla.

In [None]:
estimaciones = estimaciones[estimaciones.campaña != "2018/2019"]

##  Rendimiento promedio de la soja por departamento

In [None]:
estimaciones.cultivo.unique()

Ya que nos piden hacer una comparación de rendimientos de la soja entre departamentos, nos conviene realizar los filtros al principio y quedarnos con la muestra que nos interesa en una sola variable.

In [None]:
estimaciones_soja = estimaciones[
    (estimaciones.cultivo == "Soja total") &
    (estimaciones.campaña == "2017/2018")
]

In [None]:
len(estimaciones_soja.departamento.unique())

Hay 234 departamentos que producen Soja, y sobre los cuales hay que hacer el análisis.

In [None]:
estimaciones_soja.rendimiento.hist(figsize=(17, 8), bins=15);

Los valores que se separan mucho del histograma, a primera vista podrían sospecharse como anómalos (ie. departamentos con rendimientos superiores a los 4000 kg. por hectárea deberían analizarse más profundamente).

In [None]:
estimaciones_soja.rendimiento.describe()

In [None]:
estimaciones_soja[estimaciones_soja.rendimiento == estimaciones_soja.rendimiento.max()]

In [None]:
estimaciones_soja = estimaciones_soja.copy()
estimaciones_soja['diferencia_mediana'] = np.abs(estimaciones_soja.rendimiento - estimaciones_soja['rendimiento'].median())

In [None]:
estimaciones_soja[estimaciones_soja['rendimiento'] == estimaciones_soja['rendimiento'].median()]

In [None]:
estimaciones_soja[estimaciones_soja['diferencia_mediana'] == estimaciones_soja['diferencia_mediana'].min()]

In [None]:
estimaciones_soja[estimaciones_soja.rendimiento == estimaciones_soja.rendimiento.min()]

### Tabla de evolución de producción por cultivo 

In [None]:
produccion_cultivo_evolucion = estimaciones.pivot_table(
    index="campaña",
    columns="cultivo",
    values="produccion",
    aggfunc="sum"
)
produccion_cultivo_evolucion