# 1.5. Analizando dataset: movimientos ovinos

## Introducción

Este dataset se obtuvo de [Datos Argentina](https://datos.gob.ar/he/dataset/agroindustria-senasa---movimientos-subproductos-animales/archivo/agroindustria_7d068012-5e8d-4f5f-8f48-e0281cd28230); y contiene información sobre el movimiento de los subproductos ovinos dentro del país. 

Existe una pequeña documentación que nos da información sobre el dataset. Los campos serían los siguientes:

 **Título de la columna** |  **Tipo de dato** |  **Descripción** | 
----------------------| ----------------------|----------------------|
fecha | Fecha ISO-8601 (date) 
salido_de | Texto (string)|Lugar del que sale. 
ingresado_a  | Texto (string) | Lugar al que ingresa. 
provinicia_origen | Texto (string) | Nombre de la provincia de origen. 
provincia_origen_id  | Número entero (integer) | Código de la provincia de origen. 
provincia_destino |  Texto (string) | Nombre de la provincia de destino. 
provincia_destino_id  | Número entero (integer) | Código de la provincia de destino. 
cueros_pieles_brutas  | Número entero (integer) | Cantidad de cueros y pieles 
lana_sucia |  Número entero (integer) | Cantidad de lana sucia. 
lana_limpia  | Número entero (integer) | Cantidad de lana limpia. 
lana_sucia_vellon  | Número entero (integer) | Cantidad de vellón de lana sucia. 
lana_sucia_no_vellon |  Número entero (integer) | Cantidad de lana sucia, que no corresponde a vellón. 
pelos_cerdas  | Número entero (integer) | Cantidad de pelos y cerdas. 
estiercol |  Número entero (integer) | Cantidad de estiércol. 
guano_aviar  | Número entero (integer) | Cantidad de guano aviar. 
guano_cap  | Número entero (integer) | Cantidad de guano. 
cama_pollo  | Número entero (integer) | Cantidad de cama de pollo. 
aves_muertas  | Número entero (integer) | Cantidad de aves muertas. 
pasto_fresco_heno_TdF  | Número entero (integer) | Cantidad de pasto. 
huesos_despojos_faena  | Número entero (integer) | Cantidad de huesos y despojos de faena. 
trofeo_caza |  Número entero (integer) | Cantidad de trofeos de caza. 
astas_volteo_ciervos  | Número entero (integer) | Cantidad de astas por volteo de ciervos. 

Y además de los campos también existe información del dataset en sí:
- Responsable: Servicio Nacional de Sanidad y Calidad Agroalimentaria
- Formato: csv
- Temas: Agroganadería, pesca y forestación
- Frecuencia de actualización:  Mensualmente
- Fecha de creación: 27 de septiembre de 2019
- Último cambio: 5 de diciembre de 2019

Lo anterior nos da una idea genérica sobre el dataset, de todas formas vamos a cargarlo para ver su contenido y empezar el análisis.

## Análisis

### Importar librerias 

Importamos las librerías de python que necesitamos para analizar el dataset

In [1]:
import pandas as pd
import numpy as np

La librería pandas nos ayudará a leer y escribir datos en diferentes formatos, seleccionar y filtrar de manera sencilla tablas de datos en función de posición, valor o etiquetas, a fusionar y unir datos, entre muchas cosas más.

Numpy lo utilizaremos para hacer cálculos. 

### Cargar dataset

Cargamos el dataset y observamos su contenido

In [2]:
df = pd.read_csv('datos/movimiento-subproductos-animales-provincia-2013-2018.csv', sep=",", encoding='latin-1')
df

Unnamed: 0,fecha,salido_de,ingresado_a,provincia_origen,provincia_origen_id,provincia_destino,provincia_destino_id,unidad_medida,cueros_pieles_brutas,lana_sucia,...,pelos_cerdas,estiercol,guano_aviar,guano_cap,cama_pollo,aves_muertas,pasto_fresco_heno_TdF,huesos_despojos_faena,trofeo_caza,astas_volteo_ciervos
0,2013-01,Establecimiento,Establecimiento,Buenos Aires,6,Buenos Aires,6,Kg,0,16000,...,0,0,237000,0,0,0,0,0,0,0
1,2013-01,Establecimiento,Establecimiento,Buenos Aires,6,Buenos Aires,6,Unidad/es,17693,0,...,0,0,30000,0,0,0,0,0,0,0
2,2013-01,Establecimiento,Establecimiento,Buenos Aires,6,Buenos Aires,6,Tn,0,0,...,0,0,1380,0,0,0,0,0,0,0
3,2013-01,Establecimiento,Establecimiento,Buenos Aires,6,Buenos Aires,6,Bulto/s,0,44,...,0,0,0,0,0,0,0,0,0,0
4,2013-01,Establecimiento,Establecimiento,Buenos Aires,6,Chubut,26,Kg,0,417063,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8252,2018-12,Establecimiento,Frigorífico,Santiago del Estero,86,Buenos Aires,6,Unidad/es,3000,0,...,0,0,0,0,0,0,0,0,0,0
8253,2018-12,Establecimiento,Frigorífico,Santiago del Estero,86,Santa Fe,82,Unidad/es,1000,0,...,0,0,0,0,0,0,0,0,0,0
8254,2018-12,Frigorífico,Frigorífico,Tucumán,90,Buenos Aires,6,Unidad/es,5400,0,...,0,0,0,0,0,0,0,0,0,0
8255,2018-12,Frigorífico,Frigorífico,Tucumán,90,La Rioja,46,Unidad/es,2200,0,...,0,0,0,0,0,0,0,0,0,0


Es un dataset de 8257 filas y 23 columnas, será necesario analizarlo en detenimiento para saber si contiene datos que nos sirvan, miremos las columnas que trae:

In [3]:
df.columns

Index(['fecha', 'salido_de', 'ingresado_a', 'provincia_origen',
       'provincia_origen_id', 'provincia_destino', 'provincia_destino_id',
       'unidad_medida', 'cueros_pieles_brutas', 'lana_sucia', 'lana_limpia',
       'lana_sucia_vellon', 'lana_sucia_no_vellon', 'pelos_cerdas',
       'estiercol', 'guano_aviar', 'guano_cap', 'cama_pollo', 'aves_muertas',
       'pasto_fresco_heno_TdF', 'huesos_despojos_faena', 'trofeo_caza',
       'astas_volteo_ciervos'],
      dtype='object')

De todas las columnas anteriores las que nos pueden iteresar son las referentes a la provincia, la unidad de medida y la lana. Comprobemos si este dataset tiene datos de Chubut. 

In [4]:
df['provincia_origen'].unique()

array(['Buenos Aires', 'Chaco', 'Chubut', 'Córdoba', 'Corrientes',
       'Entre Ríos', 'Jujuy', 'La Pampa', 'La Rioja', 'Mendoza',
       'Misiones', 'Neuquén', 'Río Negro', 'Salta', 'San Juan',
       'San Luis', 'Santa Cruz', 'Santa Fe', 'Santiago del Estero',
       'Catamarca', 'Formosa', 'Tierra del Fuego', 'Tucumán'],
      dtype=object)

In [5]:
df['provincia_destino'].unique()

array(['Buenos Aires', 'Chubut', 'Ciudad Autónoma de Buenos Aires',
       'Corrientes', 'Mendoza', 'Río Negro', 'Santa Fe', 'Catamarca',
       'Córdoba', 'Entre Ríos', 'San Luis', 'La Rioja', 'Salta',
       'La Pampa', 'Formosa', 'Santiago Del Estero', 'Misiones',
       'Neuquén', 'San Juan', 'Jujuy', 'Chaco', 'Tierra Del Fuego',
       'Tucumán', 'Santa Cruz', 'Santiago del Estero', 'Tierra del Fuego'],
      dtype=object)

Efectivamente hay movimientos de subproductos que involucran a la provincia, vamos a suponer que la salida de productos, aquellas filas que tienen como origen a Chubut, corresponden a la producción de lana de la misma. Entonces comencemos a filtrar. 

#### Obtengamos los datos de la provincia de Chubut 

In [6]:
movimientos_chubut = pd.DataFrame()
movimientos_chubut = df.loc[(df['provincia_origen'] =='Chubut') | (df['provincia_destino'] == 'Chubut')]
movimientos_chubut

Unnamed: 0,fecha,salido_de,ingresado_a,provincia_origen,provincia_origen_id,provincia_destino,provincia_destino_id,unidad_medida,cueros_pieles_brutas,lana_sucia,...,pelos_cerdas,estiercol,guano_aviar,guano_cap,cama_pollo,aves_muertas,pasto_fresco_heno_TdF,huesos_despojos_faena,trofeo_caza,astas_volteo_ciervos
4,2013-01,Establecimiento,Establecimiento,Buenos Aires,6,Chubut,26,Kg,0,417063,...,0,0,0,0,0,0,0,0,0,0
5,2013-01,Establecimiento,Establecimiento,Buenos Aires,6,Chubut,26,Unidad/es,0,63552,...,0,0,0,0,0,0,0,0,0,0
6,2013-01,Establecimiento,Establecimiento,Buenos Aires,6,Chubut,26,Bulto/s,0,25211,...,0,0,0,0,0,0,0,0,0,0
14,2013-01,Establecimiento,Establecimiento,Chubut,26,Buenos Aires,6,Unidad/es,2060,0,...,0,0,0,0,0,0,0,0,0,0
24,2013-01,Establecimiento,Establecimiento,Corrientes,18,Chubut,26,Kg,0,109693,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8217,2018-12,Establecimiento,Frigorífico,Neuquén,58,Chubut,26,Unidad/es,0,0,...,7000,0,0,0,0,0,0,0,0,0
8221,2018-12,Establecimiento,Frigorífico,Río Negro,62,Chubut,26,Kg,0,0,...,16523,0,0,0,0,0,0,0,0,0
8222,2018-12,Establecimiento,Frigorífico,Río Negro,62,Chubut,26,Unidad/es,0,0,...,11290,0,0,0,0,0,0,0,0,0
8242,2018-12,Establecimiento,Frigorífico,Santa Cruz,78,Chubut,26,Kg,0,0,...,0,0,0,0,0,0,0,0,0,0


Lo que se hizo fue filtrar por provincia origen y provincia destino

#### Obtengamos los datos referentes a la lana

In [7]:
movimientos_lana_chubut = pd.DataFrame()
movimientos_lana_chubut = movimientos_chubut.loc[:, ['fecha', 
                                                 'salido_de', 
                                                 'ingresado_a', 
                                                 'provincia_origen', 
                                                 'provincia_destino', 
                                                 'unidad_medida', 
                                                 'lana_sucia',
                                                 'lana_limpia',
                                                 'lana_sucia_vellon', 
                                                 'lana_sucia_no_vellon',]                                                
                                                ]
movimientos_lana_chubut

Unnamed: 0,fecha,salido_de,ingresado_a,provincia_origen,provincia_destino,unidad_medida,lana_sucia,lana_limpia,lana_sucia_vellon,lana_sucia_no_vellon
4,2013-01,Establecimiento,Establecimiento,Buenos Aires,Chubut,Kg,417063,3495,0,0
5,2013-01,Establecimiento,Establecimiento,Buenos Aires,Chubut,Unidad/es,63552,0,0,0
6,2013-01,Establecimiento,Establecimiento,Buenos Aires,Chubut,Bulto/s,25211,0,0,0
14,2013-01,Establecimiento,Establecimiento,Chubut,Buenos Aires,Unidad/es,0,0,0,0
24,2013-01,Establecimiento,Establecimiento,Corrientes,Chubut,Kg,109693,0,0,0
...,...,...,...,...,...,...,...,...,...,...
8217,2018-12,Establecimiento,Frigorífico,Neuquén,Chubut,Unidad/es,0,0,0,0
8221,2018-12,Establecimiento,Frigorífico,Río Negro,Chubut,Kg,0,0,484597,0
8222,2018-12,Establecimiento,Frigorífico,Río Negro,Chubut,Unidad/es,0,0,0,0
8242,2018-12,Establecimiento,Frigorífico,Santa Cruz,Chubut,Kg,0,0,808497,3376


Lo que se hizo fue quedarnos solo con aquellas columnas que son de nuestro interés, como la provincia, la unidad de medida y los diferentes tipos de lana. 

En nuestro caso solo estamos interesados en la lana producida en Chubut, que estaría representado por provincia origen.

In [8]:
salida_lana_chubut = pd.DataFrame()
salida_lana_chubut = movimientos_lana_chubut.loc[(df['provincia_origen'] =='Chubut')]
salida_lana_chubut

Unnamed: 0,fecha,salido_de,ingresado_a,provincia_origen,provincia_destino,unidad_medida,lana_sucia,lana_limpia,lana_sucia_vellon,lana_sucia_no_vellon
14,2013-01,Establecimiento,Establecimiento,Chubut,Buenos Aires,Unidad/es,0,0,0,0
107,2013-02,Establecimiento,Establecimiento,Chubut,Buenos Aires,Kg,4000,0,0,0
108,2013-02,Establecimiento,Establecimiento,Chubut,Buenos Aires,Unidad/es,0,0,0,0
109,2013-02,Establecimiento,Establecimiento,Chubut,Chubut,Kg,9600,0,0,0
110,2013-02,Establecimiento,Establecimiento,Chubut,Chubut,Unidad/es,30,0,0,0
...,...,...,...,...,...,...,...,...,...,...
8077,2018-11,Establecimiento,Establecimiento,Chubut,Río Negro,Kg,0,0,0,0
8175,2018-12,Establecimiento,Frigorífico,Chubut,Buenos Aires,Unidad/es,0,0,0,0
8176,2018-12,Establecimiento,Frigorífico,Chubut,Chubut,Kg,0,0,2048232,71598
8177,2018-12,Establecimiento,Establecimiento,Chubut,Chubut,Kg,0,0,117112,8400


Otra forma de obtener los movimientos de lana de chubut sería así:

In [9]:
resultado_movimientos_chubut = pd.DataFrame(columns=['fecha','salido_de', 'ingresado_a', 'provincia_origen', 'provincia_destino', 'lana_sucia', 'lana_limpia', 'lana_sucia_vellon','lana_sucia_no_vellon'])
for i in df.index: 
    if "Chubut" == df['provincia_origen'][i]:
         resultado_movimientos_chubut = resultado_movimientos_chubut.append({
                                       'fecha': df['fecha'][i],
                                       'salido_de': df['salido_de'][i],
                                       'ingresado_a':df['ingresado_a'][i], 
                                       'provincia_origen':df['provincia_origen'][i],
                                       'provincia_destino':df['provincia_destino'][i],
                                       'unidad_medida':df['unidad_medida'][i], 
                                       'lana_sucia':df['lana_sucia'][i],
                                       'lana_limpia':df['lana_limpia'][i],
                                       'lana_sucia_vellon':df['lana_sucia_vellon'][i],
                                       'lana_sucia_no_vellon':df['lana_sucia_no_vellon'][i],
                                      }, 
                                      ignore_index=True)
resultado_movimientos_chubut

Unnamed: 0,fecha,salido_de,ingresado_a,provincia_origen,provincia_destino,lana_sucia,lana_limpia,lana_sucia_vellon,lana_sucia_no_vellon,unidad_medida
0,2013-01,Establecimiento,Establecimiento,Chubut,Buenos Aires,0,0,0,0,Unidad/es
1,2013-02,Establecimiento,Establecimiento,Chubut,Buenos Aires,4000,0,0,0,Kg
2,2013-02,Establecimiento,Establecimiento,Chubut,Buenos Aires,0,0,0,0,Unidad/es
3,2013-02,Establecimiento,Establecimiento,Chubut,Chubut,9600,0,0,0,Kg
4,2013-02,Establecimiento,Establecimiento,Chubut,Chubut,30,0,0,0,Unidad/es
...,...,...,...,...,...,...,...,...,...,...
467,2018-11,Establecimiento,Establecimiento,Chubut,Río Negro,0,0,0,0,Kg
468,2018-12,Establecimiento,Frigorífico,Chubut,Buenos Aires,0,0,0,0,Unidad/es
469,2018-12,Establecimiento,Frigorífico,Chubut,Chubut,0,0,2048232,71598,Kg
470,2018-12,Establecimiento,Establecimiento,Chubut,Chubut,0,0,117112,8400,Kg


Una vez obtenida la lana que sale de chubut, veamos si todas comparten la misma unidad de medida:

In [10]:
salida_lana_chubut['unidad_medida'].unique()

array(['Unidad/es', 'Kg', 'Bulto/s', 'Grupo', 'Mts3'], dtype=object)

Lamentablemente no, eso significa que debemos elegir una y sera necesario hacer la coversión del resto. Primero vamos a eliminar aquellos establecimientos de Chubut que no produjeron lana, es decir cuyas filas son cero en los distintos productos relacionados a la lana

In [11]:
valor=0
salida_lana_chubut_filtrada = salida_lana_chubut[~salida_lana_chubut.lana_sucia.isin([valor])|
                                                ~salida_lana_chubut.lana_limpia.isin([valor])|
                                                ~salida_lana_chubut.lana_sucia_vellon.isin([valor])|
                                                ~salida_lana_chubut.lana_sucia_no_vellon.isin([valor])
                                                ]
salida_lana_chubut_filtrada

Unnamed: 0,fecha,salido_de,ingresado_a,provincia_origen,provincia_destino,unidad_medida,lana_sucia,lana_limpia,lana_sucia_vellon,lana_sucia_no_vellon
107,2013-02,Establecimiento,Establecimiento,Chubut,Buenos Aires,Kg,4000,0,0,0
109,2013-02,Establecimiento,Establecimiento,Chubut,Chubut,Kg,9600,0,0,0
110,2013-02,Establecimiento,Establecimiento,Chubut,Chubut,Unidad/es,30,0,0,0
195,2013-03,Establecimiento,Establecimiento,Chubut,Buenos Aires,Unidad/es,22400,0,0,0
196,2013-03,Establecimiento,Establecimiento,Chubut,Buenos Aires,Kg,7390,0,0,0
...,...,...,...,...,...,...,...,...,...,...
7969,2018-10,Establecimiento,Establecimiento,Chubut,Chubut,Kg,0,1000,154613,34649
8072,2018-11,Establecimiento,Frigorífico,Chubut,Chubut,Kg,0,20000,2199643,21386
8073,2018-11,Establecimiento,Establecimiento,Chubut,Chubut,Kg,0,1050,142754,25654
8176,2018-12,Establecimiento,Frigorífico,Chubut,Chubut,Kg,0,0,2048232,71598


## Limpieza de datos

Pasamos de 462 filas a 260, ahora veamos la unidad de medidas para estas filas.

In [12]:
salida_lana_chubut_filtrada['unidad_medida'].unique()

array(['Kg', 'Unidad/es', 'Bulto/s'], dtype=object)

La unidad de medida seleccionada es Kilogramos. 

En [este articulo](https://cdsa.aacademica.org/000-062/1467.pdf) se menciona que los productores comercializan la lana por vellón, es decir por bulto, y cada uno de ellos se identifica con datos del productor, zafra y peso. Por lo tanto da entender que un vellón es equivalente a un bulto. Dado que no existe documentación que explique las unidades de medida para este dataset, se decidió que un vellón es equivalente a un bulto y a una unidad, y tanto el bulto como la unidad se miden en kilogramos. 

Prácticamente todos los ovinos en la Patagonia son de raza Merino o Corriedale, se cría Merino para lana en las zonas áridas y secas de Río Negro, Chubut y norte de Santa Cruz; y Corriedale para lana y carne en zonas más húmedas del sur de Santa Cruz y Tierra del Fuego [1](https://www.produccion-animal.com.ar/produccion_ovina/produccion_ovina/000-ganado_lanar_en_argentina_libro/05-captitulo_1.pdf). Chubut se caracteriza por ser la provincia que mas lana produce y de mayor precio; y su producción se sustenta sobre la raza Merino, con lanas finas y superfinas de alto valor en el mercado internacional [2](https://inta.gob.ar/sites/default/files/script-tmp-inta_mercado_lanas_merino.pdf).

La raza Merino es originaria de España, su vellón es característico por su densidad de fibras, finura, ondulaciones y uniformidad. Es un animal de cara y lana blanca, con capacidad de adaptación a distintos medios. Los corderos para matanza alcanzan un peso de venta de al menos 40 kg a los 4-6 meses de edad y las ovejas adultas 55 a 65 kg, ademas las ovejas producen entre 4 y 6 kg de vellón, con finuras entre 19 y 22 micras de alta calidad [3](https://www.produccion-animal.com.ar/produccion_ovina/produccion_ovina/276-Manual_manejo.pdf).

El peso del vellón ha sido la medida con que tradicionalmente se ha valorado el potencial lanero del ovino. En este [estudio](https://www.juntadeandalucia.es/export/drupaljda/1337165058lana_merino.pdf) la media poblacional obtenida para la variable peso de vellón en la raza merino ha sido de 4,18±0,054 kilogramos, con un intervalo de variación de 4,20 kg. (máx. de 6,20 kg. y mín. de 2,00 kg.) y un coeficiente de variación del 20,41%. Y se observo que esta condicionada por la ganadería de nacimiento, la edad y el sexo de los animales. Así, nos encontramos con medias en función del tipo que oscilan entre los 3,72 kg para las ovejas y los 4,51 kg de los machos (los animales jóvenes tienen mayor peso del vellón que los adultos). El histograma de frecuencias de la variable peso del vellón se ajusta a una distribución normal, donde aproximadamente el 99% de la población se encuentra entre 2,8 y 6 kg. de peso del vellón, estando la máxima frecuencia entre 3,5 y 4,5 kg. de peso del vellón, lo cual representa el 47% de las observaciones. La frecuencia máxima la encontramos entre 3,5 y 4 kg. de peso.

Cómo no tenemos los datos reales en kilos vamos a generar pesos de vellones aleatorios en base a la media global siguiendo una distribución normal, y multiplicarla por la cantidad de bultos y/o unidades que tenga cada productor en el dataset. Algo que hay que tener en cuenta es que idealamente el 5% de la majada son machos mientras que el resto son hembras, y cómo el peso del vellón varia segun el sexo, esto tambien se tendra en cuenta. 

Veamos un ejemplo de la forma en que se van a crear los datos. Supongamos que un productor tiene 30 bultos o 30 unidades:

In [13]:
# sacar el 5% de total que representa a los machos
# el 95% son ovejas hembras
cantidad_bultos_unidades = 30
porcentaje_macho = 5
porcentaje_hembra = 95
media_vellon_hembra = 3.72
media_vellon_macho = 4.51
coeficiente_variacion = 0.054
cantidad_machos = int(np.ceil(cantidad_bultos_unidades * porcentaje_macho / 100))
cantidad_hembras = int(np.floor(cantidad_bultos_unidades * porcentaje_hembra / 100))
lana_hembra = np.random.normal(media_vellon_hembra, coeficiente_variacion, cantidad_hembras)
lana_macho = np.random.normal(media_vellon_macho, coeficiente_variacion, cantidad_machos)
lana_ovinos = np.concatenate((lana_hembra, lana_macho), axis = None).tolist()
lana_total = round(sum(lana_ovinos),2)
lana_total

113.43

En este caso 30 bultos o unidades equivalen a 113.4 kilogramos. 

Vamos a convertir este cálculo en una función para ser utilizada más adelante

In [14]:
def convertir_a_kilogramos(x, columna):
    if (x['unidad_medida'] == 'Bulto/s') | (x['unidad_medida']== 'Unidad/es'):
        cantidad_bultos_unidades = x[columna]
        porcentaje_macho = 5
        porcentaje_hembra = 95
        media_vellon_hembra = 3.72
        media_vellon_macho = 4.51
        coeficiente_variacion = 0.054
        cantidad_machos = int(np.ceil(cantidad_bultos_unidades * porcentaje_macho / 100))
        cantidad_hembras = int(np.floor(cantidad_bultos_unidades * porcentaje_hembra / 100))
        lana_hembra = np.random.normal(media_vellon_hembra, coeficiente_variacion, cantidad_hembras)
        lana_macho = np.random.normal(media_vellon_macho, coeficiente_variacion, cantidad_machos)
        lana_ovinos = np.concatenate((lana_hembra, lana_macho), axis = None).tolist()
        lana_total = round(sum(lana_ovinos),2)
        return lana_total
    else:
        return x[columna]

Lo siguiente es definir las columnas que queremos convertir, recorrer el dataframe y aplicar la función anterior, el resultado que se obtiene es el siguiente:

In [15]:
columnas = ["lana_sucia", "lana_limpia", "lana_sucia_vellon", "lana_sucia_no_vellon"]
for columna in columnas:
    salida_lana_chubut_filtrada[columna] = salida_lana_chubut_filtrada.apply(lambda x: convertir_a_kilogramos(x, columna), axis=1)

salida_lana_chubut_filtrada.loc[salida_lana_chubut_filtrada.unidad_medida!='Kg','unidad_medida']='Kg'
salida_lana_chubut_filtrada

Unnamed: 0,fecha,salido_de,ingresado_a,provincia_origen,provincia_destino,unidad_medida,lana_sucia,lana_limpia,lana_sucia_vellon,lana_sucia_no_vellon
107,2013-02,Establecimiento,Establecimiento,Chubut,Buenos Aires,Kg,4000.00,0.0,0.0,0.0
109,2013-02,Establecimiento,Establecimiento,Chubut,Chubut,Kg,9600.00,0.0,0.0,0.0
110,2013-02,Establecimiento,Establecimiento,Chubut,Chubut,Kg,113.17,0.0,0.0,0.0
195,2013-03,Establecimiento,Establecimiento,Chubut,Buenos Aires,Kg,84213.38,0.0,0.0,0.0
196,2013-03,Establecimiento,Establecimiento,Chubut,Buenos Aires,Kg,7390.00,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...
7969,2018-10,Establecimiento,Establecimiento,Chubut,Chubut,Kg,0.00,1000.0,154613.0,34649.0
8072,2018-11,Establecimiento,Frigorífico,Chubut,Chubut,Kg,0.00,20000.0,2199643.0,21386.0
8073,2018-11,Establecimiento,Establecimiento,Chubut,Chubut,Kg,0.00,1050.0,142754.0,25654.0
8176,2018-12,Establecimiento,Frigorífico,Chubut,Chubut,Kg,0.00,0.0,2048232.0,71598.0


Ahora todos nuestros datos de la lana están en kilogramos, lo que debemos hacer es convertir la columna fecha en un dato fecha para empezar a agrupar los datos y así obtener la cantidad de lana anual de Chubut.

In [16]:
salida_lana_chubut_filtrada['fecha'] = pd.to_datetime(salida_lana_chubut['fecha'], format='%Y-%m')

Una vez convertida, hagamos primero una pequeña prueba con un año:

In [17]:
salida_lana_2013 = salida_lana_chubut_filtrada.loc[(salida_lana_chubut_filtrada['fecha'] >= '2013-01')
                     & (salida_lana_chubut_filtrada['fecha'] <= '2013-12')]
salida_lana_2013

Unnamed: 0,fecha,salido_de,ingresado_a,provincia_origen,provincia_destino,unidad_medida,lana_sucia,lana_limpia,lana_sucia_vellon,lana_sucia_no_vellon
107,2013-02-01,Establecimiento,Establecimiento,Chubut,Buenos Aires,Kg,4000.0,0.0,0.0,0.0
109,2013-02-01,Establecimiento,Establecimiento,Chubut,Chubut,Kg,9600.0,0.0,0.0,0.0
110,2013-02-01,Establecimiento,Establecimiento,Chubut,Chubut,Kg,113.17,0.0,0.0,0.0
195,2013-03-01,Establecimiento,Establecimiento,Chubut,Buenos Aires,Kg,84213.38,0.0,0.0,0.0
196,2013-03-01,Establecimiento,Establecimiento,Chubut,Buenos Aires,Kg,7390.0,0.0,0.0,0.0
197,2013-03-01,Establecimiento,Establecimiento,Chubut,Chubut,Kg,36566.0,0.0,0.0,0.0
198,2013-03-01,Establecimiento,Establecimiento,Chubut,Chubut,Kg,63.87,0.0,0.0,0.0
401,2013-05-01,Establecimiento,Establecimiento,Chubut,Buenos Aires,Kg,5000.0,0.0,0.0,0.0
744,2013-08-01,Establecimiento,Establecimiento,Chubut,Buenos Aires,Kg,5000.0,0.0,0.0,0.0
881,2013-09-01,Establecimiento,Establecimiento,Chubut,Chubut,Kg,313.32,0.0,0.0,0.0


In [18]:
lana_sucia = salida_lana_2013['lana_sucia'].sum()
lana_limpia = salida_lana_2013['lana_limpia'].sum()
lana_sucia_vellon = salida_lana_2013['lana_sucia_vellon'].sum()
lana_sucia_no_vellon = salida_lana_2013['lana_sucia_no_vellon'].sum()

df = pd.DataFrame()
df['año'] = ['2013']
df['lana_sucia']=[lana_sucia]
df['lana_limpia']=[lana_limpia]
df['lana_sucia_vellon']=[lana_sucia_vellon]
df['lana_sucia_no_vellon']=[lana_sucia_no_vellon]
df

Unnamed: 0,año,lana_sucia,lana_limpia,lana_sucia_vellon,lana_sucia_no_vellon
0,2013,306283.77,25000.0,0.0,0.0


De esta manera se obtiene la cantidad de lana "producida" en el año 2013 en la provincia de Chubut. 

Hay ciertas columnas que ya no nos son de importancia, por lo tanto vamos a eliminarlas del dataframe. 

In [19]:
salida_lana_chubut_filtrada.drop(['salido_de', 'ingresado_a', 'provincia_origen', 'provincia_destino', 'unidad_medida' ], axis = 'columns', inplace=True)
salida_lana_chubut_filtrada

Unnamed: 0,fecha,lana_sucia,lana_limpia,lana_sucia_vellon,lana_sucia_no_vellon
107,2013-02-01,4000.00,0.0,0.0,0.0
109,2013-02-01,9600.00,0.0,0.0,0.0
110,2013-02-01,113.17,0.0,0.0,0.0
195,2013-03-01,84213.38,0.0,0.0,0.0
196,2013-03-01,7390.00,0.0,0.0,0.0
...,...,...,...,...,...
7969,2018-10-01,0.00,1000.0,154613.0,34649.0
8072,2018-11-01,0.00,20000.0,2199643.0,21386.0
8073,2018-11-01,0.00,1050.0,142754.0,25654.0
8176,2018-12-01,0.00,0.0,2048232.0,71598.0


Vamos a generalizar lo que hicimos antes con el año 2013 al resto de los años:

In [20]:
anio = 2013
anio_fin = 2018
salida_lana_chubut = pd.DataFrame(columns=['año', 'lana_sucia', 'lana_limpia', 'lana_sucia_vellon','lana_sucia_no_vellon', 'total_lana'])
while(anio<=anio_fin):
    inicio = str(anio)+'-01'
    fin = str(anio)+'-12'
    salida_lana_anual = salida_lana_chubut_filtrada.loc[(salida_lana_chubut_filtrada['fecha'] >= inicio)
                 & (salida_lana_chubut_filtrada['fecha'] <= fin)]

    lana_sucia = salida_lana_anual['lana_sucia'].sum()
    lana_limpia = salida_lana_anual['lana_limpia'].sum()
    lana_sucia_vellon = salida_lana_anual['lana_sucia_vellon'].sum()
    lana_sucia_no_vellon = salida_lana_anual['lana_sucia_no_vellon'].sum()
    lana_total = lana_sucia+lana_limpia+lana_sucia_vellon+lana_sucia_no_vellon
    
    filas = [(str(anio), lana_sucia, lana_limpia, lana_sucia_vellon, lana_sucia_no_vellon, lana_total)]
    salida_lana_chubut_anual = pd.DataFrame(filas, columns=['año', 'lana_sucia', 'lana_limpia', 'lana_sucia_vellon','lana_sucia_no_vellon', 'total_lana'])
    salida_lana_chubut = salida_lana_chubut.append(salida_lana_chubut_anual, ignore_index=True)
    anio+=1

salida_lana_chubut

Unnamed: 0,año,lana_sucia,lana_limpia,lana_sucia_vellon,lana_sucia_no_vellon,total_lana
0,2013,306283.77,25000.0,0.0,0.0,331283.77
1,2014,3757227.6,72900.0,0.0,0.0,3830127.6
2,2015,8021463.81,82321.0,0.0,0.0,8103784.81
3,2016,16268803.24,19407.0,0.0,0.0,16288210.24
4,2017,4605708.4,24375.83,8237716.67,456845.1,13324646.0
5,2018,0.0,46190.0,12965665.73,666827.0,13678682.73


Y así obtuvimos la cantidad de lana que Chubut produjo desde el año 2013 al 2019. Vamos a guardar estos datos en un archivo csv.

In [22]:
salida_lana_chubut.to_csv('datos_producidos/movimientos_ovinos/salida_lana_chubut_2013-2018.csv', index=False)