# 1.3. Analizando dataset existencias ovinas 1965-2017

## Introducción

Este dataset se obtuvo de [Datos Argentina](https://www.datos.gob.ar/dataset/agroindustria-ganaderia---existencias-ovinas-desde-1875-al-2017/archivo/agroindustria_2c7ef5ff-a570-43aa-a61a-ff7d2bb6a8e0); y contiene información sobre existencias ovinas dentro del país. 
Son datos anuales, provinciales, en el período 1965-2017. Y los años faltantes no tienen registros asentados.

Existe una pequeña documentación que nos da información sobre el dataset. Los campos serían los siguientes:

 **Título de la columna** |  **Tipo de dato** |  **Descripción** | 
----------------------| ----------------------|----------------------|
fuente | Texto (string) | fuente 
pais_id | Número entero (integer) | pais_id 
pais | Texto (string) | pais 
provincia_id | Número entero (integer) | provincia_id 
provincia | Texto (string) | provincia 
desde_año | Número entero (integer) | desde_año 
hasta_año | Número entero (integer) | hasta_año 
cantidad (miles de cabezas) | Número decimal (number) | cantidad (miles de cabezas) 
fuente | Texto (string) | fuente 

Y además de los campos también existe información del dataset en sí:
- Responsable: Dirección de Ovinos, Caprinos y Camélidos
- Formato: csv
- Temas: Agroganadería, pesca y forestación
- Frecuencia de actualización:  Anualmente
- Fecha de creación: 26 de octubre de 2018
- Último cambio: 30 de abril de 2019

Lo anterior nos da una idea genérica sobre el dataset, de todas formas vamos a cargarlo para ver su contenido y empezar el análisis.

## Análisis

### Importamos las librerías de python que necesitamos para analizar el dataset

In [1]:
import pandas as pd

La librería pandas nos ayudará a leer y escribir datos en diferentes formatos,seleccionar y filtrar de manera sencilla tablas de datos en función de posición, valor o etiquetas, a fusionar y unir datos, entre muchas cosas más.

### Cargamos el dataset y observamos su contenido

In [2]:
df = pd.read_csv('datos/existencias-ovinas-1965-2017.csv', sep=",", encoding='latin-1')
df

Unnamed: 0,pais_id,pais,provincia_id,provincia,desde_año,hasta_año,cantidad,fuente
0,32,Argentina,6,Buenos Aires,1965,1965,18473.0,Estimación Dto. Ovinos y Lanas - SAGPyA matema...
1,32,Argentina,6,Buenos Aires,1966,1966,17898.0,Estimación Dto. Ovinos y Lanas - SAGPyA matema...
2,32,Argentina,6,Buenos Aires,1967,1967,17322.0,Estimación Dto. Ovinos y Lanas - SAGPyA matema...
3,32,Argentina,6,Buenos Aires,1968,1968,16747.0,Estimación Dto. Ovinos y Lanas - SAGPyA matema...
4,32,Argentina,6,Buenos Aires,1969,1970,16172.0,Censos INDEC
...,...,...,...,...,...,...,...,...
1132,32,Argentina,90,Tucuman,2013,2013,15.0,SIGSA - Dirección de Control de Gestión y Prog...
1133,32,Argentina,90,Tucuman,2014,2014,17.0,SIGSA - Dirección de Control de Gestión y Prog...
1134,32,Argentina,90,Tucuman,2015,2015,18.0,SIGSA - Dirección de Control de Gestión y Prog...
1135,32,Argentina,90,Tucuman,2016,2016,17.0,SIGSA - Dirección de Control de Gestión y Prog...


Es un dataset de 1137 filas y 8 columnas, será necesario analizarlo en detenimiento para saber si contiene datos que nos sirvan, miremos las columnas que trae:

In [3]:
df.columns

Index(['pais_id', 'pais', 'provincia_id', 'provincia', 'desde_año',
       'hasta_año', 'cantidad', 'fuente'],
      dtype='object')

Comprobemos si este dataset tiene datos de Chubut.

In [4]:
df['provincia'].unique()

array(['Buenos Aires', 'Catamarca', 'Chaco', 'Chubut', 'Cordoba',
       'Corrientes', 'Entre Rios', 'Formosa', 'Jujuy', 'La Pampa',
       'La Rioja', 'Mendoza', 'Misiones', 'Neuquen', 'Rio Negro', 'Salta',
       'San Juan', 'San Luis', 'Santa Cruz', 'Santa Fe',
       'Santiago Del Estero', 'Santiago del Estero', 'Tierra Del Fuego',
       'Tierra del Fuego', 'Tucuman'], dtype=object)

Efectivamente hay datos de Chubut, vamos a filtraros para verlos mejor:

In [5]:
resultado_existencias_chubut = pd.DataFrame(columns=['provincia','desde_año', 'hasta_año', 'cantidad', 'fuente'])
for i in df.index: 
    if "Chubut" == df['provincia'][i]:
         resultado_existencias_chubut = resultado_existencias_chubut.append({
                                       'provincia': df['provincia'][i],
                                       'desde_año': df['desde_año'][i],
                                       'hasta_año':df['hasta_año'][i], 
                                       'cantidad':df['cantidad'][i],
                                       'fuente':df['fuente'][i],
                                         }, 
                                      ignore_index=True)
resultado_existencias_chubut

Unnamed: 0,provincia,desde_año,hasta_año,cantidad,fuente
0,Chubut,1965,1965,5736.0,Estimación Dto. Ovinos y Lanas - SAGPyA matema...
1,Chubut,1966,1966,5789.0,Estimación Dto. Ovinos y Lanas - SAGPyA matema...
2,Chubut,1967,1967,5841.0,Estimación Dto. Ovinos y Lanas - SAGPyA matema...
3,Chubut,1968,1968,5894.0,Estimación Dto. Ovinos y Lanas - SAGPyA matema...
4,Chubut,1969,1970,5947.0,Censos INDEC
5,Chubut,1971,1971,5887.0,Estimación Dto. Ovinos y Lanas - SAGPyA matema...
6,Chubut,1972,1972,5826.0,Estimación Dto. Ovinos y Lanas - SAGPyA matema...
7,Chubut,1973,1973,5766.0,Estimación Dto. Ovinos y Lanas - SAGPyA matema...
8,Chubut,1974,1975,5705.0,Censos INDEC
9,Chubut,1976,1976,6063.0,Estimación Dto. Ovinos y Lanas - SAGPyA matema...


Estos son los datos que podemos obtener de dataset, asi que los vamos a almacenar en formato csv:

In [6]:
resultado_existencias_chubut.to_csv('datos_producidos/existencias_chubut_1965-2017.csv',  index=False)

Una columna interesante es la fuente de datos, estos nos podría dar un indicio de otro lugar en donde buscar datos de Chubut.

In [7]:
resultado_existencias_chubut['fuente'].unique()

array(['Estimación Dto. Ovinos y Lanas - SAGPyA matematica con datos existentes',
       'Censos INDEC',
       'Encuesta Nacional Agropecuaria 93- 94- 95 y 01- SAPGyA e INDEC',
       'Estimación Dto. Ovinos y Lanas - SAGPyA en base a datos objetivos',
       'SIGSA - Dirección de Control de Gestión y Programas Especiales - Dirección Nacional de Sanidad Animal \x96 SENASA'],
      dtype=object)

Cuando buscas en google *Estimación Dto. Ovinos y Lanas - SAGPyA matematica con datos existentes* o *Estimación Dto. Ovinos y Lanas - SAGPyA en base a datos objetivos* terminas llegando a la sección de ovinos de la página de [MAGyP](https://magyp.gob.ar/sitio/areas/d_ovinos/?accion=noticia_paginar&area_paginar=d_ovinos&tag=x1y) o a la sección de [Datos MAGyP](https://datos.magyp.gob.ar/dataset/existencias-ovinas-nacionales-desde-1875-al-2017). Y estos últimos son los mismos que están en [Datos Argentina](https://www.datos.gob.ar).

La búsqueda de *Censos INDEC* o *Encuesta Nacional Agropecuaria 93- 94- 95 y 01- SAPGyA e INDEC* te lleva a difentes secciones de la pagiana del [INDEC](https://www.indec.gob.ar/indec/web/Nivel4-Tema-3-8-89) y lo unico que se consigue sobre ovinos es la cantiad que se exporta y consume en el pais, pero no hay informacion desmenuzada sobre Chubut. 

Por último en *SIGSA - Dirección de Control de Gestión y Programas Especiales* y *Dirección Nacional de Sanidad Animal - SENASA* nos encontramos con la información proporcionada por senasa. Quizás acá haya algo interesante. Lo investigaremos y en caso de haber haremos un análisis. 