# Analizando dataset existencias ovinas 2008-2020 "MAGyC"

## Introducción

Este dataset se obtuvo de [Datos MAGyC](https://datos.magyp.gob.ar/dataset/senasa-existencias-ovinas/archivo/5dfb3c49-7260-4dc4-afa3-95f3459754a6); y contiene información sobre existencias ovinas dentro del país. 
Son datos totales anuales desde Marzo 2008 a la última actualización, por provincia y partido / departamento, clasificadas por categorías.

Existe una pequeña documentación que nos da información sobre el dataset. Los campos serían los siguientes:

 **Título de la columna** |  **Tipo de dato** |  **Descripción** | 
----------------------| ----------------------|----------------------|
anio | Fecha ISO-8601 (date) | Año correspondiente al relevamiento. 
provincia | Texto (string) | Nombre de la provincia. 
provincia_id | Número entero (integer) | Código de la provincia. 
departamento | Texto (string) | Nombre del partido / departamento. 
departamento_id | Número entero (integer) | Código del partido / departamento. 
carneros | Número entero (integer) | Cantidad de machos enteros adultos en edad reproductiva. 
ovejas | Número entero (integer) | Cantidad de hembras adultas en edad reproductiva. 
borregos | Número entero (integer) | Cantidad de machos jóvenes de reposición. 
capones | Número entero (integer) | Cantidad de machos castrados. 
corderos_corderas | Número entero (integer) | Cantidad de crías machos y hembras. 

Y además de los campos también existe información del dataset en sí:
- Responsable: Dirección Nacional de Sanidad Animal
- Formato: csv
- Frecuencia de actualización:  Anualmente
- Fecha de creación: 12 de septiembre de 2019
- Último cambio: 28 de noviembre de 2019

Lo anterior nos da una idea generica sobre el dataset, de todas formas vamos a cargarlo para ver su contenido y empezar el analisis.

## Análisis

### Importamos las librerías de python que necesitamos para analizar el dataset

In [1]:
import pandas as pd

La librería pandas nos ayudará a leer y escribir datos en diferentes formatos, seleccionar y filtrar de manera sencilla tablas de datos en función de posición, valor o etiquetas, a fusionar y unir datos, entre muchas cosas más.

### Cargamos el dataset y observamos su contenido

In [2]:
df = pd.read_csv('datos/existencias-ovinas-provincia-departamento-2008-2019.csv', sep=",", encoding='latin-1')
df

Unnamed: 0,anio,provincia,provincia_id,departamento,departamento_id,carneros,ovejas,borregos,capones,corderos_corderas,Unnamed: 10,Unnamed: 11,Unnamed: 12
0,2008,Buenos Aires,6,Adolfo Alsina,6007.0,696.0,13238.0,868.0,195.0,1460.0,,,
1,2009,Buenos Aires,6,Adolfo Alsina,6007.0,721.0,11593.0,981.0,175.0,1615.0,,,
2,2010,Buenos Aires,6,Adolfo Alsina,6007.0,619.0,11016.0,860.0,236.0,1045.0,,,
3,2011,Buenos Aires,6,Adolfo Alsina,6007.0,670.0,10633.0,849.0,282.0,1671.0,,,
4,2012,Buenos Aires,6,Adolfo Alsina,6007.0,871.0,11617.0,1182.0,296.0,2019.0,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5790,2015,Tucumán,90,Yerba Buena,90119.0,11.0,31.0,,,,,,
5791,2016,Tucumán,90,Yerba Buena,90119.0,1.0,2.0,,,,,,
5792,2017,Tucumán,90,Yerba Buena,90119.0,1.0,2.0,,,,,,
5793,2018,Tucumán,90,Yerba Buena,90119.0,2.0,3.0,,,3.0,,,


Es un dataset de 5795 filas y 13 columnas, será necesario analizarlo en detenimiento para saber si contiene los deptos de Chubut, miremos las columnas que trae:

In [3]:
df.columns

Index(['anio', 'provincia', 'provincia_id', 'departamento', 'departamento_id',
       'carneros', 'ovejas', 'borregos', 'capones', 'corderos_corderas',
       'Unnamed: 10', 'Unnamed: 11', 'Unnamed: 12'],
      dtype='object')

Comprobemos si este dataset tiene datos de Chubut.

In [4]:
df['provincia'].unique()

array(['Buenos Aires', 'Catamarca', 'Chaco', 'Chubut',
       'Ciudad Autónoma de Buenos Aires', 'Córdoba', 'Corrientes',
       'Entre Ríos', 'Formosa', 'Jujuy', 'La Pampa', 'La Rioja',
       'Mendoza', 'Misiones', 'Neuquén', 'Río Negro', 'Salta', 'San Juan',
       'San Luis', 'Santa Cruz', 'Santa Fe', 'Santiago del Estero',
       'Tierra del Fuego', 'Tucumán'], dtype=object)

Efectivamente hay datos de Chubut, vamos a filtraros para verlos mejor:

In [5]:
resultado_existencias_chubut = pd.DataFrame(columns=['anio','provincia', 'departamento', 'carneros', 'ovejas', 'borregos', 'capones', 'corderos_corderas'])
for i in df.index: 
    if "Chubut" == df['provincia'][i]:
         resultado_existencias_chubut = resultado_existencias_chubut.append({
                                       'anio': df['anio'][i],
                                       'provincia': df['provincia'][i],
                                       'departamento':df['departamento'][i], 
                                       'carneros':df['carneros'][i],
                                       'ovejas':df['ovejas'][i],
                                       'borregos':df['borregos'][i],
                                       'capones':df['capones'][i],
                                       'corderos_corderas':df['corderos_corderas'][i],}, 
                                      ignore_index=True)
resultado_existencias_chubut

Unnamed: 0,anio,provincia,departamento,carneros,ovejas,borregos,capones,corderos_corderas
0,2008,Chubut,Biedma,7686.0,121561.0,58576.0,69633.0,33876.0
1,2009,Chubut,Biedma,7991.0,119248.0,55498.0,65328.0,23503.0
2,2010,Chubut,Biedma,6756.0,110469.0,38769.0,61853.0,23416.0
3,2011,Chubut,Biedma,6309.0,97816.0,36529.0,54338.0,21831.0
4,2012,Chubut,Biedma,5785.0,93378.0,30168.0,48447.0,16071.0
...,...,...,...,...,...,...,...,...
175,2015,Chubut,Telsen,4766.0,81572.0,24643.0,42758.0,21277.0
176,2016,Chubut,Telsen,4896.0,80262.0,26471.0,39243.0,20290.0
177,2017,Chubut,Telsen,4640.0,77556.0,27296.0,36570.0,17750.0
178,2018,Chubut,Telsen,4832.0,79117.0,28366.0,37558.0,21933.0


In [7]:
resultado_existencias_chubut = resultado_existencias_chubut.sort_values(by=['anio','departamento'], ignore_index=True)
resultado_existencias_chubut

Unnamed: 0,anio,provincia,departamento,carneros,ovejas,borregos,capones,corderos_corderas
0,2008,Chubut,Biedma,7686.0,121561.0,58576.0,69633.0,33876.0
1,2008,Chubut,Cushamen,8180.0,149189.0,41669.0,51128.0,37589.0
2,2008,Chubut,Escalante,7863.0,109225.0,35581.0,40786.0,41516.0
3,2008,Chubut,Florentino Ameghino,13875.0,164382.0,79863.0,63856.0,48809.0
4,2008,Chubut,Futaleufú,5639.0,90494.0,30119.0,24634.0,28237.0
...,...,...,...,...,...,...,...,...
175,2019,Chubut,Rawson,3628.0,74009.0,19514.0,20800.0,18895.0
176,2019,Chubut,Río Senguer,25733.0,384841.0,138981.0,122343.0,125892.0
177,2019,Chubut,Sarmiento,6077.0,99175.0,28287.0,31325.0,28339.0
178,2019,Chubut,Tehuelches,15264.0,196118.0,89141.0,87696.0,74093.0


Estos son los datos que necesitamos, por lo tanto los guardamos en un archivo csv.

In [8]:
resultado_existencias_chubut.to_csv('datos_producidos/existencias_chubut_2008_2019_MAGyC.csv', index=False)