# Análisis estadístico - Dataset 1

El análisis estadístico es una herramienta importante para extraer información útil de los datos. En Python, la biblioteca Pandas se utiliza comúnmente para el análisis de datos. Pandas proporciona estructuras de datos poderosas y eficientes para trabajar con datos tabulares, incluyendo la capacidad de leer y escribir diferentes formatos de archivo, un conjunto completo de herramientas para el procesamiento de datos, así como funcionalidades de visualización.

Con Pandas, podemos leer y cargar datos en varios formatos, realizar manipulaciones de datos, limpiar y transformar datos, hacer cálculos estadísticos y análisis exploratorios de datos,.

In [1]:
import pandas as pd

En este caso vamos a explorar el dataset 1. Para ello, comenzaremos cargando los datos del archivo CSV correspondiente.

In [2]:
datos = pd.read_csv("../datos_analisis/dataset_produccion_clima_chubut_actualizado.csv")

La expresión `datos.shape` devuelve una tupla con dos elementos, (164, 17). Esto significa que el dataframe datos está compuesto por 164 registros, cada uno de ellos con información en 17 variables o características diferentes.

In [3]:
datos.shape

(164, 17)

El atributo `columns` de un objeto `DataFrame` de pandas devuelve un objeto de tipo `Index` que contiene los nombres de las columnas del DataFrame. Esta propiedad permite acceder a las columnas del conjunto de datos y operar con ellas.

In [4]:
datos.columns

Index(['fecha', 'provincia', 'departamento', 'carneros', 'ovejas', 'borregos',
       'capones', 'corderos_corderas', 'total_ovinos', 'kilos_lana', 'finura',
       'rinde', 'humedad', 'cant_lluvia', 'tem_max', 'temp_media', 'temp_min'],
      dtype='object')

La variable "fecha" indica la fecha en que se tomó la medición. "Provincia" y "departamento" indican la ubicación geográfica donde se tomó la medición. Las siguientes columnas "carneros", "ovejas", "borregos", "capones" y "cordero/as" indican la cantidad de animales de cada tipo que se midieron. La columna "total_ovinos" es la suma de todas las columnas de animales y representa el total de ovinos medidos en cada registro. La columna "kilos_lana" indica la cantidad de lana medida en kilos. Las columnas "finura" y "rinde" son mediciones de la calidad de la lana. Las columnas "humedad", "cant_lluvia", "tem_max", "temp_media" y "temp_min" son mediciones meteorológicas.

La función `datos.head()` de Pandas permite visualizar las primeras filas de un DataFrame, por defecto muestra las primeras 5 filas. Nos da una idea general de los datos cargados y nos permite ver si hay algún problema con la carga de datos. 

In [5]:
datos.head()

Unnamed: 0,fecha,provincia,departamento,carneros,ovejas,borregos,capones,corderos_corderas,total_ovinos,kilos_lana,finura,rinde,humedad,cant_lluvia,tem_max,temp_media,temp_min
0,2012-12-31,CHUBUT,BIEDMA,2740,52320,22319,25489,29517,132385,478116.0,19.3,55.68,58.4,46.4,18.1,12.4,6.7
1,2013-12-31,CHUBUT,BIEDMA,3925,70677,27227,33389,36961,172179,544941.0,19.8,55.0,64.7,226.5,19.9,14.2,8.8
2,2014-12-31,CHUBUT,BIEDMA,3223,61195,29491,29688,34926,158523,513951.0,19.22,58.86,60.5,331.3,20.6,14.7,9.2
3,2015-12-31,CHUBUT,BIEDMA,3885,67528,28319,33296,38117,171145,540818.2,19.32,58.36,58.7,114.2,22.2,15.8,10.2
4,2016-12-31,CHUBUT,BIEDMA,3743,70451,30050,33038,37923,175205,606209.3,19.29,57.35,57.5,88.9,25.2,18.6,12.9


La función `tail()` de Pandas muestra las últimas filas del dataframe, por defecto las últimas 5. Esta función nos da una vista previa rápida de los últimos datos de un dataframe y nos permite comprobar que los datos se han cargado correctamente y se están procesando adecuadamente. 

In [6]:
datos.tail()

Unnamed: 0,fecha,provincia,departamento,carneros,ovejas,borregos,capones,corderos_corderas,total_ovinos,kilos_lana,finura,rinde,humedad,cant_lluvia,tem_max,temp_media,temp_min
159,2016-12-31,CHUBUT,TELSEN,4711,74125,28715,31728,31883,171162,665820.18,19.97,53.52,50.8,273.33,17.47,11.57,5.77
160,2017-12-31,CHUBUT,TELSEN,4496,71149,27574,28606,31987,163812,617571.24,20.0,52.95,47.17,220.03,16.6,10.93,5.03
161,2018-12-31,CHUBUT,TELSEN,4634,74179,28793,35979,28221,171806,627091.9,19.81,52.41,47.93,201.4,17.63,11.33,5.03
162,2019-12-31,CHUBUT,TELSEN,4305,72515,27648,35273,29417,169158,622501.44,19.87,53.99,47.57,119.47,17.53,11.17,4.83
163,2020-12-31,CHUBUT,TELSEN,4416,70736,27084,31418,30062,163716,620483.64,19.84,52.71,46.63,101.47,16.6,10.6,4.63


El resultado de `datos.info()` muestra información sobre el conjunto de datos en cuestión. En este caso, se trata de un DataFrame de pandas con 164 entradas y 17 columnas. Cada columna representa una variable diferente, como la fecha, la provincia, el departamento, el número de carneros, el número de ovejas, la cantidad de lluvia, etc.

La tabla indica la cantidad de valores no nulos para cada columna y su tipo de dato. En este caso, todas las columnas tienen 164 valores no nulos y hay tres tipos de datos diferentes: float64, int64 y object. La información de memoria utilizada también se proporciona al final, indicando que el DataFrame ocupa 21.9+ KB de memoria.

In [7]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 164 entries, 0 to 163
Data columns (total 17 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   fecha              164 non-null    object 
 1   provincia          164 non-null    object 
 2   departamento       164 non-null    object 
 3   carneros           164 non-null    int64  
 4   ovejas             164 non-null    int64  
 5   borregos           164 non-null    int64  
 6   capones            164 non-null    int64  
 7   corderos_corderas  164 non-null    int64  
 8   total_ovinos       164 non-null    int64  
 9   kilos_lana         164 non-null    float64
 10  finura             164 non-null    float64
 11  rinde              164 non-null    float64
 12  humedad            164 non-null    float64
 13  cant_lluvia        164 non-null    float64
 14  tem_max            164 non-null    float64
 15  temp_media         164 non-null    float64
 16  temp_min           164 non

La función `describe()` de Pandas proporciona un resumen estadístico de cada columna numérica en el DataFrame. Este resumen incluye el recuento de valores no nulos (count), la media (mean), la desviación estándar (std), los valores mínimo (min) y máximo (max) de cada columna, y los percentiles 25%, 50% y 75%.

Nos da una idea general del rango y la distribución de los datos en cada columna. 

In [8]:
datos.describe()

Unnamed: 0,carneros,ovejas,borregos,capones,corderos_corderas,total_ovinos,kilos_lana,finura,rinde,humedad,cant_lluvia,tem_max,temp_media,temp_min
count,164.0,164.0,164.0,164.0,164.0,164.0,164.0,164.0,164.0,164.0,164.0,164.0,164.0,164.0
mean,6795.079268,109195.097561,40317.04878,39883.079268,54915.945122,251106.25,894000.5,20.081463,57.112927,53.523171,214.457317,18.458659,11.603354,4.924695
std,4791.898721,74333.016127,31458.372487,28173.486877,39221.660324,175984.465887,646889.2,0.470081,4.167566,10.921819,184.585356,3.125622,2.495552,2.20004
min,1421.0,21913.0,7264.0,8605.0,11300.0,50513.0,166901.0,19.22,48.21,0.3,7.1,10.83,5.33,-0.6
25%,3875.5,63116.5,21414.5,19209.75,30004.0,138213.0,523910.2,19.8075,54.16,48.325,104.225,16.1225,9.7925,3.4525
50%,5374.5,85986.0,28544.0,31487.0,42456.5,183361.0,663384.1,20.01,57.465,54.05,155.8,18.55,11.75,4.9
75%,7508.75,125565.25,45959.25,47709.5,60730.0,293195.5,994783.3,20.2425,60.395,59.8125,243.1,20.785,13.6,6.2325
max,21067.0,345839.0,139387.0,114801.0,178182.0,797790.0,2991712.0,21.6,63.9,77.0,1041.16,26.6,18.6,12.9


La siguiente celda de código calcula la mediana de cada columna del dataset. Esto es útil para obtener una idea de la tendencia central de los datos en cada variable. La mediana es una medida de posición que divide a un conjunto de datos ordenados en dos partes iguales, de modo que el 50% de los datos son mayores que la mediana y el 50% son menores que la mediana.

In [9]:
datos.median()

carneros               5374.500
ovejas                85986.000
borregos              28544.000
capones               31487.000
corderos_corderas     42456.500
total_ovinos         183361.000
kilos_lana           663384.050
finura                   20.010
rinde                    57.465
humedad                  54.050
cant_lluvia             155.800
tem_max                  18.550
temp_media               11.750
temp_min                  4.900
dtype: float64

Para evaluar si los datos tienen algún tipo de sesgo, es fundamental analizar la distribución de los mismos. Una distribución sesgada indica que los datos se concentran en un lado de la distribución, lo que puede afectar la interpretación de los resultados obtenidos.

La asimetría de una distribución es una medida que nos permite determinar si la distribución está sesgada hacia la derecha o hacia la izquierda. Una forma común de medir la asimetría es mediante el coeficiente de asimetría (skewness en inglés), que puede ser calculado utilizando la función `skew()` de Pandas. Si el valor del coeficiente de asimetría es cercano a cero, entonces la distribución es simétrica, mientras que si el valor es mayor a cero, indica una distribución sesgada hacia la derecha (positivo) y si es menor a cero, indica una distribución sesgada hacia la izquierda (negativo). 

In [10]:
datos.skew()

carneros             1.552531
ovejas               1.669065
borregos             1.588924
capones              1.245943
corderos_corderas    1.607333
total_ovinos         1.579539
kilos_lana           1.625766
finura               0.865873
rinde               -0.346975
humedad             -1.584182
cant_lluvia          1.949903
tem_max             -0.008854
temp_media           0.106191
temp_min             0.444767
dtype: float64

Podemos observar que los valores del coeficiente de asimetría (skewness) para las existencias ovinas se encuentran en el rango de 1.245943 a 1.669065. Este rango indica que la distribución de los datos en todas estas columnas presenta sesgo positivo, es decir, una cola larga hacia la derecha. Esto significa que la mayor concentración de valores se encuentra en el lado izquierdo de la distribución, mientras que hay pocos valores en el lado derecho. En otras palabras, para estas columnas, la mayoría de los datos están agrupados en valores bajos o moderados y hay pocos valores atípicos en el extremo derecho de la distribución.

En relación a la variable "kilos de lana", se puede observar un coeficiente de asimetría (skewness) de 1.625766, lo que indica que la distribución de los datos está sesgada hacia la derecha. Esto significa que la mayoría de los valores se concentran en el lado izquierdo de la distribución, mientras que hay pocos valores en el lado derecho. Por otro lado, las variables "rinde" (-0.346975) y "finura" (0.865873) presentan asimetría negativa y positiva, respectivamente, aunque en menor medida que la variable "lana", ya que sus coeficientes de asimetría están más cercanos a cero.

Al analizar los datos meteorológicos, se puede observar que la humedad y la temperatura máxima tienen una asimetría negativa de -1.584182 y -0.008854, respectivamente. La humedad presenta una gran asimetría, mientras que la temperatura máxima es casi simétrica.
Por otro lado, la lluvia (1.949903) tiene una asimetría positiva más pronunciada y la temperatura mínima (0.444767) y la temperatura media (0.106191) presentan una ligera asimetría positiva. En estos últimos tres casos, se puede afirmar que la cola de la distribución se extiende más hacia la derecha que hacia la izquierda en relación con la media.

Conocer la cantidad de valores únicos en un dataset es fundamental para comprender la diversidad y distribución de los datos. En este sentido, empezaremos analizando tanto la fecha como el departamento de los registros.

In [11]:
def ver_valores_unicos(col_names):
    for col in col_names:
        vc = datos[col].value_counts()
        print(f"Valores únicos en la columna {col}: \n{vc}\n")

In [12]:
col_names = ['fecha', 'departamento']
ver_valores_unicos(col_names)

Valores únicos en la columna fecha: 
2012-12-31    12
2016-12-31    12
2017-12-31    12
2019-12-31    12
2013-12-31    12
2014-12-31    11
2015-12-31    11
2018-12-31    11
2020-12-31    11
2009-12-31    10
2010-12-31     9
2011-12-31     9
2008-12-31     9
2007-12-31     7
2006-12-31     7
2005-12-31     4
2000-12-31     1
2001-12-31     1
2002-12-31     1
2003-12-31     1
2004-12-31     1
Name: fecha, dtype: int64

Valores únicos en la columna departamento: 
RAWSON                 21
FUTALEUFU              16
RIO SENGUERR           16
CUSHAMEN               15
GAIMAN                 15
SARMIENTO              15
PASO DE INDIOS         14
TELSEN                 13
TEHUELCHES             12
FLORENTINO AMEGHINO    11
BIEDMA                  9
LANGUIÑEO               7
Name: departamento, dtype: int64



Podemos observar que a partir del año 2009 hasta el 2020 se registra una cantidad de datos anual que varía entre 10 y 12. Sin embargo, para años anteriores a este periodo, se registra una disminución en la cantidad de datos debido quizás a la falta de recolección de información. En cuanto a los valores únicos de la columna "departamento", se puede notar que el departamento de Rawson cuenta con la mayor cantidad de registros, con un total de 21. Además, existen dos departamentos con 16 registros, tres con 15 registros, y varios departamentos con un número menor de registros, incluyendo Biedma con 9 registros y Languiñeo con 7 registros.

Lo siguiente es ver los valores únicos para las existencias.

In [13]:
col_names = ['carneros','ovejas', 'borregos','corderos_corderas','total_ovinos']
ver_valores_unicos(col_names)

Valores únicos en la columna carneros: 
3885     2
6624     2
2740     1
14701    1
2198     1
        ..
4286     1
3191     1
4102     1
4936     1
4416     1
Name: carneros, Length: 162, dtype: int64

Valores únicos en la columna ovejas: 
104515    2
52320     1
282372    1
31221     1
36271     1
         ..
85321     1
78610     1
61268     1
87337     1
70736     1
Name: ovejas, Length: 163, dtype: int64

Valores únicos en la columna borregos: 
22319    1
8937     1
12300    1
11357    1
9613     1
        ..
21365    1
22475    1
16706    1
20059    1
27084    1
Name: borregos, Length: 164, dtype: int64

Valores únicos en la columna corderos_corderas: 
33896     2
29517     1
139943    1
17463     1
16450     1
         ..
36282     1
34392     1
29065     1
31970     1
30062     1
Name: corderos_corderas, Length: 163, dtype: int64

Valores únicos en la columna total_ovinos: 
132385    1
62330     1
82996     1
76846     1
65796     1
         ..
171408    1
164712    1
128210  

Al analizar los datos de existencias ovinas, se puede observar que en su mayoría los valores no se repiten, ya que la mayoría de las veces sólo aparecen una vez y en algunos casos dos. Dado que una alta cantidad de valores únicos puede aumentar la complejidad de un modelo de aprendizaje automático y hacer que sea más difícil de entrenar y optimizar, esta bueno conocer esta información. 

La siguiente celda se utiliza para contar la cantidad de valores faltantes en cada columna del conjunto de datos datos. Los valores faltantes, también conocidos como valores nulos o NA, son aquellos que no tienen un valor asignado en la tabla de datos. Saber la cantidad de valores faltantes en cada columna es importante porque puede afectar la calidad de los análisis y modelos de aprendizaje automático que se realicen con los datos. 

In [14]:
datos.isnull().sum()

fecha                0
provincia            0
departamento         0
carneros             0
ovejas               0
borregos             0
capones              0
corderos_corderas    0
total_ovinos         0
kilos_lana           0
finura               0
rinde                0
humedad              0
cant_lluvia          0
tem_max              0
temp_media           0
temp_min             0
dtype: int64

En este caso, no falta ningún dato, ya que se trabajó arduamente con los scrapers y el procesamiento de datos para garantizar su integridad.

Con este primer análisis estadístico, estamos preparados para analizar el conjunto de datos de manera gráfica.