# 2.1. Análisis estadístico - Dataset 1

El análisis estadístico es una herramienta importante para extraer información útil de los datos. En Python, la biblioteca Pandas se utiliza comúnmente para el análisis de datos. Pandas proporciona estructuras de datos poderosas y eficientes para trabajar con datos tabulares, incluyendo la capacidad de leer y escribir diferentes formatos de archivo, un conjunto completo de herramientas para el procesamiento de datos, así como funcionalidades de visualización.

Con Pandas, podemos leer y cargar datos en varios formatos, realizar manipulaciones de datos, limpiar y transformar datos, hacer cálculos estadísticos y análisis exploratorios de datos,.

In [1]:
import pandas as pd

En este caso vamos a explorar el dataset 1. Para ello, comenzaremos cargando los datos del archivo CSV correspondiente.

In [2]:
datos = pd.read_csv("../datos_analisis/dataset_produccion_clima_chubut.csv")

La expresión `datos.shape` devuelve una tupla con dos elementos, (165, 17). Esto significa que el dataframe datos está compuesto por 165 registros, cada uno de ellos con información en 17 variables o características diferentes.

In [3]:
datos.shape

(165, 17)

El atributo `columns` de un objeto `DataFrame` de pandas devuelve un objeto de tipo `Index` que contiene los nombres de las columnas del DataFrame. Esta propiedad permite acceder a las columnas del conjunto de datos y operar con ellas.

In [4]:
datos.columns

Index(['fecha', 'provincia', 'departamento', 'carneros', 'ovejas', 'borregos',
       'capones', 'cordero/as', 'total_ovinos', 'kilos_lana', 'finura',
       'rinde', 'humedad', 'cant_lluvia', 'tem_max', 'temp_media', 'temp_min'],
      dtype='object')

La variable "fecha" indica la fecha en que se tomó la medición. "Provincia" y "departamento" indican la ubicación geográfica donde se tomó la medición. Las siguientes columnas "carneros", "ovejas", "borregos", "capones" y "cordero/as" indican la cantidad de animales de cada tipo que se midieron. La columna "total_ovinos" es la suma de todas las columnas de animales y representa el total de ovinos medidos en cada registro. La columna "kilos_lana" indica la cantidad de lana medida en kilos. Las columnas "finura" y "rinde" son mediciones de la calidad de la lana. Las columnas "humedad", "cant_lluvia", "tem_max", "temp_media" y "temp_min" son mediciones meteorológicas.

La función `datos.head()` de Pandas permite visualizar las primeras filas de un DataFrame, por defecto muestra las primeras 5 filas. Nos da una idea general de los datos cargados y nos permite ver si hay algún problema con la carga de datos. 

In [5]:
datos.head()

Unnamed: 0,fecha,provincia,departamento,carneros,ovejas,borregos,capones,cordero/as,total_ovinos,kilos_lana,finura,rinde,humedad,cant_lluvia,tem_max,temp_media,temp_min
0,2012-12-31,CHUBUT,BIEDMA,5785,93378,30168,48447,16071,193849,649130.0,19.8,58.06,58.4,46.4,18.1,12.4,6.7
1,2013-12-31,CHUBUT,BIEDMA,5376,82998,25341,47350,26832,187897,620176.0,19.6,56.68,64.7,226.5,19.9,14.2,8.8
2,2014-12-31,CHUBUT,BIEDMA,4785,82706,29379,35155,29900,181925,649130.0,20.1,61.19,60.5,331.3,20.6,14.7,9.2
3,2015-12-31,CHUBUT,BIEDMA,4440,89262,29663,35437,32343,191145,672480.0,18.58,58.18,58.7,114.2,22.2,15.8,10.2
4,2016-12-31,CHUBUT,BIEDMA,4452,82295,33662,33470,21326,175205,653800.0,17.99,59.93,57.5,88.9,25.2,18.6,12.9


La función `tail()` de Pandas muestra las últimas filas del dataframe, por defecto las últimas 5. Esta función nos da una vista previa rápida de los últimos datos de un dataframe y nos permite comprobar que los datos se han cargado correctamente y se están procesando adecuadamente. 

In [6]:
datos.tail()

Unnamed: 0,fecha,provincia,departamento,carneros,ovejas,borregos,capones,cordero/as,total_ovinos,kilos_lana,finura,rinde,humedad,cant_lluvia,tem_max,temp_media,temp_min
160,2016-12-31,CHUBUT,TELSEN,4896,80262,26471,39243,20290,171162,637000.0,20.2,53.55,50.8,273.33,17.47,11.57,5.77
161,2017-12-31,CHUBUT,TELSEN,4640,77556,27296,36570,17750,163812,637000.0,19.11,56.01,47.17,220.03,16.6,10.93,5.03
162,2018-12-31,CHUBUT,TELSEN,4832,79117,28366,37558,21933,171806,637000.0,20.38,54.64,47.93,201.4,17.63,11.33,5.03
163,2019-12-31,CHUBUT,TELSEN,4781,80109,28428,38109,17731,169158,613021.5,16.88,53.83,47.57,119.47,17.53,11.17,4.83
164,2020-12-31,CHUBUT,TELSEN,2870,79157,25804,36901,18984,163716,614250.0,21.55,52.96,46.63,101.47,16.6,10.6,4.63


El resultado de `datos.info()` muestra información sobre el conjunto de datos en cuestión. En este caso, se trata de un DataFrame de pandas con 165 entradas y 17 columnas. Cada columna representa una variable diferente, como la fecha, la provincia, el departamento, el número de carneros, el número de ovejas, la cantidad de lluvia, etc.

La tabla indica la cantidad de valores no nulos para cada columna y su tipo de dato. En este caso, todas las columnas tienen 165 valores no nulos y hay tres tipos de datos diferentes: float64, int64 y object. La información de memoria utilizada también se proporciona al final, indicando que el DataFrame ocupa 22.0+ KB de memoria.

In [7]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 165 entries, 0 to 164
Data columns (total 17 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   fecha         165 non-null    object 
 1   provincia     165 non-null    object 
 2   departamento  165 non-null    object 
 3   carneros      165 non-null    int64  
 4   ovejas        165 non-null    int64  
 5   borregos      165 non-null    int64  
 6   capones       165 non-null    int64  
 7   cordero/as    165 non-null    int64  
 8   total_ovinos  165 non-null    int64  
 9   kilos_lana    165 non-null    float64
 10  finura        165 non-null    float64
 11  rinde         165 non-null    float64
 12  humedad       165 non-null    float64
 13  cant_lluvia   165 non-null    float64
 14  tem_max       165 non-null    float64
 15  temp_media    165 non-null    float64
 16  temp_min      165 non-null    float64
dtypes: float64(8), int64(6), object(3)
memory usage: 22.0+ KB


La función `describe()` de Pandas proporciona un resumen estadístico de cada columna numérica en el DataFrame. Este resumen incluye el recuento de valores no nulos (count), la media (mean), la desviación estándar (std), los valores mínimo (min) y máximo (max) de cada columna, y los percentiles 25%, 50% y 75%.

Nos da una idea general del rango y la distribución de los datos en cada columna. 

In [8]:
datos.describe()

Unnamed: 0,carneros,ovejas,borregos,capones,cordero/as,total_ovinos,kilos_lana,finura,rinde,humedad,cant_lluvia,tem_max,temp_media,temp_min
count,165.0,165.0,165.0,165.0,165.0,165.0,165.0,165.0,165.0,165.0,165.0,165.0,165.0,165.0
mean,8588.442424,142959.406061,48585.266667,51529.509091,42996.50303,294659.109091,1086844.0,19.797212,58.204303,53.571515,213.753939,18.45103,11.594242,4.913939
std,6096.545968,87713.008151,37165.529596,34135.20021,34869.840309,195259.805974,777204.4,1.061267,4.535875,10.906164,184.243402,3.117619,2.490684,2.197669
min,1584.0,38558.0,13879.0,12477.0,11071.0,82956.0,201856.0,16.88,47.51,0.3,7.1,10.83,5.33,-0.6
25%,4896.0,86473.0,26471.0,28734.0,21294.0,176065.0,637000.0,19.09,54.64,48.4,103.7,16.13,9.8,3.4
50%,6609.0,123241.0,32080.0,40482.0,29740.0,230802.0,877090.0,19.8,59.18,54.1,155.4,18.4,11.7,4.9
75%,9410.0,161713.0,56336.0,59153.0,44013.0,317981.0,1250640.0,20.53,61.77,59.85,238.6,20.78,13.6,6.22
max,26957.0,443288.0,175695.0,147855.0,159654.0,921789.0,4108800.0,22.48,65.45,77.0,1041.16,26.6,18.6,12.9


La siguiente celda de código calcula la mediana de cada columna del dataset. Esto es útil para obtener una idea de la tendencia central de los datos en cada variable. La mediana es una medida de posición que divide a un conjunto de datos ordenados en dos partes iguales, de modo que el 50% de los datos son mayores que la mediana y el 50% son menores que la mediana.

In [9]:
datos.median()

carneros          6609.00
ovejas          123241.00
borregos         32080.00
capones          40482.00
cordero/as       29740.00
total_ovinos    230802.00
kilos_lana      877090.00
finura              19.80
rinde               59.18
humedad             54.10
cant_lluvia        155.40
tem_max             18.40
temp_media          11.70
temp_min             4.90
dtype: float64

Para evaluar si los datos tienen algún tipo de sesgo, es fundamental analizar la distribución de los mismos. Una distribución sesgada indica que los datos se concentran en un lado de la distribución, lo que puede afectar la interpretación de los resultados obtenidos.

La asimetría de una distribución es una medida que nos permite determinar si la distribución está sesgada hacia la derecha o hacia la izquierda. Una forma común de medir la asimetría es mediante el coeficiente de asimetría (skewness en inglés), que puede ser calculado utilizando la función `skew()` de Pandas. Si el valor del coeficiente de asimetría es cercano a cero, entonces la distribución es simétrica, mientras que si el valor es mayor a cero, indica una distribución sesgada hacia la derecha (positivo) y si es menor a cero, indica una distribución sesgada hacia la izquierda (negativo). 

In [10]:
datos.skew()

carneros        1.604009
ovejas          1.793906
borregos        1.745677
capones         1.412119
cordero/as      1.900176
total_ovinos    1.778671
kilos_lana      1.692090
finura         -0.213958
rinde          -0.743358
humedad        -1.592241
cant_lluvia     1.958729
tem_max        -0.001843
temp_media      0.115908
temp_min        0.455066
dtype: float64

Podemos observar que los valores del coeficiente de asimetría (skewness) para las existencias ovinas se encuentran en el rango de 1.412119 a 1.900176. Este rango indica que la distribución de los datos en todas estas columnas presenta sesgo positivo, es decir, una cola larga hacia la derecha. Esto significa que la mayor concentración de valores se encuentra en el lado izquierdo de la distribución, mientras que hay pocos valores en el lado derecho. En otras palabras, para estas columnas, la mayoría de los datos están agrupados en valores bajos o moderados y hay pocos valores atípicos en el extremo derecho de la distribución.

En relación a la variable "kilos de lana", se observa un coeficiente de asimetría (skewness) de 1.692090, lo que indica que la distribución de los datos está sesgada hacia la derecha. Esto implica que la mayoría de los valores se encuentran en el lado izquierdo de la distribución, mientras que hay pocos valores en el lado derecho. Por otro lado, las variables "rinde" (-0.743358) y "finura" (-0.213958) presentan una asimetría negativa, aunque en menor medida que la variable "lana", ya que sus coeficientes de asimetría están más cercanos a cero. Esto significa que la cola de la distribución se extiende más hacia la izquierda en relación con la media.

Al analizar los datos meteorológicos, se puede observar que la humedad y la temperatura máxima tienen una asimetría negativa de -1.592241 y -0.001843, respectivamente. La humedad presenta una gran asimetría, mientras que la temperatura máxima es casi simétrica.
Por otro lado, la lluvia (1.958729) tiene una asimetría positiva más pronunciada y la temperatura mínima (0.455066) y la temperatura media (0.115908) presentan una ligera asimetría positiva. En estos últimos tres casos, se puede afirmar que la cola de la distribución se extiende más hacia la derecha que hacia la izquierda en relación con la media.

Conocer la cantidad de valores únicos en un dataset es fundamental para comprender la diversidad y distribución de los datos. En este sentido, empezaremos analizando tanto la fecha como el departamento de los registros.

In [11]:
def ver_valores_unicos(col_names):
    for col in col_names:
        vc = datos[col].value_counts()
        print(f"Valores únicos en la columna {col}: \n{vc}\n")

In [12]:
col_names = ['fecha', 'departamento']
ver_valores_unicos(col_names)

Valores únicos en la columna fecha: 
2012-12-31    12
2016-12-31    12
2017-12-31    12
2019-12-31    12
2020-12-31    12
2013-12-31    12
2014-12-31    11
2015-12-31    11
2018-12-31    11
2009-12-31    10
2010-12-31     9
2011-12-31     9
2008-12-31     9
2007-12-31     7
2006-12-31     7
2005-12-31     4
2000-12-31     1
2001-12-31     1
2002-12-31     1
2003-12-31     1
2004-12-31     1
Name: fecha, dtype: int64

Valores únicos en la columna departamento: 
RAWSON                 21
FUTALEUFU              16
RIO SENGUERR           16
CUSHAMEN               15
GAIMAN                 15
SARMIENTO              15
PASO DE INDIOS         14
TELSEN                 13
TEHUELCHES             12
FLORENTINO AMEGHINO    11
BIEDMA                  9
LANGUIÑEO               8
Name: departamento, dtype: int64



Podemos observar que a partir del año 2009 hasta el 2020 se registra una cantidad de datos anual que varía entre 10 y 12. Sin embargo, para años anteriores a este periodo, se registra una disminución en la cantidad de datos debido quizás a la falta de recolección de información. En cuanto a los valores únicos de la columna "departamento", se puede notar que el departamento de Rawson cuenta con la mayor cantidad de registros, con un total de 21. Además, existen dos departamentos con 16 registros, tres con 15 registros, y varios departamentos con un número menor de registros, incluyendo Biedma con 9 registros y Languiñeo con 8 registros.

Lo siguiente es ver los valores únicos para las existencias.

In [13]:
col_names = ['carneros','ovejas', 'borregos','cordero/as','total_ovinos']
ver_valores_unicos(col_names)

Valores únicos en la columna carneros: 
6650     2
9623     2
5785     1
24926    1
2273     1
        ..
5802     1
7647     1
8503     1
8368     1
2870     1
Name: carneros, Length: 163, dtype: int64

Valores únicos en la columna ovejas: 
93378     1
66374     1
68936     1
74009     1
74096     1
         ..
132221    1
123977    1
138573    1
143403    1
79157     1
Name: ovejas, Length: 165, dtype: int64

Valores únicos en la columna borregos: 
30168    1
17693    1
20065    1
19514    1
18058    1
        ..
27090    1
20057    1
20059    1
21683    1
25804    1
Name: borregos, Length: 165, dtype: int64

Valores únicos en la columna cordero/as: 
16071    1
19079    1
21294    1
18895    1
22102    1
        ..
27345    1
23647    1
20514    1
27900    1
18984    1
Name: cordero/as, Length: 165, dtype: int64

Valores únicos en la columna total_ovinos: 
193849    1
128330    1
132996    1
136846    1
135796    1
         ..
234952    1
219186    1
230046    1
245238    1
163716   

Al analizar los datos de existencias ovinas, se puede observar que en su mayoría los valores no se repiten, ya que la mayoría de las veces sólo aparecen una vez y en algunos casos dos. Dado que una alta cantidad de valores únicos puede aumentar la complejidad de un modelo de aprendizaje automático y hacer que sea más difícil de entrenar y optimizar, esta bueno conocer esta información. 

La siguiente celda se utiliza para contar la cantidad de valores faltantes en cada columna del conjunto de datos datos. Los valores faltantes, también conocidos como valores nulos o NA, son aquellos que no tienen un valor asignado en la tabla de datos. Saber la cantidad de valores faltantes en cada columna es importante porque puede afectar la calidad de los análisis y modelos de aprendizaje automático que se realicen con los datos. 

In [14]:
datos.isnull().sum()

fecha           0
provincia       0
departamento    0
carneros        0
ovejas          0
borregos        0
capones         0
cordero/as      0
total_ovinos    0
kilos_lana      0
finura          0
rinde           0
humedad         0
cant_lluvia     0
tem_max         0
temp_media      0
temp_min        0
dtype: int64

En este caso, no falta ningún dato, ya que se trabajó arduamente con los scrapers y el procesamiento de datos para garantizar su integridad.

Con este primer análisis estadístico, estamos preparados para analizar el conjunto de datos de manera gráfica.