# Análisis estadístico - Dataset 2

El análisis estadístico es una herramienta importante para extraer información útil de los datos. En Python, la biblioteca Pandas se utiliza comúnmente para el análisis de datos. Pandas proporciona estructuras de datos poderosas y eficientes para trabajar con datos tabulares, incluyendo la capacidad de leer y escribir diferentes formatos de archivo, un conjunto completo de herramientas para el procesamiento de datos, así como funcionalidades de visualización.

Con Pandas, podemos leer y cargar datos en varios formatos, realizar manipulaciones de datos, limpiar y transformar datos, hacer cálculos estadísticos y análisis exploratorios de datos,.

In [1]:
import pandas as pd

En este caso vamos a explorar el dataset 2. Para ello, comenzaremos cargando los datos del archivo CSV correspondiente.

In [2]:
datos = pd.read_csv("../datos_analisis/dataset_produccion_clima_chubut_mirabueno.csv")

La expresión `datos.shape` devuelve una tupla con dos elementos, (201, 17). Esto significa que el dataframe datos está compuesto por 201 registros, cada uno de ellos con información en 17 variables o características diferentes.

In [3]:
datos.shape

(201, 17)

El atributo `columns` de un objeto `DataFrame` de pandas devuelve un objeto de tipo `Index` que contiene los nombres de las columnas del DataFrame. Esta propiedad permite acceder a las columnas del conjunto de datos y operar con ellas.

In [4]:
datos.columns

Index(['fecha', 'hectareas', 'departamento', 'carneros', 'ovejas', 'borregos',
       'capones', 'cordero/as', 'total_ovinos', 'kilos_lana', 'finura',
       'rinde', 'humedad', 'cant_lluvia', 'tem_max', 'temp_media', 'temp_min'],
      dtype='object')

La columna "fecha" contiene la fecha en que se realizó la medición, mientras que la columna "departamento" indica la ubicación geográfica donde se llevó a cabo la medición. La columna "hectáreas" indica el área de tierra ocupada por cada departamento en hectáreas. Las columnas "carneros", "ovejas", "borregos", "capones" y "corderos/as" indican la cantidad de animales de cada tipo medidos en cada registro. La columna "total_ovinos" es la suma de todas estas columnas de animales y representa el total de ovinos medidos en cada registro. La columna "kilos_lana" indica la cantidad de lana medida en kilos para cada registro. Además, las columnas "finura" y "rinde" proporcionan mediciones de la calidad de la lana. Por otro lado, las columnas "humedad", "cant_lluvia", "tem_max", "temp_media" y "temp_min" indican mediciones meteorológicas relevantes para cada registro.

La función `datos.head()` de Pandas permite visualizar las primeras filas de un DataFrame, por defecto muestra las primeras 5 filas. Nos da una idea general de los datos cargados y nos permite ver si hay algún problema con la carga de datos. 

In [5]:
datos.head()

Unnamed: 0,fecha,hectareas,departamento,carneros,ovejas,borregos,capones,cordero/as,total_ovinos,kilos_lana,finura,rinde,humedad,cant_lluvia,tem_max,temp_media,temp_min
0,2012-12-31,1294000,BIEDMA,5785,93378,30168,48447,16071,193849,649130.0,19.8,58.06,58.4,46.4,18.1,12.4,6.7
1,2013-12-31,1294000,BIEDMA,5376,82998,25341,47350,26832,187897,620176.0,19.6,56.68,64.7,226.5,19.9,14.2,8.8
2,2014-12-31,1294000,BIEDMA,4785,82706,29379,35155,29900,181925,649130.0,20.1,61.19,60.5,331.3,20.6,14.7,9.2
3,2015-12-31,1294000,BIEDMA,4440,89262,29663,35437,32343,191145,672480.0,18.58,58.18,58.7,114.2,22.2,15.8,10.2
4,2016-12-31,1294000,BIEDMA,4452,82295,33662,33470,21326,175205,653800.0,17.99,59.93,57.5,88.9,25.2,18.6,12.9


La función `tail()` de Pandas muestra las últimas filas del dataframe, por defecto las últimas 5. Esta función nos da una vista previa rápida de los últimos datos de un dataframe y nos permite comprobar que los datos se han cargado correctamente y se están procesando adecuadamente. 

In [6]:
datos.tail()

Unnamed: 0,fecha,hectareas,departamento,carneros,ovejas,borregos,capones,cordero/as,total_ovinos,kilos_lana,finura,rinde,humedad,cant_lluvia,tem_max,temp_media,temp_min
196,2016-12-31,1989300,TELSEN,4896,80262,26471,39243,20290,171162,637000.0,20.2,53.55,50.8,273.33,17.47,11.57,5.77
197,2017-12-31,1989300,TELSEN,4640,77556,27296,36570,17750,163812,637000.0,19.11,56.01,47.17,220.03,16.6,10.93,5.03
198,2018-12-31,1989300,TELSEN,4832,79117,28366,37558,21933,171806,637000.0,20.38,54.64,47.93,201.4,17.63,11.33,5.03
199,2019-12-31,1989300,TELSEN,4781,80109,28428,38109,17731,169158,613021.5,16.88,53.83,47.57,119.47,17.53,11.17,4.83
200,2020-12-31,1989300,TELSEN,2870,79157,25804,36901,18984,163716,614250.0,21.55,52.96,46.63,101.47,16.6,10.6,4.6


El resultado de `datos.info()` muestra información sobre el conjunto de datos en cuestión. En este caso, se trata de un DataFrame de pandas con 201 entradas y 17 columnas. Cada columna representa una variable diferente, como la fecha, la provincia, el departamento, el número de carneros, el número de ovejas, la cantidad de lluvia, etc.

La tabla indica la cantidad de valores no nulos para cada columna y su tipo de dato. En este caso, todas las columnas tienen 201 valores no nulos y hay tres tipos de datos diferentes: float64, int64 y object. La información de memoria utilizada también se proporciona al final, indicando que el DataFrame ocupa 26.8+ KB de memoria.

In [7]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 201 entries, 0 to 200
Data columns (total 17 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   fecha         201 non-null    object 
 1   hectareas     201 non-null    int64  
 2   departamento  201 non-null    object 
 3   carneros      201 non-null    int64  
 4   ovejas        201 non-null    int64  
 5   borregos      201 non-null    int64  
 6   capones       201 non-null    int64  
 7   cordero/as    201 non-null    int64  
 8   total_ovinos  201 non-null    int64  
 9   kilos_lana    201 non-null    float64
 10  finura        201 non-null    float64
 11  rinde         201 non-null    float64
 12  humedad       201 non-null    float64
 13  cant_lluvia   201 non-null    float64
 14  tem_max       201 non-null    float64
 15  temp_media    201 non-null    float64
 16  temp_min      201 non-null    float64
dtypes: float64(8), int64(7), object(2)
memory usage: 26.8+ KB


La función `describe()` de Pandas proporciona un resumen estadístico de cada columna numérica en el DataFrame. Este resumen incluye el recuento de valores no nulos (count), la media (mean), la desviación estándar (std), los valores mínimo (min) y máximo (max) de cada columna, y los percentiles 25%, 50% y 75%.

Nos da una idea general del rango y la distribución de los datos en cada columna. 

In [8]:
datos.describe()

Unnamed: 0,hectareas,carneros,ovejas,borregos,capones,cordero/as,total_ovinos,kilos_lana,finura,rinde,humedad,cant_lluvia,tem_max,temp_media,temp_min
count,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0
mean,1185600.0,7059.59204,117623.0,39972.074627,42412.358209,35389.223881,242456.233831,894301.4,19.757164,58.26597,53.437313,208.020398,18.934428,11.927114,5.073483
std,755361.7,6422.172245,96258.454605,38397.581433,36583.899122,35547.605098,209323.799005,816141.0,1.004677,4.311247,10.607092,169.94931,3.037241,2.382942,2.058007
min,250.0,27.0,768.0,275.0,134.0,34.0,1771.0,5245.0,16.88,47.51,0.3,7.1,10.83,5.33,-0.6
25%,392200.0,2520.0,61699.0,19514.0,21340.0,17144.0,123321.0,260224.0,19.1,55.26,48.8,105.77,16.5,10.07,3.6
50%,1456300.0,5785.0,106471.0,30119.0,34584.0,27014.0,214592.0,768912.0,19.77,59.06,54.3,161.0,19.85,12.5,5.3
75%,1625000.0,8550.0,150454.0,46140.0,52400.0,41337.0,287755.0,1143408.0,20.45,61.66,59.15,222.05,21.0,13.6,6.3
max,2233500.0,26957.0,443288.0,175695.0,147855.0,159654.0,921789.0,4108800.0,22.48,65.45,77.0,1041.16,26.6,18.6,12.9


La siguiente celda de código calcula la mediana de cada columna del dataset. Esto es útil para obtener una idea de la tendencia central de los datos en cada variable. La mediana es una medida de posición que divide a un conjunto de datos ordenados en dos partes iguales, de modo que el 50% de los datos son mayores que la mediana y el 50% son menores que la mediana.

In [9]:
datos.median()

hectareas       1456300.00
carneros           5785.00
ovejas           106471.00
borregos          30119.00
capones           34584.00
cordero/as        27014.00
total_ovinos     214592.00
kilos_lana       768912.00
finura               19.77
rinde                59.06
humedad              54.30
cant_lluvia         161.00
tem_max              19.85
temp_media           12.50
temp_min              5.30
dtype: float64

Para evaluar si los datos tienen algún tipo de sesgo, es fundamental analizar la distribución de los mismos. Una distribución sesgada indica que los datos se concentran en un lado de la distribución, lo que puede afectar la interpretación de los resultados obtenidos.

La asimetría de una distribución es una medida que nos permite determinar si la distribución está sesgada hacia la derecha o hacia la izquierda. Una forma común de medir la asimetría es mediante el coeficiente de asimetría (skewness en inglés), que puede ser calculado utilizando la función `skew()` de Pandas. Si el valor del coeficiente de asimetría es cercano a cero, entonces la distribución es simétrica, mientras que si el valor es mayor a cero, indica una distribución sesgada hacia la derecha (positivo) y si es menor a cero, indica una distribución sesgada hacia la izquierda (negativo). 

In [10]:
datos.skew()

hectareas      -0.310836
carneros        1.430845
ovejas          1.349549
borregos        1.629180
capones         1.219575
cordero/as      1.815691
total_ovinos    1.461836
kilos_lana      1.508300
finura         -0.125210
rinde          -0.728973
humedad        -1.695929
cant_lluvia     2.131434
tem_max        -0.302842
temp_media     -0.198763
temp_min        0.257953
dtype: float64

Podemos observar que los valores del coeficiente de asimetría (skewness) para las existencias ovinas se encuentran en el rango de 1.219575 a 1.815691. Este rango indica que la distribución de los datos en todas estas columnas presenta sesgo positivo, es decir, una cola larga hacia la derecha. Esto significa que la mayor concentración de valores se encuentra en el lado izquierdo de la distribución, mientras que hay pocos valores en el lado derecho. En otras palabras, para estas columnas, la mayoría de los datos están agrupados en valores bajos o moderados y hay pocos valores atípicos en el extremo derecho de la distribución.

En relación a la variable "kilos de lana", se observa un coeficiente de asimetría (skewness) de 1.508300, lo que indica que la distribución de los datos está sesgada hacia la derecha. Esto implica que la mayoría de los valores se encuentran en el lado izquierdo de la distribución, mientras que hay pocos valores en el lado derecho. Por otro lado, las variables "rinde" (-0.728973) y "finura" (-0.125210) presentan una asimetría negativa, aunque en menor medida que la variable "lana", ya que sus coeficientes de asimetría están más cercanos a cero. Esto significa que la cola de la distribución se extiende más hacia la izquierda en relación con la media.

Al analizar los datos meteorológicos, se puede observar que la cantidad de lluvia y la temperatura minima tienen una asimetría positiva de 2.131434 y 0.257953, respectivamente. La lluvia presenta una gran asimetría, mientras que la temperatura máxima es mas simétrica.
Por otro lado, la humedad (-1.695929) tiene una asimetría negativa más pronunciada y la temperatura máxima (-0.302842) y la temperatura media (-0.198763) presentan una ligera asimetría positiva. En estos últimos tres casos, se puede afirmar que la cola de la distribución se extiende más hacia la izquierda que hacia la derecha en relación con la media.

Conocer la cantidad de valores únicos en un dataset es fundamental para comprender la diversidad y distribución de los datos. En este sentido, empezaremos analizando tanto la fecha como el departamento de los registros.

In [11]:
def ver_valores_unicos(col_names):
    for col in col_names:
        vc = datos[col].value_counts()
        print(f"Valores únicos en la columna {col}: \n{vc}\n")

In [12]:
col_names = ['fecha', 'departamento']
ver_valores_unicos(col_names)

Valores únicos en la columna fecha: 
2012-12-31    13
2016-12-31    13
2017-12-31    13
2019-12-31    13
2020-12-31    13
2013-12-31    13
2014-12-31    12
2015-12-31    12
2018-12-31    12
2009-12-31    11
2010-12-31    10
2011-12-31    10
2008-12-31    10
2007-12-31     8
2006-12-31     8
2005-12-31     5
2000-12-31     2
2003-12-31     2
2002-12-31     2
2001-12-31     2
2004-12-31     2
1990-12-31     1
1991-12-31     1
1992-12-31     1
1993-12-31     1
1994-12-31     1
1995-12-31     1
1996-12-31     1
1997-12-31     1
1998-12-31     1
1999-12-31     1
1989-12-31     1
1988-12-31     1
1986-12-31     1
1985-12-31     1
1987-12-31     1
Name: fecha, dtype: int64

Valores únicos en la columna departamento: 
MIRABUENO              36
RAWSON                 21
FUTALEUFU              16
RIO SENGUERR           16
CUSHAMEN               15
GAIMAN                 15
SARMIENTO              15
PASO DE INDIOS         14
TELSEN                 13
TEHUELCHES             12
FLORENTINO AMEGHINO 

Podemos observar que entre los años 2008 y 2020, la cantidad de datos anuales registrados varía entre 10 y 13. No obstante, para los años anteriores a este periodo, se observa una disminución en la cantidad de datos, quizás debido a una falta de recolección de información. En cuanto a los valores únicos de la columna "departamento", se puede notar que el falso departamento "Mirabueno" cuenta con la mayor cantidad de registros, con un total de 36, seguido de Rawson con 21. Además, hay dos departamentos con 16 registros, tres con 15 registros, y varios departamentos con un número menor de registros, incluyendo Biedma con 9 registros y Languiñeo con 8 registros.

Lo siguiente es ver los valores únicos para las existencias.

In [13]:
col_names = ['carneros','ovejas', 'borregos','cordero/as','total_ovinos']
ver_valores_unicos(col_names)

Valores únicos en la columna carneros: 
39      5
9623    2
71      2
42      2
35      2
       ..
8309    1
5295    1
8550    1
8875    1
2870    1
Name: carneros, Length: 189, dtype: int64

Valores únicos en la columna ovejas: 
1124      2
93378     1
61212     1
52805     1
55886     1
         ..
112547    1
103552    1
107526    1
102562    1
79157     1
Name: ovejas, Length: 200, dtype: int64

Valores únicos en la columna borregos: 
451      2
30168    1
15436    1
22032    1
19007    1
        ..
47178    1
38645    1
43471    1
38569    1
25804    1
Name: borregos, Length: 200, dtype: int64

Valores únicos en la columna cordero/as: 
507      2
1200     2
79       2
820      2
19079    1
        ..
21887    1
42894    1
17445    1
40508    1
18984    1
Name: cordero/as, Length: 197, dtype: int64

Valores únicos en la columna total_ovinos: 
193849    1
120837    1
128999    1
131693    1
113609    1
         ..
229837    1
214592    1
228473    1
231763    1
163716    1
Name: to

Al analizar los datos de existencias ovinas, se puede observar que en su mayoría los valores no se repiten, ya que la mayoría de las veces sólo aparecen una vez y en algunos casos dos. Dado que una alta cantidad de valores únicos puede aumentar la complejidad de un modelo de aprendizaje automático y hacer que sea más difícil de entrenar y optimizar, esta bueno conocer esta información. 

La siguiente celda se utiliza para contar la cantidad de valores faltantes en cada columna del conjunto de datos datos. Los valores faltantes, también conocidos como valores nulos o NA, son aquellos que no tienen un valor asignado en la tabla de datos. Saber la cantidad de valores faltantes en cada columna es importante porque puede afectar la calidad de los análisis y modelos de aprendizaje automático que se realicen con los datos. 

In [14]:
datos.isnull().sum()

fecha           0
hectareas       0
departamento    0
carneros        0
ovejas          0
borregos        0
capones         0
cordero/as      0
total_ovinos    0
kilos_lana      0
finura          0
rinde           0
humedad         0
cant_lluvia     0
tem_max         0
temp_media      0
temp_min        0
dtype: int64

En este caso, no falta ningún dato, ya que se trabajó arduamente con los scrapers y el procesamiento de datos para garantizar su integridad.

Con este primer análisis estadístico, estamos preparados para analizar el conjunto de datos de manera gráfica.