<a href="https://colab.research.google.com/github/Cordero27/Minor-Machine-Learning/blob/main/Analisis%20Dataset%20Memoria.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis de conjunto de datos preliminar para Memoria

### El Conjunto de datos a estudiar pertenece a la captura de datos de una colmena de abejas durante un año, que se realizó en la ciudad de Würzburg en 2017. Los parámetros trabajados durante el proyecto son flujo de abejas que ingresan y egresan de la colmena, humedad y temperatura interior de la colmena, y peso de esta. Las unidades de medida de estos últimos tres parámetros son porcentaje, Celcius y Kilogramos respectivamente.

### Cabe destacar, que solo se usan los archivos que tienen el año 2017 en su nombre, pues los demas corresponden a un estudio de 2017-2019 que tienen un periodo no medido en el año 2018.

## Para procesar este conjunto de datos se usa OSEMN.

###Entrega 01 - OBTAIN

In [None]:
import numpy as np
#Librerias a utilizar
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#Fuente del dataset: https://www.kaggle.com/datasets/se18m502/bee-hive-metrics

flow = pd.read_csv('https://raw.githubusercontent.com/Cordero27/Minor-Machine-Learning/main/DatasetPreparado/flow_2017.csv', on_bad_lines='skip')
humidity = pd.read_csv('https://raw.githubusercontent.com/Cordero27/Minor-Machine-Learning/main/DatasetPreparado/humidity_2017.csv', on_bad_lines='skip')
temperature = pd.read_csv('https://raw.githubusercontent.com/Cordero27/Minor-Machine-Learning/main/DatasetPreparado/temperature_2017.csv', on_bad_lines='skip')
weight = pd.read_csv('https://raw.githubusercontent.com/Cordero27/Minor-Machine-Learning/main/DatasetPreparado/weight_2017.csv', on_bad_lines='skip')

#Observamos el contenido adquirido del archivo del flujo
flow.head()

In [None]:
#Observamos el contenido adquirido del archivo de la humedad
humidity.head()

In [None]:
#Observamos el contenido adquirido del archivo de la temperatura
temperature.head()

In [None]:
#Observamos el contenido adquirido del archivo del peso
weight.head()

###Entrega 02 - SCRUB

Comenzamos verificando si exiten valores NAs en los conjuntos de datos

In [None]:
#Verificamos si existen NAs dentro del conjunto de datos.
flow.info()

In [None]:
#Verificamos si existen NAs dentro del conjunto de datos.
humidity.info()

In [None]:
#Verificamos si existen NAs dentro del conjunto de datos.
temperature.info()

In [None]:
#Verificamos si existen NAs dentro del conjunto de datos.
weight.info()

Como observamos, solo se detectan NAs en el archivo de la temperatura, pues en este es el único donde varía la cantidad de filas que contiene con la cantidad de elementos not-null encontrados. Pero como solo son 3 elementos, revisamos el archivo para en lugar de eliminarlas, podemos insertar un valor consistente a los cercanos

*Es necesario tener un detalle de cuantas variables están considerando y el tipo de datos que pertenecen para verificar si es posible utilizarla directamente para el modelo predictivo o si es necesario realizar una transformación del tipo de dato.*

In [None]:
print(flow.info())
print("_________________________________________")
print(humidity.info())
print("_________________________________________")
print(temperature.info())
print("_________________________________________")
print(weight.info())

*Muchas de las variables contenidas en el DataFrame originalmente se encuentran en el tipo de dato 'object'. En ese formato las variables no pueden ser interpretadas como vectores. Recordemos que la mayoría de los modelos de Machine Learning estudiados operan en el espacio vectorial. Por esta razón las variables que formarán parte del modelo predictivo deben ser transformadas a un formato numérico como 'Float' o 'integer'.*

In [None]:
#Finalmente, ya podemos cambiar el tipado de la columna, y aprovechamos de pasar la otra columna tipo object (activity) por category
#flow.loc[:, "flow"] = flow.astype({'flow': 'int16'})
humidity.loc[:, "humidity"] = humidity.astype({'humidity': 'float16'})
temperature.loc[:, "temperature"] = temperature.astype({'temperature': 'float16'})
weight.loc[:, "weight"] = weight.astype({'weight': 'float16'})
print(flow.info())
print("_________________________________________")
print(humidity.info())
print("_________________________________________")
print(temperature.info())
print("_________________________________________")
print(weight.info())

### Entrega 03 - EXPLORE

In [None]:
#Obtenemos las estadisticas correspondientes a cada columna
flow.describe()

In [None]:
humidity.describe()

In [None]:
temperature.describe()

Este dataset tiene una perdida del peso el dia 18 de Septiembre de 10:20 a 12:30.

In [None]:
weight.describe()

In [None]:
#plt.plot(flow.timestamp, flow['flow'])
#plt.title('Comportamiento flow', fontsize=15)
#plt.xlabel('Fecha')
#plt.ylabel('Cantidad abejas')
#plt.show()

In [None]:
plt.plot(humidity.timestamp, humidity['humidity'])
plt.title('Comportamiento humedad', fontsize=15)
plt.xlabel('Fecha')
plt.ylabel('Porcentaje')
plt.show()

In [None]:
plt.plot(temperature.timestamp, temperature['temperature'])
plt.title('Comportamiento temperatura', fontsize=15, color='red')
plt.xlabel('Fecha')
plt.ylabel('Grados Celcius')
plt.show()

In [None]:
plt.plot(weight.timestamp, weight['weight'])
plt.title('Comportamiento peso', fontsize=15, color='black')
plt.xlabel('Fecha')
plt.ylabel('Kilogramos')
plt.show()

In [None]:
tempHumWei = pd.concat([flow['flow'], temperature['temperature'], humidity['humidity'], weight['weight']], axis=1, join='inner').sort_index()
corr_mat = tempHumWei.corr(method='pearson')
plt.figure(figsize=(10,5))
sns.heatmap(corr_mat,vmax=1,square=True,annot=True,cmap='cubehelix')

*Para el caso de la estandarización de los datos se pueden usar distintas técnicas, como la normalización 01, estandarización entre -1 y 1 o el denominado Z-Score. En este caso usaremos la función Standard Scaler de Python con sus valores por defecto.*

In [None]:
from sklearn.preprocessing import StandardScaler
ss= StandardScaler()

flow['flow'] = ss.fit_transform(flow[['flow']])
humidity['humidity'] = ss.fit_transform(humidity[['humidity']])
temperature['temperature'] = ss.fit_transform(temperature[['temperature']])
weight['weight'] = ss.fit_transform(weight[['weight']])