# Análisis Exhaustivo del Dataset de Alimentos

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Load the dataset
file_path = 'FOOD-DATA-GROUP1.csv'
data = pd.read_csv(file_path)

# Display basic information about the dataset
print("Información del Dataset:")
data_info = data.info()

# Display the first few rows of the dataset
print("\nPrimeras filas del Dataset:")
first_rows = data.head()

# Display descriptive statistics of the dataset
print("\nEstadísticas Descriptivas del Dataset:")
data_description = data.describe()

# Select only numerical columns for correlation matrix
numeric_data = data.select_dtypes(include=['float64', 'int64'])

# Calculate the correlation matrix
correlation_matrix = numeric_data.corr()

# Display the correlation matrix
print("\nMatriz de Correlación:")
correlation_matrix_display = correlation_matrix

# Visualize the correlation matrix using a heatmap
plt.figure(figsize=(16, 12))
heatmap = sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Mapa de Calor de la Matriz de Correlación')
plt.show()

# Select columns with significant correlations
correlation_threshold = 0.5
significant_correlations = correlation_matrix[abs(correlation_matrix) > correlation_threshold].stack().reset_index()
significant_correlations = significant_correlations[significant_correlations['level_0'] != significant_correlations['level_1']]
significant_correlations.columns = ['Variable 1', 'Variable 2', 'Correlación']

print("\nCorrelaciones Significativas (absolutas > 0.5):")
significant_correlations_display = significant_correlations

# Identify columns with high correlation to target variable (e.g., 'Caloric Value')
target_variable = 'Caloric Value'
correlated_features = correlation_matrix[target_variable][abs(correlation_matrix[target_variable]) > correlation_threshold]
correlated_features = correlated_features.drop(target_variable).sort_values(ascending=False)

print(f"\nCaracterísticas correlacionadas con '{target_variable}':")
correlated_features_display = correlated_features

# Recommendations for machine learning model
print("\nRecomendaciones de Columnas para Modelos de Machine Learning:")
input_features = list(correlated_features.index)
print("Características de Entrada (Input Features):", input_features)
print("Variable Objetivo (Target Variable):", target_variable)

# Display selected input features and target variable
print("\nPrimeras filas de las Características Seleccionadas y la Variable Objetivo:")
selected_features_display = data[input_features + [target_variable]].head()

data_info, first_rows, data_description, correlation_matrix_display, significant_correlations_display, correlated_features_display, input_features, target_variable, selected_features_display

## Respuestas a las Preguntas

**Revisar detalladamente el dataset y sacar conclusiones del mismo**

**Tipos de datos**:
- El dataset contiene columnas con tipos de datos enteros (`int64`), flotantes (`float64`) y cadenas de texto (`object`).

**Cantidad de columnas (campos)**:
- El dataset tiene un total de 37 columnas.

**Cantidad de filas (registros)**:
- El dataset tiene un total de 551 filas.

**Estadísticas del dataset (media, moda, desviación estándar, máximo, mínimo, etc)**:
- La descripción estadística de las columnas numéricas del dataset incluye la media, desviación estándar, valores mínimos, 25%, 50%, 75% percentiles y valores máximos.

**Breve descripción de lo que representan cinco columnas del dataset**:
- `Caloric Value`: Representa la cantidad de calorías en el alimento, medida en kilocalorías (kcal).
- `Fat`: Indica la cantidad total de grasa en el alimento, medida en gramos (g).
- `Carbohydrates`: Mide la cantidad de carbohidratos presentes en el alimento, en gramos (g).
- `Protein`: Representa la cantidad de proteínas en el alimento, en gramos (g).
- `Sodium`: Indica la cantidad de sodio en el alimento, medida en miligramos (mg).

**Pensar en qué columnas se podrían usar como entrada para un modelo de machine learning que resuelva un problema en el contexto del dataset (Recomendar una tarjeta de crédito, predecir ingresos, detectar desnutrición, etc)**:
- Para un modelo de machine learning que tenga como objetivo predecir el valor nutricional de un alimento o recomendar alimentos saludables, las siguientes columnas podrían ser usadas como características de entrada:
  - `Fat`
  - `Carbohydrates`
  - `Protein`
  - `Sodium`
  - `Cholesterol`
- La variable objetivo en este caso sería `Caloric Value`.

**Características de Entrada (Input Features)**:
- `Fat`
- `Carbohydrates`
- `Protein`
- `Sodium`
- `Cholesterol`

**Variable Objetivo (Target Variable)**:
- `Caloric Value`
