# Análisis del sistema NutriScore y el grado de procesamiento NOVA

## 1 Introducción

En este estudio se analiza la coherencia entre las calificaciones del sistema NutriScore y el grado de procesamiento de los alimentos según la clasificación NOVA.  
El objetivo principal es evaluar si el NutriScore refleja realmente la calidad nutricional y el nivel de procesamiento de los productos, y cómo estos afectan a los hábitos alimentarios.

El análisis se basa en datos del proyecto Open Food Facts, una base de datos colaborativa con información nutricional de miles de productos de alimentación.

---

## 2 Planteamiento del problema e hipótesis

###  Objetivo general
Analizar si el NutriScore se correlaciona con los valores nutricionales reales y con el grado de procesamiento NOVA.

### Hipótesis de trabajo


- Un peor NutriScore implica mayor contenido en azúcar, grasa y sal.

- A mayor nivel de procesamiento (peor NOVA), peor NutriScore.

- Los productos bajos en calorías no siempre obtienen un buen NutriScore.

- Dentro de los productos ultraprocesados (NOVA 4), el NutriScore no diferencia bien la calidad nutricional.

- Los alimentos más consumidos en España tienden a tener bajo NutriScore y alto nivel NOVA.
---

## 3 Carga y exploración inicial de los datos

- Importar librerías (pandas, numpy, matplotlib, seaborn, plotly).  
- Cargar el dataset original.  
- Revisar dimensiones y tipos de datos (df.info(), df.describe()).  
- Comprobar valores nulos (df.isnull().sum()).
- entender la estructura y calidad de los datos antes de analizarlos.

---

## 4 Limpieza de datos

- Eliminar columnas vacías o con demasiados nulos (df.dropna(thres=...)).  
- Mantener las variables relevantes:  
  producto, calorias, valor NOVA, valor Nutriscore, azucar, sal...
- Convertir tipos de datos si es necesario
- quedarnos con un dataset limpio y listo para el análisis.

---
## 5 Creacion de dataframes y graficos para cada hipotesis







### LECTURA DE CSV

In [3]:
import pandas as pd

In [11]:
df = pd.read_csv("../Data/openfoodfacts_export.csv", sep="\t", low_memory=False)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3878 entries, 0 to 3877
Columns: 458 entries, code to data_sources
dtypes: float64(159), int64(1), object(298)
memory usage: 13.6+ MB


In [12]:
df_cesta_esp = pd.read_csv("../Data/cesta_spa.csv", sep="\t", encoding="latin-1")
df_cesta_esp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 4 columns):
 #   Column                                Non-Null Count  Dtype 
---  ------                                --------------  ----- 
 0   Códigos de gasto con cantidad física  60 non-null     object
 1   Cantidades medias consumidas          60 non-null     object
 2   Periodo                               60 non-null     int64 
 3   Total                                 60 non-null     object
dtypes: int64(1), object(3)
memory usage: 2.0+ KB
