
# 1. Comprensión del Negocio


**Objetivo del Negocio:**

Brindar datos estructurados, confiables y comparables internacionalmente para alimentar sistemas de inteligencia, monitoreo y decisiones estratégicas en el sector alimentario, agrícola y ambiental.


**Objetivos del Proyecto**

Construir un modelo que nos permita analizar y predecir las emisiones de gases de efecto invernadero asociadas a la producción agrícola, identificando así las prácticas que contribuyen significativamente a estas emisiones. Este modelo facilitaría la evaluación del impacto de diferentes estrategias agrícolas en la sostenibilidad ambiental y la seguridad alimentaria.

# 2. Comprensión de los Datos

**Pasos**

*   Obtener los Datos: Obtener los datos desde la dirección: https://www.fao.org/faostat/es/#data/GT (dataset "Totales de las emisiones").
*   Análisis Exploratorio de Datos (EDA): Comprender las características principales del dataset y su estructura.

In [None]:
# Importar bibliotecas necesarias
import numpy as np
import pandas as pd
import csv
import seaborn as sns
from matplotlib import pyplot as plt

# Configuración de estilos
sns.set_style("whitegrid")

In [None]:
# Cargar el dataset (asegúrate de tener el archivo .csv)
#from google.colab import files
#uploaded = files.upload()  # Esto te permitirá subir el archivo desde tu computadora

# Cargar el archivo CSV
data = pd.read_csv(
    "/content/emisiones.csv",
    header=0,
    delimiter=",",
    engine="python",
    #on_bad_lines='skip',
    quoting=csv.QUOTE_MINIMAL,  # O usa csv.QUOTE_ALL
    encoding='utf-8'
)


In [None]:
data.head()

In [None]:
data.tail()

In [None]:
data.keys()

In [None]:
data.dtypes

In [None]:
data.info()

**Comprensión de los datos**

*   Codigo del area: Código numérico que identifica el país/región según FAO.
*   Codigo del area (M49): codigo M-49 de las Naciones Unidas y la Norma estadística de la FAO
*   Area: Nombre del país, región, continente u otra agregación geográfica.
*   Codigo del producto: Código numérico del producto o elemento analizado (por ejemplo, un cultivo, un tipo de emisión, etc.).
*   Producto: Nombre descriptivo del elemento o ítem (por ejemplo, “Emisiones totales excluyendo LULUCF”, “Residuos agrícolas”).
*   Codigo del elemento: Código numérico que identifica la variable medida (por ejemplo, “723113”, “7234”).
*   Elemento: Nombre de la métrica (por ejemplo, "Emisiones (CO2eq) (AR5)", "Emisiones directas (N2O)").
*   Codigo del año: Código interno para el año; suele ser equivalente al año numérico.
*   Año: Año del dato (por lo general un número entero, aunque puede ser un rango en algunos casos).
*   Codigo fuente: Código interno para la fuente.
*   Fuente: fuentes de emisión.
*   Unidad: Unidad de medida asociada (como “kilotones”, “hectareas”).
*   Valor: Valor numérico real del dato recolectado.
*   Simbolo: Etiqueta breve que señala el tipo de dato o posibles advertencias sobre su calidad (por ejemplo, “A” para estimado, “E” para provisional).
*   Nota: Anotaciones específicas.


Resumiendo:
* Tienen 2397461 registros
* Tienen 14 columnas
* Hay columnas que tienen nulls
* Hay 2 columnas flotantes
* Hay 6 columnas enteras
* Hay 7 columnas object. Que parece tienen datos de cadenas de texto

### Puedo averiguar algo de las columnas con datos categoricos?

In [None]:
data.nunique()

In [None]:
categoricos = data[["Producto","Elemento", "Fuente", "Símbolo"]]
categoricos.nunique()

# 3. Preparación de los Datos


**Pasos:**

*    Limpieza de Datos: Manejo de valores nulos y eliminación de columnas irrelevantes.
*    Transformación de Datos: Codificación de variables categóricas y normalización de datos si es necesario.

## Tengo datos nulos o NA?

In [None]:
pd.isnull(data).sum()

## Hay duplicados? Como verificamos?

In [None]:
data.duplicated()

In [None]:
data.duplicated().sum()

In [None]:
data.drop_duplicates(inplace=True)

## Visualización de datos
Crear visualizaciones para observar tendencias y patrones. Aquí hay un ejemplo de las emisiones por sector:

In [None]:
# Visualización de emisiones por sector
plt.figure(figsize=(12, 6))
sns.barplot(x='Área', y='Elemento', data=data)  # Asegúrate de cambiar 'Sector' y 'Emisiones' por los nombres de las columnas correctas
plt.title('Emisiones por Sector')
plt.xticks(rotation=45)
plt.xlabel('Sector')
plt.ylabel('Emisiones')
plt.show()

# 4. Modelado
**Pasos:**
*    Selección del Modelo: Elegir el modelo de machine learning apropiado.
*    Entrenamiento del Modelo: Dividir el dataset en conjuntos de entrenamiento y prueba, y entrenar el modelo.
*    Predicción: Usar el modelo entrenado para hacer predicciones.

In [None]:
from sklearn.linear_model import LinearRegression

# Preparar los datos (ejemplo)
X = data[['Año']]  # Cambia 'Año' por la variable independiente que desees usar
y = data['Elemento']  # Cambia 'Emisiones' por la variable dependiente

# Crear el modelo
model = LinearRegression()
model.fit(X, y)

# Realizar predicciones
predictions = model.predict(X)

# Visualizar las predicciones
plt.figure(figsize=(12, 6))
plt.scatter(X, y, color='blue', label='Datos Reales')
plt.plot(X, predictions, color='red', label='Predicciones')
plt.title('Predicción de Emisiones a través de los Años')
plt.xlabel('Año')
plt.ylabel('Emisiones')
plt.legend()
plt.show()

# 5. Evaluación

**Pasos:**
*   Métricas de Evaluación: Utilizar métricas como accuracy, matriz de confusión, y reporte de clasificación.
*   Explicación de la Evaluación
Accuracy: La proporción de predicciones correctas entre el total de predicciones.
*   Matriz de Confusión: Muestra los verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos.

In [None]:
from sklearn.metrics import accuracy_score
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)

# 6. Despliegue

**Pasos:**
*   Guardado del Modelo: Guardar el modelo entrenado para uso futuro.
*   Carga del Modelo: Demostrar cómo cargar el modelo guardado.


# 7. Toma de decisiones
Finalmente, con base en los análisis y visualizaciones, se redacta las recomendaciones que se pueden hacer a partir de los resultados obtenidos. Esto puede incluir sugerencias para políticas o acciones a seguir.

#DESGLOSE:

Carga de Datos: Se carga el dataset de emisiones, que se debe subir manualmente en el entorno de Google Colab.


Exploración Inicial: Se muestran las primeras filas del dataset y se proporciona información básica sobre su estructura.


Limpieza de Datos: Se eliminan filas con datos faltantes para asegurar un análisis válido.


Visualización de Emisiones por Sector: Se crea un gráfico de barras que muestra las emisiones totales por sector, permitiendo identificar cuáles son los más contaminantes.


Análisis de Emisiones Anuales: Se agrupan las emisiones por año y se visualizan en una línea de tiempo para observar tendencias.


Modelo de Regresión Lineal: Se implementa un modelo de regresión lineal para prever las emisiones futuras.


Toma de Decisiones: Se presentan recomendaciones basadas en el análisis, que incluyen enfoques para reducir las emisiones, políticas a implementar y la importancia del monitoreo continuo.