# Proyecto final - Minería de Datos
### Alejandro Carregha, Eduardo Don Pablo y José Salvador Abascal

## Descripción del Dataset

El conjunto de datos **Sustainable Sports Event Management (SSEM)** es una base de información diseñada para apoyar investigaciones y análisis relacionados con la organización sostenible de eventos deportivos. Incluye registros detallados y características clave para evaluar la sostenibilidad, el impacto social, el uso eficiente de recursos y distintos tipos de eventos. Ofrece una visión completa de diversos aspectos de los eventos deportivos, considerando factores ambientales, sociales y económicos.

### Variables del dataset:
##### Variables de sustentabilidad:
- **Energy Consumption**: Categórico (Bajo, Moderado, Alto). Indica el nivel de energía que requiere cada evento.
- **Carbon Emissions**: Categórico (Bajas, Moderadas, Altas). Representa la huella de carbono generada.
- **Waste Generation**: Categórico (Baja, Moderada, Alta). Mide la cantidad de residuos producidos, útil para evaluar la gestión de desechos.

##### Variables de impacto social:
- **Community Engagement**: Categórico (Baja, Media, Alta). Evalúa qué tanto se involucra la comunidad en cada evento.
- **Volunteer Participation**: Categórico (Baja, Moderada, Alta). Mide cuántas personas colaboran voluntariamente.
- **Health Impact**: Categórico (Bajo, Moderado, Alto). Evalúa el efecto positivo del evento en la salud de participantes y asistentes.
- **Water Usage**: Categórico (Bajo, Moderado, Alto). Refleja cuánta agua se consume en cada evento.
- **Material Recycling Rate**: Categórico (Baja, Moderada, Alta). Mide qué tanto se reciclan los materiales utilizados.
- **Operational Cost Efficiency**: Categórico (Baja, Moderada, Alta). Evalúa qué tan eficiente es el uso del presupuesto del evento.

##### Variables de tipo de evento:
- **Event Scale**: Categórico (Local, Regional, Nacional). Indica el alcance geográfico del evento.
- **Event Focus**: Categórico (Salud, Juventud, Desarrollo Comunitario, Recreación). Describe el objetivo principal del evento.

##### Variables objetivo:
- **Sustainability Score**: Categórico (Bajo, Moderado, Alto). Resume el nivel general de sostenibilidad del evento.
- **Nivel de Impacto Social**: Categórico (Bajo, Moderado, Alto). Indica los beneficios sociales y comunitarios del evento.
- **Resource Efficiency**: Categórico (Baja, Moderada, Alta). Evalúa el uso eficiente de recursos.
- **Event Type Classification**: Categórico (Salud, Juventud, Desarrollo Comunitario, Recreación). Permite categorizar el evento según su enfoque.

El objetivo es predecir estas distintas variables objetivo categóricas basándose en las distintas ramas de variables de predicción. En este proyecto se usarán métodos como bosques y árboles de decisión, regresiones lineales (normales y penalizadas) y métodos de *boosting*.

### 1. Importar datos:

In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')

# Configurar estilo de gráficos
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

In [18]:
# Descargar y leer el dataset
data = pd.read_csv("Medicalpremium.csv")

print("Dataset cargado exitosamente!")
print(f"Dimensiones del dataset: {data.shape}")
print(f"Columnas: {data.columns.tolist()}")

Dataset cargado exitosamente!
Dimensiones del dataset: (986, 11)
Columnas: ['Age', 'Diabetes', 'BloodPressureProblems', 'AnyTransplants', 'AnyChronicDiseases', 'Height', 'Weight', 'KnownAllergies', 'HistoryOfCancerInFamily', 'NumberOfMajorSurgeries', 'PremiumPrice']


### 2. Análisis exploratorio de datos (EDA):

In [19]:
# Cambio de moneda (rupias a dólares)
data['PremiumPrice'] = data['PremiumPrice']*0.011

# Primeras filas del dataset
data.head()

Unnamed: 0,Age,Diabetes,BloodPressureProblems,AnyTransplants,AnyChronicDiseases,Height,Weight,KnownAllergies,HistoryOfCancerInFamily,NumberOfMajorSurgeries,PremiumPrice
0,45,0,0,0,0,155,57,0,0,0,25000
1,60,1,0,0,0,180,73,0,0,0,29000
2,36,1,1,0,0,158,59,0,0,1,23000
3,52,1,1,0,1,183,93,0,0,2,28000
4,38,0,0,0,1,166,88,0,0,1,23000


In [20]:
# Información general del dataset
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 986 entries, 0 to 985
Data columns (total 11 columns):
 #   Column                   Non-Null Count  Dtype
---  ------                   --------------  -----
 0   Age                      986 non-null    int64
 1   Diabetes                 986 non-null    int64
 2   BloodPressureProblems    986 non-null    int64
 3   AnyTransplants           986 non-null    int64
 4   AnyChronicDiseases       986 non-null    int64
 5   Height                   986 non-null    int64
 6   Weight                   986 non-null    int64
 7   KnownAllergies           986 non-null    int64
 8   HistoryOfCancerInFamily  986 non-null    int64
 9   NumberOfMajorSurgeries   986 non-null    int64
 10  PremiumPrice             986 non-null    int64
dtypes: int64(11)
memory usage: 84.9 KB


In [22]:
# Estadísticas descriptivas
data.describe().round(2)

Unnamed: 0,Age,Diabetes,BloodPressureProblems,AnyTransplants,AnyChronicDiseases,Height,Weight,KnownAllergies,HistoryOfCancerInFamily,NumberOfMajorSurgeries,PremiumPrice
count,986.0,986.0,986.0,986.0,986.0,986.0,986.0,986.0,986.0,986.0,986.0
mean,41.75,0.42,0.47,0.06,0.18,168.18,76.95,0.22,0.12,0.67,24336.71
std,13.96,0.49,0.5,0.23,0.38,10.1,14.27,0.41,0.32,0.75,6248.18
min,18.0,0.0,0.0,0.0,0.0,145.0,51.0,0.0,0.0,0.0,15000.0
25%,30.0,0.0,0.0,0.0,0.0,161.0,67.0,0.0,0.0,0.0,21000.0
50%,42.0,0.0,0.0,0.0,0.0,168.0,75.0,0.0,0.0,1.0,23000.0
75%,53.0,1.0,1.0,0.0,0.0,176.0,87.0,0.0,0.0,1.0,28000.0
max,66.0,1.0,1.0,1.0,1.0,188.0,132.0,1.0,1.0,3.0,40000.0


In [21]:
# Verificar valores nulos
print("Valores nulos por columna:")
print(data.isnull().sum())

Valores nulos por columna:
Age                        0
Diabetes                   0
BloodPressureProblems      0
AnyTransplants             0
AnyChronicDiseases         0
Height                     0
Weight                     0
KnownAllergies             0
HistoryOfCancerInFamily    0
NumberOfMajorSurgeries     0
PremiumPrice               0
dtype: int64
