# Caso X: Proceso SEMMA

# Paso 1: Muestra (Sample)
Este primer paso es importante para cargar los datos, obtener una muestra representativa y dividirlos en conjuntos de entrenamiento y validación.

## 1.1 Importar librerías
El primer paso consiste en importar las librerías necesarias

## 1.2 Cargar el conjunto de datos
Consiste en cargar el conjunto de datos del archivo CSV.

In [None]:
# Cargar el conjunto de datos
data = pd.read_csv('tus_datos.csv')

# Ver las primeras filas del conjunto de datos
data.head()

## 1.3 Verificar el tamaño del conjunto de datos
Se procede a comprobar cuántas filas y columnas contiene el conjunto de datos.

In [None]:
# Verificar el tamaño
rows, columns = data.shape
print(f"Filas: {rows}, Columnas: {columns}")

## 1.4 Partición de los datos
A continuación, se divide el conjunto de datos en conjuntos de entrenamiento y validación

In [None]:
train_data, validation_data = train_test_split(data, test_size=0.2, random_state=42)

# Verificar el tamaño de los conjuntos de entrenamiento y validación
train_size = train_data.shape[0]
validation_size = validation_data.shape[0]

print(f"Conjunto de entrenamiento: {train_size}, Conjunto de validación: {validation_size}")

# Paso 2: Explorar (Explore)
En esta etapa, se exploran los datos y se realiza un análisis preliminar para comprender la distribución de las variables y detectar posibles anomalías.

## 2.1 Estadísticas resumidas
Se analizan las estadísticas descriptivas del conjunto de entrenamiento.

In [None]:
# Estadísticas descriptivas del conjunto de entrenamiento
summary_statistics = train_data.describe()
print(summary_statistics)

## 2.2 Visualización
Se visualizan las distribuciones de algunas de las características clave. Las variables pueden ajustarse según los datos disponibles.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Visualización de algunas características numéricas
plt.figure(figsize=(15, 10))

# Histograma de una característica clave (ajustar según sea necesario)
plt.subplot(2, 2, 1)
sns.histplot(train_data['caracteristica1'], bins=50, kde=True)
plt.title('Distribución de Característica 1')

plt.subplot(2, 2, 2)
sns.histplot(train_data['caracteristica2'], bins=50, kde=True)
plt.title('Distribución de Característica 2')

plt.tight_layout()
plt.show()

## 2.3 Anomalías en los datos
Se verifica la presencia de valores nulos o anómalos en las columnas clave.

In [None]:
# Comprobando valores cero en algunas columnas
zero_values = {
    'columna1_zeros': (train_data['columna1'] == 0).sum(),
    'columna2_zeros': (train_data['columna2'] == 0).sum()
}
print(zero_values)

# Comprobando valores faltantes
missing_values = train_data.isnull().sum()
print(missing_values)

# Paso 3: Modificar (Modify)
En esta fase, se procede a limpiar los datos y abordar las anomalías detectadas.

## 3.1 Manejo de valores nulos o cero
Los valores nulos o cero se reemplazan, generalmente, por la mediana de la columna, aunque pueden aplicarse otras estrategias de imputación.

In [None]:
# Reemplazar valores cero con la mediana
for column in ['columna1', 'columna2']:
    median_value = train_data[column].median()
    train_data[column].replace(0, median_value, inplace=True)

# Verificación después del reemplazo
zero_values_after = {
    'columna1_zeros': (train_data['columna1'] == 0).sum(),
    'columna2_zeros': (train_data['columna2'] == 0).sum()
}
print(zero_values_after)

## 3.2 Ingeniería de características
En caso de que sea relevante, se pueden crear nuevas características basadas en las existentes.

In [None]:
# Ejemplo de creación de una nueva característica
train_data['nueva_caracteristica'] = train_data['columna1'] * train_data['columna2']

# Paso 4: Modelar (Model)
En este paso, se selecciona un modelo adecuado y se entrena utilizando los datos.

## 4.1 Selección del modelo
Se elige un modelo de regresión o clasificación, dependiendo de la naturaleza del problema.

In [None]:
from sklearn.ensemble import RandomForestRegressor

# Entrenar un modelo de Random Forest
model = RandomForestRegressor()
X_train = train_data.drop('variable_objetivo', axis=1)
y_train = train_data['variable_objetivo']
model.fit(X_train, y_train)

## 4.2 Validación
Se evalúa el desempeño del modelo en el conjunto de validación.

In [None]:
X_validation = validation_data.drop('variable_objetivo', axis=1)
y_validation = validation_data['variable_objetivo']

# Predicciones y evaluación
y_pred = model.predict(X_validation)

from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_validation, y_pred)
print(f"Error cuadrático medio: {mse}")

# Paso 5: Evaluar (Assess)
Finalmente, se evalúa el rendimiento del modelo utilizando diferentes métricas y se ajustan los parámetros si es necesario.

Este procedimiento general ha sido adaptado al proceso SEMMA. Para un análisis más preciso, se recomienda proporcionar detalles adicionales sobre el conjunto de datos o realizar consultas específicas sobre el problema en cuestión.