# Proyecto Final - Análisis de Datos

Este notebook contiene un análisis completo de datos que abarca desde la recopilación y transformación hasta el modelado predictivo y conclusiones.

**Autor:** [Tu Nombre]

**Fecha:** [Fecha]

---

## 1. Recopilación y Transformación de Datos (ETL)

En esta sección se lleva a cabo el proceso de Extracción, Transformación y Carga (ETL) de los datos.

### 1.1 Importación de Librerías

Importamos las librerías necesarias para el proceso ETL.

In [None]:
# Librerías para manipulación de datos
import pandas as pd
import numpy as np

# Librerías para visualización
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

### 1.2 Extracción de Datos

Cargamos los datos desde las fuentes disponibles.

In [None]:
# Ejemplo: Cargar datos desde un archivo CSV
# df = pd.read_csv('ruta/al/archivo.csv')

# O desde una URL
# df = pd.read_csv('https://ejemplo.com/datos.csv')

# O desde una base de datos
# import sqlalchemy
# engine = sqlalchemy.create_engine('conexión')
# df = pd.read_sql('SELECT * FROM tabla', engine)

print("Datos cargados exitosamente")

### 1.3 Transformación de Datos

Realizamos las transformaciones necesarias para preparar los datos para el análisis.

In [None]:
# Ejemplo de transformaciones comunes:

# 1. Limpieza de datos
# df = df.dropna()  # Eliminar valores nulos
# df = df.drop_duplicates()  # Eliminar duplicados

# 2. Conversión de tipos de datos
# df['fecha'] = pd.to_datetime(df['fecha'])
# df['categoria'] = df['categoria'].astype('category')

# 3. Creación de nuevas variables
# df['nueva_columna'] = df['columna1'] + df['columna2']

# 4. Normalización o estandarización
# from sklearn.preprocessing import StandardScaler
# scaler = StandardScaler()
# df['columna_normalizada'] = scaler.fit_transform(df[['columna']])

print("Transformaciones aplicadas exitosamente")

### 1.4 Carga de Datos

Guardamos los datos transformados para su uso posterior.

In [None]:
# Guardar datos procesados
# df.to_csv('datos_procesados.csv', index=False)
# df.to_parquet('datos_procesados.parquet')

print("Datos guardados exitosamente")

---

## 2. Análisis Exploratorio de Datos (EDA)

En esta sección realizamos un análisis exploratorio para comprender las características principales de los datos.

### 2.1 Visión General de los Datos

Exploramos la estructura básica del conjunto de datos.

In [None]:
# Mostrar primeras filas
# df.head()

# Información del dataset
# df.info()

# Dimensiones
# print(f"Dimensiones del dataset: {df.shape}")

# Tipos de datos
# df.dtypes

### 2.2 Estadísticas Descriptivas

Calculamos estadísticas descriptivas para variables numéricas y categóricas.

In [None]:
# Estadísticas descriptivas para variables numéricas
# df.describe()

# Estadísticas para variables categóricas
# df.describe(include=['object', 'category'])

# Valores únicos por columna
# df.nunique()

### 2.3 Análisis de Valores Faltantes

Identificamos y analizamos valores faltantes en el conjunto de datos.

In [None]:
# Cantidad de valores nulos por columna
# valores_nulos = df.isnull().sum()
# porcentaje_nulos = (valores_nulos / len(df)) * 100
# resumen_nulos = pd.DataFrame({
#     'Valores_Nulos': valores_nulos,
#     'Porcentaje': porcentaje_nulos
# })
# print(resumen_nulos[resumen_nulos['Valores_Nulos'] > 0])

# Visualización de valores faltantes
# plt.figure(figsize=(12, 6))
# sns.heatmap(df.isnull(), cbar=False, yticklabels=False)
# plt.title('Mapa de Valores Faltantes')
# plt.show()

### 2.4 Distribución de Variables

Analizamos la distribución de las variables principales.

In [None]:
# Histogramas para variables numéricas
# df.hist(figsize=(15, 10), bins=30)
# plt.tight_layout()
# plt.show()

# Gráficos de caja (boxplots)
# fig, axes = plt.subplots(2, 3, figsize=(15, 10))
# for i, col in enumerate(df.select_dtypes(include=[np.number]).columns[:6]):
#     ax = axes[i//3, i%3]
#     df.boxplot(column=col, ax=ax)
#     ax.set_title(f'Boxplot de {col}')
# plt.tight_layout()
# plt.show()

### 2.5 Análisis de Correlaciones

Exploramos las relaciones entre variables.

In [None]:
# Matriz de correlación
# correlacion = df.select_dtypes(include=[np.number]).corr()

# Visualización de la matriz de correlación
# plt.figure(figsize=(12, 8))
# sns.heatmap(correlacion, annot=True, cmap='coolwarm', center=0, 
#             square=True, linewidths=1, fmt='.2f')
# plt.title('Matriz de Correlación')
# plt.show()

# Pairplot para variables seleccionadas
# sns.pairplot(df[['var1', 'var2', 'var3', 'target']], hue='target')
# plt.show()

### 2.6 Detección de Valores Atípicos (Outliers)

Identificamos valores atípicos que podrían afectar el análisis.

In [None]:
# Método IQR para detectar outliers
# def detectar_outliers_iqr(df, columna):
#     Q1 = df[columna].quantile(0.25)
#     Q3 = df[columna].quantile(0.75)
#     IQR = Q3 - Q1
#     limite_inferior = Q1 - 1.5 * IQR
#     limite_superior = Q3 + 1.5 * IQR
#     outliers = df[(df[columna] < limite_inferior) | (df[columna] > limite_superior)]
#     return outliers

# for col in df.select_dtypes(include=[np.number]).columns:
#     outliers = detectar_outliers_iqr(df, col)
#     print(f"{col}: {len(outliers)} outliers detectados")

---

## 3. Inteligencia de Negocios (BI)

En esta sección generamos insights y métricas clave para la toma de decisiones empresariales.

### 3.1 Indicadores Clave de Rendimiento (KPIs)

Calculamos y visualizamos los KPIs principales.

In [None]:
# Ejemplos de KPIs comunes:

# Total de ventas, ingresos, clientes, etc.
# kpi_total = df['ventas'].sum()
# print(f"Total de Ventas: ${kpi_total:,.2f}")

# Promedio
# kpi_promedio = df['ventas'].mean()
# print(f"Venta Promedio: ${kpi_promedio:,.2f}")

# Tasa de crecimiento
# tasa_crecimiento = ((df['ventas'].iloc[-1] - df['ventas'].iloc[0]) / df['ventas'].iloc[0]) * 100
# print(f"Tasa de Crecimiento: {tasa_crecimiento:.2f}%")

# Visualización de KPIs
# fig, axes = plt.subplots(1, 3, figsize=(15, 4))
# axes[0].text(0.5, 0.5, f'${kpi_total:,.0f}', ha='center', va='center', fontsize=24)
# axes[0].set_title('Total de Ventas', fontsize=16)
# axes[0].axis('off')
# plt.show()

### 3.2 Segmentación de Clientes/Productos

Realizamos segmentación para identificar grupos clave.

In [None]:
# Segmentación por categoría
# segmentos = df.groupby('categoria').agg({
#     'ventas': ['sum', 'mean', 'count'],
#     'cliente_id': 'nunique'
# }).round(2)
# print(segmentos)

# Visualización de segmentos
# plt.figure(figsize=(12, 6))
# df.groupby('categoria')['ventas'].sum().sort_values(ascending=False).plot(kind='bar')
# plt.title('Ventas por Categoría')
# plt.xlabel('Categoría')
# plt.ylabel('Ventas Totales')
# plt.xticks(rotation=45)
# plt.tight_layout()
# plt.show()

### 3.3 Análisis de Tendencias Temporales

Analizamos patrones y tendencias a lo largo del tiempo.

In [None]:
# Series de tiempo
# df['fecha'] = pd.to_datetime(df['fecha'])
# df_temporal = df.set_index('fecha')

# Tendencia mensual
# tendencia_mensual = df_temporal.resample('M')['ventas'].sum()

# Visualización
# plt.figure(figsize=(14, 6))
# tendencia_mensual.plot()
# plt.title('Tendencia de Ventas Mensuales')
# plt.xlabel('Fecha')
# plt.ylabel('Ventas')
# plt.grid(True, alpha=0.3)
# plt.tight_layout()
# plt.show()

# Media móvil
# media_movil = tendencia_mensual.rolling(window=3).mean()
# plt.figure(figsize=(14, 6))
# plt.plot(tendencia_mensual, label='Ventas Reales', alpha=0.7)
# plt.plot(media_movil, label='Media Móvil (3 meses)', linewidth=2)
# plt.title('Ventas con Media Móvil')
# plt.legend()
# plt.grid(True, alpha=0.3)
# plt.tight_layout()
# plt.show()

### 3.4 Dashboard de Métricas

Creamos un dashboard visual con las métricas más importantes.

In [None]:
# Dashboard con múltiples visualizaciones
# fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Gráfico 1: Top productos
# df.groupby('producto')['ventas'].sum().nlargest(10).plot(kind='barh', ax=axes[0, 0])
# axes[0, 0].set_title('Top 10 Productos por Ventas')

# Gráfico 2: Distribución por región
# df.groupby('region')['ventas'].sum().plot(kind='pie', ax=axes[0, 1], autopct='%1.1f%%')
# axes[0, 1].set_title('Distribución de Ventas por Región')

# Gráfico 3: Evolución temporal
# df.groupby('fecha')['ventas'].sum().plot(ax=axes[1, 0])
# axes[1, 0].set_title('Evolución de Ventas en el Tiempo')

# Gráfico 4: Heatmap de rendimiento
# pivot_data = df.pivot_table(values='ventas', index='mes', columns='año', aggfunc='sum')
# sns.heatmap(pivot_data, annot=True, fmt='.0f', cmap='YlOrRd', ax=axes[1, 1])
# axes[1, 1].set_title('Heatmap de Ventas por Mes y Año')

# plt.tight_layout()
# plt.show()

### 3.5 Análisis Comparativo

Comparamos diferentes segmentos, periodos o categorías.

In [None]:
# Comparación año contra año
# df['año'] = df['fecha'].dt.year
# comparacion_anual = df.groupby('año')['ventas'].agg(['sum', 'mean', 'count'])
# print(comparacion_anual)

# Gráfico de comparación
# fig, axes = plt.subplots(1, 2, figsize=(14, 5))
# comparacion_anual['sum'].plot(kind='bar', ax=axes[0], color='steelblue')
# axes[0].set_title('Ventas Totales por Año')
# axes[0].set_ylabel('Ventas')

# comparacion_anual['mean'].plot(kind='bar', ax=axes[1], color='coral')
# axes[1].set_title('Venta Promedio por Año')
# axes[1].set_ylabel('Venta Promedio')

# plt.tight_layout()
# plt.show()

---

## 4. Modelado Predictivo

En esta sección desarrollamos modelos de machine learning para realizar predicciones.

### 4.1 Preparación de Datos para Modelado

Preparamos los datos específicamente para el modelado predictivo.

In [None]:
# Importar librerías de machine learning
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Selección de features y target
# features = ['feature1', 'feature2', 'feature3']
# X = df[features]
# y = df['target']

# División en conjunto de entrenamiento y prueba
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalado de features
# scaler = StandardScaler()
# X_train_scaled = scaler.fit_transform(X_train)
# X_test_scaled = scaler.transform(X_test)

# print(f"Tamaño del conjunto de entrenamiento: {X_train.shape}")
# print(f"Tamaño del conjunto de prueba: {X_test.shape}")

### 4.2 Selección de Características

Identificamos las características más relevantes para el modelo.

In [None]:
# Importancia de características usando Random Forest
# from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor

# Para regresión:
# rf = RandomForestRegressor(n_estimators=100, random_state=42)
# rf.fit(X_train, y_train)

# Para clasificación:
# rf = RandomForestClassifier(n_estimators=100, random_state=42)
# rf.fit(X_train, y_train)

# Importancia de características
# importancia = pd.DataFrame({
#     'Feature': features,
#     'Importancia': rf.feature_importances_
# }).sort_values('Importancia', ascending=False)

# print(importancia)

# Visualización
# plt.figure(figsize=(10, 6))
# plt.barh(importancia['Feature'], importancia['Importancia'])
# plt.xlabel('Importancia')
# plt.title('Importancia de Características')
# plt.tight_layout()
# plt.show()

### 4.3 Entrenamiento de Modelos

Entrenamos y comparamos diferentes modelos de machine learning.

#### 4.3.1 Regresión Lineal

In [None]:
# from sklearn.linear_model import LinearRegression

# lr = LinearRegression()
# lr.fit(X_train_scaled, y_train)

# y_pred_lr = lr.predict(X_test_scaled)

# print("Regresión Lineal:")
# print(f"R² Score: {r2_score(y_test, y_pred_lr):.4f}")
# print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred_lr)):.4f}")
# print(f"MAE: {mean_absolute_error(y_test, y_pred_lr):.4f}")

#### 4.3.2 Random Forest

In [None]:
# from sklearn.ensemble import RandomForestRegressor

# rf_model = RandomForestRegressor(n_estimators=100, random_state=42, max_depth=10)
# rf_model.fit(X_train, y_train)

# y_pred_rf = rf_model.predict(X_test)

# print("Random Forest:")
# print(f"R² Score: {r2_score(y_test, y_pred_rf):.4f}")
# print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred_rf)):.4f}")
# print(f"MAE: {mean_absolute_error(y_test, y_pred_rf):.4f}")

#### 4.3.3 Gradient Boosting

In [None]:
# from sklearn.ensemble import GradientBoostingRegressor

# gb_model = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, random_state=42)
# gb_model.fit(X_train, y_train)

# y_pred_gb = gb_model.predict(X_test)

# print("Gradient Boosting:")
# print(f"R² Score: {r2_score(y_test, y_pred_gb):.4f}")
# print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred_gb)):.4f}")
# print(f"MAE: {mean_absolute_error(y_test, y_pred_gb):.4f}")

### 4.4 Validación y Evaluación de Modelos

Evaluamos el rendimiento de los modelos con métricas apropiadas.

In [None]:
# Comparación de modelos
# resultados = pd.DataFrame({
#     'Modelo': ['Regresión Lineal', 'Random Forest', 'Gradient Boosting'],
#     'R²': [r2_score(y_test, y_pred_lr), 
#            r2_score(y_test, y_pred_rf), 
#            r2_score(y_test, y_pred_gb)],
#     'RMSE': [np.sqrt(mean_squared_error(y_test, y_pred_lr)),
#              np.sqrt(mean_squared_error(y_test, y_pred_rf)),
#              np.sqrt(mean_squared_error(y_test, y_pred_gb))],
#     'MAE': [mean_absolute_error(y_test, y_pred_lr),
#             mean_absolute_error(y_test, y_pred_rf),
#             mean_absolute_error(y_test, y_pred_gb)]
# })

# print(resultados)

# Visualización de comparación
# fig, axes = plt.subplots(1, 3, figsize=(15, 5))
# resultados.plot(x='Modelo', y='R²', kind='bar', ax=axes[0], legend=False)
# axes[0].set_title('R² Score por Modelo')
# axes[0].set_ylabel('R²')

# resultados.plot(x='Modelo', y='RMSE', kind='bar', ax=axes[1], legend=False, color='orange')
# axes[1].set_title('RMSE por Modelo')
# axes[1].set_ylabel('RMSE')

# resultados.plot(x='Modelo', y='MAE', kind='bar', ax=axes[2], legend=False, color='green')
# axes[2].set_title('MAE por Modelo')
# axes[2].set_ylabel('MAE')

# plt.tight_layout()
# plt.show()

### 4.5 Validación Cruzada

Aplicamos validación cruzada para evaluar la robustez del modelo.

In [None]:
# Validación cruzada con 5 folds
# cv_scores = cross_val_score(rf_model, X_train, y_train, cv=5, 
#                             scoring='r2')

# print(f"Scores de validación cruzada: {cv_scores}")
# print(f"Score promedio: {cv_scores.mean():.4f} (+/- {cv_scores.std() * 2:.4f})")

# Visualización
# plt.figure(figsize=(10, 6))
# plt.boxplot([cv_scores])
# plt.title('Distribución de Scores de Validación Cruzada')
# plt.ylabel('R² Score')
# plt.xticks([1], ['Random Forest'])
# plt.grid(True, alpha=0.3)
# plt.show()

### 4.6 Optimización de Hiperparámetros

Optimizamos los hiperparámetros del mejor modelo.

In [None]:
# from sklearn.model_selection import GridSearchCV

# Definir grid de hiperparámetros
# param_grid = {
#     'n_estimators': [50, 100, 200],
#     'max_depth': [5, 10, 15, None],
#     'min_samples_split': [2, 5, 10],
#     'min_samples_leaf': [1, 2, 4]
# }

# Grid search
# grid_search = GridSearchCV(estimator=RandomForestRegressor(random_state=42),
#                           param_grid=param_grid,
#                           cv=5,
#                           n_jobs=-1,
#                           scoring='r2',
#                           verbose=1)

# grid_search.fit(X_train, y_train)

# print("Mejores hiperparámetros:")
# print(grid_search.best_params_)
# print(f"\nMejor score: {grid_search.best_score_:.4f}")

# Modelo optimizado
# best_model = grid_search.best_estimator_
# y_pred_best = best_model.predict(X_test)

# print("\nRendimiento del modelo optimizado:")
# print(f"R² Score: {r2_score(y_test, y_pred_best):.4f}")
# print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred_best)):.4f}")

### 4.7 Visualización de Predicciones

Visualizamos las predicciones del modelo versus los valores reales.

In [None]:
# Gráfico de valores reales vs predicciones
# plt.figure(figsize=(10, 6))
# plt.scatter(y_test, y_pred_best, alpha=0.5)
# plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
# plt.xlabel('Valores Reales')
# plt.ylabel('Predicciones')
# plt.title('Valores Reales vs Predicciones')
# plt.grid(True, alpha=0.3)
# plt.tight_layout()
# plt.show()

# Residuos
# residuos = y_test - y_pred_best
# plt.figure(figsize=(10, 6))
# plt.scatter(y_pred_best, residuos, alpha=0.5)
# plt.axhline(y=0, color='r', linestyle='--', lw=2)
# plt.xlabel('Valores Predichos')
# plt.ylabel('Residuos')
# plt.title('Gráfico de Residuos')
# plt.grid(True, alpha=0.3)
# plt.tight_layout()
# plt.show()

### 4.8 Interpretación del Modelo

Interpretamos los resultados del modelo y su significado.

In [None]:
# Análisis de errores por segmento
# errores_df = pd.DataFrame({
#     'Real': y_test,
#     'Predicción': y_pred_best,
#     'Error_Absoluto': np.abs(y_test - y_pred_best),
#     'Error_Porcentual': np.abs((y_test - y_pred_best) / y_test) * 100
# })

# print("Estadísticas de error:")
# print(errores_df.describe())

# Casos con mayor error
# print("\nTop 10 casos con mayor error:")
# print(errores_df.nlargest(10, 'Error_Absoluto'))

---

## 5. Conclusiones y Recomendaciones

En esta sección resumimos los hallazgos principales y proporcionamos recomendaciones accionables.

### 5.1 Resumen de Hallazgos Principales

**Principales insights del análisis:**

1. **Calidad de los Datos:**
   - [Describir la calidad general de los datos]
   - [Mencionar problemas encontrados y cómo se manejaron]
   - [Comentar sobre valores faltantes y outliers]

2. **Análisis Exploratorio:**
   - [Describir patrones principales encontrados]
   - [Mencionar correlaciones importantes]
   - [Destacar distribuciones relevantes]

3. **Inteligencia de Negocios:**
   - [KPIs más importantes identificados]
   - [Segmentos de mayor valor]
   - [Tendencias temporales observadas]

4. **Modelado Predictivo:**
   - [Rendimiento del mejor modelo]
   - [Variables más importantes para la predicción]
   - [Precisión y confiabilidad de las predicciones]

### 5.2 Recomendaciones Estratégicas

**Recomendaciones basadas en los resultados del análisis:**

1. **Corto Plazo (0-3 meses):**
   - [Acción específica 1]
   - [Acción específica 2]
   - [Acción específica 3]

2. **Mediano Plazo (3-6 meses):**
   - [Estrategia específica 1]
   - [Estrategia específica 2]
   - [Estrategia específica 3]

3. **Largo Plazo (6-12 meses):**
   - [Iniciativa estratégica 1]
   - [Iniciativa estratégica 2]
   - [Iniciativa estratégica 3]

### 5.3 Áreas de Mejora y Próximos Pasos

**Oportunidades de mejora identificadas:**

1. **Mejora en la Recopilación de Datos:**
   - [Sugerencia 1]
   - [Sugerencia 2]

2. **Optimización del Modelo:**
   - [Propuesta 1: explorar otros algoritmos]
   - [Propuesta 2: incluir nuevas variables]
   - [Propuesta 3: mejorar feature engineering]

3. **Implementación y Monitoreo:**
   - [Plan de implementación]
   - [Métricas de seguimiento]
   - [Frecuencia de actualización del modelo]

### 5.4 Impacto Esperado

**Beneficios esperados de la implementación:**

- **Impacto Financiero:**
  - [Estimación de impacto en ingresos/costos]
  - [ROI esperado]

- **Impacto Operacional:**
  - [Mejoras en eficiencia]
  - [Optimización de procesos]

- **Impacto Estratégico:**
  - [Ventajas competitivas]
  - [Capacidad de toma de decisiones]

### 5.5 Limitaciones del Análisis

**Es importante reconocer las limitaciones:**

1. [Limitación relacionada con los datos disponibles]
2. [Limitación del alcance temporal]
3. [Limitación metodológica]
4. [Supuestos realizados en el modelado]
5. [Factores externos no considerados]

### 5.6 Conclusión Final

[Incluir aquí una conclusión general que sintetice los puntos más importantes del análisis y refuerce las recomendaciones clave para la toma de decisiones.]

---

## Referencias y Recursos

- [Fuentes de datos utilizadas]
- [Documentación técnica relevante]
- [Artículos o papers de referencia]
- [Herramientas y bibliotecas utilizadas]

---

## Anexos

### A. Código de Funciones Auxiliares

In [None]:
# Funciones auxiliares utilizadas en el análisis

def limpiar_datos(df):
    """
    Función para limpiar el dataframe
    """
    # Implementación
    return df

def calcular_metricas(y_true, y_pred):
    """
    Función para calcular métricas de evaluación
    """
    metricas = {
        'r2': r2_score(y_true, y_pred),
        'rmse': np.sqrt(mean_squared_error(y_true, y_pred)),
        'mae': mean_absolute_error(y_true, y_pred)
    }
    return metricas

def visualizar_resultados(df, columna):
    """
    Función para visualizar resultados
    """
    plt.figure(figsize=(10, 6))
    df[columna].plot()
    plt.title(f'Visualización de {columna}')
    plt.show()

### B. Configuración del Entorno

In [None]:
# Configuración del entorno de trabajo
import warnings
warnings.filterwarnings('ignore')

# Configuración de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

# Configuración de matplotlib
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

# Semilla para reproducibilidad
np.random.seed(42)