# 02 - Análisis Exploratorio de Datos (EDA)
## Proyecto Final: Análisis de Datos
### Objetivo: Explorar y visualizar los datos para identificar patrones y relaciones

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de visualización
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)

print('Librerías y configuración cargadas correctamente')

In [None]:
# Cargar datasets curados
clients = pd.read_csv('../data/clients_curated.csv')
projects = pd.read_csv('../data/projects_curated.csv')

# Convertir fechas nuevamente
date_cols = ['start_date', 'planned_end_date', 'actual_end_date']
for col in date_cols:
    projects[col] = pd.to_datetime(projects[col])

print('Datos cargados y preparados para análisis')

### 1. Análisis Univariado

In [None]:
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

# Distribución de satisfaction_score
sns.histplot(data=clients, x='satisfaction_score', bins=5, ax=axes[0,0])
axes[0,0].set_title('Distribución de Satisfacción')

# Distribución de tamaño de empresa
clients['size'].value_counts().plot(kind='bar', ax=axes[0,1])
axes[0,1].set_title('Distribución por Tamaño de Empresa')

# Distribución de industria
clients['industry'].value_counts().plot(kind='bar', ax=axes[0,2])
axes[0,2].set_title('Distribución por Industria')
axes[0,2].tick_params(axis='x', rotation=45)

# Distribución de presupuesto
sns.histplot(data=projects, x='budget_usd', ax=axes[1,0])
axes[1,0].set_title('Distribución de Presupuesto')

# Distribución de estado de proyectos
projects['status'].value_counts().plot(kind='bar', ax=axes[1,1])
axes[1,1].set_title('Estado de Proyectos')

# Distribución de complejidad
projects['complexity'].value_counts().plot(kind='bar', ax=axes[1,2])
axes[1,2].set_title('Complejidad de Proyectos')

plt.tight_layout()
plt.show()