# 01 - Curación y Preparación de Datos
## Proyecto Final: Análisis de Datos
### Objetivo: Cargar, revisar y limpiar los datasets iniciales

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

print('Librerías cargadas correctamente')

### 1. Carga de Datos

In [None]:
# Cargar datasets
clients = pd.read_csv('../data/clients.csv')
projects = pd.read_csv('../data/projects.csv')

print('=== INFORMACIÓN DE DATASETS ===')
print(f'Clientes: {clients.shape} - Filas: {clients.shape[0]}, Columnas: {clients.shape[1]}')
print(f'Proyectos: {projects.shape} - Filas: {projects.shape[0]}, Columnas: {projects.shape[1]}')

print('\n=== PRIMERAS FILAS ===')
print('\nClientes:')
display(clients.head())
print('\nProyectos:')
display(projects.head())

### 2. Revisión de Calidad de Datos

In [None]:
print('=== INFORMACIÓN DE TIPOS DE DATOS ===')
print('\nClientes:')
clients.info()
print('\nProyectos:')
projects.info()

print('\n=== VALORES NULOS ===')
print('\nClientes:')
print(clients.isnull().sum())
print('\nProyectos:')
print(projects.isnull().sum())

### 3. Conversión de Tipos de Datos

In [None]:
# Convertir fechas en proyectos
date_columns = ['start_date', 'planned_end_date', 'actual_end_date']
for col in date_columns:
    projects[col] = pd.to_datetime(projects[col])

print('=== CONVERSIÓN DE FECHAS COMPLETADA ===')
print('\nTipos de datos en proyectos después de conversión:')
print(projects[date_columns].dtypes)

### 4. Validaciones de Consistencia

In [None]:
# Validar que las fechas sean consistentes
projects['duration_planned'] = (projects['planned_end_date'] - projects['start_date']).dt.days
projects['duration_actual'] = (projects['actual_end_date'] - projects['start_date']).dt.days

# Identificar proyectos con fechas inconsistentes
invalid_dates = projects[projects['duration_actual'] < 0]
print(f'Proyectos con fechas inconsistentes: {len(invalid_dates)}')

# Validar rangos de valores
print('\n=== VALIDACIÓN DE RANGOS ===')
print(f'Satisfaction score range: {clients["satisfaction_score"].min()} - {clients["satisfaction_score"].max()}')
print(f'Budget range: ${projects["budget_usd"].min():,.2f} - ${projects["budget_usd"].max():,.2f}')

### 5. Guardar Datasets Curados

In [None]:
# Guardar datasets procesados
clients.to_csv('../data/clients_curated.csv', index=False)
projects.to_csv('../data/projects_curated.csv', index=False)

print('✅ Datasets curados guardados correctamente:')
print('- ../data/clients_curated.csv')
print('- ../data/projects_curated.csv')