# 01 - Curación y Preparación de Datos
## Proyecto Final: Análisis de Datos
### Objetivo: Cargar, revisar y limpiar los datasets iniciales

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

print('Librerías cargadas correctamente')

Librerías cargadas correctamente


### 1. Carga de Datos

In [2]:
# Cargar datasets
clients = pd.read_csv('../data/clients.csv')
projects = pd.read_csv('../data/projects.csv')

print('=== INFORMACIÓN DE DATASETS ===')
print(f'Clientes: {clients.shape} - Filas: {clients.shape[0]}, Columnas: {clients.shape[1]}')
print(f'Proyectos: {projects.shape} - Filas: {projects.shape[0]}, Columnas: {projects.shape[1]}')

print('\n=== PRIMERAS FILAS ===')
print('\nClientes:')
display(clients.head())
print('\nProyectos:')
display(projects.head())

=== INFORMACIÓN DE DATASETS ===
Clientes: (100, 9) - Filas: 100, Columnas: 9
Proyectos: (200, 10) - Filas: 200, Columnas: 10

=== PRIMERAS FILAS ===

Clientes:


Unnamed: 0,client_id,industry,size,region,support_contract,tickets_opened_last_year,avg_response_time_hours,satisfaction_score,renewed_contract
0,C1000,Finanzas,Pequeña,Oruro,0,21,33.5,5,0
1,C1001,Otros,Mediana,Santa Cruz,1,21,25.8,3,1
2,C1002,Educación,Pequeña,La Paz,1,23,24.6,2,1
3,C1003,Gobierno,Mediana,Oruro,1,16,17.0,1,1
4,C1004,Retail,Grande,Oruro,0,26,18.4,5,1



Proyectos:


Unnamed: 0,project_id,client_id,start_date,planned_end_date,actual_end_date,budget_usd,dev_team_size,complexity,status,final_cost_usd
0,P2000,C1050,2024-01-15,2024-04-03,2024-03-27,27811.31,4,Media,On-time,27496.8
1,P2001,C1057,2023-11-08,2024-04-16,2024-08-07,15455.14,5,Media,Delayed,17813.71
2,P2002,C1004,2024-10-01,2025-01-31,2025-01-25,26634.78,11,Baja,On-time,27121.7
3,P2003,C1004,2023-11-01,2023-12-24,2023-12-24,24774.24,10,Media,On-time,26293.34
4,P2004,C1093,2023-12-04,2024-03-02,2024-03-05,585.06,7,Baja,On-time,582.31


### 2. Revisión de Calidad de Datos

In [3]:
print('=== INFORMACIÓN DE TIPOS DE DATOS ===')
print('\nClientes:')
clients.info()
print('\nProyectos:')
projects.info()

print('\n=== VALORES NULOS ===')
print('\nClientes:')
print(clients.isnull().sum())
print('\nProyectos:')
print(projects.isnull().sum())

=== INFORMACIÓN DE TIPOS DE DATOS ===

Clientes:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   client_id                 100 non-null    object 
 1   industry                  100 non-null    object 
 2   size                      100 non-null    object 
 3   region                    100 non-null    object 
 4   support_contract          100 non-null    int64  
 5   tickets_opened_last_year  100 non-null    int64  
 6   avg_response_time_hours   100 non-null    float64
 7   satisfaction_score        100 non-null    int64  
 8   renewed_contract          100 non-null    int64  
dtypes: float64(1), int64(4), object(4)
memory usage: 7.2+ KB

Proyectos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------      

### 3. Conversión de Tipos de Datos

In [4]:
# Convertir fechas en proyectos
date_columns = ['start_date', 'planned_end_date', 'actual_end_date']
for col in date_columns:
    projects[col] = pd.to_datetime(projects[col])

print('=== CONVERSIÓN DE FECHAS COMPLETADA ===')
print('\nTipos de datos en proyectos después de conversión:')
print(projects[date_columns].dtypes)

=== CONVERSIÓN DE FECHAS COMPLETADA ===

Tipos de datos en proyectos después de conversión:
start_date          datetime64[ns]
planned_end_date    datetime64[ns]
actual_end_date     datetime64[ns]
dtype: object


### 4. Validaciones de Consistencia

In [5]:
# Validar que las fechas sean consistentes
projects['duration_planned'] = (projects['planned_end_date'] - projects['start_date']).dt.days
projects['duration_actual'] = (projects['actual_end_date'] - projects['start_date']).dt.days

# Identificar proyectos con fechas inconsistentes
invalid_dates = projects[projects['duration_actual'] < 0]
print(f'Proyectos con fechas inconsistentes: {len(invalid_dates)}')

# Validar rangos de valores
print('\n=== VALIDACIÓN DE RANGOS ===')
print(f'Satisfaction score range: {clients["satisfaction_score"].min()} - {clients["satisfaction_score"].max()}')
print(f'Budget range: ${projects["budget_usd"].min():,.2f} - ${projects["budget_usd"].max():,.2f}')

Proyectos con fechas inconsistentes: 0

=== VALIDACIÓN DE RANGOS ===
Satisfaction score range: 1 - 5
Budget range: $-98.98 - $38,642.28


### 5. Guardar Datasets Curados

In [6]:
# Guardar datasets procesados
clients.to_csv('../data/clients_curated.csv', index=False)
projects.to_csv('../data/projects_curated.csv', index=False)

print('✅ Datasets curados guardados correctamente:')
print('- ../data/clients_curated.csv')
print('- ../data/projects_curated.csv')

✅ Datasets curados guardados correctamente:
- ../data/clients_curated.csv
- ../data/projects_curated.csv
