# Proyecto: Preparación de Datos con Python
Este notebook cubre todo el flujo de trabajo de obtención y preparación de datos usando NumPy y Pandas, desde la generación de datos ficticios hasta el dataset final listo para análisis.

## Lección 1 - NumPy

In [7]:
import numpy as np

# Generar datos ficticios de clientes y transacciones
ids_clientes = np.arange(1, 21)  # 20 clientes
edades = np.random.randint(18, 60, size=20)
salarios = np.random.randint(30000, 120000, size=20)
transacciones = np.random.randint(1, 20, size=20)

# Operaciones básicas
print('Edad promedio:', edades.mean())
print('Salario total:', salarios.sum())
print('Número de clientes:', ids_clientes.size)

# Guardar datos en archivo .npy
np.save('clientes.npy', np.column_stack((ids_clientes, edades, salarios, transacciones)))

Edad promedio: 39.6
Salario total: 1492038
Número de clientes: 20


## Lección 2 - Pandas

In [8]:
import pandas as pd
# Cargar datos de NumPy
datos = np.load('clientes.npy')
df = pd.DataFrame(datos, columns=['ID','Edad','Salario','Transacciones'])
df.head()

Unnamed: 0,ID,Edad,Salario,Transacciones
0,1,57,52716,8
1,2,56,48908,12
2,3,28,62591,10
3,4,32,77540,5
4,5,47,72154,6


In [9]:
# Exploración inicial
print(df.describe())
print(df[df['Salario']>100000])
df.to_csv('clientes_preliminar.csv', index=False)

             ID       Edad        Salario  Transacciones
count  20.00000  20.000000      20.000000      20.000000
mean   10.50000  39.600000   74601.900000      10.400000
std     5.91608  11.654681   24778.824765       4.511972
min     1.00000  23.000000   46302.000000       3.000000
25%     5.75000  27.750000   54471.750000       6.000000
50%    10.50000  40.500000   65739.500000      10.500000
75%    15.25000  47.750000   87764.750000      14.250000
max    20.00000  57.000000  119770.000000      18.000000
    ID  Edad  Salario  Transacciones
5    6    41   110884             14
6    7    43   114396              9
13  14    24   119770              6
14  15    23   106862             14
16  17    36   114917             11


## Lección 3 - Obtención de datos desde archivos

In [10]:
# Cargar CSV generado
df_csv = pd.read_csv('clientes_preliminar.csv')
'''
# Leer Excel de ejemplo
df_excel = pd.read_excel('clientes_ecommerce.xlsx')

# Extraer datos de tabla web
url = 'https://example.com/clientes.html'  # reemplazar con URL real
try:
    df_web = pd.read_html(url)[0]
except:
    df_web = pd.DataFrame()

# Unificar DataFrames
df_unificado = pd.concat([df_csv, df_excel, df_web], ignore_index=True)
df_unificado.head()
'''
df_unificado = df_csv  # Placeholder since Excel and web data are not available





## Lección 4 - Valores nulos y outliers

In [11]:
# Identificar nulos
print(df_unificado.isnull().sum())
# Imputar nulos
df_unificado['Salario'].fillna(df_unificado['Salario'].mean(), inplace=True)
# Detectar outliers con IQR
Q1 = df_unificado['Salario'].quantile(0.25)
Q3 = df_unificado['Salario'].quantile(0.75)
IQR = Q3 - Q1
df_unificado = df_unificado[(df_unificado['Salario'] >= Q1 - 1.5*IQR) & (df_unificado['Salario'] <= Q3 + 1.5*IQR)]

ID               0
Edad             0
Salario          0
Transacciones    0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_unificado['Salario'].fillna(df_unificado['Salario'].mean(), inplace=True)


## Lección 5 - Data Wrangling

In [12]:
# Eliminar duplicados
df_unificado.drop_duplicates(inplace=True)

# Crear columna calculada: Salario anual estimado
df_unificado['Salario_anual'] = df_unificado['Salario']*12

# Transformar tipos de datos
df_unificado['ID'] = df_unificado['ID'].astype(int)
df_unificado.head()

Unnamed: 0,ID,Edad,Salario,Transacciones,Salario_anual
0,1,57,52716,8,632592
1,2,56,48908,12,586896
2,3,28,62591,10,751092
3,4,32,77540,5,930480
4,5,47,72154,6,865848


## Lección 6 - Agrupamiento y pivoteo

In [13]:
# Agrupamiento por ciudad
if 'Ciudad' in df_unificado.columns:
    df_grouped = df_unificado.groupby('Ciudad')[['Salario','Transacciones']].mean()
else:
    df_grouped = df_unificado[['Salario','Transacciones']].mean().to_frame().T
df_grouped

Unnamed: 0,Salario,Transacciones
0,74601.9,10.4


In [14]:
# Pivot ejemplo
if 'Ciudad' in df_unificado.columns:
    df_pivot = df_unificado.pivot_table(index='Ciudad', values='Salario', aggfunc='mean')
    df_pivot

In [15]:
# Exportar CSV y Excel
df_unificado.to_csv('dataset_final.csv', index=False)
df_unificado.to_excel('dataset_final.xlsx', index=False)

## Conclusión
Este notebook integra todas las etapas de obtención y preparación de datos, desde la generación de datos ficticios con NumPy hasta la limpieza, transformación, wrangling y exportación del dataset final utilizando Pandas.