###. 1 Importamos Dataset

In [82]:
import pandas as pd
from pathlib import Path

# Función para detectar la carpeta 'datos'
def find_data_dir(start: Path | None = None, names=('datos', 'data')) -> Path | None:
    if start is None:
        start = Path.cwd()
    start = Path(start).resolve()
    for parent in [start] + list(start.parents):
        for n in names:
            candidate = parent / n
            if candidate.is_dir():
                return candidate
    return None

# Función para cargar un archivo desde la carpeta 'datos'
def get_dataset(filename: str, base_dir: str | Path | None = None) -> pd.DataFrame:
    if base_dir is None:
        base_dir = find_data_dir()
        if base_dir is None:
            raise FileNotFoundError("No se pudo localizar la carpeta 'datos'.")
    filepath = Path(base_dir) / filename
    if not filepath.exists():
        raise FileNotFoundError(f"Archivo no encontrado: {filepath}")
    return pd.read_excel(filepath)

# Cargar el dataset 'clientes.xlsx'
dataset1 = get_dataset('clientes.xlsx')

dataset1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   id_cliente      100 non-null    int64         
 1   nombre_cliente  100 non-null    object        
 2   email           100 non-null    object        
 3   ciudad          100 non-null    object        
 4   fecha_alta      100 non-null    datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 4.0+ KB


### 2. Verificamos la limpieza de los datos

In [83]:

dataset1.head()

Unnamed: 0,id_cliente,nombre_cliente,email,ciudad,fecha_alta
0,1,Mariana Lopez,mariana.lopez@mail.com,Carlos Paz,2023-01-01
1,2,Nicolas Rojas,nicolas.rojas@mail.com,Carlos Paz,2023-01-02
2,3,Hernan Martinez,hernan.martinez@mail.com,Rio Cuarto,2023-01-03
3,4,Uma Martinez,uma.martinez@mail.com,Carlos Paz,2023-01-04
4,5,Agustina Flores,agustina.flores@mail.com,Cordoba,2023-01-05


In [84]:
dataset1.duplicated(keep=False)

0     False
1     False
2     False
3     False
4     False
      ...  
95    False
96    False
97    False
98    False
99    False
Length: 100, dtype: bool

In [85]:
conteo_duplicados = dataset1.duplicated().sum()
print(f'Número de filas duplicadas: {conteo_duplicados}')


Número de filas duplicadas: 0


In [86]:
dataset1.describe(include='all').transpose()

Unnamed: 0,count,unique,top,freq,mean,min,25%,50%,75%,max,std
id_cliente,100.0,,,,50.5,1.0,25.75,50.5,75.25,100.0,29.011492
nombre_cliente,100.0,95.0,Olivia Perez,2.0,,,,,,,
email,100.0,100.0,mariana.lopez@mail.com,1.0,,,,,,,
ciudad,100.0,6.0,Rio Cuarto,23.0,,,,,,,
fecha_alta,100.0,,,,2023-02-19 12:00:00,2023-01-01 00:00:00,2023-01-25 18:00:00,2023-02-19 12:00:00,2023-03-16 06:00:00,2023-04-10 00:00:00,


In [87]:
dataset1['id_cliente'].nunique()

100

### 3. Estadisticas del Dataset

In [88]:
dataset1.describe()

Unnamed: 0,id_cliente,fecha_alta
count,100.0,100
mean,50.5,2023-02-19 12:00:00
min,1.0,2023-01-01 00:00:00
25%,25.75,2023-01-25 18:00:00
50%,50.5,2023-02-19 12:00:00
75%,75.25,2023-03-16 06:00:00
max,100.0,2023-04-10 00:00:00
std,29.011492,


### 4. Importamos y analizamos `detalle_ventas.xlsx`

In [89]:
# Lectura del archivo detalle_ventas.xlsx
dataset2 = get_dataset('detalle_ventas.xlsx')

dataset2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 343 entries, 0 to 342
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id_venta         343 non-null    int64 
 1   id_producto      343 non-null    int64 
 2   nombre_producto  343 non-null    object
 3   cantidad         343 non-null    int64 
 4   precio_unitario  343 non-null    int64 
 5   importe          343 non-null    int64 
dtypes: int64(5), object(1)
memory usage: 16.2+ KB


In [90]:
# Vista rápida
dataset2.head()

Unnamed: 0,id_venta,id_producto,nombre_producto,cantidad,precio_unitario,importe
0,1,90,Toallas Húmedas x50,1,2902,2902
1,2,82,Aceitunas Negras 200g,5,2394,11970
2,2,39,Helado Vainilla 1L,5,469,2345
3,2,70,Fernet 750ml,2,4061,8122
4,2,22,Medialunas de Manteca,1,2069,2069


In [91]:
# Detección de filas duplicadas (booleano)
dataset2.duplicated(keep=False)

0      False
1      False
2      False
3      False
4      False
       ...  
338    False
339    False
340    False
341    False
342    False
Length: 343, dtype: bool

In [92]:
conteo_duplicados = dataset2.duplicated().sum()
print(f'Número de filas duplicadas (detalle_ventas): {conteo_duplicados}')


Número de filas duplicadas (detalle_ventas): 0


In [93]:
dataset2.describe(include='all').transpose()

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
id_venta,343.0,,,,61.492711,34.835525,1.0,31.0,61.0,93.0,120.0
id_producto,343.0,,,,49.139942,29.135461,1.0,23.0,47.0,76.0,100.0
nombre_producto,343.0,95.0,Queso Rallado 150g,9.0,,,,,,,
cantidad,343.0,,,,2.962099,1.366375,1.0,2.0,3.0,4.0,5.0
precio_unitario,343.0,,,,2654.495627,1308.69472,272.0,1618.5,2512.0,3876.0,4982.0
importe,343.0,,,,7730.078717,5265.543077,272.0,3489.0,6702.0,10231.5,24865.0


In [94]:
# Intentamos obtener el conteo de IDs comunes de detalle_ventas (si existen)
candidate_ids = ['id_detalle', 'id_detalle_venta', 'id_venta', 'id_producto', 'id']
for c in candidate_ids:
    if c in dataset2.columns:
        print(f'Columna encontrada: {c} -> Unicos: {dataset2[c].nunique()}')
        break
else:
    print('No se encontró una columna ID conocida en detalle_ventas. Columnas disponibles:', dataset2.columns.tolist())

Columna encontrada: id_venta -> Unicos: 120


### 5. Importamos y analizamos `productos.xlsx`

In [95]:
# Lectura del archivo productos.xlsx
dataset3 = get_dataset('productos.xlsx')

dataset3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id_producto      100 non-null    int64 
 1   nombre_producto  100 non-null    object
 2   categoria        100 non-null    object
 3   precio_unitario  100 non-null    int64 
dtypes: int64(2), object(2)
memory usage: 3.3+ KB


In [96]:
dataset3.head()

Unnamed: 0,id_producto,nombre_producto,categoria,precio_unitario
0,1,Coca Cola 1.5L,Alimentos,2347
1,2,Pepsi 1.5L,Limpieza,4973
2,3,Sprite 1.5L,Alimentos,4964
3,4,Fanta Naranja 1.5L,Limpieza,2033
4,5,Agua Mineral 500ml,Alimentos,4777


In [97]:
dataset3.duplicated(keep=False)

0     False
1     False
2     False
3     False
4     False
      ...  
95    False
96    False
97    False
98    False
99    False
Length: 100, dtype: bool

In [98]:
conteo_duplicados_prod = dataset3.duplicated().sum()
print(f'Número de filas duplicadas (productos): {conteo_duplicados_prod}')


Número de filas duplicadas (productos): 0


In [99]:
dataset3.describe(include='all').transpose()

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
id_producto,100.0,,,,50.5,29.011492,1.0,25.75,50.5,75.25,100.0
nombre_producto,100.0,100.0,Coca Cola 1.5L,1.0,,,,,,,
categoria,100.0,2.0,Alimentos,50.0,,,,,,,
precio_unitario,100.0,,,,2718.55,1381.635324,272.0,1590.0,2516.0,4026.5,4982.0


In [100]:
# Intentamos obtener el conteo de IDs comunes de productos (si existen)
candidate_ids_prod = ['id_producto', 'producto_id', 'id']
for c in candidate_ids_prod:
    if c in dataset3.columns:
        print(f'Columna encontrada: {c} -> Unicos: {dataset3[c].nunique()}')
        break
else:
    print('No se encontró una columna ID conocida en productos. Columnas disponibles:', dataset3.columns.tolist())

Columna encontrada: id_producto -> Unicos: 100


### 6. Importamos y analizamos `ventas.xlsx`

In [101]:
# Lectura del archivo ventas.xlsx
dataset4 = get_dataset('ventas.xlsx')

dataset4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120 entries, 0 to 119
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   id_venta        120 non-null    int64         
 1   fecha           120 non-null    datetime64[ns]
 2   id_cliente      120 non-null    int64         
 3   nombre_cliente  120 non-null    object        
 4   email           120 non-null    object        
 5   medio_pago      120 non-null    object        
dtypes: datetime64[ns](1), int64(2), object(3)
memory usage: 5.8+ KB


In [102]:
dataset4.head()

Unnamed: 0,id_venta,fecha,id_cliente,nombre_cliente,email,medio_pago
0,1,2024-06-19,62,Guadalupe Romero,guadalupe.romero@mail.com,tarjeta
1,2,2024-03-17,49,Olivia Gomez,olivia.gomez@mail.com,qr
2,3,2024-01-13,20,Tomas Acosta,tomas.acosta@mail.com,tarjeta
3,4,2024-02-27,36,Martina Molina,martina.molina@mail.com,transferencia
4,5,2024-06-11,56,Bruno Diaz,bruno.diaz@mail.com,tarjeta


In [103]:
dataset4.duplicated(keep=False)

0      False
1      False
2      False
3      False
4      False
       ...  
115    False
116    False
117    False
118    False
119    False
Length: 120, dtype: bool

In [104]:
conteo_duplicados_ventas = dataset4.duplicated().sum()
print(f'Número de filas duplicadas (ventas): {conteo_duplicados_ventas}')


Número de filas duplicadas (ventas): 0


In [105]:
dataset4.describe(include='all').transpose()

Unnamed: 0,count,unique,top,freq,mean,min,25%,50%,75%,max,std
id_venta,120.0,,,,60.5,1.0,30.75,60.5,90.25,120.0,34.785054
fecha,120.0,,,,2024-03-29 17:36:00,2024-01-02 00:00:00,2024-02-11 06:00:00,2024-03-25 00:00:00,2024-05-19 06:00:00,2024-06-28 00:00:00,
id_cliente,120.0,,,,47.291667,1.0,24.5,48.5,67.5,100.0,27.854181
nombre_cliente,120.0,64.0,Bruno Diaz,5.0,,,,,,,
email,120.0,67.0,bruno.diaz@mail.com,5.0,,,,,,,
medio_pago,120.0,4.0,efectivo,37.0,,,,,,,


In [106]:
# Intentamos obtener el conteo de IDs comunes de ventas (si existen)
candidate_ids_ventas = ['id_venta', 'venta_id', 'id']
for c in candidate_ids_ventas:
    if c in dataset4.columns:
        print(f'Columna encontrada: {c} -> Unicos: {dataset4[c].nunique()}')
        break
else:
    print('No se encontró una columna ID conocida en ventas. Columnas disponibles:', dataset4.columns.tolist())

Columna encontrada: id_venta -> Unicos: 120


In [109]:
from pathlib import Path
import pandas as pd

# --- PASO 1: CONFIGURACIÓN DE RUTAS Y NOMBRES ---
# Define tus 4 archivos con sus nombres específicos
archivos_info = {
    'clientes': 'clientes.xlsx',
    'productos': 'productos.xlsx',
    'ventas': 'ventas.xlsx',
    'detalle_ventas': 'detalle_ventas.xlsx'
}

dataframes = {}

print("--- 1. CARGANDO DATASETS INDIVIDUALMENTE ---")

for nombre, archivo in archivos_info.items():
    try:
        # Usamos get_dataset para leer cada archivo desde la carpeta 'datos'
        df_temp = get_dataset(archivo)
        dataframes[nombre] = df_temp  # Almacena cada DataFrame con su nombre clave
        print(f"✅ Cargado: {nombre} ({df_temp.shape[0]} filas)")
    except FileNotFoundError:
        print(f"❌ ERROR: Archivo '{archivo}' no encontrado.")
    except Exception as e:
        print(f"❌ ERROR al procesar '{archivo}': {e}")

# Accede a tus DataFrames así:
# df_clientes = dataframes['clientes']
# df_productos = dataframes['productos']

--- 1. CARGANDO DATASETS INDIVIDUALMENTE ---
✅ Cargado: clientes (100 filas)
✅ Cargado: productos (100 filas)
✅ Cargado: ventas (120 filas)
✅ Cargado: detalle_ventas (343 filas)
✅ Cargado: detalle_ventas (343 filas)


In [None]:
from pathlib import Path

# Carpeta donde guardar los CSV
SALIDA = find_data_dir() / 'limpios'
SALIDA.mkdir(parents=True, exist_ok=True)

# Exportar cada DataFrame limpio a CSV
for nombre, df in dataframes_limpios.items():
    archivo = SALIDA / f"{nombre}.csv"
    df.to_csv(archivo, index=False, encoding='utf-8-sig')
    print(f"✅ Exportado: {archivo}")

✅ Exportado: C:\Users\JUANK\Documents\Curso de IBM\Aurelion Grupo\GUAYERD-IA\datos\limpios\df_clientes_limpio.csv
✅ Exportado: C:\Users\JUANK\Documents\Curso de IBM\Aurelion Grupo\GUAYERD-IA\datos\limpios\df_productos_limpio.csv
✅ Exportado: C:\Users\JUANK\Documents\Curso de IBM\Aurelion Grupo\GUAYERD-IA\datos\limpios\df_ventas_limpio.csv
✅ Exportado: C:\Users\JUANK\Documents\Curso de IBM\Aurelion Grupo\GUAYERD-IA\datos\limpios\df_detalle_ventas_limpio.csv
