<a href="https://colab.research.google.com/github/miguelpuente/Analisis-Ventas-Python-Pandas/blob/etl/An%C3%A1lisis_de_datos_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis de datos

## ETL (Extración, Transformación y Carga)

### 1. Extración (Extract)

In [15]:
from google.colab import drive
import pandas as pd
import chardet

# Montamos Google Drive para acceder al archivo
drive.mount('/content/drive', force_remount=True)

ruta_archivo = '/content/drive/MyDrive/ventas.csv'
with open(ruta_archivo, 'rb') as f:
    result = chardet.detect(f.read())

try:
  df = pd.read_csv(ruta_archivo, encoding=result['encoding'], sep=';', decimal=',')
  print('Extración de datos exitosa')
except FileNotFoundError:
  print(f'El archivo no se encuentra en la ruta: {ruta_archivo}')


### 2. Transformación (Transform)

In [None]:
# Muestra las primeras 5 filas del DataFrame
df.head(10)

In [None]:
# Resumen de la información del DataFrame
df.info()

In [17]:
# Renombrar columnas para facilitar el acceso y evitar caracteres especiales
df.rename(columns ={
    'Tienda': 'tienda',
    'Marca': 'marca',
    'Tipo': 'tipo',
    'Gï¿½nero': 'genero',
    'Talla': 'talla',
    'Color': 'color',
    'Categoria': 'categoria',
    'precio de venta': 'precio',
    'Fecha': 'fecha',
    'Hora': 'hora'
}, inplace=True)

# Convertí la columna 'precio' a numérica
df['precio'] = df['precio'].astype(str)
df['precio'] = df['precio'].str.replace(',', '.', regex=True).astype(float)

# Limpiar y unificar los datos de la columna 'genero'
df['genero'] = df['genero'].str.replace('Masculino', 'M', regex=False).str.replace('Femenino', 'F', regex=False).str.replace('Usinex', 'U', regex=False)

# Crear una columna de fecha y hora combinada y convertila al tipo datatime
df['fecha_hora'] = pd.to_datetime(df['fecha'] + ' ' + df['hora'], format='%d/%m/%Y %H:%M:%S')

# Eliminar las columnas originales de fecha y hora
df.drop(columns=['fecha', 'hora'], inplace=True)

print("Transformación de datos exitosa")


Transformación de datos exitosa


### 3. Carga (Load)

In [21]:
# definir la ruta de salida para guardar el nuevo CSV
ruta_salida = '/content/drive/MyDrive/ventas_transformadas.csv'

# Guardar el dataframe transformado en un nuevo archivo CSV en Drive
df.to_csv(ruta_salida, index=False, sep=',')

print(f'Archivo CSV guardado en: {ruta_salida}')

Archivo CSV guardado en: /content/drive/MyDrive/ventas_transformadas.csv
