<a href="https://colab.research.google.com/github/miguelpuente/Analisis-Ventas-Python-Pandas/blob/eda/An%C3%A1lisis_de_datos_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis de datos

## 1 - ETL (Extración, Transformación y Carga)

### 1. Extración (Extract)

In [None]:
from google.colab import drive
import pandas as pd
import chardet

# Montamos Google Drive para acceder al archivo
drive.mount('/content/drive', force_remount=True)

ruta_archivo = '/content/drive/MyDrive/ventas.csv'
with open(ruta_archivo, 'rb') as f:
    result = chardet.detect(f.read())

try:
  df = pd.read_csv(ruta_archivo, encoding=result['encoding'], sep=';', decimal=',')
  print('Extración de datos exitosa')
except FileNotFoundError:
  print(f'El archivo no se encuentra en la ruta: {ruta_archivo}')


### 2. Transformación (Transform)

In [23]:
# Muestra las primeras 5 filas del DataFrame
df.head(10)

Unnamed: 0,tienda,marca,tipo,genero,talla,color,categoria,precio,fecha_hora
0,Lima,Asics,WB1820,F,42,Azul,Pantalon,89.0,2015-07-15 07:32:00
1,Lima,Asics,Kayano Single Tab,U,42-44,Azul,Ropa interior,24.99,2015-07-15 07:33:00
2,Lima,Asics,WB1820,F,37,Rosado,Pantalon,89.0,2015-07-15 07:52:00
3,Lima,Asics,WB2585,F,39,Negro,Pantalon,99.0,2015-07-15 07:58:00
4,Lima,Asics,WB1820,F,46,Multicolor,Pantalon,89.0,2015-07-15 08:19:00
5,Lima,Asics,WB1820,F,39,Azul,Pantalon,89.0,2015-07-15 08:48:00
6,Lima,Asics,MB1878,M,38,Negro,Pantalon,99.0,2015-07-15 09:07:00
7,Lima,Asics,Hera Deux Single Tab,F,42-44,Negro,Ropa interior,12.99,2015-07-15 09:11:00
8,Lima,Asics,MB1878,M,38,Negro,Pantalon,99.0,2015-07-15 10:04:00
9,Lima,Asics,MB1878,M,46,Negro,Pantalon,99.0,2015-07-15 10:06:00


In [None]:
# Resumen de la información del DataFrame
df.info()

In [17]:
# Renombrar columnas para facilitar el acceso y evitar caracteres especiales
df.rename(columns ={
    'Tienda': 'tienda',
    'Marca': 'marca',
    'Tipo': 'tipo',
    'Gï¿½nero': 'genero',
    'Talla': 'talla',
    'Color': 'color',
    'Categoria': 'categoria',
    'precio de venta': 'precio',
    'Fecha': 'fecha',
    'Hora': 'hora'
}, inplace=True)

# Convertí la columna 'precio' a numérica
df['precio'] = df['precio'].astype(str)
df['precio'] = df['precio'].str.replace(',', '.', regex=True).astype(float)

# Limpiar y unificar los datos de la columna 'genero'
df['genero'] = df['genero'].str.replace('Masculino', 'M', regex=False).str.replace('Femenino', 'F', regex=False).str.replace('Usinex', 'U', regex=False)

# Crear una columna de fecha y hora combinada y convertila al tipo datatime
df['fecha_hora'] = pd.to_datetime(df['fecha'] + ' ' + df['hora'], format='%d/%m/%Y %H:%M:%S')

# Eliminar las columnas originales de fecha y hora
df.drop(columns=['fecha', 'hora'], inplace=True)

print("Transformación de datos exitosa")


Transformación de datos exitosa


### 3. Carga (Load)

In [21]:
# definir la ruta de salida para guardar el nuevo CSV
ruta_salida = '/content/drive/MyDrive/ventas_transformadas.csv'

# Guardar el dataframe transformado en un nuevo archivo CSV en Drive
df.to_csv(ruta_salida, index=False, sep=',')

print(f'Archivo CSV guardado en: {ruta_salida}')

Archivo CSV guardado en: /content/drive/MyDrive/ventas_transformadas.csv


## 2 - EDA (Análisis Exploratorio de datos)

In [None]:
# Cuanto facturó cada tienda.
facturacion_ordenada = df.groupby(['tienda', 'marca'])['precio'].sum().reset_index()

top = facturacion_ordenada.sort_values(by='precio', ascending=False)

print(top.head(3))

In [34]:
# Filtrado condicional -- Boolean Indexing

# 1 - Definir la condición: categoria es Pantalon & color es Negro
condicion = (df['categoria'] == 'Pantalon') & (df['color'] == 'Negro')

# 2 - Aplicar la condición al DataFrame
df_filtrado = df[condicion]

# 3 - Responder la pregunta
conteo_transacciones = len(df_filtrado)
facturacion_total = df_filtrado['precio'].sum()

print(f'Cantidad de pantalones negros vendidos : {conteo_transacciones} por un monto de {facturacion_total} ')



Cantidad de pantalones negros vendidos : 165 por un monto de 16045.0 
