# Analisis de datos

## ETL ( Extración, Transformación y Carga)

### 1. Extración (Extract)

In [128]:
from google.colab import drive
import pandas as pd
import chardet

# Montar google drive para acceder al archivo
drive.mount('/content/drive' , force_remount= True)

#ruta del csv
ruta_archivo = '/content/drive/MyDrive/AnalisisDeDatos/ventas.csv'
with open(ruta_archivo, 'rb') as f:
    result = chardet.detect(f.read())

#manejo de errores
try:
  df = pd.read_csv(ruta_archivo, encoding= result['encoding'], sep=';', decimal= ',')
  print('Extracion de datos es correcta')
except FileNotFoundError:
  print(f'Error al cargar el archivo en la ruta: {ruta_archivo} ')

Mounted at /content/drive
Extracion de datos es correcta


### 2. Transformación (Transform)

In [131]:
#Mostrar filas del DataFrame
df.head(10)

Unnamed: 0,tienda,marca,tipo,genero,talla,color,categoria,precio,fecha_hora
0,Lima,Asics,WB1820,F,42,Azul,Pantalon,89.0,2015-07-15 07:32:00
1,Lima,Asics,Kayano Single Tab,U,42-44,Azul,Ropa interior,24.99,2015-07-15 07:33:00
2,Lima,Asics,WB1820,F,37,Rosado,Pantalon,89.0,2015-07-15 07:52:00
3,Lima,Asics,WB2585,F,39,Negro,Pantalon,99.0,2015-07-15 07:58:00
4,Lima,Asics,WB1820,F,46,Multicolor,Pantalon,89.0,2015-07-15 08:19:00
5,Lima,Asics,WB1820,F,39,Azul,Pantalon,89.0,2015-07-15 08:48:00
6,Lima,Asics,MB1878,M,38,Negro,Pantalon,99.0,2015-07-15 09:07:00
7,Lima,Asics,Hera Deux Single Tab,F,42-44,Negro,Ropa interior,12.99,2015-07-15 09:11:00
8,Lima,Asics,MB1878,M,38,Negro,Pantalon,99.0,2015-07-15 10:04:00
9,Lima,Asics,MB1878,M,46,Negro,Pantalon,99.0,2015-07-15 10:06:00


In [126]:
#Resumen de la inforacion del DataFrame
df.info()

#Valores talles
print(df.groupby('categoria')['talla'].unique())

#valores tipo
print(df.groupby('tipo')['talla'].unique())

#test
print(df.groupby(['tienda','marca'])['precio'].sum().reset_index())


tipo
Air Zoom                                                [42, 44, 38, 45, 36, 43, 39, 40]
Boston 5                                            [36, 42, 37, 40, 46, 41, 43, 39, 44]
Cummulus 17                                 [44, 38, 39, 40, 41, 46, 43, 37, 45, 36, 42]
Dri-Fit No-Show                               [40-42, 42-44, 46-48, 44-46, 38-40, 36-38]
Free 5.0                                        [38, 40, 43, 45, 37, 42, 46, 36, 44, 39]
Gel Quantics                                                                [37, 46, 41]
Hera Deux Single Tab                          [42-44, 40-42, 46-48, 38-40, 36-38, 44-46]
Hyper Elite Crew                              [38-40, 44-46, 40-42, 42-44, 36-38, 46-48]
Kayano Single Tab                             [42-44, 44-46, 36-38, 46-48, 40-42, 38-40]
MB1878                                      [38, 46, 37, 40, 44, 42, 43, 41, 39, 36, 45]
Nike Elite Match Fit Mercurial Crew           [38-40, 36-38, 42-44, 46-48, 40-42, 44-46]
Nimbus 17       

In [129]:
#LIMPIEZA DE DATOS
#renombrar columnas para facilitar acceso y evitar caracteres especiales
df.rename(columns = {
    'Tienda': 'tienda',
    'Marca': 'marca',
    'Tipo': 'tipo',
    'Gï¿½nero': 'genero',
    'Talla' : 'talla',
    'Color' : 'color',
    'Categoria': 'categoria',
    'precio de venta': 'precio',
    'Fecha': 'fecha',
    'Hora': 'hora'
}, inplace = True)

In [130]:

#transformar a variable numerica la columba precio
df['precio'] = df['precio'].astype(str)
df['precio'] = df['precio'].str.replace(',', '.', regex=True).astype(float)


#renombrar valores de columna genero
df['genero'] = df['genero'].str.replace('Masculino', 'M', regex=False)
df['genero'] = df['genero'].str.replace('Femenino', 'F', regex=False)
df['genero'] = df['genero'].str.replace('Usinex', 'U', regex=False)
print(set(df['genero']))

#crear nueva columna combinacion entre fecha y hora
df['fecha_hora'] = pd.to_datetime(df['fecha'] + ' ' + df['hora'], format='%d/%m/%Y %H:%M:%S')


#eliminar columna fecha y hora
df.drop(columns=['fecha', 'hora'], inplace=True)


Transformacion de datos exitosa
{'F', 'U', 'M'}
Transformacion de datos exitosa


In [None]:
#estadistica descriptiva
df.describe()

### 3. Carga (Load)

In [135]:
#definir ruta de salida para guardar el nuevo CSV
ruta_salida = '/content/drive/MyDrive/AnalisisDeDatos/ventas_modificadas.csv'
#guardar el dataframe transformado en un nuevo archivo CSV en Drive
df.to_csv(ruta_salida, index=False, sep = ',')
print(f'DataFrame guardado en: {ruta_salida}')

DataFrame guardado en: /content/drive/MyDrive/AnalisisDeDatos/ventas_modificadas.csv
