# ***Análisis de Datos***

## ETL (Extracción, Transformación y Carga)

### 1.Extracción (Extract)

In [1]:
from google.colab import drive
import pandas as pd             # google colab está orientado al análisis y ciencia de datos, por lo que trae precargada estas librerias.
import chardet                  # Esta libreria me dice que tipo de codificacion tiene mi archivo

drive.mount('/content/drive', force_remount=True)    # la variable force es para poder agregar nuevos archivo una vez que ya encendimos esta máquina.Sino, no va a
                                                     # reconocer los archivos nuevos. Cuando apagamos esta máquina, perdemos los archivos que cargamos manualmente.

ruta_archivo = '/content/drive/MyDrive/Data Analytics - Informatorio 2025/ventas/ventas.csv'

with open(ruta_archivo, 'rb') as f:
  result = chardet.detect(f.read())       #En el read se puede limitar los kb que se van a leer

try:
  df = pd.read_csv(ruta_archivo, encoding='latin1', sep=';', decimal=',')  # la diferencia entre un dataset y un dataframe (df) es que ya tiene métodos incluidos
  print('Extracción de datos exitosa')                                               # El encoding es para cuando no se reconoce bien una letra o simbolo.
except FileNotFoundError:                  # Esto es manejo de errores
  print(f'El archivo no se encuentra en la ruta especificada:  {(ruta_archivo)}')




Mounted at /content/drive
Extracción de datos exitosa


### 2.Transformación (Transform)

In [2]:
df.head()           # Muestra las primeras 5 filas del df. Nuestro csv se ve mal pq no está separado por comas, que es lo más común.
                    # Debemos agregar parámetros al read_csv

Unnamed: 0,Tienda,Marca,Tipo,Gï¿½nero,Talla,Color,Categoria,precio de venta,Fecha,Hora
0,Lima,Asics,WB1820,Femenino,42,Azul,Pantalon,89.0,15/07/2015,07:32:00
1,Lima,Asics,Kayano Single Tab,Usinex,42-44,Azul,Ropa interior,24.99,15/07/2015,07:33:00
2,Lima,Asics,WB1820,Femenino,37,Rosado,Pantalon,89.0,15/07/2015,07:52:00
3,Lima,Asics,WB2585,Femenino,39,Negro,Pantalon,99.0,15/07/2015,07:58:00
4,Lima,Asics,WB1820,Femenino,46,Multicolor,Pantalon,89.0,15/07/2015,08:19:00


In [3]:
df.info()                # Resumen de la info del df
                         # Con la columna de Non-Null vemos la cant de campos no nulos
                         # Object puede ser cualquier cosa. Lo pone porque no sabe identificar correctamente el datatype

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Tienda           800 non-null    object
 1   Marca            800 non-null    object
 2   Tipo             800 non-null    object
 3   Gï¿½nero         800 non-null    object
 4   Talla            800 non-null    object
 5   Color            800 non-null    object
 6   Categoria        800 non-null    object
 7   precio de venta  800 non-null    object
 8   Fecha            800 non-null    object
 9   Hora             800 non-null    object
dtypes: object(10)
memory usage: 62.6+ KB


In [None]:
df.head()           # Podemos elegir ver más de 5 filas. Nos da un panorama general

Unnamed: 0,tienda,marca,tipo,genero,talla,color,categoria,precio,fecha,hora
0,Lima,Asics,WB1820,Femenino,42,Azul,Pantalon,89.0,15/07/2015,07:32:00
1,Lima,Asics,Kayano Single Tab,Usinex,42-44,Azul,Ropa interior,24.99,15/07/2015,07:33:00
2,Lima,Asics,WB1820,Femenino,37,Rosado,Pantalon,89.0,15/07/2015,07:52:00
3,Lima,Asics,WB2585,Femenino,39,Negro,Pantalon,99.0,15/07/2015,07:58:00
4,Lima,Asics,WB1820,Femenino,46,Multicolor,Pantalon,89.0,15/07/2015,08:19:00


In [4]:
df.describe()           # Generar estadísticas descriptivas de las columnas numéricas


Unnamed: 0,Tienda,Marca,Tipo,Gï¿½nero,Talla,Color,Categoria,precio de venta,Fecha,Hora
count,800,800,800,800,800,800,800,800,800,800
unique,2,3,21,3,47,7,4,20,8,489
top,Lima,Asics,WB1820,Femenino,41,Negro,Pantalon,89,16/07/2015,14:52:00
freq,578,501,195,375,59,261,331,194,150,6


In [5]:
# Renombrar columnas para facilitar el acceso y evitar errores con caracteres especiales:
df.rename(columns ={
    'Tienda': 'tienda',
    'Marca': 'marca',
    'Tipo': 'tipo',
    'Gï¿½nero': 'genero',
    'Talla': 'talla',
    'Color': 'color',
    'Categoria': 'categoria',
    'precio de venta': 'precio',
    'Fecha': 'fecha',
    'Hora': 'hora'
}, inplace=True)


print("Transformación de datos exitosa")

Transformación de datos exitosa


In [6]:
# Como mi precio de venta se tomó como si fuera un objecto, cuando en realidad es un float, hacemos la siguiente conversión:
df['precio'] = df['precio'].astype(str)             # Pasamos todo a texto
df['precio'] = df['precio'].str.replace(',', '.', regex = True).astype(float)   # Reemplaza la coma por el punto si es necesario
                                                                                                  # Pasamos todo a decimal

print("Transformación de datos exitosa")

Transformación de datos exitosa


In [7]:
# Limpiar y unificar losdatos de la columna 'genero'
print(set(df['genero']))               # Me deja ver todos los valores que toma la variable sin repetirlos.
df['genero'] = df['genero'].str.replace('Masculino', 'M', regex = False).str.replace('Femenino', 'F', regex=False).str.replace('Usinex', 'U', regex=False)
print(df['genero'])

print("Transformación de datos exitosa")

{'Usinex', 'Masculino', 'Femenino'}
0      F
1      U
2      F
3      F
4      F
      ..
795    F
796    U
797    M
798    M
799    F
Name: genero, Length: 800, dtype: object
Transformación de datos exitosa


In [8]:
# Crear una columna fecha y hora combinada y convertirla en datatime:
print(df['fecha'])
print(df['hora'])
df['fecha_hora'] = pd.to_datetime(df['fecha'] + ' ' + df['hora'], format='%d/%m/%Y %H:%M:%S')       # Este ultimo formato es usado casi siempre. Se sabe de memoria nms
                                                                                                    # Con el signo suma une las 2 columnas
print(df['fecha_hora'])


print("Transformación de datos exitosa")

0      15/07/2015
1      15/07/2015
2      15/07/2015
3      15/07/2015
4      15/07/2015
          ...    
795    22/07/2015
796    22/07/2015
797    22/07/2015
798    22/07/2015
799    22/07/2015
Name: fecha, Length: 800, dtype: object
0      07:32:00
1      07:33:00
2      07:52:00
3      07:58:00
4      08:19:00
         ...   
795    12:37:00
796    12:49:00
797    13:00:00
798    13:03:00
799    13:03:00
Name: hora, Length: 800, dtype: object
0     2015-07-15 07:32:00
1     2015-07-15 07:33:00
2     2015-07-15 07:52:00
3     2015-07-15 07:58:00
4     2015-07-15 08:19:00
              ...        
795   2015-07-22 12:37:00
796   2015-07-22 12:49:00
797   2015-07-22 13:00:00
798   2015-07-22 13:03:00
799   2015-07-22 13:03:00
Name: fecha_hora, Length: 800, dtype: datetime64[ns]
Transformación de datos exitosa


In [9]:
# Borramos las 2 columnas fecha y hora que unimos en el código anterior

df.drop(columns=['fecha','hora'], inplace=True)

In [15]:
print(df['talla'].unique())       # Esto me sirve para ver primeramente los valores que tenemos en talla

<IntegerArray>
[42, 37, 39, 46, 38, 44, 40, 41, 45, 36, 43]
Length: 11, dtype: Int64


In [16]:
print(df.groupby('categoria')['talla'].unique())       # Vemos con qué categorías tenemos problemas. Esto obvio hay que hacerlo antes de lo que hicimos de unir filas
                                                       # o borrar. Lo que sería la limpieza. Esto hay que hacerlo antes para poder tomar esas desiciones.

categoria
Pantalon         [42, 37, 39, 46, 38, 40, 41, 45, 43, 36, 44]
Ropa interior                        [42, 38, 36, 40, 46, 44]
Zapatillas       [44, 39, 42, 37, 38, 41, 40, 43, 45, 46, 36]
Name: talla, dtype: object


In [19]:
print(df.groupby(['tienda','marca'])['precio'].sum().reset_index())           # Con el reset_index hace que quede un poco más ordenado todo

       tienda   marca    precio
0        Lima  Adidas   5073.00
1        Lima   Asics  24592.39
2        Lima    Nike  11921.00
3  Provincias  Adidas   1184.00
4  Provincias   Asics  14119.70
5  Provincias    Nike    349.00


In [10]:
# Estamos viendo el caso de la fila 1, en la que la talla es 42-44. Eso hay que juntarse con el dueño y llegar a una desición
# En este caso vamos a separar la fila en 2, cada una con su taller propio.

df['talla'] = df['talla'].astype(str).apply(lambda x: x.split('-')[0])      # La funcion lambda se usa mucho


# Paso por paso

# df['talla']
# → accede a la columna "talla" del DataFrame.

# .astype(str)
# → convierte todos los valores de esa columna a string (texto).
# Esto es útil si tenías números o valores mixtos (ej: 42, 42-44).

# .apply(lambda x: ...)
# → aplica una función a cada valor de la columna.
# El lambda x: significa "para cada valor x de la columna, hacé esto".

# x.split('-')
# → divide el string en una lista, usando el guion - como separador.

# Ejemplo: "42-44" → ["42", "44"].

# [0]
# → toma el primer elemento de esa lista.

# Ejemplo: ["42", "44"][0] → "42".



In [11]:
# Convierto a tipo numerico la columna talla:

df['talla'] = pd.to_numeric(df['talla'], errors='coerce').astype('Int64')      # La convierto a entero


In [12]:
# Eliminar filas con tallas nulas después de la conversión:

df.dropna(subset=['talla'], inplace=True)

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 727 entries, 0 to 799
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   tienda      727 non-null    object        
 1   marca       727 non-null    object        
 2   tipo        727 non-null    object        
 3   genero      727 non-null    object        
 4   talla       727 non-null    Int64         
 5   color       727 non-null    object        
 6   categoria   727 non-null    object        
 7   precio      727 non-null    float64       
 8   fecha_hora  727 non-null    datetime64[ns]
dtypes: Int64(1), datetime64[ns](1), float64(1), object(6)
memory usage: 57.5+ KB


In [14]:
df.describe()

Unnamed: 0,talla,precio,fecha_hora
count,727.0,727.0,727
mean,41.0,78.733274,2015-07-18 08:54:12.132049664
min,36.0,12.99,2015-07-15 07:32:00
25%,38.0,21.0,2015-07-16 14:08:00
50%,41.0,89.0,2015-07-17 18:00:00
75%,44.0,99.0,2015-07-20 08:14:30
max,46.0,239.0,2015-07-22 23:06:00
std,3.238882,55.471224,


### 3.Carga (Load)

In [22]:
df.head()

Unnamed: 0,tienda,marca,tipo,genero,talla,color,categoria,precio,fecha_hora
0,Lima,Asics,WB1820,F,42,Azul,Pantalon,89.0,2015-07-15 07:32:00
1,Lima,Asics,Kayano Single Tab,U,42,Azul,Ropa interior,24.99,2015-07-15 07:33:00
2,Lima,Asics,WB1820,F,37,Rosado,Pantalon,89.0,2015-07-15 07:52:00
3,Lima,Asics,WB2585,F,39,Negro,Pantalon,99.0,2015-07-15 07:58:00
4,Lima,Asics,WB1820,F,46,Multicolor,Pantalon,89.0,2015-07-15 08:19:00


In [32]:
# Defino la ruta de salida para guardar el nuevo CSV
ruta_salida = '/content/drive/MyDrive/Data Analytics - Informatorio 2025/ventas_transformadas.csv'

# Guardar el df transformado en un nuevo archivo CSV en Drive
df.to_csv(ruta_salida, index=False, sep=',')               # Puedo especificarle que el separador va a ser con ,
                                                           # Puedo elegir el método de transformación que necesite, hay varios
