#Proyecto de Data Science (Limpieza, Transformación y Análisis de Datos con Python)

#Descripción general
###Este proyecto presenta un flujo completo de trabajo en Python orientado al procesamiento, limpieza y análisis de datos estructurados, simulando un escenario real de negocio con múltiples tablas relacionadas (productos, categorías, ciudades, países y ventas).

###El objetivo principal es transformar datos crudos en información confiable, aplicando buenas prácticas de análisis de datos para preparar el dataset final para su posterior análisis exploratorio y visualización.

#Procesos
###*Carga de múltiples datasets desde archivos CSV
###*Estandarización de columnas y normalización de nombres
###*Análisis estructural de los datos
###*Dimensiones de cada tabla
###*Tipos de datos
###*Identificación de valores nulos y duplicados
###*Limpieza de datos
###*Eliminación de columnas innecesarias
###*Control de calidad de datos
###*Verificación de integridad entre tablas
###*Transformación y enriquecimiento de datos
###*Uso de joins entre tablas para integrar información dispersa
###*Corrección de métricas clave como precio total por producto
###*Construcción de un dataset consolidado listo para análisis
###*Preparación para análisis y visualización
###*Dataset final optimizado para herramientas de BI (Power BI) o análisis exploratorio en Python

In [41]:
# Importar librerias
import pandas as pd
import numpy as np
import sklearn as skl
import matplotlib.pyplot as plt
import seaborn as sns

In [42]:
# Carga de datos
categorias  = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Porfolio Data Science JMRESQUIN/01/categories.csv')
categorias = pd.DataFrame(categorias)
categorias

Unnamed: 0,CategoryID,CategoryName
0,1,Confections
1,2,Shell fish
2,3,Cereals
3,4,Dairy
4,5,Beverages
5,6,Seafood
6,7,Meat
7,8,Grain
8,9,Poultry
9,10,Snails


In [43]:
# Cambio de nombres
categorias.columns = ['categoria_id', 'categoria']
categorias['categoria'] = categorias['categoria'].map({
    'Confections': 'Confitería',
    'Shell fish': 'Mariscos',
    'Cereals': 'Cereales',
    'Dairy': 'Lácteos',
    'Beverages': 'Bebidas',
    'Seafood': 'Pescados y Mariscos',
    'Meat': 'Carnes',
    'Grain': 'Granos',
    'Poultry': 'Aves de Corral',
    'Snails': 'Caracoles',
    'Produce': 'Productos Agrícolas'
})

categorias

Unnamed: 0,categoria_id,categoria
0,1,Confitería
1,2,Mariscos
2,3,Cereales
3,4,Lácteos
4,5,Bebidas
5,6,Pescados y Mariscos
6,7,Carnes
7,8,Granos
8,9,Aves de Corral
9,10,Caracoles


In [44]:
# Dimesión y tipo de datos
dimensiones = categorias.shape
print(dimensiones)

tipo_de_datos = categorias.dtypes
print(tipo_de_datos)


(11, 2)
categoria_id     int64
categoria       object
dtype: object


In [45]:
# Carga de datos
ciudades = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Porfolio Data Science JMRESQUIN/01/cities.csv')
ciudades = pd.DataFrame(ciudades)
ciudades

Unnamed: 0,CityID,CityName,Zipcode,CountryID
0,1,Dayton,80563,32
1,2,Buffalo,17420,32
2,3,Chicago,44751,32
3,4,Fremont,20641,32
4,5,Virginia Beach,62389,32
...,...,...,...,...
91,92,Hialeah,34375,32
92,93,Jersey,55355,32
93,94,Yonkers,7430,32
94,95,Garland,73265,32


In [46]:
# Cambio de nombres
ciudades.columns = ['ciudad_id', 'ciudad', 'codigo_postal', 'pais_id']
ciudades

Unnamed: 0,ciudad_id,ciudad,codigo_postal,pais_id
0,1,Dayton,80563,32
1,2,Buffalo,17420,32
2,3,Chicago,44751,32
3,4,Fremont,20641,32
4,5,Virginia Beach,62389,32
...,...,...,...,...
91,92,Hialeah,34375,32
92,93,Jersey,55355,32
93,94,Yonkers,7430,32
94,95,Garland,73265,32


In [47]:
# Control de datos duplicados
duplicados = ciudades.duplicated()
print(duplicados)

0     False
1     False
2     False
3     False
4     False
      ...  
91    False
92    False
93    False
94    False
95    False
Length: 96, dtype: bool


In [48]:
# Dimensión y tipo de datos
dimensiones = ciudades.shape
print(dimensiones)

tipo_de_datos = ciudades.dtypes
print(tipo_de_datos)


(96, 4)
ciudad_id         int64
ciudad           object
codigo_postal     int64
pais_id           int64
dtype: object


In [49]:
# Control de datos nulos
ciudades.isna().sum().sort_values()

Unnamed: 0,0
ciudad_id,0
ciudad,0
codigo_postal,0
pais_id,0


In [50]:
# Carga de datos
paises  = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Porfolio Data Science JMRESQUIN/01/countries.csv')
paises = pd.DataFrame(paises)
paises

Unnamed: 0,CountryID,CountryName,CountryCode
0,1,Armenia,AN
1,2,Canada,FO
2,3,Belize,MK
3,4,Uganda,LV
4,5,Thailand,VI
...,...,...,...
201,202,Greenland,MW
202,203,Niger,SH
203,204,Malvinas,GE
204,205,Mayotte,PG


In [51]:
#Eliminación de columna con dato innecesario
paises = paises.drop('CountryCode', axis=1)
paises

Unnamed: 0,CountryID,CountryName
0,1,Armenia
1,2,Canada
2,3,Belize
3,4,Uganda
4,5,Thailand
...,...,...
201,202,Greenland
202,203,Niger
203,204,Malvinas
204,205,Mayotte


In [52]:
# Cambio de nombres
paises.columns = ['pais_id', 'pais']
paises

Unnamed: 0,pais_id,pais
0,1,Armenia
1,2,Canada
2,3,Belize
3,4,Uganda
4,5,Thailand
...,...,...
201,202,Greenland
202,203,Niger
203,204,Malvinas
204,205,Mayotte


In [53]:
# Control de datos nulos
paises.isna().sum().sort_values()

Unnamed: 0,0
pais_id,0
pais,0


In [54]:
# Carga de datos
clientes  = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Porfolio Data Science JMRESQUIN/01/customers.csv')
clientes = pd.DataFrame(clientes)
clientes

Unnamed: 0,CustomerID,FirstName,MiddleInitial,LastName,CityID,Address
0,1,Stefanie,Y,Frye,79,97 Oak Avenue
1,2,Sandy,T,Kirby,96,52 White First Freeway
2,3,Lee,T,Zhang,55,921 White Fabien Avenue
3,4,Regina,S,Avery,40,75 Old Avenue
4,5,Daniel,S,Mccann,2,283 South Green Hague Avenue
...,...,...,...,...,...,...
98754,98755,Yvette,C,Campos,27,945 Oak Parkway
98755,98756,Angelo,X,Mc Millan,82,99 Fabien Street
98756,98757,Shari,J,Prince,81,791 Milton Drive
98757,98758,Stuart,K,Cameron,57,149 Clarendon Road


In [55]:
# Control de datos nulos
clientes.isna().sum().sort_values()

Unnamed: 0,0
CustomerID,0
FirstName,0
LastName,0
CityID,0
Address,0
MiddleInitial,977


In [56]:
# Eliminación de columna con dato innecesario y cambio de nombres
clientes = clientes.drop('MiddleInitial', axis=1)
clientes.columns = ['cliente_id', 'nombre', 'apellido', 'ciudad_id', 'domicilio']
clientes

Unnamed: 0,cliente_id,nombre,apellido,ciudad_id,domicilio
0,1,Stefanie,Frye,79,97 Oak Avenue
1,2,Sandy,Kirby,96,52 White First Freeway
2,3,Lee,Zhang,55,921 White Fabien Avenue
3,4,Regina,Avery,40,75 Old Avenue
4,5,Daniel,Mccann,2,283 South Green Hague Avenue
...,...,...,...,...,...
98754,98755,Yvette,Campos,27,945 Oak Parkway
98755,98756,Angelo,Mc Millan,82,99 Fabien Street
98756,98757,Shari,Prince,81,791 Milton Drive
98757,98758,Stuart,Cameron,57,149 Clarendon Road


In [57]:
# Carga de datos
empleados  = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Porfolio Data Science JMRESQUIN/01/employees.csv')
empleados = pd.DataFrame(empleados)
empleados

Unnamed: 0,EmployeeID,FirstName,MiddleInitial,LastName,BirthDate,Gender,CityID,HireDate
0,1,Nicole,T,Fuller,1981-03-07 00:00:00.000,F,80,2011-06-20 07:15:36.920
1,2,Christine,W,Palmer,1968-01-25 00:00:00.000,F,4,2011-04-27 04:07:56.930
2,3,Pablo,Y,Cline,1963-02-09 00:00:00.000,M,70,2012-03-30 18:55:23.270
3,4,Darnell,O,Nielsen,1989-02-06 00:00:00.000,M,39,2014-03-06 06:55:02.780
4,5,Desiree,L,Stuart,1963-05-03 00:00:00.000,F,23,2014-11-16 22:59:54.720
5,6,Holly,E,Collins,1987-01-13 00:00:00.000,M,65,2013-06-22 13:20:18.080
6,7,Chadwick,P,Cook,1970-05-02 00:00:00.000,M,39,2016-07-10 06:22:00.670
7,8,Julie,E,Dyer,1956-12-13 00:00:00.000,M,18,2014-10-14 23:12:53.420
8,9,Daphne,X,King,1956-05-02 00:00:00.000,F,39,2013-04-17 14:48:02.700
9,10,Jean,P,Vang,1963-12-30 00:00:00.000,M,9,2012-07-23 15:02:12.640


In [58]:
# Control de datos nulos
empleados.isna().sum().sort_values()

Unnamed: 0,0
EmployeeID,0
FirstName,0
MiddleInitial,0
LastName,0
BirthDate,0
Gender,0
CityID,0
HireDate,0


In [59]:
# Tipos de datos
empleados.dtypes

Unnamed: 0,0
EmployeeID,int64
FirstName,object
MiddleInitial,object
LastName,object
BirthDate,object
Gender,object
CityID,int64
HireDate,object


In [60]:
# Eliminación de columna con dato innecesario y cambio de nombres
empleados2 = empleados.drop('MiddleInitial', axis=1)
empleados2.columns = ['empleado_id', 'nombre', 'apellido', 'fecha_nacimiento', 'genero', 'ciudad_id', 'fecha_ingreso']
empleados2

Unnamed: 0,empleado_id,nombre,apellido,fecha_nacimiento,genero,ciudad_id,fecha_ingreso
0,1,Nicole,Fuller,1981-03-07 00:00:00.000,F,80,2011-06-20 07:15:36.920
1,2,Christine,Palmer,1968-01-25 00:00:00.000,F,4,2011-04-27 04:07:56.930
2,3,Pablo,Cline,1963-02-09 00:00:00.000,M,70,2012-03-30 18:55:23.270
3,4,Darnell,Nielsen,1989-02-06 00:00:00.000,M,39,2014-03-06 06:55:02.780
4,5,Desiree,Stuart,1963-05-03 00:00:00.000,F,23,2014-11-16 22:59:54.720
5,6,Holly,Collins,1987-01-13 00:00:00.000,M,65,2013-06-22 13:20:18.080
6,7,Chadwick,Cook,1970-05-02 00:00:00.000,M,39,2016-07-10 06:22:00.670
7,8,Julie,Dyer,1956-12-13 00:00:00.000,M,18,2014-10-14 23:12:53.420
8,9,Daphne,King,1956-05-02 00:00:00.000,F,39,2013-04-17 14:48:02.700
9,10,Jean,Vang,1963-12-30 00:00:00.000,M,9,2012-07-23 15:02:12.640


In [61]:
# Cambio de tipo de datos, se cambio las fecha_ingreso de tipo objet a tipo datetime64
empleados2 = empleados.drop('MiddleInitial', axis=1)
empleados2.columns = ['empleado_id', 'nombre', 'apellido', 'fecha_nacimiento', 'genero', 'ciudad_id', 'fecha_ingreso']

empleados2['fecha_nacimiento'] = pd.to_datetime(
    empleados2['fecha_nacimiento'],
    format='%Y-%m-%d %H:%M:%S.%f',
    errors='coerce'
)

empleados2['fecha_ingreso'] = pd.to_datetime(
    empleados2['fecha_ingreso'],
    format='%Y-%m-%d %H:%M:%S.%f',
    errors='coerce'
)
print(empleados2.dtypes)
empleados2

empleado_id                  int64
nombre                      object
apellido                    object
fecha_nacimiento    datetime64[ns]
genero                      object
ciudad_id                    int64
fecha_ingreso       datetime64[ns]
dtype: object


Unnamed: 0,empleado_id,nombre,apellido,fecha_nacimiento,genero,ciudad_id,fecha_ingreso
0,1,Nicole,Fuller,1981-03-07,F,80,2011-06-20 07:15:36.920
1,2,Christine,Palmer,1968-01-25,F,4,2011-04-27 04:07:56.930
2,3,Pablo,Cline,1963-02-09,M,70,2012-03-30 18:55:23.270
3,4,Darnell,Nielsen,1989-02-06,M,39,2014-03-06 06:55:02.780
4,5,Desiree,Stuart,1963-05-03,F,23,2014-11-16 22:59:54.720
5,6,Holly,Collins,1987-01-13,M,65,2013-06-22 13:20:18.080
6,7,Chadwick,Cook,1970-05-02,M,39,2016-07-10 06:22:00.670
7,8,Julie,Dyer,1956-12-13,M,18,2014-10-14 23:12:53.420
8,9,Daphne,King,1956-05-02,F,39,2013-04-17 14:48:02.700
9,10,Jean,Vang,1963-12-30,M,9,2012-07-23 15:02:12.640


In [62]:
# Carga de datos
productos  = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Porfolio Data Science JMRESQUIN/01/products.csv')
productos = pd.DataFrame(productos)
productos

Unnamed: 0,ProductID,ProductName,Price,CategoryID,Class,ModifyDate,Resistant,IsAllergic,VitalityDays
0,1,Flour - Whole Wheat,74.2988,3,Medium,2018-02-16 08:21:49.190,Durable,Unknown,0.0
1,2,Cookie Chocolate Chip With,91.2329,3,Medium,2017-02-12 11:39:10.970,Unknown,Unknown,0.0
2,3,Onions - Cippolini,9.1379,9,Medium,2018-03-15 08:11:51.560,Weak,False,111.0
3,4,"Sauce - Gravy, Au Jus, Mix",54.3055,9,Medium,2017-07-16 00:46:28.880,Durable,Unknown,0.0
4,5,Artichokes - Jerusalem,65.4771,2,Low,2017-08-16 14:13:35.430,Durable,True,27.0
...,...,...,...,...,...,...,...,...,...
447,448,Gatorade - Xfactor Berry,76.8988,5,Low,2017-04-22 01:33:00.490,Unknown,False,0.0
448,449,Nantuket Peach Orange,42.1414,4,Low,2017-01-31 09:11:45.450,Unknown,False,0.0
449,450,Wine - Vidal Icewine Magnotta,7.1070,3,Low,2017-12-01 01:00:00.650,Unknown,Unknown,0.0
450,451,Soup - Campbells Tomato Ravioli,93.5384,1,Low,2017-09-16 12:51:38.780,Durable,False,0.0


In [63]:
# Control de datos nulos
productos.isna().sum().sort_values()

Unnamed: 0,0
ProductID,0
ProductName,0
Price,0
CategoryID,0
Class,0
ModifyDate,0
Resistant,0
IsAllergic,0
VitalityDays,0


In [64]:
# Control de tipo de datos
productos.dtypes

Unnamed: 0,0
ProductID,int64
ProductName,object
Price,float64
CategoryID,int64
Class,object
ModifyDate,object
Resistant,object
IsAllergic,object
VitalityDays,float64


In [65]:
# Eliminacion de una columna innecesaria y cambio de nombres
productos2 = productos.drop('IsAllergic', axis=1)
productos2.columns = ['producto_id', 'nombre', 'precio_unitario', 'categoria_id', 'clase', 'fecha_ingreso', 'resistencia', 'vencimiento_dias']

productos2['fecha_ingreso'] = pd.to_datetime(
    productos2['fecha_ingreso'],
    format='%Y-%m-%d %H:%M:%S.%f',
    errors='coerce'
)

print(productos2.dtypes)
productos2

producto_id                  int64
nombre                      object
precio_unitario            float64
categoria_id                 int64
clase                       object
fecha_ingreso       datetime64[ns]
resistencia                 object
vencimiento_dias           float64
dtype: object


Unnamed: 0,producto_id,nombre,precio_unitario,categoria_id,clase,fecha_ingreso,resistencia,vencimiento_dias
0,1,Flour - Whole Wheat,74.2988,3,Medium,2018-02-16 08:21:49.190,Durable,0.0
1,2,Cookie Chocolate Chip With,91.2329,3,Medium,2017-02-12 11:39:10.970,Unknown,0.0
2,3,Onions - Cippolini,9.1379,9,Medium,2018-03-15 08:11:51.560,Weak,111.0
3,4,"Sauce - Gravy, Au Jus, Mix",54.3055,9,Medium,2017-07-16 00:46:28.880,Durable,0.0
4,5,Artichokes - Jerusalem,65.4771,2,Low,2017-08-16 14:13:35.430,Durable,27.0
...,...,...,...,...,...,...,...,...
447,448,Gatorade - Xfactor Berry,76.8988,5,Low,2017-04-22 01:33:00.490,Unknown,0.0
448,449,Nantuket Peach Orange,42.1414,4,Low,2017-01-31 09:11:45.450,Unknown,0.0
449,450,Wine - Vidal Icewine Magnotta,7.1070,3,Low,2017-12-01 01:00:00.650,Unknown,0.0
450,451,Soup - Campbells Tomato Ravioli,93.5384,1,Low,2017-09-16 12:51:38.780,Durable,0.0


In [66]:
# Carga de datos
facturas  = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Porfolio Data Science JMRESQUIN/01/sales.csv')
facturas = pd.DataFrame(facturas)
facturas

Unnamed: 0,SalesID,SalesPersonID,CustomerID,ProductID,Quantity,Discount,TotalPrice,SalesDate,TransactionNumber
0,1,6,27039,381,7,0.0,0.0,2018-02-05 07:38:25.430,FQL4S94E4ME1EZFTG42G
1,2,16,25011,61,7,0.0,0.0,2018-02-02 16:03:31.150,12UGLX40DJ1A5DTFBHB8
2,3,13,94024,23,24,0.0,0.0,2018-05-03 19:31:56.880,5DT8RCPL87KI5EORO7B0
3,4,8,73966,176,19,0.2,0.0,2018-04-07 14:43:55.420,R3DR9MLD5NR76VO17ULE
4,5,10,32653,310,9,0.0,0.0,2018-02-12 15:37:03.940,4BGS0Z5OMAZ8NDAFHHP3
...,...,...,...,...,...,...,...,...,...
6758120,6758121,10,50938,300,13,0.0,0.0,2018-04-20 22:39:03.150,AHVBHVO7632V5YYD2VJT
6758121,6758122,18,85668,452,22,0.1,0.0,2018-01-13 15:08:18.700,M4IA0FS13J9F0GJD4BX8
6758122,6758123,21,68409,405,18,0.0,0.0,2018-01-18 12:05:16.950,7VZJ77UGBSX2SNCC1GFW
6758123,6758124,17,90315,104,23,0.0,0.0,2018-02-26 08:13:37.850,3JTF5IF0YJLLXF9IRS8X


In [67]:
# Control de datos nulos
facturas.isna().sum().sort_values()

Unnamed: 0,0
SalesID,0
SalesPersonID,0
CustomerID,0
ProductID,0
Quantity,0
Discount,0
TotalPrice,0
TransactionNumber,0
SalesDate,67526


In [68]:
# Control de tipo de datos
facturas.dtypes

Unnamed: 0,0
SalesID,int64
SalesPersonID,int64
CustomerID,int64
ProductID,int64
Quantity,int64
Discount,float64
TotalPrice,float64
SalesDate,object
TransactionNumber,object


In [69]:
# Eliminación de columna innecesaria y cambio de nombres
facturas2= facturas
facturas2 = facturas2.drop('TransactionNumber', axis=1)
facturas2.columns = ['factura_id', 'empleado_id', 'cliente_id', 'producto_id', 'cantidad', 'descuento', 'precio_total', 'fecha_venta']

facturas2['fecha_venta'] = pd.to_datetime(
    facturas2['fecha_venta'],
    format='%Y-%m-%d %H:%M:%S.%f',
    errors='coerce'
)
print(facturas2.dtypes)
facturas2

factura_id               int64
empleado_id              int64
cliente_id               int64
producto_id              int64
cantidad                 int64
descuento              float64
precio_total           float64
fecha_venta     datetime64[ns]
dtype: object


Unnamed: 0,factura_id,empleado_id,cliente_id,producto_id,cantidad,descuento,precio_total,fecha_venta
0,1,6,27039,381,7,0.0,0.0,2018-02-05 07:38:25.430
1,2,16,25011,61,7,0.0,0.0,2018-02-02 16:03:31.150
2,3,13,94024,23,24,0.0,0.0,2018-05-03 19:31:56.880
3,4,8,73966,176,19,0.2,0.0,2018-04-07 14:43:55.420
4,5,10,32653,310,9,0.0,0.0,2018-02-12 15:37:03.940
...,...,...,...,...,...,...,...,...
6758120,6758121,10,50938,300,13,0.0,0.0,2018-04-20 22:39:03.150
6758121,6758122,18,85668,452,22,0.1,0.0,2018-01-13 15:08:18.700
6758122,6758123,21,68409,405,18,0.0,0.0,2018-01-18 12:05:16.950
6758123,6758124,17,90315,104,23,0.0,0.0,2018-02-26 08:13:37.850


In [70]:
# Imputar valores faltantes en la columna de fecha_venta

# Ordenar por número de facturas
facturas3 = facturas2.sort_values("factura_id")

# Imputar fechas faltantes con la fecha de la factura anterior
facturas3 = facturas3.sort_values("factura_id")

# Imputar fechas faltantes con la fecha de la factura anterior
facturas3["fecha_venta"] = facturas3["fecha_venta"].fillna(method="ffill")
facturas3

  facturas3["fecha_venta"] = facturas3["fecha_venta"].fillna(method="ffill")


Unnamed: 0,factura_id,empleado_id,cliente_id,producto_id,cantidad,descuento,precio_total,fecha_venta
0,1,6,27039,381,7,0.0,0.0,2018-02-05 07:38:25.430
1,2,16,25011,61,7,0.0,0.0,2018-02-02 16:03:31.150
2,3,13,94024,23,24,0.0,0.0,2018-05-03 19:31:56.880
3,4,8,73966,176,19,0.2,0.0,2018-04-07 14:43:55.420
4,5,10,32653,310,9,0.0,0.0,2018-02-12 15:37:03.940
...,...,...,...,...,...,...,...,...
6758120,6758121,10,50938,300,13,0.0,0.0,2018-04-20 22:39:03.150
6758121,6758122,18,85668,452,22,0.1,0.0,2018-01-13 15:08:18.700
6758122,6758123,21,68409,405,18,0.0,0.0,2018-01-18 12:05:16.950
6758123,6758124,17,90315,104,23,0.0,0.0,2018-02-26 08:13:37.850


In [71]:
# Control de datos nulos
facturas3.isna().sum().sort_values()

Unnamed: 0,0
factura_id,0
empleado_id,0
cliente_id,0
producto_id,0
cantidad,0
descuento,0
precio_total,0
fecha_venta,0


In [72]:
# Join entre facturas y productos
# Fusionar facturas3 con productos2 para obtener el precio unitario ('precio_unitario') para luego aplicarle también los descuentos
facturas4 = facturas3

facturas4 = facturas4.merge(
    productos2[['producto_id', 'precio_unitario']],
    on='producto_id',
    how='left'
)

# Asegurar que los descuentos nulos sean 0%
facturas4['descuento'] = facturas4['descuento'].fillna(0)

# Calcular precio total aplicando descuento
facturas4['precio_total'] = (
    facturas4['cantidad']
    * facturas4['precio_unitario']
    * (1 - facturas4['descuento'])
)

# Validaciones básicas
print(facturas4.isnull().sum())
facturas4

factura_id         0
empleado_id        0
cliente_id         0
producto_id        0
cantidad           0
descuento          0
precio_total       0
fecha_venta        0
precio_unitario    0
dtype: int64


Unnamed: 0,factura_id,empleado_id,cliente_id,producto_id,cantidad,descuento,precio_total,fecha_venta,precio_unitario
0,1,6,27039,381,7,0.0,309.63590,2018-02-05 07:38:25.430,44.2337
1,2,16,25011,61,7,0.0,437.82200,2018-02-02 16:03:31.150,62.5460
2,3,13,94024,23,24,0.0,1896.44160,2018-05-03 19:31:56.880,79.0184
3,4,8,73966,176,19,0.2,1236.01384,2018-04-07 14:43:55.420,81.3167
4,5,10,32653,310,9,0.0,719.80200,2018-02-12 15:37:03.940,79.9780
...,...,...,...,...,...,...,...,...,...
6758120,6758121,10,50938,300,13,0.0,904.40220,2018-04-20 22:39:03.150,69.5694
6758121,6758122,18,85668,452,22,0.1,565.59294,2018-01-13 15:08:18.700,28.5653
6758122,6758123,21,68409,405,18,0.0,7.70040,2018-01-18 12:05:16.950,0.4278
6758123,6758124,17,90315,104,23,0.0,2259.68330,2018-02-26 08:13:37.850,98.2471


In [73]:
# Exportar las tablas
ruta_base = "/content/drive/MyDrive/Colab Notebooks/Porfolio Data Science JMRESQUIN/01/PowerBi/"

categorias.to_csv(ruta_base + "categorias.csv", index=False)
ciudades.to_csv(ruta_base + "ciudades.csv", index=False)
paises.to_csv(ruta_base + "paises.csv", index=False)
empleados2.to_csv(ruta_base + "empleados.csv", index=False)
productos2.to_csv(ruta_base + "productos.csv", index=False)
facturas4.to_csv(ruta_base + "facturas.csv", index=False)
clientes.to_csv(ruta_base + "clientes.csv", index=False)