#I. PROCESO ETL CON PYTHON

##1.1 Conexión a bases de datos transaccionales

### a. Conexión a MySQL

Para conectarnos a `MySQL`, necesitaremos 2 librerías de Python
1. `sqlalchemy` : para instalar ejecutamos `pip install sqlalchemy`
2. `mysql-python-conector`: para instalar ejecutamos `pip installmysql-connector-python`

importamos las librerías

In [9]:
import sqlalchemy as db

crearemos la clase `ConnectionMySQL` de conexión a MySQL

In [10]:
# este es el fichero para conectarnos a MySQL
class ConexionMySQL():
    def __init__(self, bd_servidor,bd_nombre,bd_usuario,bd_contrasenia):
        self.bd_servidor=bd_servidor
        self.bd_nombre=bd_nombre
        self.bd_usuario=bd_usuario
        self.bd_contrasenia=bd_contrasenia

    ## Función de conexión a MySQL
    def conectarMySQL(self):
        engine = db.create_engine(f"mysql+mysqlconnector://{self.bd_usuario}:{self.bd_contrasenia}@{self.bd_servidor}:3306/{self.bd_nombre}")
                                    # mysql+mysqlconnector://root:12345@localhost:3306/academico_datapath
        conn=engine.connect()
        return conn

#### Conexión `academico_datapath`

Crearemos el objeto para conectarnos a la base de datos `academico_datapath`, proporcionando nuestras credenciales.

In [11]:
## creando el objeto de la clase ConnetionMysql
obj_academico= ConexionMySQL(
                            "localhost",            ## Servidor
                            "academico_datapath",   ## base de datos
                            "root",                 ## usuario
                            "12345"                 ## contraseña
                            )

## llamar a la funcion de conexión a la base de datos
conn_academico=obj_academico.conectarMySQL()

Utilizaremos pandas para extraer los datos de `academico_datapath`. Antes de ello, debemos instalar pandas utilizando el siguiente comando `pip install pandas`

In [12]:
import pandas as pd

Extraemos datos del **cliente (estudiante)**

In [55]:
cliente=pd.read_sql('SELECT * FROM estudiante', con=conn_academico)
cliente_data=cliente[["dni_estudiante","nombre","domicilio"]]
cliente_data

Unnamed: 0,dni_estudiante,nombre,domicilio
0,23423442,Kenyo Harold Cano Campos,Jr 28 De Julio 537 A Cercado - Surco
1,23423525,Jeisser Augusto Asto Sifuentes,Av Puente piedra 543 - Lima
2,34534573,Christian Caballero Mueras,Av Independencia Cda 06 Ex Casa Campesin - La ...
3,34534576,Elayne Palacios Vargas,av Perú 114 - Los olivos
4,34534634,Esteban Vargas,Jr. Ucayali N° 388 - SJL
5,34634636,Randy Leonel Barberena Morera,Av. tarapacá 456 - Surco
6,34636567,Lorenzo Eduardo Reyes Flores,Av. tarapacá 456 - Surco
7,45645647,Fabian Calderon,Jr. Camaná 616 - Surco
8,45646647,Gianella Matamoros Jara,jr España 113 - Ayacucho
9,45647836,Gerardo Gabriel Silva,Jr.Callao 122 1er.Piso Cercado - Ayacucho


Extraemos datos de **programa**

In [56]:
programa_data=pd.read_sql('select codigo_programa,descripcion,inversion from programa', con=conn_academico)
programa_data

Unnamed: 0,codigo_programa,descripcion,inversion
0,1,Data Analyst Program I Edición,600.0
1,2,Data Analyst Program II Edición,700.0
2,3,Data Analyst Program III Edición,550.0
3,4,Data Engineer Program I Edición,800.0
4,5,Data Engineer Program II Edición,450.0
5,6,Data Scientist Program I Edición,850.0
6,7,Data Scientist Program II Edición,650.0


Extraemos datos de **matricula**

In [57]:
matricula_data=pd.read_sql('select codigo_programa,dni_estudiante,fecha_matricula from programa_estudiante', con=conn_academico)


#### Conexión a `dbventas_datapath`

Crearemos el objeto para conectarnos a la base de datos `db_ventas_datapath`, proporcionando nuestras credenciales.

In [58]:
## creando el objeto de la clase ConnetionMysql
obj_ventas = ConexionMySQL(
                        "localhost",
                        "dbventas_datapath",
                        "root",
                        "12345"
                    )
conn_ventas=obj_ventas.conectarMySQL()

Extramos datos de la tabla **vendedor**

In [59]:
vendedor_data=pd.read_sql('select * from vendedor', con=conn_ventas)
vendedor_data

Unnamed: 0,idvendedor,nombre,sexo,dirección
0,1,Fredy Saavedra,M,AV la merced - Colombia
1,2,Maria Cisneros,F,jr manco capac 118 SJM
2,3,Deisser Martinez,M,pasaje la cultura 234 Arequipa Perú


Extraemos datos de la tabla **ventas**

In [60]:
ventas_data=pd.read_sql('SELECT idEstudiante,idPrograma,idVendedor,montofinalventa FROM ventas_programa', con=conn_ventas)
ventas_data

Unnamed: 0,idEstudiante,idPrograma,idVendedor,montofinalventa
0,23423442,1,1,450.0
1,23423525,2,2,350.0
2,34534573,3,3,550.0
3,34534576,4,3,599.0
4,34534634,5,2,300.0
5,34634636,6,1,800.0
6,34636567,7,1,500.0
7,45645647,6,3,700.0
8,45646647,5,2,300.0
9,45647836,3,1,450.0


### b. Conexión a un archivo CSV

In [93]:
df_mkt=pd.read_csv("data/social_media_income.csv") # ruta de tu csv.
df_mkt.head()

Unnamed: 0,idCampaña,nombrePrograma,dniEstudiante,plataforma,communityManager,costoUSD
0,001DAP1,Data Analyst Program I Edición,23423442,Facebook,Flavia Avanto,0.972
1,002DAP2,Data Analyst Program II Edición,23423525,Tiktok,Naomi Colan,2.34
2,003DAP3,Data Analyst Program III Edición,34534573,Instagram,Flavia Avanto,1.542
3,001DEP1,Data Engineer Program I Edición,34534576,Instagram,Flavia Avanto,1.6234
4,001DEP2,Data Engineer Program II Edición,34534634,Tiktok,Flavia Avanto,2.5246


### c. Conexión a una página web

Para conectarnos a una página web, debemos realizar el proceso de **webscrapping**. Para ello, necesitaremos instalar 2 librerías:


1.   beautifulsoup4: `pip install beautifulsoup4`
2.   Requests: `pip install requests`
3.   lxml : `pip install lxml`



In [20]:
from bs4 import BeautifulSoup
import requests

In [21]:
## obtenemos el contenido estructural(en texto plano) de la página cambista
page = requests.get('https://www.infodolar.com.pe/')

## hacemos que ese contenido tenga formato HTML con BeautifulSoup
soup = BeautifulSoup(page.content, "html.parser")


In [41]:
table=soup.find('table', id='DolarPromedio')

In [43]:
table

<table class="cotizaciones" id="DolarPromedio">
<thead>
<tr>
<th class="dolar"></th>
<th class="dolar">Compra</th>
<th class="dolar">Venta</th>
<th class="dolar">Variación</th>
<th class="dolar">Spread</th>
<th class="dolar"><i class="far fa-clock"></i></th>
</tr>
</thead>
<tr>
<td class="colNombre">
<span class="nombre">Promedio InfoDolar</span>
</td>
<td class="colCompraVenta" data-order="3.8447291666666666666666666667">
                                S/3.845
                                <span class="variacionCompraVenta"><span class="alza"><i class="fa fa-arrow-up"></i> S/0.006</span></span>
</td>
<td class="colCompraVenta" data-order="3.8656041666666666666666666667">
                                S/3.866
                                <span class="variacionCompraVenta"><span class="alza"><i class="fa fa-arrow-up"></i> S/0.001</span></span>
</td>
<td class="colVariacion">
<span class="variacion"><span class="alza"><i class="fa fa-arrow-up"></i> 0.03 %</span></span>
</td>
<td 

In [46]:
dolar_table = pd.read_html(str(table))[0]
dolar_table

Unnamed: 0.1,Unnamed: 0,Compra,Venta,Variación,Spread,Unnamed: 5
0,Promedio InfoDolar,S/3.845 S/0.006,S/3.866 S/0.001,0.03 %,S/0.021,"lunes, 16 de octubre de 2023 10:41 Perú"
1,Tipo de cambio SUNAT,S/3.842 S/0.006,S/3.850 S/0.009,0.23 %,S/0.008,"sábado, 14 de octubre de 2023 09:10 Perú"


In [47]:
precio_doral_sunat=list(dolar_table["Compra"])[0]
precio_doral_sunat

'S/3.845  S/0.006'

In [48]:
precio_dolar=float(precio_doral_sunat.split(" ")[0].replace("S/",""))

In [49]:
precio_dolar

3.845

##1.2 Proceso de Transformación de datos

### a. Unificamos las tablas de `dbventas_datapath`

In [62]:
ventas_data_unificado=pd.merge(vendedor_data,ventas_data,
                     left_on="idvendedor",
                     right_on="idVendedor",
                     how="left") # right, inner, full


In [63]:
ventas_data_unificado

Unnamed: 0,idvendedor,nombre,sexo,dirección,idEstudiante,idPrograma,idVendedor,montofinalventa
0,1,Fredy Saavedra,M,AV la merced - Colombia,23423442,1,1,450.0
1,1,Fredy Saavedra,M,AV la merced - Colombia,34634636,6,1,800.0
2,1,Fredy Saavedra,M,AV la merced - Colombia,34636567,7,1,500.0
3,1,Fredy Saavedra,M,AV la merced - Colombia,45647836,3,1,450.0
4,1,Fredy Saavedra,M,AV la merced - Colombia,65756756,5,1,300.0
5,2,Maria Cisneros,F,jr manco capac 118 SJM,23423525,2,2,350.0
6,2,Maria Cisneros,F,jr manco capac 118 SJM,34534634,5,2,300.0
7,2,Maria Cisneros,F,jr manco capac 118 SJM,45646647,5,2,300.0
8,2,Maria Cisneros,F,jr manco capac 118 SJM,76565434,1,2,430.0
9,3,Deisser Martinez,M,pasaje la cultura 234 Arequipa Perú,34534573,3,3,550.0


In [65]:
ventas_data_unificado=ventas_data_unificado[["idVendedor","nombre","idEstudiante","idPrograma","montofinalventa"]]
ventas_data_unificado

Unnamed: 0,idVendedor,nombre,idEstudiante,idPrograma,montofinalventa
0,1,Fredy Saavedra,23423442,1,450.0
1,1,Fredy Saavedra,34634636,6,800.0
2,1,Fredy Saavedra,34636567,7,500.0
3,1,Fredy Saavedra,45647836,3,450.0
4,1,Fredy Saavedra,65756756,5,300.0
5,2,Maria Cisneros,23423525,2,350.0
6,2,Maria Cisneros,34534634,5,300.0
7,2,Maria Cisneros,45646647,5,300.0
8,2,Maria Cisneros,76565434,1,430.0
9,3,Deisser Martinez,34534573,3,550.0


Cambiamos de nombre ala columna `nombre` por `nombreVendedor`

In [66]:
ventas_data_unificado=ventas_data_unificado.rename(columns={"nombre":"nombreVendedor"})
ventas_data_unificado

Unnamed: 0,idVendedor,nombreVendedor,idEstudiante,idPrograma,montofinalventa
0,1,Fredy Saavedra,23423442,1,450.0
1,1,Fredy Saavedra,34634636,6,800.0
2,1,Fredy Saavedra,34636567,7,500.0
3,1,Fredy Saavedra,45647836,3,450.0
4,1,Fredy Saavedra,65756756,5,300.0
5,2,Maria Cisneros,23423525,2,350.0
6,2,Maria Cisneros,34534634,5,300.0
7,2,Maria Cisneros,45646647,5,300.0
8,2,Maria Cisneros,76565434,1,430.0
9,3,Deisser Martinez,34534573,3,550.0


### b. Unificamos las tablas de `academico_datapath`

Unificamos `matricula` con `programa`, utilizando la columna `codigo_programa`

In [67]:
matricula_data.head(5)

Unnamed: 0,codigo_programa,dni_estudiante,fecha_matricula
0,1,23423442,2023-01-01
1,2,23423525,2023-01-04
2,3,34534573,2023-01-10
3,4,34534576,2023-01-11
4,5,34534634,2023-01-20


In [68]:
programa_data.head(5)

Unnamed: 0,codigo_programa,descripcion,inversion
0,1,Data Analyst Program I Edición,600.0
1,2,Data Analyst Program II Edición,700.0
2,3,Data Analyst Program III Edición,550.0
3,4,Data Engineer Program I Edición,800.0
4,5,Data Engineer Program II Edición,450.0


In [69]:
df_matricula_cliente=pd.merge(matricula_data,programa_data,
                            left_on="codigo_programa",
                            right_on="codigo_programa",
                            how="inner"
                            )

seleccionamos y cambiamos nombres de las columnas

In [70]:
df_matricula_cliente.rename(columns={"descripcion":"programa"}, inplace=True)

df_matricula_cliente=df_matricula_cliente[["dni_estudiante","programa","fecha_matricula","inversion"]]

In [72]:
df_matricula_cliente

Unnamed: 0,dni_estudiante,programa,fecha_matricula,inversion
0,23423442,Data Analyst Program I Edición,2023-01-01,600.0
1,23423525,Data Analyst Program II Edición,2023-01-04,700.0
2,34534573,Data Analyst Program III Edición,2023-01-10,550.0
3,34534576,Data Engineer Program I Edición,2023-01-11,800.0
4,34534634,Data Engineer Program II Edición,2023-01-20,450.0
5,45646647,Data Engineer Program II Edición,2023-03-25,450.0
6,34634636,Data Scientist Program I Edición,2023-03-02,850.0
7,45645647,Data Scientist Program I Edición,2023-03-12,850.0
8,34636567,Data Scientist Program II Edición,2023-03-02,650.0
9,65756756,Data Scientist Program II Edición,2023-02-23,650.0


Ahora uniremos la tabla `df_matricula_cliente` con cliente, utilizando el DNI del cliente

In [74]:
df_cliente_unificado=pd.merge(df_matricula_cliente,cliente_data,
                            left_on="dni_estudiante",
                            right_on="dni_estudiante",
                            how="inner"
                            )

Cambiamos de nombre a las columnas y seleccionamos los datos que nos interesan

In [75]:
df_cliente_unificado.rename(columns={"dni_estudiante":"dniCliente","nombre":"nombreCliente","domicilio":"domicilioCliente"}, inplace=True)

df_cliente_unificado[["dniCliente","nombreCliente","domicilioCliente","programa","inversion","fecha_matricula"]]

Unnamed: 0,dniCliente,nombreCliente,domicilioCliente,programa,inversion,fecha_matricula
0,23423442,Kenyo Harold Cano Campos,Jr 28 De Julio 537 A Cercado - Surco,Data Analyst Program I Edición,600.0,2023-01-01
1,23423525,Jeisser Augusto Asto Sifuentes,Av Puente piedra 543 - Lima,Data Analyst Program II Edición,700.0,2023-01-04
2,34534573,Christian Caballero Mueras,Av Independencia Cda 06 Ex Casa Campesin - La ...,Data Analyst Program III Edición,550.0,2023-01-10
3,34534576,Elayne Palacios Vargas,av Perú 114 - Los olivos,Data Engineer Program I Edición,800.0,2023-01-11
4,34534634,Esteban Vargas,Jr. Ucayali N° 388 - SJL,Data Engineer Program II Edición,450.0,2023-01-20
5,45646647,Gianella Matamoros Jara,jr España 113 - Ayacucho,Data Engineer Program II Edición,450.0,2023-03-25
6,34634636,Randy Leonel Barberena Morera,Av. tarapacá 456 - Surco,Data Scientist Program I Edición,850.0,2023-03-02
7,45645647,Fabian Calderon,Jr. Camaná 616 - Surco,Data Scientist Program I Edición,850.0,2023-03-12
8,34636567,Lorenzo Eduardo Reyes Flores,Av. tarapacá 456 - Surco,Data Scientist Program II Edición,650.0,2023-03-02
9,65756756,Yanina Montañez Monasterio,Jr 28 De Julio 148,Data Scientist Program II Edición,650.0,2023-02-23


### c. datos de cliente y ventas

In [76]:
df_cliente_ventas=pd.merge(df_cliente_unificado,ventas_data_unificado,
                            left_on="dniCliente",
                            right_on="idEstudiante",
                            how="inner"
                            )

In [79]:
df_cliente_ventas

Unnamed: 0,dniCliente,programa,fecha_matricula,inversion,nombreCliente,domicilioCliente,idVendedor,nombreVendedor,idEstudiante,idPrograma,montofinalventa
0,23423442,Data Analyst Program I Edición,2023-01-01,600.0,Kenyo Harold Cano Campos,Jr 28 De Julio 537 A Cercado - Surco,1,Fredy Saavedra,23423442,1,450.0
1,23423525,Data Analyst Program II Edición,2023-01-04,700.0,Jeisser Augusto Asto Sifuentes,Av Puente piedra 543 - Lima,2,Maria Cisneros,23423525,2,350.0
2,34534573,Data Analyst Program III Edición,2023-01-10,550.0,Christian Caballero Mueras,Av Independencia Cda 06 Ex Casa Campesin - La ...,3,Deisser Martinez,34534573,3,550.0
3,34534576,Data Engineer Program I Edición,2023-01-11,800.0,Elayne Palacios Vargas,av Perú 114 - Los olivos,3,Deisser Martinez,34534576,4,599.0
4,34534634,Data Engineer Program II Edición,2023-01-20,450.0,Esteban Vargas,Jr. Ucayali N° 388 - SJL,2,Maria Cisneros,34534634,5,300.0
5,45646647,Data Engineer Program II Edición,2023-03-25,450.0,Gianella Matamoros Jara,jr España 113 - Ayacucho,2,Maria Cisneros,45646647,5,300.0
6,34634636,Data Scientist Program I Edición,2023-03-02,850.0,Randy Leonel Barberena Morera,Av. tarapacá 456 - Surco,1,Fredy Saavedra,34634636,6,800.0
7,45645647,Data Scientist Program I Edición,2023-03-12,850.0,Fabian Calderon,Jr. Camaná 616 - Surco,3,Deisser Martinez,45645647,6,700.0
8,34636567,Data Scientist Program II Edición,2023-03-02,650.0,Lorenzo Eduardo Reyes Flores,Av. tarapacá 456 - Surco,1,Fredy Saavedra,34636567,7,500.0
9,65756756,Data Scientist Program II Edición,2023-02-23,650.0,Yanina Montañez Monasterio,Jr 28 De Julio 148,1,Fredy Saavedra,65756756,5,300.0


seleccionaos las columnas que nos interesan

In [80]:
df_cliente_ventas=df_cliente_ventas[["dniCliente",
                                          "fecha_matricula",
                                         "nombreCliente",
                                         "programa",
                                         "nombreVendedor",
                                         "inversion",
                                         "montofinalventa"]]


In [81]:
df_cliente_ventas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   dniCliente       10 non-null     object 
 1   fecha_matricula  10 non-null     object 
 2   nombreCliente    10 non-null     object 
 3   programa         10 non-null     object 
 4   nombreVendedor   10 non-null     object 
 5   inversion        10 non-null     float64
 6   montofinalventa  10 non-null     float64
dtypes: float64(2), object(5)
memory usage: 688.0+ bytes


### d. Unimos con la tabla de marketing

In [85]:
df_mkt.head()

Unnamed: 0,idCampaña,nombrePrograma,dniEstudiante,plataforma,communityManager,costoUSD
0,001DAP1,Data Analyst Program I Edición,23423442,Facebook,Flavia Avanto,0.972
1,002DAP2,Data Analyst Program II Edición,23423525,Tiktok,Naomi Colan,2.34
2,003DAP3,Data Analyst Program III Edición,34534573,Instagram,Flavia Avanto,1.542
3,001DEP1,Data Engineer Program I Edición,34534576,Instagram,Flavia Avanto,1.6234
4,001DEP2,Data Engineer Program II Edición,34534634,Tiktok,Flavia Avanto,2.5246


In [94]:
## Tabla de Marketing
df_mkt["dniEstudiante"]=df_mkt["dniEstudiante"].astype(str)


In [95]:
df_ventas_mkdata=pd.merge(df_mkt,df_cliente_ventas,
                                       left_on="dniEstudiante",
                                       right_on="dniCliente",
                                       how="left")


In [96]:
df_ventas_mkdata

Unnamed: 0,idCampaña,nombrePrograma,dniEstudiante,plataforma,communityManager,costoUSD,dniCliente,fecha_matricula,nombreCliente,programa,nombreVendedor,inversion,montofinalventa
0,001DAP1,Data Analyst Program I Edición,23423442,Facebook,Flavia Avanto,0.972,23423442,2023-01-01,Kenyo Harold Cano Campos,Data Analyst Program I Edición,Fredy Saavedra,600.0,450.0
1,002DAP2,Data Analyst Program II Edición,23423525,Tiktok,Naomi Colan,2.34,23423525,2023-01-04,Jeisser Augusto Asto Sifuentes,Data Analyst Program II Edición,Maria Cisneros,700.0,350.0
2,003DAP3,Data Analyst Program III Edición,34534573,Instagram,Flavia Avanto,1.542,34534573,2023-01-10,Christian Caballero Mueras,Data Analyst Program III Edición,Deisser Martinez,550.0,550.0
3,001DEP1,Data Engineer Program I Edición,34534576,Instagram,Flavia Avanto,1.6234,34534576,2023-01-11,Elayne Palacios Vargas,Data Engineer Program I Edición,Deisser Martinez,800.0,599.0
4,001DEP2,Data Engineer Program II Edición,34534634,Tiktok,Flavia Avanto,2.5246,34534634,2023-01-20,Esteban Vargas,Data Engineer Program II Edición,Maria Cisneros,450.0,300.0
5,001DEP3,Data Engineer Program II Edición,45646647,Youtube,Flavia Avanto,3.235,45646647,2023-03-25,Gianella Matamoros Jara,Data Engineer Program II Edición,Maria Cisneros,450.0,300.0
6,001DS1,Data Scientist Program I Edición,34634636,Facebook,Naomi Colan,3.234526,34634636,2023-03-02,Randy Leonel Barberena Morera,Data Scientist Program I Edición,Fredy Saavedra,850.0,800.0
7,001DS1,Data Scientist Program I Edición,45645647,Facebook,Naomi Colan,3.624,45645647,2023-03-12,Fabian Calderon,Data Scientist Program I Edición,Deisser Martinez,850.0,700.0
8,001DS2,Data Scientist Program II Edición,34636567,Linkedin,Naomi Colan,1.23456,34636567,2023-03-02,Lorenzo Eduardo Reyes Flores,Data Scientist Program II Edición,Fredy Saavedra,650.0,500.0
9,001DS2,Data Scientist Program II Edición,65756756,Linkedin,Flavia Avanto,2.2356,65756756,2023-02-23,Yanina Montañez Monasterio,Data Scientist Program II Edición,Fredy Saavedra,650.0,300.0


In [97]:
df_ventas_mkdata.columns

Index(['idCampaña', 'nombrePrograma', 'dniEstudiante', 'plataforma',
       'communityManager', 'costoUSD', 'dniCliente', 'fecha_matricula',
       'nombreCliente', 'programa', 'nombreVendedor', 'inversion',
       'montofinalventa'],
      dtype='object')

In [98]:
df_ventas_datapath=df_ventas_mkdata[["fecha_matricula",
                                        "nombreCliente",
                                        "programa",
                                        "nombreVendedor",
                                        "inversion",
                                        "montofinalventa",
                                        "plataforma",
                                        "communityManager",
                                        "costoUSD"]]

### e. Convertimos el costoUSD en costoSoles


In [99]:
df_ventas_datapath["costoSoles"]=df_ventas_datapath["costoUSD"]*precio_dolar


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ventas_datapath["costoSoles"]=df_ventas_datapath["costoUSD"]*precio_dolar


In [100]:
df_ventas_datapath

Unnamed: 0,fecha_matricula,nombreCliente,programa,nombreVendedor,inversion,montofinalventa,plataforma,communityManager,costoUSD,costoSoles
0,2023-01-01,Kenyo Harold Cano Campos,Data Analyst Program I Edición,Fredy Saavedra,600.0,450.0,Facebook,Flavia Avanto,0.972,3.73734
1,2023-01-04,Jeisser Augusto Asto Sifuentes,Data Analyst Program II Edición,Maria Cisneros,700.0,350.0,Tiktok,Naomi Colan,2.34,8.9973
2,2023-01-10,Christian Caballero Mueras,Data Analyst Program III Edición,Deisser Martinez,550.0,550.0,Instagram,Flavia Avanto,1.542,5.92899
3,2023-01-11,Elayne Palacios Vargas,Data Engineer Program I Edición,Deisser Martinez,800.0,599.0,Instagram,Flavia Avanto,1.6234,6.241973
4,2023-01-20,Esteban Vargas,Data Engineer Program II Edición,Maria Cisneros,450.0,300.0,Tiktok,Flavia Avanto,2.5246,9.707087
5,2023-03-25,Gianella Matamoros Jara,Data Engineer Program II Edición,Maria Cisneros,450.0,300.0,Youtube,Flavia Avanto,3.235,12.438575
6,2023-03-02,Randy Leonel Barberena Morera,Data Scientist Program I Edición,Fredy Saavedra,850.0,800.0,Facebook,Naomi Colan,3.234526,12.436752
7,2023-03-12,Fabian Calderon,Data Scientist Program I Edición,Deisser Martinez,850.0,700.0,Facebook,Naomi Colan,3.624,13.93428
8,2023-03-02,Lorenzo Eduardo Reyes Flores,Data Scientist Program II Edición,Fredy Saavedra,650.0,500.0,Linkedin,Naomi Colan,1.23456,4.746883
9,2023-02-23,Yanina Montañez Monasterio,Data Scientist Program II Edición,Fredy Saavedra,650.0,300.0,Linkedin,Flavia Avanto,2.2356,8.595882


##1.2 Proceso de Carga de datos

Para realizar la carga de datos a BigQuery, necesitamos una librería de conexión al servicio.


> `Bigquery Client`: `pip install google-cloud-bigquery`




In [121]:
from google.cloud import bigquery

key_path = "local/datapat-dap8-78d7401d6b1b.json"
client = bigquery.Client.from_service_account_json(key_path)

Crearemos una tabla en BigQuery

In [122]:
## id de la tabla nueva - cambiar el nombre al tuyo
table_id="datapat-dap8.ventasdatpath.ventas_datapath"

# creamos la estructura de la tabla
schema = []
table = bigquery.Table(table_id, schema=schema)

## enviando la instruccion a bigquery
table = client.create_table(table)

Creamos el Job de Carga

In [123]:
job_config = bigquery.LoadJobConfig(
    # especificamos el esquema de nuestra tabla
    schema=[
 # Especifique el tipo de columnas cuyo tipo no se puede detectar automáticamente.
        bigquery.SchemaField("nombreCliente", "STRING"),
        bigquery.SchemaField("programa", "STRING"),
        bigquery.SchemaField("fecha_matricula", "DATE"),
        bigquery.SchemaField("nombreVendedor", "STRING"),
        bigquery.SchemaField("montofinalventa", "FLOAT"),
        bigquery.SchemaField("inversion", "FLOAT"),
        bigquery.SchemaField("plataforma", "STRING"),
        bigquery.SchemaField("communityManager", "STRING"),
        bigquery.SchemaField("costoUSD", "FLOAT"),
        bigquery.SchemaField("costoSoles", "FLOAT")
    ],

    source_format=bigquery.SourceFormat.CSV,
    write_disposition="WRITE_TRUNCATE", #WRITE_APPEND para sobrescribir
)

## proceso de ingesta
job = client.load_table_from_dataframe(
    df_ventas_datapath, # dataframe
    table_id, # tabla en bigquery
    job_config=job_config # configuación de carga
)
