# Extract, Transform and Load (ETL)
----------------------

### Data Fundamentals con Python

#### Enero 2023

**Aurora Cobo Aguilera**

**The Valley**

----------------------


## Ejemplo 1
Vamos a ver un ejemplo de lo que sería una ETL. Imaginad que tenemos un csv con los siguientes campos:

1. work_year
2. experience_level
3. employment_type
4. job_title
5. salary
6. salary_currency
7. salary_in_usd
8. employee_residence
9. remote_ratio
10. company_location
11. company_size


Un ejemplo de una fila del csv podria ser:

In [1]:
lineaOrigen = '88,2021,SE,FT,Lead Data Analyst,170000,USD,170000,US,100,US,L'


El objetivo de una ETL es cargar todas las líneas de un fichero y convertirlas o procesarlas para darles el formato que nosotros queramos. Después, debemos guardar esas nuevas líneas convertidas.

Es decir,

1. Cargar fila
2. Transformar fila
3. Guardar fila

Lo primero que has de hacer es identificar cada item de la secuencia de texto con los campos del fichero.

Una herramienta de utilidad de Python dentro del procesado de cadenas de texto es la función *split()*, ésta permite convertir un texto en una lista en la que cada elemento de la lista es un fragmento del texto original. Los fragmentos se seleccionan en función de un carácter definido que se pasa como parámetro.

Por ejemplo, vamos a separar nuestra cadena con el carácter ','.

In [2]:
lineaOrigen = lineaOrigen.split(',')


Ahora, *lineaOrigen* ha pasado a ser una lista con cada uno de los campos. Esta instrucción es muy frecuente pues es muy común encontrar ficheros que separar los elementos con comas.

In [3]:
print(lineaOrigen)

['88', '2021', 'SE', 'FT', 'Lead Data Analyst', '170000', 'USD', '170000', 'US', '100', 'US', 'L']


Si nos fijamos, esta lista tiene

In [4]:
print(len(lineaOrigen))

12


elementos. Mientras que nosotros habíamos definido 11 campos.

> **Ejercicio**: ¿Qué puede significar el elemento sobrante? ¿Cuál de todos ellos es?

### Manipulación de la experiencia

Vamos a leer y procesar los campos de interés. Por ejemplo, el campo *experiencia*, puede tener 4 valores posibles (en, mi, se, ex). Una forma de procesarlo sería **codificarlo**.

In [5]:
experiencia = lineaOrigen[2]

if(experiencia.lower() == 'en'):
    experiencia = 0
elif(experiencia.lower() == 'mi'):
    experiencia = 1
elif(experiencia.lower() == 'se'):
    experiencia = 2
elif(experiencia.lower() == 'ex'):
    experiencia = 3
else:
    experiencia = -1

En caso de no encontrar ninguno de los caso posibles, nos encontraremos ante un **valor nulo** que hemos decidido codificar con ...

> **Ejercicio**: ¿Con qué valor codificamos los nulos en el ejemplo anterior?

En este ejemplo, el campo experiencia pasa a valer:

In [6]:
print(experiencia)

2


### Manipulación del salario

Otro campo que nos interesa es el del salario. Así que primero lo identificamos y guardamos.

In [7]:
moneda = lineaOrigen[6]
print(moneda)

USD


Exacto! Este campo indica el tipo de moneda en el que está recogido la cantidad salarial. También tiene una serie posible de valores (EUR, GBP, USD).

> **Ejercicio**: ¿Cómo denominamos en teoría a estas variables que sólo pueden obtener un conjunto finito de valores?

Ahora, vamos a unificar la cantidad de salario a euros. Como podemos encontrar salarios en diferentes tipos de monedas, nos interesa que todos estén en la misma para poder comparar y operar de manera correcta. Es como una manera de unificar el sistema de medida. Para ello, mira cuál es el cambio de moneda de hoy en google para las libras y los dólares y pásalo todo a euros.



In [8]:
if(moneda.lower() == 'eur'):
    salario =  float(lineaOrigen[5]) # <SOL>
elif(moneda.lower() == 'gbp'):
    salario =  float(lineaOrigen[5]) * 1.15 # <SOL>
elif(moneda.lower() == 'usd'):
    salario = float(lineaOrigen[5]) * 0.93 # <SOL>
else:
    salario = -1

print(salario)

158100.0


### Manipulación del campo *remote*

El campo *remote* hemos decidido dejarlo tal cual.


In [9]:
remote = int(lineaOrigen[-3])
print(remote)

100


### Manipulación del tamaño
Por último, nos interesa quedarnos con el campo *company_size*.

> **Ejercicio**: A continuación, obtén dicho campo y guárdalo en alguna variable.


In [10]:
#<SOL>
tamanyo = lineaOrigen[-1]
print(tamanyo)

#</SOL>

L


> **Ejercicio**: Para preprocesarlo, codifícalo de manera análoga a los casos anteriores, teniendo en cuenta que los valores posibles son 's', 'm' y 'l', a los que les daremos los valores 0, 1 y 2 respectivamente. -1 de nuevo se usa en caso de que ninguno de los anteriores se dé.

In [11]:
# <SOL>
if(tamanyo.lower() == 's'):
    tamanyo = 0
elif(tamanyo.lower() == 'm'):
    tamanyo = 1
elif(tamanyo.lower() == 'l'):
    tamanyo = 2
else:
    tamanyo = -1
# <\SOL>

In [12]:
lineaDestino = [experiencia, salario, remote, tamanyo]
print(lineaDestino)

[2, 158100.0, 100, 2]


El resultado final debería ser un vector de 4 números, que podría ser la entrada de cualquier modelo de Machine Learning.

## Ejemplo 2

A continuación vamos a ver otro ejemplo que vamos a leer del siguiente enlace:

https://www.kaggle.com/datasets/abecklas/fifa-world-cup?select=WorldCupPlayers.csv

Como podrás comprobar, este dataset contiene datos de los jugadores del mundial de fútbol.

> **Ejercicio**: Vamos a aprovechar para registrarnos en kaggle y jugar con la plataforma!

Fíjate ahora en la descripción de los campos del mismo:

'RoundID, MatchID, Team Initials, Coach Name, Line-up, Shirt Number, Player Name, Position, Event'

> **Ejercicio**: Descárgate el dataset y abre el fichero referente a los jugadores (WorldCupPlayers.csv). A continuación, elige una línea cualquiera del fichero y cópiala en la siguiente celda en <PEGA AQUÍ>, entre comillas dobles.

In [14]:
lineaOrigen =  "201,1096,FRA,CAUDRON Raoul (FRA),S,0,Andre MASCHINOT,,G43' G87'" #<PEGA AQUÍ>

Estamos interesados en recolectar y procesar 3 campos, el país del jugador, el nombre y el número de goles que ha metido. Fíjate en la información de cada campo y extrae de la variable *lineaOrigen* dicha información. Pero, vayamos por partes.

> **Ejercicio**: Primero divide el string en una lista donde cada elemento es uno de los campos. Recuerda que puedes usar la función *split*.

In [15]:
#<SOL>
lineaOrigen = lineaOrigen.split(',')
print(lineaOrigen)
#</SOL>

['201', '1096', 'FRA', 'CAUDRON Raoul (FRA)', 'S', '0', 'Andre MASCHINOT', '', "G43' G87'"]


> **Ejercicio**: Ahora guarda el país del jugador y muéstralo con print.

In [16]:
#<SOL>
pais = lineaOrigen[2]
print(pais)
#</SOL>

FRA


> **Ejercicio**: Haz lo mismo con el nombre, pero pásalo entero a minúsculas. Guárdalo en la variable 'nombre'.

In [17]:
#<SOL>
nombre = lineaOrigen[-3].lower()
print(nombre)
#</SOL>

andre maschinot


> **Ejercicio**: Por último, extrae los goles. Investiga cómo se indica un gol y piensa la manera de contar el total de éstos y guárdalos en una variable llamada 'goles'.

In [None]:
#<SOL>
goles = len( lineaOrigen[-1].split('G') )-1
print(goles)
#</SOL>

In [18]:
#<SOL>
# Más avanzada
goles = len( lineaOrigen[-1].split('G') )-1
restar_golesPropia = len( lineaOrigen[-1].split('OG') )-1
sumar_golesPenalti = len( lineaOrigen[-1].split('P') )-1
restar_penaltiosFallidos = len( lineaOrigen[-1].split('MP') )-1
goles = goles - restar_golesPropia + sumar_golesPenalti - restar_penaltiosFallidos
print(goles)
#</SOL>

2


Comprueba que todo ha ido correctamente ejecutando la siguiente línea donde concatena los campos de interés para calcular el resultado final.

In [19]:
lineaDestino = [pais,nombre,goles]
print(lineaDestino)

['FRA', 'andre maschinot', 2]


## Ejemplo 3

En este ejemplo vamos a tratar un dataset de Población Mundial, del que puedes extraer toda la información en el siguiente enlace:

https://www.kaggle.com/datasets/ahmadjalalmasood123/world-population-dataset

De la misma manera que antes, podemos obtener los nombres de los campos en la primera fila del fichero:

##### #,Country (or dependency),Population (2022),Yearly change,Net change,Density (P/Km²),Land Area (Km²),Migrants (net),Fert. Rate,Med.Age,Urban Pop %,World Share

En este caso, hemos sustituido las comas de separación por punto y coma para no confundirlas con la coma numérica.

In [20]:
lineaOrigen = '1;China;1,439,323,776;0.39%;5,540,090;153;9,388,211;-348,399;1.7;38;61%;18.47%'


Por tanto, ahora el split lo hacemos con ;.

In [21]:
lineaOrigen = lineaOrigen.split(';')
print(lineaOrigen)


['1', 'China', '1,439,323,776', '0.39%', '5,540,090', '153', '9,388,211', '-348,399', '1.7', '38', '61%', '18.47%']


Accedamos al país.

In [22]:
pais = lineaOrigen[1].lower()
print(pais)

china


Ahora, a la población, teniendo en cuenta que es un string y que para convertirlo a entero y no confundir las comas por comas decimales, hay que eliminarlas.

In [24]:
poblacion = int(lineaOrigen[2].replace(',',''))
print(poblacion)

1439323776


Igual con el cambio, campo *Net change*.

In [25]:
cambioTotal = int(lineaOrigen[4].replace(',',''))
print(cambioTotal)

5540090


El signo indica si la población ha cambiado para crecer o decrecer.

In [26]:
signo = -1

if(cambioTotal > 0):
  signo = 1
print(signo)

1


Para la tasa de fertilidad, la vamos a codificar.

In [27]:
fertil = float(lineaOrigen[-4])

if( fertil > 0 and fertil <= 1):
  fertil = 10
elif( fertil > 1 and fertil <= 1.5):
  fertil = 7.5
elif( fertil > 1.5 and fertil <= 2.1):
  fertil = 5
elif( fertil > 2.1 and fertil <= 3):
  fertil = 4
else:
  fertil = 0

print(fertil)

5


> **Ejercicio**: Queremos calcular el número de personas según la densidad de población. Para ello, multiplica la densidad (personas por kilómetro cuadrado) por el tamaño del país.

In [28]:
personasKPI =  int(lineaOrigen[5]) * int(lineaOrigen[6].replace(',', ''))#<SOL>
print(personasKPI)

1436396283


> **Ejercicio**: Por último, guarda el porcentaje de población mundial. Hazlo sin el símbolo de porcentaje (%) y en un número float.

In [30]:
#porcentajeMundial = float(lineaOrigen[-1][:-1])     #<SOL> #1
porcentajeMundial = float(lineaOrigen[-1].replace('%',''))#<SOL> #2

print(porcentajeMundial)

18.47


Comprobemos el resultado.

In [31]:
lineaDestino = [pais, poblacion, cambioTotal, signo, personasKPI, fertil, porcentajeMundial]
print(lineaDestino)
# Resultado esperado:
#  china, int(1439323776), int(5540090), 1, 1436396283, 5, 18.47

['china', 1439323776, 5540090, 1, 1436396283, 5, 18.47]


> ## Ejercicio

Repite el mismo procedimiento en el siguiente dataset:

https://www.kaggle.com/datasets/nathanlauga/nba-games?select=games.csv


Para ello utiliza la siguiente línea ejemplo del fichero *games.csv*.



In [32]:
rawLine = ["2021-11-17","22100213","Final","1610612766","1610612764","2021","1610612766","97","0.438","0.5","0.313","30","59","1610612764","87","0.367","0.813","0.19","23","48","1"]

Deberás extraer la fecha, la puntuación del equipo local, la puntuación del visitante y el ganador.

In [None]:
#<SOL>

#</SOL>

In [None]:
output = [fecha, puntuacionLocal, puntuacionVisitante, ganador]
print(output)

## Leer ficheros

Es momento de aprender a leer un fichero. Para ello primero tenemos que descargar el fichero deseado, luego cargarlo en el espacio de trabajo del notebook y por último podremos leerlo en python.


Si ya has hecho los dos primeros pasos, vamos a leer el fichero utilizando una librería llamada *csv*, que tendremos que importar. El resto de líneas también se suelen repetir, puedes reutilizarlas en el futuro. Tendrás que cambiar 'nombreDelFichero.csv' por el deseado y quizás algún parámetro como el que indica el carácter delimitante. Siempre que usemos un archivo csv, el carácter para delimitar suele ser la coma.

In [34]:
import csv
with open('World Population (2022) .csv', newline='') as csvfile:  #with open('nombreDelFichero.csv', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=',', quotechar='|')
    for row in spamreader:
        print(row)

['\ufeff#', 'Country (or dependency)', 'Population (2022)', 'Yearly change', 'Net change', 'Density (P/Km²)', 'Land Area (Km²)', 'Migrants (net)', 'Fert. Rate', 'Med.Age', 'Urban Pop %', 'World Share']
['1', 'China', '"1', '439', '323', '776"', '0.39%', '"5', '540', '090"', '153', '"9', '388', '211"', '"-348', '399"', '1.7', '38', '61%', '18.47%']
['2', 'India', '"1', '380', '004', '385"', '0.99%', '"13', '586', '631"', '464', '"2', '973', '190"', '"-532', '687"', '2.2', '28', '35%', '17.70%']
['3', 'United States', '"331', '002', '651"', '0.59%', '"1', '937', '734"', '36', '"9', '147', '420"', '"954', '806"', '1.8', '38', '83%', '4.25%']
['4', 'Indonesia', '"273', '523', '615"', '1.07%', '"2', '898', '047"', '151', '"1', '811', '570"', '"-98', '955"', '2.3', '30', '56%', '3.51%']
['5', 'Pakistan', '"220', '892', '340"', '2.00%', '"4', '327', '022"', '287', '"770', '880"', '"-233', '379"', '3.6', '23', '35%', '2.83%']
['6', 'Brazil', '"212', '559', '417"', '0.72%', '"1', '509', '890"',

## Proceso completo

Hemos visto parte del proceso ETL, pero en realidad lo que tenemos que hacer es leer un fichero completo y transformar todas las líneas (no sólo una) para después guardarlas en un nuevo fichero.

Veamos ésto paso a paso. Para ello vamos a usar el siguiente dataset.

######  https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset


### El Algoritmo que vamos a seguir:
- PASO 1: Transformar 1 línea
- PASO 2: Subir CSV a la nube y hacer el open() leyendo cada línea en un for
- PASO 3: Conectar transformación de PASO 1 en el FOR del Paso 2
- PASO 4: Guardar el fichero finalmente (Fichero Destino) 

### Paso 1

Vamos a hacer lo que ya conoces. 

> **Ejercicio**: Esta vez no tienes que completar código, simplemente intenta traducir lo que se hace y qué campos se cogen.

In [35]:
''',track_id,artists,album_name,track_name,popularity,duration_ms,explicit,danceability,energy,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,time_signature,track_genre'''

lineaOrigen = '0,5SuOikwiRyPMVoIQDJUgSV,Gen Hoshino,Comedy,Comedy,73,230666,False,0.676,0.461,1,-6.746,0,0.143,0.0322,1.01e-06,0.358,0.715,128,4,acousti'
print(lineaOrigen)  

lineaOrigen = lineaOrigen.split(',')

numArtistas = 1
if (len( lineaOrigen[2].split(';') ) > 0 ):
  numArtistas = len( lineaOrigen[2].split(';') ) 

explicito = lineaOrigen[7]
if(explicito[0] == 'T'):
    explicito = -1
elif(explicito[0] == 'F'):
    explicito = 1
else:
  explicito = 0

tempo = float(lineaOrigen[-3])
if(tempo == 128):
  tempo = 10
elif(tempo > 120):
  tempo = 1
elif(tempo <= 120 and tempo > 100):
  tempo = 0
elif(tempo <= 100):
  tempo = -1

popularidad = int(lineaOrigen[5]) / 100

duracion = int(lineaOrigen[6]) / (60 * 1000) 

polaridad = (float(lineaOrigen[8]) + float(lineaOrigen[11]) + float(lineaOrigen[13]) )/3 

genero = lineaOrigen[-1]

lineaDestino = [numArtistas, popularidad, duracion, explicito, polaridad, tempo, genero]
print(lineaDestino)

0,5SuOikwiRyPMVoIQDJUgSV,Gen Hoshino,Comedy,Comedy,73,230666,False,0.676,0.461,1,-6.746,0,0.143,0.0322,1.01e-06,0.358,0.715,128,4,acousti
[1, 0.73, 3.8444333333333334, 1, -1.975666666666667, 10, 'acousti']


### Paso 2
Fijémonos en la Documentación Oficial de la Librería CSV (https://docs.python.org/3/library/csv.html) para este paso. 

PD: Como son demasiadas líneas y tarda un rato, puedes parar tú mismo la ejecución cuando veas oportuno.

In [37]:
import csv
with open('dataset.csv', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=',') #delimiter = Separadoe
    next(spamreader) #Tema cursores, ficheros y cabecera CSV...
    for lineaOrigen in spamreader:
        print('Linea Origen:', lineaOrigen)

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
Linea Origen: ['14037', '2lq3d53NETfcilAy4DG2Ui', 'Kidz Bop Kids', 'Diversión para los peques', 'Levitating', '0', '186466', 'False', '0.706', '0.798', '5', '-4.733', '0', '0.0374', '0.00416', '0.00283', '0.106', '0.812', '103.017', '4', 'children']
Linea Origen: ['14038', '66HnStZWn2gkmrOeaiwUu8', 'Kidz Bop Kids', 'Halloween y diversión para peques', 'Thriller', '0', '229020', 'False', '0.675', '0.972', '6', '-5.397', '1', '0.0898', '0.014', '0.000318', '0.657', '0.756', '119.059', '4', 'children']
Linea Origen: ['14039', '4finiJ0gZEZbOSJpmTXcLM', 'Kidz Bop Kids', 'Para pedir dulces', 'Scooby Doo, Where Are You?', '0', '112786', 'False', '0.536', '0.971', '9', '-5.194', '1', '0.095', '0.00632', '0.0', '0.539', '0.944', '136.011', '4', 'children']
Linea Origen: ['14040', '4XNJbPCchL1rTnX0qEPy25', 'Kidz Bop Kids', 'Diversión para los peques', 'Party Rock Anthem', '0', '204933', 'False', '0.686', '0.742', '9', '-5.077', '0'

KeyboardInterrupt: ignored

### Paso 3

Ahora toca unir el paso 1 y 2. ¿Se te ocurre cómo?

> **Ejercicio**: Completa este paso tú mismo.

In [38]:
# <SOL>
# <SOL>
with open('dataset.csv', newline='') as csvfile:
  spamreader = csv.reader(csvfile, delimiter=',') #delimiter = Separadoe
  next(spamreader) #Tema cursores, ficheros y cabecera CSV...
  for lineaOrigen in spamreader:  
    #Pego el código que me interesa...
    numArtistas = 1
    if (len( lineaOrigen[2].split(';') ) > 0 ):
      numArtistas = len( lineaOrigen[2].split(';') ) 

    explicito = lineaOrigen[7]
    if(explicito[0] == 'T'):
        explicito = -1
    elif(explicito[0] == 'F'):
        explicito = 1
    else:
      explicito = 0

    tempo = float(lineaOrigen[-3])
    if(tempo == 128):
      tempo = 10
    elif(tempo > 120):
      tempo = 1
    elif(tempo <= 120 and tempo > 100):
      tempo = 0
    elif(tempo <= 100):
      tempo = -1

    popularidad = int(lineaOrigen[5]) / 100

    duracion = int(lineaOrigen[6]) / (60 * 1000) 

    polaridad = (float(lineaOrigen[8]) + float(lineaOrigen[11]) + float(lineaOrigen[13]) )/3 

    genero = lineaOrigen[-1]

    lineaDestino = [numArtistas, popularidad, duracion, explicito, polaridad, tempo, genero]

    print('Linea Destino:', lineaDestino)

#</SOL>

#</SOL>

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
Linea Destino: [1, 0.17, 6.180883333333333, 1, -2.5256666666666665, 1, 'drum-and-bass']
Linea Destino: [1, 0.17, 4.606833333333333, 1, 0.0029333333333333524, 1, 'drum-and-bass']
Linea Destino: [1, 0.15, 6.776516666666667, 1, -3.1054333333333335, 1, 'drum-and-bass']
Linea Destino: [1, 0.16, 6.4351666666666665, 1, -3.0977666666666672, 1, 'drum-and-bass']
Linea Destino: [1, 0.16, 5.2382, 1, -0.6559666666666667, 1, 'drum-and-bass']
Linea Destino: [2, 0.17, 5.445716666666667, 1, -1.1013333333333333, 1, 'drum-and-bass']
Linea Destino: [2, 0.17, 4.127166666666667, 1, -0.6213666666666667, 1, 'drum-and-bass']
Linea Destino: [2, 0.16, 3.836333333333333, 1, -1.0103666666666666, 1, 'drum-and-bass']
Linea Destino: [2, 0.54, 6.095766666666667, 1, -1.6848999999999998, -1, 'drum-and-bass']
Linea Destino: [1, 0.17, 5.07395, 1, -1.1344, -1, 'drum-and-bass']
Linea Destino: [2, 0.16, 4.1379166666666665, 1, -0.786, 1, 'drum-and-bass']
Linea D

KeyboardInterrupt: ignored

### Paso 4

Juntamos el paso 3 con el escribir en un nuevo fichero al mismo tiempo.

In [39]:
with open('SpotyDASH.csv', 'w', newline='') as csvfile: #El CSV no se puede llamar igual
  spotiWriter = csv.writer(csvfile, delimiter=',')

  spotiWriter.writerow( ['numArtistas', 'popularidad', 'duracion', 'explicito', 'polaridad', 'tempo', 'genero'] )


  #TABULAMOS TODO DE PASO 3... 
  #<SOL>
  with open('dataset.csv', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=',') #delimiter = Separadoe
    next(spamreader) #Tema cursores, ficheros y cabecera CSV...
    for lineaOrigen in spamreader:  
      #Pego el código que me interesa...
      numArtistas = 1
      if (len( lineaOrigen[2].split(';') ) > 0 ):
        numArtistas = len( lineaOrigen[2].split(';') ) 

      explicito = lineaOrigen[7]
      if(explicito[0] == 'T'):
          explicito = -1
      elif(explicito[0] == 'F'):
          explicito = 1
      else:
        explicito = 0

      tempo = float(lineaOrigen[-3])
      if(tempo == 128):
        tempo = 10
      elif(tempo > 120):
        tempo = 1
      elif(tempo <= 120 and tempo > 100):
        tempo = 0
      elif(tempo <= 100):
        tempo = -1

      popularidad = int(lineaOrigen[5]) / 100

      duracion = int(lineaOrigen[6]) / (60 * 1000) 

      polaridad = (float(lineaOrigen[8]) + float(lineaOrigen[11]) + float(lineaOrigen[13]) )/3 

      genero = lineaOrigen[-1]

      lineaDestino = [numArtistas, popularidad, duracion, explicito, polaridad, tempo, genero]  


      #</SOL>
      spotiWriter.writerow( lineaDestino ) #AÑADIMOS EL WRITEROW()

> **Ejercicio**: Para acabar, busca tu fichero generado, descárgalo y comprueba que todo está como esperábamos.