Flujo de Trabajo de Workshop: Migración de Datos y Análisis Inicial
Este script de Python es el primer paso en nuestro flujo de trabajo, centrado en la migración y análisis inicial de datos con Pandas. Su función es cargar datos desde un archivo CSV para verificar su correcta importación, utilizando Pandas para leer el archivo y visualizar las primeras filas. Este proceso garantiza que los datos estén listos para las siguientes fases de análisis, marcando el inicio de nuestra exploración y manipulación de datos en el proyecto.

In [6]:
import pandas as pd

# Ruta al archivo CSV
ruta_archivo = "C:\\Users\\cesar\\Desktop\\platzi\\ETL_Workshop_01\\candidates.csv"

# Leer el archivo CSV utilizando pandas
datos = pd.read_csv(ruta_archivo)

# Mostrar las primeras filas del DataFrame para verificar la carga de datos
print(datos.head())

  First Name;Last Name;Email;Application Date;Country;YOE;Seniority;Technology;Code Challenge Score;Technical Interview Score
0  Bernadette;Langworth;leonard91@yahoo.com;2021-...                                                                         
1  Camryn;Reynolds;zelda56@hotmail.com;2021-09-09...                                                                         
2  Larue;Spinka;okey_schultz41@gmail.com;2020-04-...                                                                         
3  Arch;Spinka;elvera_kulas@yahoo.com;2020-10-01;...                                                                         
4  Larue;Altenwerth;minnie.gislason@gmail.com;202...                                                                         



Este código importa un CSV usando Pandas con ; como delimitador y verifica la carga con datos.head().

In [7]:
import pandas as pd

# Ruta al archivo CSV
ruta_archivo = "C:\\Users\\cesar\\Desktop\\platzi\\ETL_Workshop_01\\candidates.csv"

# Leer el archivo CSV utilizando pandas y especificando el delimitador correcto
datos = pd.read_csv(ruta_archivo, delimiter=';')

# Mostrar las primeras filas del DataFrame para verificar la carga de datos
print(datos.head())

   First Name   Last Name                      Email Application Date  \
0  Bernadette   Langworth        leonard91@yahoo.com       2021-02-26   
1      Camryn    Reynolds        zelda56@hotmail.com       2021-09-09   
2       Larue      Spinka   okey_schultz41@gmail.com       2020-04-14   
3        Arch      Spinka     elvera_kulas@yahoo.com       2020-10-01   
4       Larue  Altenwerth  minnie.gislason@gmail.com       2020-05-20   

   Country  YOE  Seniority                         Technology  \
0   Norway    2     Intern                      Data Engineer   
1   Panama   10     Intern                      Data Engineer   
2  Belarus    4  Mid-Level                     Client Success   
3  Eritrea   25    Trainee                          QA Manual   
4  Myanmar   13  Mid-Level  Social Media Community Management   

   Code Challenge Score  Technical Interview Score  
0                     3                          3  
1                     2                         10  
2          

In [2]:
import pandas as pd

# Ruta al archivo CSV
ruta_archivo = "C:\\Users\\cesar\\Desktop\\platzi\\ETL_Workshop_01\\candidates.csv"

# Leer el archivo CSV utilizando pandas y especificando el delimitador correcto
datos = pd.read_csv(ruta_archivo, delimiter=';')

# Mostrar las primeras filas del DataFrame para verificar la carga de datos
print("Datos iniciales:")
print(datos.head())

# Filtrar candidatos de un país específico, por ejemplo, 'Norway'
candidatos_noruega = datos[datos['Country'] == 'Norway']

# Filtrar candidatos con una puntuación técnica superior a 8
candidatos_alta_puntuacion = datos[datos['Technical Interview Score'] > 8]

# Mostrar los resultados de los filtrados
print("\nCandidatos de Norway:")
print(candidatos_noruega)

print("\nCandidatos con puntuación técnica superior a 8:")
print(candidatos_alta_puntuacion)

Datos iniciales:
   First Name   Last Name                      Email Application Date  \
0  Bernadette   Langworth        leonard91@yahoo.com       2021-02-26   
1      Camryn    Reynolds        zelda56@hotmail.com       2021-09-09   
2       Larue      Spinka   okey_schultz41@gmail.com       2020-04-14   
3        Arch      Spinka     elvera_kulas@yahoo.com       2020-10-01   
4       Larue  Altenwerth  minnie.gislason@gmail.com       2020-05-20   

   Country  YOE  Seniority                         Technology  \
0   Norway    2     Intern                      Data Engineer   
1   Panama   10     Intern                      Data Engineer   
2  Belarus    4  Mid-Level                     Client Success   
3  Eritrea   25    Trainee                          QA Manual   
4  Myanmar   13  Mid-Level  Social Media Community Management   

   Code Challenge Score  Technical Interview Score  
0                     3                          3  
1                     2                        

Creación de la Base de Datos DScandidates

Acceso a pgAdmin: Primero, se accedió a pgAdmin, la interfaz gráfica de usuario para la administración de PostgreSQL.
Creación de la Base de Datos: A través de la interfaz de pgAdmin, se navegó hasta el servidor PostgreSQL deseado. Luego, se hizo clic derecho en el grupo de bases de datos y se seleccionó la opción "Create" -> "Database...".
Configuración de la Base de Datos: En el diálogo de creación, se introdujo el nombre DScandidates para la nueva base de datos. Se ajustaron las configuraciones necesarias según los requisitos del proyecto.
Finalización: Después de configurar las opciones deseadas, se hizo clic en "Save" para crear la base de datos.
Creación de la Tabla candidates
Una vez creada la base de datos DScandidates, el siguiente paso fue la creación de una tabla para almacenar los datos de los candidatos.

Navegación hasta la Base de Datos: En pgAdmin, se navegó hasta la base de datos DScandidates recién creada.

Apertura del Query Tool: Se seleccionó la base de datos DScandidates y se abrió el "Query Tool" para escribir y ejecutar comandos SQL.

Ejecución del Comando SQL para Crear la Tabla: Se introdujo el comando SQL necesario para crear la tabla candidates.:

In [None]:
CREATE TABLE candidates (
    FirstName varchar(255),
    LastName varchar(255),
    Email varchar(255),
    ApplicationDate date,
    Country varchar(255),
    YOE int,
    Seniority varchar(255),
    Technology varchar(255),
    CodeChallengeScore int,
    TechnicalInterviewScore int
);

Conexión a la Base de Datos DScandidates mediante psql

Inicio de Sesión: Se inició psql especificando el servidor localhost, la base de datos DScandidates, el puerto 5432, y el usuario postgres. Tras proporcionar la contraseña correcta, se estableció la conexión con la base de datos.
Advertencia de Codificación: Al conectarse, se presentó una advertencia indicando que el código de página de la consola difiere del código de página de Windows, lo que podría causar problemas con los caracteres de 8 bits. Esta advertencia sugiere revisar la documentación de psql para usuarios de Windows para más detalles.

Inspección de la Tabla candidates

Listado de Relaciones: Se utilizó el comando \d para listar todas las relaciones (tablas) en la base de datos DScandidates, confirmando la presencia de la tabla candidates.
Detalle de la Tabla candidates: Mediante el comando \d+ candidates, se obtuvo un detalle de la estructura de la tabla candidates, incluyendo nombres de columnas, tipos de datos, y otras propiedades como ordenamiento, si la columna acepta valores nulos, el almacenamiento, y compresión.

In [None]:
Server [localhost]:
Database [postgres]: DScandidates
Port [5432]:
Username [postgres]:
Contraseña para usuario postgres:

psql (16.2)
ADVERTENCIA: El código de página de la consola (437) difiere del código
            de página de Windows (1252).
            Los caracteres de 8 bits pueden funcionar incorrectamente.
            Vea la página de referencia de psql «Notes for Windows users»
            para obtener más detalles.
Digite «help» para obtener ayuda.

DScandidates=# \d
          Listado de relaciones
 Esquema |   Nombre   | Tipo  |  Due±o
---------+------------+-------+----------
 public  | candidates | tabla | postgres
(1 fila)


DScandidates=# \d+ candidates
                                                             Tabla ½public.candidates╗
         Columna         |          Tipo          | Ordenamiento | Nulable | Por omisi≤n | Almacenamiento | Compresi≤n | Estadφsticas | Descripci≤n
-------------------------+------------------------+--------------+---------+-------------+----------------+------------+--------------+-------------
 firstname               | character varying(255) |              |         |             | extended       |            |              |
 lastname                | character varying(255) |              |         |             | extended       |            |              |
 email                   | character varying(255) |              |         |             | extended       |            |              |
 applicationdate         | date                   |              |         |             | plain          |            |              |
 country                 | character varying(255) |              |         |             | extended       |            |              |
 yoe                     | integer                |              |         |             | plain          |            |              |
 seniority               | character varying(255) |              |         |             | extended       |            |              |
 technology              | character varying(255) |              |         |             | extended       |            |              |
 codechallengescore      | integer                |              |         |             | plain          |            |              |
 technicalinterviewscore | integer                |              |         |             | plain          |            |              |
MΘtodo de acceso: heap

Importación de Datos desde un Archivo CSV

Importación Exitosa con \copy: Se utilizó el comando \copy, que ejecuta la importación desde el lado del cliente, permitiendo superar el problema de permisos y logrando importar con éxito los datos del archivo CSV a la tabla candidates.

In [None]:
DScandidates=# \copy candidates FROM 'C:\Users\cesar\Desktop\platzi\ETL_Workshop_01\candidates.csv' WITH (FORMAT csv, DELIMITER ';', HEADER true);
COPY 50000
DScandidates=# SELECT * FROM candidates LIMIT 70;
 firstname  |  lastname   |            email             | applicationdate |              country              | yoe | seniority |               technology                | codechallengescore | technicalinterviewscore
------------+-------------+------------------------------+-----------------+-----------------------------------+-----+-----------+-----------------------------------------+--------------------+-------------------------
 Bernadette | Langworth   | leonard91@yahoo.com          | 2021-02-26      | Norway                            |   2 | Intern    | Data Engineer                           |                  3 |                       3
 Camryn     | Reynolds    | zelda56@hotmail.com          | 2021-09-09      | Panama                            |  10 | Intern    | Data Engineer                           |                  2 |                      10
 Larue      | Spinka      | okey_schultz41@gmail.com     | 2020-04-14      | Belarus                           |   4 | Mid-Level | Client Success                          |                 10 |                       9
 Arch       | Spinka      | elvera_kulas@yahoo.com       | 2020-10-01      | Eritrea                           |  25 | Trainee   | QA Manual                               |                  7 |                       1
 Larue      | Altenwerth  | minnie.gislason@gmail.com    | 2020-05-20      | Myanmar                           |  13 | Mid-Level | Social Media Community Management       |                  9 |                       7
 Alec       | Abbott      | juanita_hansen@gmail.com     | 2019-08-17      | Zimbabwe                          |   8 | Junior    | Adobe Experience Manager                |                  2 |                       9
 Allison    | Jacobs      | alba_rolfson27@yahoo.com     | 2018-05-18      | Wallis and Futuna                 |  19 | Trainee   | Sales
                 |                  2 |                       9
 Nya        | Skiles      | madisen.zulauf@gmail.com     | 2021-12-09      | Myanmar                           |   1 | Lead      | Mulesoft
                 |                  2 |                       5
 Mose       | Lakin       | dale_murazik@hotmail.com     | 2018-03-13      | Italy                             |  18 | Lead      | Social Media Community Management       |                  7 |                      10
 Terrance   | Zieme       | dustin31@hotmail.com         | 2022-04-08      | Timor-Leste                       |  25 | Lead      | DevOps
                 |                  2 |                       0
 Aiyana     | Goodwin     | vallie.damore@yahoo.com      | 2019-09-22      | Armenia                           |  24 | Intern    | Development - CMS Backend               |                  4 |                       9
 Emilia     | Waelchi     | peter.grady@gmail.com        | 2020-07-15      | French Southern Territories       |  28 | Lead      | DevOps
                 |                  7 |                       4
 Terrell    | Streich     | meta92@yahoo.com             | 2021-12-27      | Chad                              |   3 | Mid-Level | Salesforce
                 |                  5 |                      10
 Hilda      | Rodriguez   | jordan.hyatt@hotmail.com     | 2020-05-09      | El Salvador                       |  16 | Junior    | System Administration                   |                  7 |                       8
 Hope       | Hansen      | clemmie.bruen@hotmail.com    | 2019-10-12      | Mozambique                        |  18 | Architect | Security
                 |                  4 |                       1
 Arno       | Altenwerth  | cheyenne_rau2@gmail.com      | 2018-10-18      | Brunei Darussalam                 |  21 | Mid-Level | Game Development                        |                  4 |                       6
 Betty      | Crona       | judd.wisozk55@gmail.com      | 2020-03-25      | Morocco                           |  28 | Architect | Social Media Community -- More  -- More  -- Lines: