<h1> Extracción (Extract)</h1>

<p>La extracción es el primer paso en el proceso ETL, donde se recopilan los datos de una o varias fuentes. Estas fuentes pueden incluir bases de datos, archivos CSV, APIs, sistemas en la nube, etc.</p>
<b>Ejemplo:</b> Extraer datos desde un archivo CSV que contiene información de empleados, como su nombre, salario, edad y departamento.

In [28]:
import pandas as pd
# Extraer datos desde un archivo CSV
df = pd.read_csv('path_to_your_csv_file.csv')
print(df)

   id     name  age  salary department
0   1    Alice   25   70000         HR
1   2      Bob   30   80000         IT
2   3  Charlie   35   75000    Finance
3   4    David   40   68000         IT
4   5      Eve   45   72000         HR


<h1> Transformación (Transform)</h1>

<p>La transformación consiste en procesar y limpiar los datos para que sean consistentes y útiles para su análisis o almacenamiento. Este paso puede incluir:</p>
<b>Limpieza:</b> Manejo de valores nulos, duplicados y datos inconsistentes. <br>
<b>Filtrado:</b> Selección de datos específicos según criterios. <br>
<b>Normalización:</b> Estandarización de formatos o escalas de datos. <br>
<b>Ejemplo:</b> Filtrar los datos para seleccionar solo los empleados con un salario superior a $70,000.

In [19]:
import pandas as pd
# Extraer datos desde un archivo CSV
df = pd.read_csv('path_to_your_csv_file.csv')

# Transformar: Filtrar empleados con salario mayor a 70000
df_filtrado_one = df[df['salary'] > 70000]
print(df_filtrado_one)

   id     name  age  salary department
1   2      Bob   30   80000         IT
2   3  Charlie   35   75000    Finance
4   5      Eve   45   72000         HR


<h1>Carga (Load)</h1>

<p>La carga es el paso final, en el que los datos transformados se insertan en un sistema de almacenamiento final, como una base de datos o un data warehouse. Este paso asegura que los datos estén disponibles para su consulta, análisis o generación de reportes.</p>
<b>Ejemplo:</b> Insertar los datos filtrados en una base de datos SQLite para que puedan ser consultados fácilmente en el futuro.

In [29]:
import pandas as pd
import sqlite3

# Extraer datos desde un archivo CSV
df = pd.read_csv('path_to_your_csv_file.csv')

# Transformar: Filtrar empleados con salario mayor a 70000
df_filtrado = df[df['salary'] > 70000]  # Usando el mismo nombre, df_filtrado
print("Datos después de filtrar (empleados con salario > 70000):")
print(df_filtrado)

# Conectar a la base de datos e insertar los datos filtrados
if not df_filtrado.empty:
    conn = sqlite3.connect('base_de_datos_ejemplo.db')
    df_filtrado.to_sql('empleados_filtrados', conn, if_exists='replace', index=False)
    print("Datos insertados en la tabla 'empleados_filtrados'.")

    # Verificar que los datos se insertaron correctamente
    resultado = pd.read_sql_query('SELECT * FROM empleados_filtrados', conn)
   
    print(resultado)
    conn.close()
else:
    print("No hay datos para insertar en la base de datos.")


Datos después de filtrar (empleados con salario > 70000):
   id     name  age  salary department   hire_date
1   2      Bob   30   80000         IT  2017-06-15
2   3  Charlie   35   75000    Finance  2016-07-10
4   5      Eve   45   72000         HR  2014-09-01
Datos insertados en la tabla 'empleados_filtrados'.
   id     name  age  salary department   hire_date
0   2      Bob   30   80000         IT  2017-06-15
1   3  Charlie   35   75000    Finance  2016-07-10
2   5      Eve   45   72000         HR  2014-09-01
