# Introducción y Contexto

Vamos a realizar una serie de transformaciones sobre la tabla `actor` de la base de datos `sakila`. Luego, cargaremos los datos transformados en una nueva base de datos `sakila_etl`.

## Las 10 transformaciones a realizar

1. **Filtrar actores cuyo nombre empiece con la letra "A"**  
   Se seleccionarán solo aquellos actores cuyo primer nombre comience con la letra "A".

2. **Crear una columna `full_name` concatenando `first_name` y `last_name`**  
   Se generará una nueva columna llamada `full_name` que será la concatenación del `first_name` y el `last_name` del actor.

3. **Calcular la longitud total del nombre en una nueva columna `name_length`**  
   Se calculará la longitud total del nombre completo (concatenación de `first_name` y `last_name`) y se almacenará en la columna `name_length`.

4. **Convertir todos los nombres a mayúsculas (tanto `first_name` como `last_name`)**  
   Se transformarán tanto los valores de `first_name` como `last_name` a mayúsculas.

5. **Filtrar actores cuya longitud del nombre completo sea mayor que 10 caracteres**  
   Se eliminarán aquellos actores cuyo nombre completo (la concatenación de `first_name` y `last_name`) tenga 10 caracteres o menos.

6. **Calcular el año de registro de cada actor**  
   Se extraerá el año del campo `last_update` para determinar el año en que se registró el actor en la base de datos.

7. **Agrupar por 'last_name' y contar cuántos actores tienen ese apellido**  
   Esta transformación agrupa a los actores por su apellido (last_name) y cuenta el número total de actores que comparten cada apellido.

8. **Agregar una columna que indique si el actor tiene un nombre único**  
   Esta transformación agrega una columna que verifica si un actor tiene un nombre completo único en la base de datos. Si el nombre completo (full_name) es único (es decir, no hay otro actor con el mismo nombre completo), la columna indicará "True", de lo contrario, mostrará "False". 

9. **Agregar una columna 'actor_status' que indique si el actor tiene más de 10 años en la base de datos**  
   Esta transformación crea una columna actor_status que indica el estado del actor en función de su antigüedad en la base de datos. Si el actor_id es mayor a 10, se considera que el actor ha estado más de 10 años en la base de datos y se marca como "Active". Si no, se clasifica como "Inactive".

10. **Eliminar la columna 'last_update' de df_filtered**  
    Esta transformación elimina la columna last_update del DataFrame df_filtered. Dado que esta columna no se va a utilizar para las transformaciones posteriores, se elimina para simplificar el conjunto de datos y reducir el espacio de almacenamiento, manteniendo solo las columnas relevantes para el análisis y la carga en las tablas finales.

**Empecemos!!!**

## Paso 1: Código completo para el proceso ETL

In [1]:
import pymysql
import pandas as pd

# Conexión a la base de datos MariaDB
conn = pymysql.connect(
    host="localhost",
    user="diegodevpy",
    password="pythondrs19",
    database="sakila",
    charset='utf8mb4'
)

# Crear un cursor
cursor = conn.cursor()

# Ejecutar la consulta
query = "SELECT * FROM actor;"
cursor.execute(query)

# Obtener los resultados
data = cursor.fetchall()

# Obtener los nombres de las columnas (opcional)
columns = [col[0] for col in cursor.description]

# Convertir los resultados en un DataFrame de pandas
df = pd.DataFrame(data, columns=columns)

# Mostrar los primeros registros
print(df.head())

# Cerrar la conexión
cursor.close()
conn.close()


   actor_id first_name     last_name         last_update
0         1   PENELOPE       GUINESS 2006-02-15 04:34:33
1         2       NICK      WAHLBERG 2006-02-15 04:34:33
2         3         ED         CHASE 2006-02-15 04:34:33
3         4   JENNIFER         DAVIS 2006-02-15 04:34:33
4         5     JOHNNY  LOLLOBRIGIDA 2006-02-15 04:34:33


## Paso 2: Proceso de Transformación de Datos

In [3]:
# 1. Filtrar actores cuyo primer nombre empieza con "A"
df_filtered = df[df['first_name'].str.startswith('A')].copy()  # Aquí creamos una copia explícita
df_filtered

Unnamed: 0,actor_id,first_name,last_name,last_update
28,29,ALEC,WAYNE,2006-02-15 04:34:33
33,34,AUDREY,OLIVIER,2006-02-15 04:34:33
48,49,ANNE,CRONYN,2006-02-15 04:34:33
64,65,ANGELA,HUDSON,2006-02-15 04:34:33
70,71,ADAM,GRANT,2006-02-15 04:34:33
75,76,ANGELINA,ASTAIRE,2006-02-15 04:34:33
124,125,ALBERT,NOLTE,2006-02-15 04:34:33
131,132,ADAM,HOPPER,2006-02-15 04:34:33
143,144,ANGELA,WITHERSPOON,2006-02-15 04:34:33
145,146,ALBERT,JOHANSSON,2006-02-15 04:34:33


In [4]:
# 2. Crear una columna 'full_name' concatenando 'first_name' y 'last_name'
df_filtered['full_name'] = df_filtered['first_name'] + ' ' + df_filtered['last_name']
df_filtered

Unnamed: 0,actor_id,first_name,last_name,last_update,full_name
28,29,ALEC,WAYNE,2006-02-15 04:34:33,ALEC WAYNE
33,34,AUDREY,OLIVIER,2006-02-15 04:34:33,AUDREY OLIVIER
48,49,ANNE,CRONYN,2006-02-15 04:34:33,ANNE CRONYN
64,65,ANGELA,HUDSON,2006-02-15 04:34:33,ANGELA HUDSON
70,71,ADAM,GRANT,2006-02-15 04:34:33,ADAM GRANT
75,76,ANGELINA,ASTAIRE,2006-02-15 04:34:33,ANGELINA ASTAIRE
124,125,ALBERT,NOLTE,2006-02-15 04:34:33,ALBERT NOLTE
131,132,ADAM,HOPPER,2006-02-15 04:34:33,ADAM HOPPER
143,144,ANGELA,WITHERSPOON,2006-02-15 04:34:33,ANGELA WITHERSPOON
145,146,ALBERT,JOHANSSON,2006-02-15 04:34:33,ALBERT JOHANSSON


In [6]:
# 3. Calcular la longitud total del nombre en una nueva columna 'name_length'
df_filtered['name_length'] = df_filtered['full_name'].apply(len)
df_filtered

Unnamed: 0,actor_id,first_name,last_name,last_update,full_name,name_length
28,29,ALEC,WAYNE,2006-02-15 04:34:33,ALEC WAYNE,10
33,34,AUDREY,OLIVIER,2006-02-15 04:34:33,AUDREY OLIVIER,14
48,49,ANNE,CRONYN,2006-02-15 04:34:33,ANNE CRONYN,11
64,65,ANGELA,HUDSON,2006-02-15 04:34:33,ANGELA HUDSON,13
70,71,ADAM,GRANT,2006-02-15 04:34:33,ADAM GRANT,10
75,76,ANGELINA,ASTAIRE,2006-02-15 04:34:33,ANGELINA ASTAIRE,16
124,125,ALBERT,NOLTE,2006-02-15 04:34:33,ALBERT NOLTE,12
131,132,ADAM,HOPPER,2006-02-15 04:34:33,ADAM HOPPER,11
143,144,ANGELA,WITHERSPOON,2006-02-15 04:34:33,ANGELA WITHERSPOON,18
145,146,ALBERT,JOHANSSON,2006-02-15 04:34:33,ALBERT JOHANSSON,16


In [9]:
# 4. Convertir todos los nombres a mayúsculas (tanto 'first_name' como 'last_name')
df_filtered['first_name'] = df_filtered['first_name'].str.capitalize()
df_filtered['last_name'] = df_filtered['last_name'].str.capitalize()
df_filtered['full_name'] = df_filtered['full_name'].str.capitalize()
df_filtered

Unnamed: 0,actor_id,first_name,last_name,last_update,full_name,name_length
28,29,Alec,Wayne,2006-02-15 04:34:33,Alec wayne,10
33,34,Audrey,Olivier,2006-02-15 04:34:33,Audrey olivier,14
48,49,Anne,Cronyn,2006-02-15 04:34:33,Anne cronyn,11
64,65,Angela,Hudson,2006-02-15 04:34:33,Angela hudson,13
70,71,Adam,Grant,2006-02-15 04:34:33,Adam grant,10
75,76,Angelina,Astaire,2006-02-15 04:34:33,Angelina astaire,16
124,125,Albert,Nolte,2006-02-15 04:34:33,Albert nolte,12
131,132,Adam,Hopper,2006-02-15 04:34:33,Adam hopper,11
143,144,Angela,Witherspoon,2006-02-15 04:34:33,Angela witherspoon,18
145,146,Albert,Johansson,2006-02-15 04:34:33,Albert johansson,16


In [10]:
# 5. Filtrar actores cuya longitud del nombre completo sea mayor que 10 caracteres
df_filtered = df_filtered[df_filtered['name_length'] > 10]
df_filtered

Unnamed: 0,actor_id,first_name,last_name,last_update,full_name,name_length
33,34,Audrey,Olivier,2006-02-15 04:34:33,Audrey olivier,14
48,49,Anne,Cronyn,2006-02-15 04:34:33,Anne cronyn,11
64,65,Angela,Hudson,2006-02-15 04:34:33,Angela hudson,13
75,76,Angelina,Astaire,2006-02-15 04:34:33,Angelina astaire,16
124,125,Albert,Nolte,2006-02-15 04:34:33,Albert nolte,12
131,132,Adam,Hopper,2006-02-15 04:34:33,Adam hopper,11
143,144,Angela,Witherspoon,2006-02-15 04:34:33,Angela witherspoon,18
145,146,Albert,Johansson,2006-02-15 04:34:33,Albert johansson,16
172,173,Alan,Dreyfuss,2006-02-15 04:34:33,Alan dreyfuss,13
189,190,Audrey,Bailey,2006-02-15 04:34:33,Audrey bailey,13


In [13]:
# 6. Calcular el año de registro del actor
df_filtered['registration_year'] = pd.to_datetime(df_filtered['last_update']).dt.year
df_filtered

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtered['registration_year'] = pd.to_datetime(df_filtered['last_update']).dt.year


Unnamed: 0,actor_id,first_name,last_name,last_update,full_name,name_length,registration_year
33,34,Audrey,Olivier,2006-02-15 04:34:33,Audrey olivier,14,2006
48,49,Anne,Cronyn,2006-02-15 04:34:33,Anne cronyn,11,2006
64,65,Angela,Hudson,2006-02-15 04:34:33,Angela hudson,13,2006
75,76,Angelina,Astaire,2006-02-15 04:34:33,Angelina astaire,16,2006
124,125,Albert,Nolte,2006-02-15 04:34:33,Albert nolte,12,2006
131,132,Adam,Hopper,2006-02-15 04:34:33,Adam hopper,11,2006
143,144,Angela,Witherspoon,2006-02-15 04:34:33,Angela witherspoon,18,2006
145,146,Albert,Johansson,2006-02-15 04:34:33,Albert johansson,16,2006
172,173,Alan,Dreyfuss,2006-02-15 04:34:33,Alan dreyfuss,13,2006
189,190,Audrey,Bailey,2006-02-15 04:34:33,Audrey bailey,13,2006


In [14]:
# 7. Agrupar por 'last_name' y contar cuántos actores tienen ese apellido
df_grouped = df_filtered.groupby('last_name').agg(
    total_actors=('actor_id', 'count')
).reset_index()

df_grouped 

Unnamed: 0,last_name,total_actors
0,Astaire,1
1,Bailey,1
2,Cronyn,1
3,Dreyfuss,1
4,Hopper,1
5,Hudson,1
6,Johansson,1
7,Nolte,1
8,Olivier,1
9,Witherspoon,1


In [15]:
# 8. Agregar una columna que indique si el actor tiene un nombre único (si es el único actor con ese nombre completo)
df_filtered['is_unique_name'] = df_filtered.groupby('full_name')['full_name'].transform('count') == 1
df_filtered

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtered['is_unique_name'] = df_filtered.groupby('full_name')['full_name'].transform('count') == 1


Unnamed: 0,actor_id,first_name,last_name,last_update,full_name,name_length,registration_year,is_unique_name
33,34,Audrey,Olivier,2006-02-15 04:34:33,Audrey olivier,14,2006,True
48,49,Anne,Cronyn,2006-02-15 04:34:33,Anne cronyn,11,2006,True
64,65,Angela,Hudson,2006-02-15 04:34:33,Angela hudson,13,2006,True
75,76,Angelina,Astaire,2006-02-15 04:34:33,Angelina astaire,16,2006,True
124,125,Albert,Nolte,2006-02-15 04:34:33,Albert nolte,12,2006,True
131,132,Adam,Hopper,2006-02-15 04:34:33,Adam hopper,11,2006,True
143,144,Angela,Witherspoon,2006-02-15 04:34:33,Angela witherspoon,18,2006,True
145,146,Albert,Johansson,2006-02-15 04:34:33,Albert johansson,16,2006,True
172,173,Alan,Dreyfuss,2006-02-15 04:34:33,Alan dreyfuss,13,2006,True
189,190,Audrey,Bailey,2006-02-15 04:34:33,Audrey bailey,13,2006,True


In [21]:
# 9. Agregar una columna 'actor_status' que indique si el actor tiene más de 10 años en la base de datos
import datetime

# Asegurarnos de usar .loc para evitar el SettingWithCopyWarning
df_filtered.loc[:, 'actor_status'] = (datetime.datetime.now().year - df_filtered['registration_year']) > 10  # True si tiene más de 10 años en la base de datos
df_filtered.loc[:, 'actor_status'] = df_filtered['actor_status'].map({True: 'Activo', False: 'Inactivo'})  # Mapear los valores True y False a 'Activo' e 'Inactivo'

df_filtered

Unnamed: 0,actor_id,first_name,last_name,last_update,full_name,name_length,registration_year,is_unique_name,actor_status
33,34,Audrey,Olivier,2006-02-15 04:34:33,Audrey olivier,14,2006,True,Activo
48,49,Anne,Cronyn,2006-02-15 04:34:33,Anne cronyn,11,2006,True,Activo
64,65,Angela,Hudson,2006-02-15 04:34:33,Angela hudson,13,2006,True,Activo
75,76,Angelina,Astaire,2006-02-15 04:34:33,Angelina astaire,16,2006,True,Activo
124,125,Albert,Nolte,2006-02-15 04:34:33,Albert nolte,12,2006,True,Activo
131,132,Adam,Hopper,2006-02-15 04:34:33,Adam hopper,11,2006,True,Activo
143,144,Angela,Witherspoon,2006-02-15 04:34:33,Angela witherspoon,18,2006,True,Activo
145,146,Albert,Johansson,2006-02-15 04:34:33,Albert johansson,16,2006,True,Activo
172,173,Alan,Dreyfuss,2006-02-15 04:34:33,Alan dreyfuss,13,2006,True,Activo
189,190,Audrey,Bailey,2006-02-15 04:34:33,Audrey bailey,13,2006,True,Activo


In [22]:
# 10.Eliminar la columna 'last_update' de df_filtered
df_filtered = df_filtered.drop(columns=['last_update'])
df_filtered

Unnamed: 0,actor_id,first_name,last_name,full_name,name_length,registration_year,is_unique_name,actor_status
33,34,Audrey,Olivier,Audrey olivier,14,2006,True,Activo
48,49,Anne,Cronyn,Anne cronyn,11,2006,True,Activo
64,65,Angela,Hudson,Angela hudson,13,2006,True,Activo
75,76,Angelina,Astaire,Angelina astaire,16,2006,True,Activo
124,125,Albert,Nolte,Albert nolte,12,2006,True,Activo
131,132,Adam,Hopper,Adam hopper,11,2006,True,Activo
143,144,Angela,Witherspoon,Angela witherspoon,18,2006,True,Activo
145,146,Albert,Johansson,Albert johansson,16,2006,True,Activo
172,173,Alan,Dreyfuss,Alan dreyfuss,13,2006,True,Activo
189,190,Audrey,Bailey,Audrey bailey,13,2006,True,Activo


## Paso 3: Cargar los datos transformados en una nueva base de datos, creando las tablas: create_actor_table y create_actor_last_name_group_table

#SQL
-- 1. Crear la base de datos 'sakila_etl' si no existe
CREATE DATABASE IF NOT EXISTS sakila_etl;

-- 2. Usar la base de datos 'sakila_etl'
USE sakila_etl;

-- 3. Crear la tabla 'actor_transformed'
CREATE TABLE IF NOT EXISTS actor_transformed (
    actor_id INT PRIMARY KEY,              -- Identificador único del actor
    first_name VARCHAR(50),                 -- Nombre del actor
    last_name VARCHAR(50),                  -- Apellido del actor
    full_name VARCHAR(100),                 -- Nombre completo concatenado
    name_length INT,                        -- Longitud del nombre completo
    registration_year INT,                  -- Año de registro (basado en 'last_update')
    is_unique_name BOOLEAN,                 -- Si el nombre es único en la base de datos
    actor_status VARCHAR(10)                -- Estado del actor (Activo/Inactivo)
);

-- 4. Crear la tabla 'actor_count_by_last_name'
CREATE TABLE IF NOT EXISTS actor_count_by_last_name (
    last_name VARCHAR(50) PRIMARY KEY,      -- Apellido del actor
    total_actors INT                        -- Total de actores con ese apellido
);

In [23]:
#Python

# Establecemos nuevamente la conexión con MySQL porque ya la habiamos cerrado
connection = pymysql.connect(
    host="localhost",
    user="diegodevpy",
    password="pythondrs19",
    database="sakila",
    charset='utf8mb4'
)

cursor = connection.cursor()

# 1. Crear la base de datos 'sakila_etl' si no existe
create_database_query = "CREATE DATABASE IF NOT EXISTS sakila_etl"
cursor.execute(create_database_query)

# 2. Seleccionar la base de datos 'sakila_etl' para usarla
cursor.execute("USE sakila_etl")

# 3. SQL para crear la tabla 'actor_transformed'
create_actor_transformed_table = """
CREATE TABLE IF NOT EXISTS actor_transformed (
    actor_id INT PRIMARY KEY,              -- Identificador único del actor
    first_name VARCHAR(50),                 -- Nombre del actor
    last_name VARCHAR(50),                  -- Apellido del actor
    full_name VARCHAR(100),                 -- Nombre completo concatenado
    name_length INT,                        -- Longitud del nombre completo
    registration_year INT,                  -- Año de registro (basado en 'last_update')
    is_unique_name BOOLEAN,                 -- Si el nombre es único en la base de datos
    actor_status VARCHAR(10)                -- Estado del actor (Activo/Inactivo)
);
"""

# 4. SQL para crear la tabla 'actor_count_by_last_name'
create_actor_count_by_last_name_table = """
CREATE TABLE IF NOT EXISTS actor_count_by_last_name (
    last_name VARCHAR(50) PRIMARY KEY,      -- Apellido del actor
    total_actors INT                        -- Total de actores con ese apellido
);
"""

# Ejecutar las consultas para crear las tablas
cursor.execute(create_actor_transformed_table)
cursor.execute(create_actor_count_by_last_name_table)

# Confirmar los cambios y cerrar la conexión
connection.commit()
cursor.close()
connection.close()

print("Base de datos 'sakila_etl' y tablas 'actor_transformed' y 'actor_count_by_last_name' creadas exitosamente en MySQL")

Base de datos 'sakila_etl' y tablas 'actor_transformed' y 'actor_count_by_last_name' creadas exitosamente en MySQL


## Paso 4: Carga de datos con pandas y SQLAlchemy:

In [25]:
# Conexión a la nueva base de datos (sakila_etl)
from sqlalchemy import create_engine
engine = create_engine('mysql+mysqlconnector://diegodevpy:pythondrs19@localhost/sakila_etl?charset=utf8mb4&collation=utf8mb4_general_ci')

# Cargar los datos filtrados y transformados en la tabla 'actor_transformed'

# Aquí estamos eligiendo las columnas que definimos en el proceso de transformación
df_filtered[['actor_id', 'first_name', 'last_name', 'full_name', 'name_length', 'registration_year', 'is_unique_name', 'actor_status']].to_sql(
    'actor_transformed',    # Nombre de la tabla en MySQL
    con=engine,             # Conexión al motor de MySQL
    if_exists='replace',    # Si la tabla ya existe, la reemplazamos
    index=False            # No guardamos el índice de pandas como columna
)

# Cargar los datos agrupados (total de actores por apellido) en la tabla 'actor_count_by_last_name'
df_grouped.to_sql(
    'actor_count_by_last_name',   # Nombre de la tabla en MySQL
    con=engine,                   # Conexión al motor de MySQL
    if_exists='replace',          # Si la tabla ya existe, la reemplazamos
    index=False                   # No guardamos el índice de pandas como columna
)

# Confirmar que los datos se han cargado correctamente
print("Datos cargados exitosamente en la base de datos 'sakila_etl'.")

Datos cargados exitosamente en la base de datos 'sakila_etl'.


## Paso 5: Verificación en MySQL

USE sakila_etl;

SELECT * FROM sakila_etl.actor_transformed;
SELECT * FROM sakila_etl.actor_count_by_last_name;

In [29]:
#Python

# Establecemos nuevamente la conexión con MySQL
conn = pymysql.connect(
    host="localhost",
    user="diegodevpy",
    password="pythondrs19",
    database="sakila_etl",
    charset='utf8mb4'
)

cursor = conn.cursor()

# 1. Ejecutar consulta para seleccionar todos los registros de 'actor_transformed'
select_actor_transformed = "SELECT * FROM actor_transformed"
cursor.execute(select_actor_transformed)
actor_transformed_records = cursor.fetchall()

# Mostrar resultados de 'actor_transformed'
print("Registros de 'actor_transformed':")
for record in actor_transformed_records:
    print(record)

# 2. Ejecutar consulta para seleccionar todos los registros de 'actor_count_by_last_name'
select_actor_count_by_last_name = "SELECT * FROM actor_count_by_last_name"
cursor.execute(select_actor_count_by_last_name)
actor_count_by_last_name_records = cursor.fetchall()

# Mostrar resultados de 'actor_count_by_last_name'
print("\nRegistros de 'actor_count_by_last_name':")
for record in actor_count_by_last_name_records:
    print(record)

# Cerrar el cursor y la conexión
cursor.close()
conn.close()

print("\nConsultas ejecutadas y resultados mostrados exitosamente.")

Registros de 'actor_transformed':
(34, 'Audrey', 'Olivier', 'Audrey olivier', 14, 2006, 1, 'Activo')
(49, 'Anne', 'Cronyn', 'Anne cronyn', 11, 2006, 1, 'Activo')
(65, 'Angela', 'Hudson', 'Angela hudson', 13, 2006, 1, 'Activo')
(76, 'Angelina', 'Astaire', 'Angelina astaire', 16, 2006, 1, 'Activo')
(125, 'Albert', 'Nolte', 'Albert nolte', 12, 2006, 1, 'Activo')
(132, 'Adam', 'Hopper', 'Adam hopper', 11, 2006, 1, 'Activo')
(144, 'Angela', 'Witherspoon', 'Angela witherspoon', 18, 2006, 1, 'Activo')
(146, 'Albert', 'Johansson', 'Albert johansson', 16, 2006, 1, 'Activo')
(173, 'Alan', 'Dreyfuss', 'Alan dreyfuss', 13, 2006, 1, 'Activo')
(190, 'Audrey', 'Bailey', 'Audrey bailey', 13, 2006, 1, 'Activo')

Registros de 'actor_count_by_last_name':
('Astaire', 1)
('Bailey', 1)
('Cronyn', 1)
('Dreyfuss', 1)
('Hopper', 1)
('Hudson', 1)
('Johansson', 1)
('Nolte', 1)
('Olivier', 1)
('Witherspoon', 1)

Consultas ejecutadas y resultados mostrados exitosamente.


## Resumen

Este código realiza 10 transformaciones sobre los datos de la tabla **actor** de la base de datos **sakila**, y luego carga los resultados en dos nuevas tablas dentro de la base de datos **sakila_etl**:

- **actor_transformed**: Contiene todos los datos de los actores con las transformaciones aplicadas.
- **actor_count_by_last_name**: Contiene la cantidad de actores por apellido.