In [1]:
import pandas as pd
import numpy as np

In [2]:
df_original = pd.read_csv("CSV/proyecto4.csv")


In [3]:
df_original.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country',
       'release_year', 'rating', 'duration', 'listed_in', 'plataforma'],
      dtype='object')

In [4]:
# Crear tabla con los tipos 
data_tipos = [{'type_id': 1, 'type_name': 'Movie'}, {'type_id': 2, 'type_name': 'TV Show'}]

df_tipos = pd.DataFrame(data_tipos)

# Guardar la tabla como un archivo CSV
df_tipos.to_csv('tipos.csv', index=False, encoding='utf-8')

In [5]:
# Crear tabla de directores

df_directores = df_original[['show_id', 'director']].copy()


df_directores['director'] = df_directores['director'].fillna('') 

df_directores = df_directores.assign(director=df_directores['director'].str.split(', ')).explode('director')

df_directores['director'] = df_directores['director'].str.strip()

df_directores = df_directores[df_directores['director'] != '']

df_directores_final = df_directores['director'].drop_duplicates().reset_index(drop=True).to_frame()

df_directores_final = df_directores_final.reset_index()
df_directores_final = df_directores_final.rename(columns={'index': 'director_id', 'director': 'director_name'})

# Asegurar que el ID empiece en 1
df_directores_final['director_id'] = df_directores_final['director_id'] + 1

# Guardar la tabla única de directores
df_directores_final.to_csv('directores.csv', index=False, encoding='utf-8')

In [6]:
# Crear tabla de cast

df_actores = df_original[['show_id', 'cast']].copy()

df_actores['cast'] = df_actores['cast'].fillna('') 

# Se crea una fila única para cada actor, repitiendo el show_id.
df_actores = df_actores.assign(cast=df_actores['cast'].str.split(', ')).explode('cast')

df_actores['cast'] = df_actores['cast'].str.strip()

df_actores = df_actores[df_actores['cast'] != '']

df_actores_final = df_actores['cast'].drop_duplicates().reset_index(drop=True).to_frame()


df_actores_final = df_actores_final.reset_index()
df_actores_final = df_actores_final.rename(columns={'index': 'cast_id', 'cast': 'cast_name'})

# Asegurar que el ID empiece en 1 
df_actores_final['cast_id'] = df_actores_final['cast_id'] + 1

# 4. Guardar la tabla única de actores
df_actores_final.to_csv('actores.csv', index=False, encoding='utf-8')

In [7]:
# TABLA PLATAFORMA. 
plataforma = df_original['plataforma']
valores_unicos = df_original['plataforma'].unique() #Sacar los valores unicos 
plataforma_unicos = pd.DataFrame({'plataforma': valores_unicos})
plataforma_unicos['plataforma_id'] = range(1, len(plataforma_unicos) + 1)
plataforma_unicos = plataforma_unicos[['plataforma_id', 'plataforma']]

In [8]:
year = df_original['release_year']
valores_year = df_original['release_year'].unique()
year_tratado = pd.DataFrame({'release_year': valores_year})
year_unicos = year_tratado.sort_values(by='release_year', ascending=False)
year_unicos['release_year_id'] = range(1,len(year_unicos) + 1)
year_unicos = year_unicos[['release_year_id', 'release_year']]

In [9]:
# Tratamiento de country como columna. Lo primero que hacemos es tratar los missing values. Después, normalizamos todo para poder quedarnos con el primer value que aparece
df_original['country'] = df_original['country'].replace({'Missing values': 'Desconocido'})
df_original['country'] = df_original['country'].astype(str).apply(lambda x: x.split(',')[0].strip())
df_original['country'] = df_original['country'].apply(lambda x: x.split(',')[0].strip())

In [10]:
# TABLA COUNTRY
country = df_original['country']
valores_country = df_original['country'].unique()
country_tratado = pd.DataFrame({'country': valores_country})
country_unicos = country_tratado.sort_values(by='country', ascending=True)
country_unicos['country_id'] = range(1,len(country_unicos) + 1)
country_unicos = country_unicos[['country_id', 'country']]

In [11]:
# Tratamiento de genero como columna. Lo primero que hacemos es normalizar para poder tratar los values como valores unicos. Después, nos hemos quedado con los primeros valores 
df_original['listed_in'] = df_original['listed_in'].astype(str).apply(lambda x: x.split(',')[0].strip())
df_original['listed_in'] = df_original['listed_in'].apply(lambda x: x.split(',')[0].strip())

In [12]:
#Tabla Genero
genero = df_original['listed_in']
valores_genero = df_original['listed_in'].unique()
genero_tratado = pd.DataFrame({'listed_in': valores_genero})
genero_unicos = genero_tratado.sort_values(by='listed_in', ascending=True)
genero_unicos['listed_in_id'] = range(1,len(genero_unicos) + 1)
genero_unicos = genero_unicos[['listed_in_id', 'listed_in']]

In [13]:
# TABLA TITULOS
titulo = df_original['title']
titulo_unicos = df_original['title'].unique() #Sacar los valores unicos 
titulo_unicos = pd.DataFrame({'title': titulo_unicos})
titulo_unicos['title_id'] = range(1, len(titulo_unicos) + 1)
titulo_unicos = titulo_unicos[['title_id', 'title']]

In [14]:
plataforma_unicos.to_csv('CSV/plataforma.csv', index=False, encoding='utf-8')
year_unicos.to_csv('CSV/año.csv', index=False, encoding='utf-8')
country_unicos.to_csv('CSV/pais.csv', index=False, encoding='utf-8')
genero_unicos.to_csv('CSV/genero.csv', index=False, encoding='utf-8')
titulo_unicos.to_csv('CSV/titulo.csv', index=False, encoding='utf-8')

In [15]:


df_temp = df_original[['show_id', 'cast']].copy()

df_temp['cast'] = df_temp['cast'].fillna('') 

df_actores_intermedio = df_temp.assign(
    cast_name=df_temp['cast'].str.split(', ')
).explode('cast_name')

df_actores_intermedio['cast_name'] = df_actores_intermedio['cast_name'].str.strip()

df_actores_intermedio = df_actores_intermedio[df_actores_intermedio['cast_name'] != '']

df_actores_intermedio = df_actores_intermedio[['show_id', 'cast_name']]


In [16]:
# Tabla puente show_actor

df_title_cast = pd.merge(
    df_actores_intermedio, 
    df_actores_final,       
    on='cast_name',        
    how='left'              
)

df_title_cast = df_title_cast[['show_id', 'cast_id']]

df_title_cast = df_title_cast.drop_duplicates().reset_index(drop=True)

# Guardar la tabla puente como un archivo CSV
df_title_cast.to_csv('show_actor.csv', index=False, encoding='utf-8')

In [17]:
# Tabla puente show_genre

df_temp_generos = df_original[['show_id', 'listed_in']].copy()

df_temp_generos['listed_in'] = df_temp_generos['listed_in'].fillna('') 

df_generos_intermedio = df_temp_generos.assign(
    genre_name=df_temp_generos['listed_in'].str.split(', ')
).explode('genre_name')

df_generos_intermedio['genre_name'] = df_generos_intermedio['genre_name'].str.strip()
df_generos_intermedio = df_generos_intermedio[df_generos_intermedio['genre_name'] != '']

df_generos_intermedio = df_generos_intermedio[['show_id', 'genre_name']]

df_genero_referencia = genero_unicos.rename(columns={'listed_in_id': 'genre_id', 'listed_in': 'genre_name'})

df_title_genre = pd.merge(
    df_generos_intermedio, 
    df_genero_referencia[['genre_id', 'genre_name']], 
    on='genre_name',       
    how='left'              
)

df_title_genre = df_title_genre[['show_id', 'genre_id']]

df_title_genre = df_title_genre.drop_duplicates().reset_index(drop=True)

# Guardar la tabla puente como un archivo CSV
df_title_genre.to_csv('show_genre.csv', index=False, encoding='utf-8')

In [18]:
# Tabla puente show_director

df_temp_directores = df_original[['show_id', 'director']].copy()

df_temp_directores['director'] = df_temp_directores['director'].fillna('') 

df_directores_intermedio = df_temp_directores.assign(
    director_name=df_temp_directores['director'].str.split(', ')
).explode('director_name')
 
df_directores_intermedio['director_name'] = df_directores_intermedio['director_name'].str.strip()
df_directores_intermedio = df_directores_intermedio[df_directores_intermedio['director_name'] != '']

df_directores_intermedio = df_directores_intermedio[['show_id', 'director_name']]

df_title_director = pd.merge(
    df_directores_intermedio,  
    df_directores_final[['director_id', 'director_name']], 
    on='director_name',        
    how='left'              
)

df_title_director = df_title_director[['show_id', 'director_id']]

df_title_director = df_title_director.drop_duplicates().reset_index(drop=True)

# Guardar la tabla puente como un archivo CSV
df_title_director.to_csv('show_director.csv', index=False, encoding='utf-8')

In [19]:
# Tabla puente show_country

df_temp_paises = df_original[['show_id', 'country']].copy()
df_temp_paises['country'] = df_temp_paises['country'].fillna('') 

df_paises_intermedio = df_temp_paises.assign(
    country_name=df_temp_paises['country'].str.split(', ')
).explode('country_name')

df_paises_intermedio['country_name'] = df_paises_intermedio['country_name'].str.strip()
df_paises_intermedio = df_paises_intermedio[df_paises_intermedio['country_name'] != '']

df_paises_intermedio = df_paises_intermedio[['show_id', 'country_name']]

df_referencia_paises = country_unicos.rename(columns={'country': 'country_name'})

df_title_country = pd.merge(
    df_paises_intermedio,       
    df_referencia_paises,      
    on='country_name',        
    how='left'              
)

df_title_country = df_title_country[['show_id', 'country_id']]

df_title_country = df_title_country.drop_duplicates().reset_index(drop=True)

# Guardar la tabla puente como un archivo CSV
df_title_country.to_csv('show_country.csv', index=False,encoding='utf-8')

In [21]:
# Tabla principal

df_titles = pd.merge(
    df_titles,
    year_unicos.rename(columns={'release_year_id': 'year_id'}),
    on='release_year',
    how='left'
).drop(columns=['release_year']) 

df_titles = pd.merge(
    df_titles,
    df_tipos.rename(columns={'type_name': 'type'}),
    on='type',
    how='left'
).drop(columns=['type'])

df_titles = pd.merge(
    df_titles,
    plataforma_unicos.rename(columns={'plataforma_id': 'platform_id'}),
    on='plataforma',
    how='left'
).drop(columns=['plataforma'])

df_titles_final = df_titles[[
    'show_id', 'title', 'rating', 'duration', 
    'year_id', 'type_id', 'platform_id'
]].copy()

# Guardar la tabla principal
df_titles_final.to_csv('tabla_titles.csv', index=False, encoding='utf-8')


NameError: name 'df_titles' is not defined

In [None]:
df_titles_final.head()

Unnamed: 0,show_id,title,rating,duration,year_id,type_id,platform_id
0,1,Dick Johnson Is Dead,PG-13,90 min,2,1,1
1,2,Blood & Water,TV-MA,2 Seasons,1,2,1
2,3,Ganglands,TV-MA,1 Season,1,2,1
3,4,Jailbirds New Orleans,TV-MA,1 Season,1,2,1
4,5,Kota Factory,TV-MA,2 Seasons,1,2,1
