In [59]:
import pandas as pd
from sqlalchemy import create_engine, text
from sqlalchemy.exc import SQLAlchemyError
from sqlalchemy import create_engine, text  # Importa text



In [38]:
# Configuración de la conexión a la base de datos
DATABASE_URI = 'postgresql://postgres:Randy99**@localhost:5432/netflix_movies'

In [52]:
# Función para leer el CSV en trozos
def read_csv_in_chunks(file_path, chunk_size=1000, separator=';'):
    chunks = []
    for chunk in pd.read_csv(file_path, chunksize=chunk_size, on_bad_lines='skip', sep=separator):
        chunks.append(chunk)
    return pd.concat(chunks, ignore_index=True)

In [53]:
# Extracción
df = read_csv_in_chunks('https://github.com/odraude667/CSVs/raw/main/netflix_titlesok.csv')

# Mostrar las primeras filas del DataFrame
print(df.head())


   show_id     type                  title         director  \
0        1    Movie   Dick Johnson Is Dead  Kirsten Johnson   
1        2  TV Show          Blood & Water              NaN   
2        3  TV Show              Ganglands  Julien Leclercq   
3        4  TV Show  Jailbirds New Orleans              NaN   
4        5  TV Show           Kota Factory              NaN   

                                          movie_cast        country  \
0                                                NaN  United States   
1  Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...   South Africa   
2  Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...            NaN   
3                                                NaN            NaN   
4  Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...          India   

           date_added  release_year rating   duration  \
0  September 25, 2021        2020.0  PG-13     90 min   
1  September 24, 2021        2021.0  TV-MA  2 Seasons   
2  September 24, 2021  

In [56]:
# Transformación
# Asegurarse de que show_id es string antes de reemplazar
df['show_id'] = df['show_id'].astype(str)
# Quitar la "s" del show_id, eliminar cualquier carácter no numérico y luego limpiar la columna
df['show_id'] = df['show_id'].str.replace('s', '', regex=False)  # Quita la "s"
df['show_id'] = pd.to_numeric(df['show_id'], errors='coerce')  # Convierte a numérico, convierte no convertibles a NaN
df.dropna(subset=['show_id'], inplace=True)  # Elimina filas donde show_id es NaN
df['show_id'] = df['show_id'].astype(int)  # Convierte de nuevo a entero

print(df.head())


   show_id     type                  title         director  \
0        1    Movie   Dick Johnson Is Dead  Kirsten Johnson   
1        2  TV Show          Blood & Water              NaN   
2        3  TV Show              Ganglands  Julien Leclercq   
3        4  TV Show  Jailbirds New Orleans              NaN   
4        5  TV Show           Kota Factory              NaN   

                                          movie_cast        country  \
0                                                NaN  United States   
1  Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...   South Africa   
2  Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...            NaN   
3                                                NaN            NaN   
4  Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...          India   

           date_added  release_year rating   duration  \
0  September 25, 2021        2020.0  PG-13     90 min   
1  September 24, 2021        2021.0  TV-MA  2 Seasons   
2  September 24, 2021  

In [43]:
# Limpiar encabezados vacíos y eliminar columnas innecesarias
df.columns = df.columns.str.strip()  # Elimina espacios en blanco en los encabezados
df = df.loc[:, df.columns.notnull()]  # Elimina columnas con encabezados vacíos


In [44]:
# Convertir la columna de fecha
if 'date_added' in df.columns:
    df['date_added'] = pd.to_datetime(df['date_added'], errors='coerce')  # Convierte a fecha, convierte errores a NaT


In [57]:

# Ajustar columnas según la estructura de la tabla shows
df = df[['show_id', 'type', 'title', 'director', 'movie_cast', 'country', 'date_added', 'release_year', 'rating', 'duration', 'listed_in', 'description']]
df.columns = ['show_id', 'type', 'title', 'director', 'movie_cast', 'country', 'date_added', 'release_year', 'rating', 'duration', 'listed_in', 'description']


In [63]:
# Carga
engine = create_engine(DATABASE_URI)

try:
    with engine.connect() as conn:
        conn.execute(text("DROP TABLE IF EXISTS show_actors CASCADE"))
        conn.execute(text("DROP TABLE IF EXISTS show_genres CASCADE"))
        conn.execute(text("DROP TABLE IF EXISTS shows CASCADE"))

    # Ahora carga los datos
    df.to_sql('shows', engine, if_exists='replace', index=False)

    print("Datos importados exitosamente a la tabla 'shows'.")
except SQLAlchemyError as e:
    print(f"Error: {e}")

Datos importados exitosamente a la tabla 'shows'.


In [68]:
# Extraer y limpiar datos de directores
directors = df[['director']].drop_duplicates().reset_index(drop=True)
directors.columns = ['name']  # Asegurarse de que la columna tenga el nombre correcto
directors = directors.dropna()  # Eliminar registros nulos

# Cargar datos de directores
try:
    directors.to_sql('directors', engine, if_exists='append', index=False)
    print("Datos de directores importados exitosamente.")
except SQLAlchemyError as e:
    print(f"Error al importar datos de directores: {e}")

Datos de directores importados exitosamente.


In [69]:
# Extraer y limpiar datos de actores
actor_entries = df['movie_cast'].str.split(',', expand=True).stack().str.strip().reset_index(level=1, drop=True)
actors = pd.DataFrame(actor_entries, columns=['name']).drop_duplicates().reset_index(drop=True)
actors = actors.dropna()  # Eliminar registros nulos

# Cargar datos de actores
try:
    actors.to_sql('actors', engine, if_exists='append', index=False)
    print("Datos de actores importados exitosamente.")
except SQLAlchemyError as e:
    print(f"Error al importar datos de actores: {e}")


Datos de actores importados exitosamente.


In [71]:
# Extraer y limpiar datos de géneros
genre_entries = df['listed_in'].str.split(',', expand=True).stack().str.strip().reset_index(level=1, drop=True)
genres = pd.DataFrame(genre_entries, columns=['name']).drop_duplicates().reset_index(drop=True)
genres = genres.dropna()  # Eliminar registros nulos

# Cargar datos de géneros
try:
    genres.to_sql('genres', engine, if_exists='append', index=False)
    print("Datos de géneros importados exitosamente.")
except SQLAlchemyError as e:
    print(f"Error al importar datos de géneros: {e}")


Datos de géneros importados exitosamente.


In [73]:
# Extraer y limpiar datos de show_actors
show_actors = df[['show_id', 'movie_cast']]
show_actors = show_actors.dropna()  # Eliminar registros nulos
show_actors = show_actors.set_index('show_id')['movie_cast'].str.split(',', expand=True).stack().reset_index(level=1, drop=True).reset_index()
show_actors.columns = ['show_id', 'name']
actors = pd.read_sql_table('actors', engine)  # Obtener el dataframe de actores desde la base de datos
show_actors = show_actors.merge(actors, on='name', how='left')
show_actors = show_actors[['show_id', 'actor_id']].dropna(subset=['actor_id'])  # Eliminar registros con actor_id nulo

# Cargar datos en la tabla show_actors
try:
    show_actors.to_sql('show_actors', engine, if_exists='append', index=False)
    print("Datos de show_actors importados exitosamente.")
except SQLAlchemyError as e:
    print(f"Error al importar datos de show_actors: {e}")


Datos de show_actors importados exitosamente.


In [74]:
# Extraer y limpiar datos de show_genres
show_genres = df[['show_id', 'listed_in']]
show_genres = show_genres.dropna()  # Eliminar registros nulos
show_genres = show_genres.set_index('show_id')['listed_in'].str.split(',', expand=True).stack().reset_index(level=1, drop=True).reset_index()
show_genres.columns = ['show_id', 'name']
genres = pd.read_sql_table('genres', engine)  # Obtener el dataframe de géneros desde la base de datos
show_genres = show_genres.merge(genres, on='name', how='left')
show_genres = show_genres[['show_id', 'genre_id']].dropna(subset=['genre_id'])  # Eliminar registros con genre_id nulo

# Cargar datos en la tabla show_genres
try:
    show_genres.to_sql('show_genres', engine, if_exists='append', index=False)
    print("Datos de show_genres importados exitosamente.")
except SQLAlchemyError as e:
    print(f"Error al importar datos de show_genres: {e}")


Datos de show_genres importados exitosamente.
