# Exploración general del archivo propuesto 

Inicialmente para poder construir el modelo se debe conocer la información que proviene de la base de datos, en este caso el archivo csv nombrado *netflix_titles.csv*, para esto se utilizará la librería de pandas

In [1]:
# En caso de no estar activo se activa el entorno virtual 
!.\venv\Scripts\activate

In [2]:
# Se realiza el cargue de las librerías necesarias 
import pandas as pd #Transformacion de datos 
import os # Estandarización de urls para correcta ejecución en cualquier dispositivo

In [3]:
# Se identifica ubicación del repositorio
user = os.getcwd()
path_data = rf"{user}\00 Inputs\netflix_titles.csv"

# Se realiza el cargue de la información
df = pd.read_csv(path_data, encoding = 'latin1')

In [4]:
# Se verifican encabezados de los datos
df. head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,...,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,...,,,,,,,,,,
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,...,,,,,,,,,,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,...,,,,,,,,,,
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,...,,,,,,,,,,
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,...,,,,,,,,,,


In [5]:
# Se eliminan columnas que no contiene nada de informacion
df_cleaned = df.dropna(axis=1, how='all')

In [None]:
df_cleaned.head()

Una vez se inspecciona toda la información se procede a realizar las tablas de Dimension y las tablas de Hecho para la construcción de la base de datos teniendo en cuenta el siguiente modelo entidad relación. 

![Modelo Entidad Relacion](modeloER.png)

# Creación de la Base de Datos 

Debido a que en el computador que estoy utilizando en este momento no tengo la posibilidad de instalar PostgreSQL, para la resolución del ejercicio se propone utilizar Duckdb ya que además utiliza el mismo lenguaje SQL que Postgres y tambien es gratuita. 

In [6]:
# Activacion del entorno 
!.\venv\Scripts\activate

In [7]:
# Se realiza la importacion de la libreria
import duckdb

In [8]:
# Crear una conexión a una base de datos persistente
con = duckdb.connect('my_database.db')

### Se realiza la creación de las tablas que componen el modelo

In [9]:
# Crear la tabla FactShows
con.execute('''
CREATE TABLE IF NOT EXISTS FactShows (
    show_id STRING,
    type_id INTEGER,
    title STRING,
    cast_id INTEGER,
    country_id INTEGER,
    date_added DATE,
    release_year INTEGER,
    rating STRING,
    duration STRING,
    genre_id INTEGER,
    description STRING
)
''')

# Crear la tabla DimCast
con.execute('''
CREATE TABLE IF NOT EXISTS DimCast (
    cast_id INTEGER PRIMARY KEY,
    elenco STRING,
    type STRING
)
''')

# Crear la tabla DimDate
con.execute('''
CREATE TABLE IF NOT EXISTS DimDate (
    date DATE PRIMARY KEY,
    day INTEGER,
    month STRING,
    year INTEGER
)
''')

# Crear la tabla DimCountries
con.execute('''
CREATE TABLE IF NOT EXISTS DimCountries (
    country_id INTEGER PRIMARY KEY,
    country STRING
)
''')

# Crear la tabla DimGenres
con.execute('''
CREATE TABLE IF NOT EXISTS DimGenres (
    genre_id INTEGER PRIMARY KEY,
    name STRING
)
''')

# Crear la tabla DimShowType
con.execute('''
CREATE TABLE IF NOT EXISTS DimShowType (
    type_id INTEGER PRIMARY KEY,
    type STRING
)
''')

# Verificar que las tablas se han creado correctamente
print(con.execute('SHOW TABLES').fetchall())


[('DimCast',), ('DimCountries',), ('DimDate',), ('DimGenres',), ('DimShowType',), ('FactShows',)]


In [10]:
# Se cierra la conexión
con.close()