1. Preparar datos para enviarlos a la base de datos. 
    - Separar datos agrupados (habrá que asignarles ID?)
    - Exportarlos en csv para leerlos en postgreSQL

# Conexión a BD
## Actividad 5 
### Actividad 5
    1. Deberán generar una instancia de conexión a Base de datos preferiblemente PostgreSQL donde deberá existir el dataset elegido para el proyecto.
    2. Se deben realizar consultas SQL desde el lenguaje Python utilizando las librerías (psycopg2 o sqlalchemy) y quedar evidenciadas en el archivo .ipynb que se entregue

# Desarrollo

## Planificación
Se planea crear una tabla por cada columna. 
### 1. Preparación de los datos
    Se encontraron dos problemáticas con respecto a subir el csv directamente a la base de datos: 
        A. Existen datos que están agrupados en una misma fila. 
        B. Existen datos que serían mejor en formatos distintos a Texto (fecha).
    Debido a esto, se planea hacer lo siguiente: 
        A. Separar los datos agrupados por valores únicos para poder construir una tabla caracteristica de ellos. 
        B. Procesar los datos de Texto a Fecha o Número para un mejor registro. 
        C. Tratar de categorizar los datos categorizables. 
### 2. Creación de la instancia de base de datos. (en preparación)
### 3. Consultas a la base de datos. (en preparación)

## Desarrollo técnico. 
### 1. Preparación de los datos

In [2]:
#Inicialización
import warnings
import pandas as pd
#import matplotlib as m
#import matplotlib.pyplot as plt
#import plotly.graph_objects as go
#import seaborn as sns
#import plotly as pl
import psycopg2 as psy
import sqlalchemy as sql

#Lectura del archivo y confirmación de contenido

tabla=pd.read_csv('anime.csv',sep=',',encoding='utf-8')
tabla.head(5)

Unnamed: 0,MAL_ID,Name,Score,Genres,English name,Japanese name,Type,Episodes,Aired,Premiered,...,Score-10,Score-9,Score-8,Score-7,Score-6,Score-5,Score-4,Score-3,Score-2,Score-1
0,1,Cowboy Bebop,8.78,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",Cowboy Bebop,カウボーイビバップ,TV,26,"Apr 3, 1998 to Apr 24, 1999",Spring 1998,...,229170.0,182126.0,131625.0,62330.0,20688.0,8904.0,3184.0,1357.0,741.0,1580.0
1,5,Cowboy Bebop: Tengoku no Tobira,8.39,"Action, Drama, Mystery, Sci-Fi, Space",Cowboy Bebop:The Movie,カウボーイビバップ 天国の扉,Movie,1,"Sep 1, 2001",Unknown,...,30043.0,49201.0,49505.0,22632.0,5805.0,1877.0,577.0,221.0,109.0,379.0
2,6,Trigun,8.24,"Action, Sci-Fi, Adventure, Comedy, Drama, Shounen",Trigun,トライガン,TV,26,"Apr 1, 1998 to Sep 30, 1998",Spring 1998,...,50229.0,75651.0,86142.0,49432.0,15376.0,5838.0,1965.0,664.0,316.0,533.0
3,7,Witch Hunter Robin,7.27,"Action, Mystery, Police, Supernatural, Drama, ...",Witch Hunter Robin,Witch Hunter ROBIN (ウイッチハンターロビン),TV,26,"Jul 2, 2002 to Dec 24, 2002",Summer 2002,...,2182.0,4806.0,10128.0,11618.0,5709.0,2920.0,1083.0,353.0,164.0,131.0
4,8,Bouken Ou Beet,6.98,"Adventure, Fantasy, Shounen, Supernatural",Beet the Vandel Buster,冒険王ビィト,TV,52,"Sep 30, 2004 to Sep 29, 2005",Fall 2004,...,312.0,529.0,1242.0,1713.0,1068.0,634.0,265.0,83.0,50.0,27.0


Despues de un análisis de comportamiento de los datos columna a columna, se llegó a la conclusión de que se van a procesar las siguientes columnas: 

    - Deconstruir en valores únicos: 
        Licensors
        Producers
        Genres
        Studios

    - Procesar: 
        Aired -> a fecha dividido en dos
        Duration -> a float en minutos


Tablas planificadas: 
- animeBase (archivo base)
- Anime: *Tabla de caracterización de los animes*
    - id (int)
    - name (varchar)
    - score (float)
    - english name (varchar)
    - japanese name (varchar)
    - episodes (int)
    - airedInit (date)
    - airedEnd (date)
    - premiered (float)
    - typeId (int)
    - sourceId (int)
    - durationMinutes (float)
    - rateId (int)
    - ranked (int)
    - popularity (int)
    - members (int)
    - favorites (int)
    - watching (int)
    - completed (int)
    - onHold (int)
    - dropped (int)
    - planToWatch (int)
    - score10 (int)
    - score9 (int)
    - score8 (int)
    - score7 (int)
    - score6 (int)
    - score5 (int)
    - score4 (int)
    - score3 (int)
    - score2 (int)
    - score1 (int)

- Genres: 
    - id (int)
    - genre (valores únicos) (varchar)

- AnimeGenre: *Tabla relación* 
    - id (int)
    - animeId (int)
    - genreId (int)

- Type: 
    - id (int)
    - type (varchar)

- Producers: 
    - id (int)
    - producer (valores únicos) (varchar)

- AnimeProducer: *Tabla relación* 
    - id (int)
    - animeId (int)
    - producerId (int)

- Licensors: 
    - id (int)
    - licensor (valores únicos) (varchar)

- AnimeLicensor: *Tabla relación* 
    - id (int)
    - animeId (int)
    - licensorId (int)

- Studios: 
    - id (int)
    - studio (valores únicos) (varchar)

- AnimeStudio: *Tabla relación* 
    - id (int)
    - animeId (int)
    - studioId (int)

- Source 
    - id (int)
    - source (varchar)

- Rating
    - id (int)
    - rate (varchar)


Ahora vamos a preparar la información para enviar a las primeras tablas: 
- Rating
- Sources
- Studios
- Licensors
- Producers
- TypeAnime
- Genres   

Hay un preprocesamiento para las siguientes: Genres, Producers, Licensors, Studios.  
Mientras que hay que sacar los valores únicos de las siguientes: Rating, Sources, TypeAnime

In [3]:
#Sacando información de Genres, Producers, Licensors, Studios.

#Tomado de las actividades 3 y 4  y modificado para este caso. 
warnings.filterwarnings("ignore")
#Limpieza de datos: Deconstrucción
#Nota: Debido a que este proceso es de caracterización, se incluyen desconocidos y aquellos con puntaje desconocido. Es esperado que el número sea mayor. 

#Método que procesa el dataframe para no repetir código
def deconstruir(dataframe, column, line): #Se recibe dataframe objetivo, columna a procesar y linea base
  #Deconstruimos si es necesario entre los que se encuentren
  temp = line.split(",")
  for j in range(len(temp)): temp[j]=temp[j].strip() #Se eliminan vacios

  for item in temp: #Por cada productor del registro
    if ((dataframe == item).any().any()) == False: #Si no se encuentra
        dataframe = pd.concat([dataframe, pd.DataFrame([{column : item }])], ignore_index=True) #Se agrega
  return dataframe


#Se trabajará con dataframe para almacenar los datos de interés para las tres categorías
producerdf = pd.DataFrame(columns=['Producer'])
genredf = pd.DataFrame(columns=['Genre'])
studiodf = pd.DataFrame(columns=['Studio'])
licensordf = pd.DataFrame(columns=['Licensors'])

#Para cada uno de los registros
for i in range(len(tabla)):
    producerdf = deconstruir(producerdf, 'Producer', tabla['Producers'][i])
    genredf = deconstruir(genredf, 'Genre', tabla['Genres'][i])
    studiodf = deconstruir(studiodf, 'Studio', tabla['Studios'][i])
    licensordf = deconstruir(licensordf, 'Licensors', tabla['Licensors'][i])

In [88]:
#Para el procesamiento de Aired y Duration

#Tomado de las actividades 3 y 4  y modificado para este caso. 
warnings.filterwarnings("ignore")
#Limpieza de datos: Procesamiento

#Método para procesar el tiempo de duración a float
def procesarDateToFloat(line, episodes): #Se recibe la linea base a procesar y la cantidad de episodios
  if (line == 'Unknown'): #Si es desconocido, se deja en 0. 
      return 0
  else:
      if (episodes == 'Unknown'): #Si no se sabe cuantos episodios tuvo
          epis = 0 #Se asume que tuvo al menos uno
      else: #Sino 
          epis = int(episodes) #Se usa el número de episodios
      #Deconstruimos si es necesario entre los que se encuentren
      dur = line.split(" ")
      duration = 0 #Variable para colocar la duración en minutos
            #Hay varios casos aquí: 
            #1 Cuando es en segundos "x sec."
            #2 Cuando es en segundos por episodios "x sec. per ep."
            #3 Cuando es en minutos "x min."
            #4 Cuando es en minutos por episodios "x min. per ep."
            #5 Cuando es en horas "x hr."
            #6 Cuando es en horas y minutos "x hr. x min."

      if dur[1] == "sec.": #Si es por segundos
            duration = float(dur[0]) / 60 #Se divide el valor en 60 para volverlo minutos. 
            #Queda validado caso 1
      elif dur[1] == "min.": #Sino, se valida si es por minutos
            duration = float(dur[0]) #Se deja el valor en minutos
            #Queda validado caso 3
      else: #Sino, es por horas
            duration = float(dur[0]) * 60 #Se multiplica el valor por 60 para volverlo minutos
            #Queda validado caso 5

      if len(dur) > 2: #Si el tamaño es mayor a 2, es porque es una duración compuesta
            if dur[-1] == "ep.": #Si se divide por episodios, se validan casos 2 y 4
                  duration = duration * epis #Se multiplica por la cantidad de episodios
                  #Quedan validados casos 2 y 4
            elif dur[-1] == "min.": #Si se divide en horas y minutos, se valida caso 6
                  duration = duration + float(dur[2]) #Se suman los minutos
      return duration

#Para procesar hacia el formato fecha

#Para los meses
def monthsToStr(argument):
    switcher = {
        'Jan': "01",
        'Feb': "02",
        'Mar': "03",
        'Apr': '04',
        'May': '05',
        'Jun': '06',
        'Jul': '07',
        'Aug': '08',
        'Sep': '09',
        'Oct': '10',
        'Nov': '11',
        'Dec': '12'
    }
    return switcher.get(argument, '0')

#Metodo para procesar dates de Aired
def procesarDateToSQLDate(line): #Se recibe linea a procesar
     ret = []
     if (line == 'Unknown'): #Si no se sabe cuando fue, se devuelve 0
      ret.append('1900-01-01') #Fecha en la que el anime no existia
     else:
      date = line.split("to") #Se deconstruye si es necesario
      for j in range(len(date)): date[j]=date[j].strip() #Se eliminan vacios
      for j in range(len(date)): #Por cada fecha
            if (date[j] == '?'): #Si no se sabe cuando fue, se devuelve 0
                  ret.append('1900-01-01') #Fecha en la que el anime no existia
            else:
                 temp = date[j].split(" ") #Se deconstruye la fecha
                 str = temp[-1] #Se concatena el año que siempre es el último
                 if (len(temp) == 3): #Si tiene tamaño de 3, tiene día
                      str = str + '-' + monthsToStr(temp[0]) #Se obtiene el mes que es el primero
                      if (len(temp[1])==2): #Si tiene un solo dígito
                        str = str + '-0' + temp[1].replace(',', '') #Se concatena el día sin la coma y un 0
                      else: #Sino, tiene dos digitos y se agrega tal cual
                        str = str + '-' + temp[1].replace(',', '') #Se concatena el día sin la coma
                 else: #Sino, o solo tiene mes y año o solo tiene año
                     if (len(temp) == 2): #solo tiene mes y debe procesarse el mes con la coma
                        str = str + '-' + monthsToStr(temp[0].replace(',', '')) #Se obtiene el mes que es el primero quitando la coma
                 ret.append(str)
     if len(ret) < 2:
      ret.append('1900-01-01')
     return ret




In [5]:
#Sacando información de Rating, Sources, TypeAnime
#Vamos a sacar los valores únicos a otro dataframe
Ratingdf = pd.DataFrame(columns=['Rating'])
Sourcesdf = pd.DataFrame(columns=['Sources'])
Typedf = pd.DataFrame(columns=['Type'])
#((dataframe == item).any().any())
for i in range(len(tabla)): #para cada fila
    if ((Ratingdf == tabla['Rating'][i]).any().any()) == False: #Si no está en el dataframe
        Ratingdf = pd.concat([Ratingdf, pd.DataFrame([{'Rating' : tabla['Rating'][i] }])], ignore_index=True) #Se agrega
    if ((Sourcesdf == tabla['Source'][i]).any().any()) == False: #Si no está en el dataframe
        Sourcesdf = pd.concat([Sourcesdf, pd.DataFrame([{'Sources' : tabla['Source'][i] }])], ignore_index=True) #Se agrega
    if ((Typedf == tabla['Type'][i]).any().any()) == False: #Si no está en el dataframe
        Typedf = pd.concat([Typedf, pd.DataFrame([{'Type' : tabla['Type'][i] }])], ignore_index=True) #Se agrega




## Conexión a base de datos

### Conexión inicial

Ahora vamos a hacer la conexión a base de datos para enviar dicha información

In [6]:
from sqlalchemy import create_engine
import os
from dotenv import load_dotenv, find_dotenv
import psycopg2

In [7]:
#Lo único que me funcionó: https://stackoverflow.com/questions/50355487/environment-variable-coming-up-as-none-using-dotenv-python
load_dotenv('security.env')

True

In [8]:
# cargar variables de entorno .env
usuario = os.getenv("DB_USER")
contrasena = os.getenv("DB_PASSWORD")
puerto = os.getenv('PORT')
hostname = os.getenv("hostname")
database = os.getenv("database")

In [9]:
engine= create_engine(f"postgresql://{usuario}:{contrasena}@localhost:{puerto}/{database}")
engine

Engine(postgresql://postgres:***@localhost:5432/anime_datascience)

Conexión a base de datos hecha

### Llenar tablas

In [16]:
#Exportar como csv
Ratingdf.to_csv("Rating.csv", sep=';')
Sourcesdf.to_csv("Source.csv", sep=';')
Typedf.to_csv("TypeAnime.csv", sep=';')

genredf.to_csv("Genres.csv", sep=';')
producerdf.to_csv("Producers.csv", sep=';')
studiodf.to_csv("Studios.csv", sep=';')
licensordf.to_csv("Licensors.csv", sep=';')

In [10]:
#Tomando el url actual
import pathlib
url = pathlib.Path().absolute()

In [11]:
#Pasar a sql.

pd.read_csv('Rating.csv').to_sql('rating', engine, if_exists='replace', index=False)
pd.read_csv('Source.csv').to_sql('sources', engine, if_exists='replace', index=False)
pd.read_csv('TypeAnime.csv').to_sql('typeAnime', engine, if_exists='replace', index=False)

pd.read_csv('Genres.csv').to_sql('genres', engine, if_exists='replace', index=False)
pd.read_csv('Producers.csv').to_sql('producers', engine, if_exists='replace', index=False)
pd.read_csv('Studios.csv').to_sql('studios', engine, if_exists='replace', index=False)
pd.read_csv('Licensors.csv').to_sql('licensors', engine, if_exists='replace', index=False)

InternalError: (psycopg2.errors.DependentObjectsStillExist) no se puede eliminar tabla genres porque otros objetos dependen de él
DETAIL:  restricción «animegenre_genreid_fkey» en tabla animegenre depende de tabla genres
HINT:  Use DROP ... CASCADE para eliminar además los objetos dependientes.

[SQL: 
DROP TABLE genres]
(Background on this error at: https://sqlalche.me/e/20/2j85)

Se va a dejar ese error ahí para explicar que ya se ha creado las tablas con las llaves foraneas previamente en la base de datos, por lo que se deberá ingresar manualmente la información a las tablas. 
Se usarán los archivos csv para ello. 

In [98]:
from sqlalchemy import text
def runQuery(sql):
    result = engine.connect().execute((text(sql)))
    return pd.DataFrame(result.fetchall(), columns=result.keys())
    
query="""
select * from typeAnime
"""
runQuery(query)

Unnamed: 0,typeanimeid,typeanime
0,0,TV
1,1,Movie
2,2,OVA
3,3,Special
4,4,ONA
5,5,Music
6,6,Unknown


Hecho. 

In [91]:
#Haciendo el dataframe general
datos = pd.DataFrame(columns=['name','score','englishName','japaneseName','episodes','airedInit','airedEnd','premiered','typeId','sourceId','durationMinutes','rateId','ranked',
                              'popularity','members','favorites','watching','completed','onHold','dropped','planToWatch','score10','score9','score8','score7','score6','score5',
                              'score4','score3','score2','score1'])
for i in range(len(tabla)): #Por cada fila
    #print(i)
    #print(tabla['Aired'][i])
    datos = pd.concat([datos, pd.DataFrame([{'name' : tabla['Name'][i], 'score' : tabla['Score'][i],
                                             'englishName' : tabla['English name'][i],
                                             'japaneseName' : tabla['Japanese name'][i],
                                             'episodes' : tabla['Episodes'][i],
                                             'airedInit' : (procesarDateToSQLDate(tabla['Aired'][i]))[0], 
                                             'airedEnd' : (procesarDateToSQLDate(tabla['Aired'][i]))[1],
                                             'premiered' : tabla['Premiered'][i],
                                             'typeId' : tabla['Type'][i],
                                             'sourceId' : tabla['Source'][i],
                                             'durationMinutes' : procesarDateToFloat(tabla['Duration'][i], tabla['Episodes'][i]),
                                             'rateId' : tabla['Rating'][i],
                                             'ranked' : tabla['Ranked'][i],
                                             'popularity' : tabla['Popularity'][i],
                                             'members' : tabla['Members'][i],
                                             'favorites' : tabla['Favorites'][i],
                                             'watching' : tabla['Watching'][i],
                                             'completed' : tabla['Completed'][i],
                                             'onHold' : tabla['On-Hold'][i],
                                             'dropped' : tabla['Dropped'][i],
                                             'planToWatch' : tabla['Plan to Watch'][i],
                                             'score10' : tabla['Score-10'][i],
                                             'score9' : tabla['Score-9'][i],
                                             'score8' : tabla['Score-8'][i],
                                             'score7' : tabla['Score-7'][i],
                                             'score6' : tabla['Score-6'][i],
                                             'score5' : tabla['Score-5'][i],
                                             'score4' : tabla['Score-4'][i],
                                             'score3' : tabla['Score-3'][i],
                                             'score2' : tabla['Score-2'][i],
                                             'score1' : tabla['Score-1'][i]
                                             }])], ignore_index=True) #Se agrega

In [94]:
datos.head()

Unnamed: 0,name,score,englishName,japaneseName,episodes,airedInit,airedEnd,premiered,typeId,sourceId,...,score10,score9,score8,score7,score6,score5,score4,score3,score2,score1
0,Cowboy Bebop,8.78,Cowboy Bebop,カウボーイビバップ,26,1998-04-03,1999-04-24,Spring 1998,TV,Original,...,229170.0,182126.0,131625.0,62330.0,20688.0,8904.0,3184.0,1357.0,741.0,1580.0
1,Cowboy Bebop: Tengoku no Tobira,8.39,Cowboy Bebop:The Movie,カウボーイビバップ 天国の扉,1,2001-09-01,1900-01-01,Unknown,Movie,Original,...,30043.0,49201.0,49505.0,22632.0,5805.0,1877.0,577.0,221.0,109.0,379.0
2,Trigun,8.24,Trigun,トライガン,26,1998-04-01,1998-09-30,Spring 1998,TV,Manga,...,50229.0,75651.0,86142.0,49432.0,15376.0,5838.0,1965.0,664.0,316.0,533.0
3,Witch Hunter Robin,7.27,Witch Hunter Robin,Witch Hunter ROBIN (ウイッチハンターロビン),26,2002-07-02,2002-12-24,Summer 2002,TV,Original,...,2182.0,4806.0,10128.0,11618.0,5709.0,2920.0,1083.0,353.0,164.0,131.0
4,Bouken Ou Beet,6.98,Beet the Vandel Buster,冒険王ビィト,52,2004-09-30,2005-09-29,Fall 2004,TV,Manga,...,312.0,529.0,1242.0,1713.0,1068.0,634.0,265.0,83.0,50.0,27.0


In [95]:
#Exportar como csv
datos.to_csv("DatosProcesados.csv", sep=';')

Conexión a base de datos