# 3.2 - Postgres

[download](https://www.postgresql.org/download/)

![postgres](images/postgres.png)


$$$$


PostgreSQL, o simplemente Postgres, es un sistema de código abierto de administración de bases de datos del tipo relacional, aunque también es posible ejecutar consultas que sean no relaciones. En este sistema, las consultas relacionales se basan en SQL, mientras que las no relacionales hacen uso de JSON.

Como decíamos, se trata de un sistema de código abierto y además gratuito, y su desarrollo es llevado adelante por una gran comunidad de colaboradores de todo el mundo que día a día ponen su granito de arena para hacer de este sistema una de las opciones más sólidas a nivel de bases de datos.

Dos detalles a destacar de PostgreSQL es que posee data types (tipos de datos) avanzados y permite ejecutar optimizaciones de rendimiento avanzadas, que son características que por lo general solo se ven en sistemas de bases de datos comerciales, como por ejemplo SQL Server de Microsoft u Oracle de la compañía homónima.


### Características
Siendo uno de los sistemas de bases de datos más avanzados y usados del mundo, es obvio que PostgreSQL debe tener algunas características bastante llamativas, así que vamos a echarle un vistazo a algunas de ellas.

+ **Es de código abierto:** una de las principales razones por la cual PostgreSQL se ha vuelto tan popular es que se trata de un sistema de código abierto. Esto ha permitido que una gran comunidad de desarrolladores crezca para respaldarlo y continuar mejorándolo. Gracias a todo el apoyo con el que cuenta ha logrado transformarse en uno de los mejores gestores de bases de datos a nivel mundial.
+ **Es gratuito:** como cabe esperarse se trata de un sistema totalmente gratis, no tenemos que pagar nada por utilizarlo. Cualquier persona es libre de descargar PostgreSQL desde su sitio web oficial y darle uso sin ningún costo.
+ **Es multiplataforma:** una característica genial que de hecho es común en muchos grandes proyectos de código abierto es el hecho de que se trata de software multiplataforma, es decir, es un software que puede correr bajo distintos entornos y sistemas operativos, y es compatible con muchos de los servidores web más populares como Apache, Nginx y LiteSpeed por mencionar algunos.
+ **Es fácil de usar:** la facilidad de uso de PostgreSQL es sin dudas otra de las principales características de este sistema. Su administración se vuelve muy sencilla por medio de paneles con PgAdmin, que básicamente viene a ser un phpMyAdmin orientado para PostgreSQL. La posibilidad de realizar diversos procedimientos en forma sencilla hacen que PgAdmin sea ampliamente utilizado, aunque también permite realizar tareas más complejos, así que tanto novatos como usuarios expertos hacen uso de él.
+ **Puede manejar un gran volumen de datos:** una característica extremadamente importante de PostgreSQL es su gran capacidad para el manejo de grandes volúmenes de datos, algo en lo que otros sistemas como MySQL aún no hacen tan bien. Las bases de datos de gran tamaño pueden hacer pleno uso del MVCC de PostgreSQL, resultando en un gran rendimiento. MVCC es un método de control que nos permite realizar tareas de escritura y lectura simultáneamente.
+ **Soporte total de ACID:** otro punto muy importante que no se debe dejar de lado es el cumplimiento de ACID. ¿Qué es ACID? Estas siglas en inglés refieren a: atomicity, consistency, isolation y durability, que si lo traducimos al español básicamente hablan de la atomicidad, consistencia, aislamiento y durabilidad de las transacciones que se realizan en una base de datos. ¿Y por qué es tan importante? Porque tener soporte completo de ACID da la seguridad de que, si se produce una falla durante una transacción, los datos no se perderán ni terminarán donde no deban.


### DBeaver

![dbeaver](images/dbeaver.png)

DBeaver es una aplicación de software cliente de SQL y una herramienta de administración de bases de datos. Para las bases de datos relacionales, utiliza la interfaz de programación de aplicaciones (API) JDBC para interactuar con las bases de datos a través de un controlador JDBC. Para otras bases de datos (NoSQL) utiliza controladores de bases de datos propietarios. Proporciona un editor que soporta el autocompletado de código y el resaltado de sintaxis. Proporciona una arquitectura de plugins (basada en la arquitectura de plugins de Eclipse) que permite a los usuarios modificar gran parte del comportamiento de la aplicación para proporcionar funcionalidad o características específicas de la base de datos que son independientes de la base de datos. Esta es una aplicación de escritorio escrita en Java y basada en la plataforma Eclipse.

La community edition (CE) de DBeaver es un software libre y de código abierto que se distribuye bajo la Apache License. Una edición empresarial de código cerrado de DBeaver se distribuye bajo una licencia comercial.

Es el Workbench de Postgres.

### Cargando datos

sudo -u usuario createdb nombre_db

In [None]:
# driver

%pip install psycopg2-binary

In [1]:
import pandas as pd

datos=pd.read_csv('../data/apple_store.csv')

datos.head()

Unnamed: 0,id,track_name,size_bytes,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,prime_genre
0,281656475,PAC-MAN Premium,100788224,3.99,21292,26,4.0,4.5,Games
1,281796108,Evernote - stay organized,158578688,0.0,161065,26,4.0,3.5,Productivity
2,281940292,"WeatherBug - Local Weather, Radar, Maps, Alerts",100524032,0.0,188583,2822,3.5,4.5,Weather
3,282614216,"eBay: Best App to Buy, Sell, Save! Online Shop...",128512000,0.0,262241,649,4.0,4.5,Shopping
4,282935706,Bible,92774400,0.0,985920,5320,4.5,5.0,Reference


In [2]:
from sqlalchemy import create_engine

In [3]:
# lenguaje+driver://usuario:password@servidor:puerto/database


str_conn = 'postgresql+psycopg2://iudh:password@localhost:5432/apps'


cursor = create_engine(str_conn)

In [4]:
datos.to_sql(name='ratings', con=cursor, if_exists='replace', index=False)

197

In [5]:
df = pd.read_sql('select * from ratings limit 2;', cursor)

df

Unnamed: 0,id,track_name,size_bytes,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,prime_genre
0,281656475,PAC-MAN Premium,100788224,3.99,21292,26,4.0,4.5,Games
1,281796108,Evernote - stay organized,158578688,0.0,161065,26,4.0,3.5,Productivity


**con OOP**

In [6]:
from sqlalchemy import create_engine, Column, Float, Integer, JSON, DateTime, Text   # plantillas de tipos de dato

from sqlalchemy.orm import sessionmaker   # sesion de usuario, x ej para hacer un commit

from sqlalchemy.ext.declarative import declarative_base    # plantilla de tabla


from sqlalchemy import DDL   # Data Definition Languaje


In [7]:
# crear tablas como objetos, heredan de la base

Base = declarative_base()   # tabla standard, el molde, la plantilla

In [8]:
class Articles(Base):    # tabla custom, hereda de la base
    
    __tablename__ = 'articles'
    __table_args__= {'schema': 'apps'}
    
    _id = Column(Integer(), primary_key=True)  #, autoincrement=True)
    prime_genre = Column(Text())
    rating_count_tot = Column(Text())
    user_rating_ver = Column(Text())
    json = Column(JSON())

In [9]:
class Tabla2(Base):    # tabla custom, hereda de la base
    
    __tablename__ = 'articles2'
    __table_args__= {'schema': 'apps'}
    
    _id = Column(Integer(), primary_key=True)  #, autoincrement=True)
    prime_genre = Column(Text())
    rating_count_tot = Column(Text())
    user_rating_ver = Column(Text())
    json = Column(JSON())

In [10]:
#help(Tabla2)

In [36]:
class Prueba:
    
    
    def __init__(self, str_conn, database):
        
        self.cursor = create_engine(str_conn)
        
        self.sesion = sessionmaker(bind=self.cursor)()   # sesion activa de usuario
        
        self.cursor.execute(DDL(f'create schema if not exists {database};'))
        
        
        
    def crear_tabla(self, objeto_tabla):
        
        try:
            print('Creando tabla.....')
            objeto_tabla.__table__.create(self.cursor)
            
        except:
            print('Tabla ya existe.')
            
            
    def borrar_tabla(self, objeto_tabla):
        
        try:
            print('Borrando tabla.....')
            objeto_tabla.__table__.drop(self.cursor)
            
        except:
            print('Tabla NO existe.')
            
            
            
            
    def rellenar_tabla(self, datos_df, objeto_tabla):
        
        #datos_df.to_sql(name=objeto_tabla.__tablename__, con = self.cursor)
        
        for e in datos_df.itertuples():
            
            
            item = objeto_tabla(_id=e[0],
                                prime_genre = e[1],
                                rating_count_tot = e[2],
                                user_rating_ver = e[3],
                                json = e[-1]
                               )
            
            
            # generalizacion
            #item = tabla(**e)
            
            
            #self.sesion.add(item)    # añade el elemnto, pero cuidao, puede ser duplicado
            self.sesion.merge(item)   # evita duplicados
            
            
        self.sesion.commit()    # machaca la base de datos
        print('Comiteado.')
        
        
    def mostrar_tabla(self, query='select * from apps.articles;'):
        return pd.read_sql(query, self.cursor)

In [37]:
datos=df[['id', 'prime_genre', 'rating_count_tot', 'user_rating_ver']]

datos['json']=[{'hola': 8, 'adios': 9} for _ in range(len(datos))]

datos.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  datos['json']=[{'hola': 8, 'adios': 9} for _ in range(len(datos))]


Unnamed: 0,id,prime_genre,rating_count_tot,user_rating_ver,json
0,281656475,Games,21292,4.5,"{'hola': 8, 'adios': 9}"
1,281796108,Productivity,161065,3.5,"{'hola': 8, 'adios': 9}"


In [38]:
str_conn='postgresql+psycopg2://iudh:password@127.0.0.1:5432/apps'

In [39]:
prueba = Prueba(str_conn, 'apps')

In [15]:
help(prueba)

Help on Prueba in module __main__ object:

class Prueba(builtins.object)
 |  Prueba(str_conn, database)
 |  
 |  Methods defined here:
 |  
 |  __init__(self, str_conn, database)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  borrar_tabla(self, objeto_tabla)
 |  
 |  crear_tabla(self, objeto_tabla)
 |  
 |  mostrar_tabla(self, query='select * from apps.articles;')
 |  
 |  rellenar_tabla(self, datos_df, objeto_tabla)
 |  
 |  ----------------------------------------------------------------------
 |  Data descriptors defined here:
 |  
 |  __dict__
 |      dictionary for instance variables (if defined)
 |  
 |  __weakref__
 |      list of weak references to the object (if defined)



In [16]:
prueba.borrar_tabla(Articles)

Borrando tabla.....


In [17]:
prueba.crear_tabla(Articles)

Creando tabla.....


In [18]:
prueba.mostrar_tabla()

Unnamed: 0,_id,prime_genre,rating_count_tot,user_rating_ver,json


In [19]:
prueba.rellenar_tabla(df, Articles)

Comiteado.


In [20]:
prueba.mostrar_tabla()

Unnamed: 0,_id,prime_genre,rating_count_tot,user_rating_ver,json
0,0,281656475,PAC-MAN Premium,100788224,3.99
1,1,281796108,Evernote - stay organized,158578688,0.0


In [22]:
prueba.mostrar_tabla('select * from apps.articles where _id<1;')

Unnamed: 0,_id,prime_genre,rating_count_tot,user_rating_ver,json
0,0,281656475,PAC-MAN Premium,100788224,3.99


In [23]:
prueba.crear_tabla(Tabla2)

Creando tabla.....
Tabla ya existe.


In [40]:
prueba.borrar_tabla(Tabla2)

Borrando tabla.....


In [41]:
prueba.crear_tabla(Tabla2)

Creando tabla.....


In [42]:
prueba.rellenar_tabla(datos, Tabla2)

Comiteado.


In [43]:
prueba.mostrar_tabla('select * from apps.articles2;')

Unnamed: 0,_id,prime_genre,rating_count_tot,user_rating_ver,json
0,0,281656475,Games,21292,"{'hola': 8, 'adios': 9}"
1,1,281796108,Productivity,161065,"{'hola': 8, 'adios': 9}"


In [44]:
data = prueba.mostrar_tabla('select * from apps.articles2;')

In [48]:
data['json'][0]['hola']

8

In [49]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   _id               2 non-null      int64 
 1   prime_genre       2 non-null      object
 2   rating_count_tot  2 non-null      object
 3   user_rating_ver   2 non-null      object
 4   json              2 non-null      object
dtypes: int64(1), object(4)
memory usage: 208.0+ bytes


In [50]:
prueba.mostrar_tabla('select json from apps.articles2;')

Unnamed: 0,json
0,"{'hola': 8, 'adios': 9}"
1,"{'hola': 8, 'adios': 9}"
