# 3.2 - Postgres

[download](https://www.postgresql.org/download/)

![postgres](images/postgres.png)


$$$$


PostgreSQL, o simplemente Postgres, es un sistema de código abierto de administración de bases de datos del tipo relacional, aunque también es posible ejecutar consultas que sean no relaciones. En este sistema, las consultas relacionales se basan en SQL, mientras que las no relacionales hacen uso de JSON.

Como decíamos, se trata de un sistema de código abierto y además gratuito, y su desarrollo es llevado adelante por una gran comunidad de colaboradores de todo el mundo que día a día ponen su granito de arena para hacer de este sistema una de las opciones más sólidas a nivel de bases de datos.

Dos detalles a destacar de PostgreSQL es que posee data types (tipos de datos) avanzados y permite ejecutar optimizaciones de rendimiento avanzadas, que son características que por lo general solo se ven en sistemas de bases de datos comerciales, como por ejemplo SQL Server de Microsoft u Oracle de la compañía homónima.


### Características
Siendo uno de los sistemas de bases de datos más avanzados y usados del mundo, es obvio que PostgreSQL debe tener algunas características bastante llamativas, así que vamos a echarle un vistazo a algunas de ellas.

+ **Es de código abierto:** una de las principales razones por la cual PostgreSQL se ha vuelto tan popular es que se trata de un sistema de código abierto. Esto ha permitido que una gran comunidad de desarrolladores crezca para respaldarlo y continuar mejorándolo. Gracias a todo el apoyo con el que cuenta ha logrado transformarse en uno de los mejores gestores de bases de datos a nivel mundial.
+ **Es gratuito:** como cabe esperarse se trata de un sistema totalmente gratis, no tenemos que pagar nada por utilizarlo. Cualquier persona es libre de descargar PostgreSQL desde su sitio web oficial y darle uso sin ningún costo.
+ **Es multiplataforma:** una característica genial que de hecho es común en muchos grandes proyectos de código abierto es el hecho de que se trata de software multiplataforma, es decir, es un software que puede correr bajo distintos entornos y sistemas operativos, y es compatible con muchos de los servidores web más populares como Apache, Nginx y LiteSpeed por mencionar algunos.
+ **Es fácil de usar:** la facilidad de uso de PostgreSQL es sin dudas otra de las principales características de este sistema. Su administración se vuelve muy sencilla por medio de paneles con PgAdmin, que básicamente viene a ser un phpMyAdmin orientado para PostgreSQL. La posibilidad de realizar diversos procedimientos en forma sencilla hacen que PgAdmin sea ampliamente utilizado, aunque también permite realizar tareas más complejos, así que tanto novatos como usuarios expertos hacen uso de él.
+ **Puede manejar un gran volumen de datos:** una característica extremadamente importante de PostgreSQL es su gran capacidad para el manejo de grandes volúmenes de datos, algo en lo que otros sistemas como MySQL aún no hacen tan bien. Las bases de datos de gran tamaño pueden hacer pleno uso del MVCC de PostgreSQL, resultando en un gran rendimiento. MVCC es un método de control que nos permite realizar tareas de escritura y lectura simultáneamente.
+ **Soporte total de ACID:** otro punto muy importante que no se debe dejar de lado es el cumplimiento de ACID. ¿Qué es ACID? Estas siglas en inglés refieren a: atomicity, consistency, isolation y durability, que si lo traducimos al español básicamente hablan de la atomicidad, consistencia, aislamiento y durabilidad de las transacciones que se realizan en una base de datos. ¿Y por qué es tan importante? Porque tener soporte completo de ACID da la seguridad de que, si se produce una falla durante una transacción, los datos no se perderán ni terminarán donde no deban.


### DBeaver

![dbeaver](images/dbeaver.png)

DBeaver es una aplicación de software cliente de SQL y una herramienta de administración de bases de datos. Para las bases de datos relacionales, utiliza la interfaz de programación de aplicaciones (API) JDBC para interactuar con las bases de datos a través de un controlador JDBC. Para otras bases de datos (NoSQL) utiliza controladores de bases de datos propietarios. Proporciona un editor que soporta el autocompletado de código y el resaltado de sintaxis. Proporciona una arquitectura de plugins (basada en la arquitectura de plugins de Eclipse) que permite a los usuarios modificar gran parte del comportamiento de la aplicación para proporcionar funcionalidad o características específicas de la base de datos que son independientes de la base de datos. Esta es una aplicación de escritorio escrita en Java y basada en la plataforma Eclipse.

La community edition (CE) de DBeaver es un software libre y de código abierto que se distribuye bajo la Apache License. Una edición empresarial de código cerrado de DBeaver se distribuye bajo una licencia comercial.

Es el Workbench de Postgres.

### Cargando datos

In [1]:
# driver

%pip install psycopg2-binary

Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.5-cp38-cp38-macosx_11_0_arm64.whl (2.0 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m17.9 MB/s[0m eta [36m0:00:00[0m MB/s[0m eta [36m0:00:01[0m
[?25hInstalling collected packages: psycopg2-binary
Successfully installed psycopg2-binary-2.9.5
Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd

datos=pd.read_csv('../data/apple_store.csv')

datos.head()

Unnamed: 0,id,track_name,size_bytes,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,prime_genre
0,281656475,PAC-MAN Premium,100788224,3.99,21292,26,4.0,4.5,Games
1,281796108,Evernote - stay organized,158578688,0.0,161065,26,4.0,3.5,Productivity
2,281940292,"WeatherBug - Local Weather, Radar, Maps, Alerts",100524032,0.0,188583,2822,3.5,4.5,Weather
3,282614216,"eBay: Best App to Buy, Sell, Save! Online Shop...",128512000,0.0,262241,649,4.0,4.5,Shopping
4,282935706,Bible,92774400,0.0,985920,5320,4.5,5.0,Reference


In [3]:
from sqlalchemy import create_engine

In [4]:
# lenguaje+driver://usuario:password@servidor:puerto/database


str_conn='postgresql+psycopg2://postgres:password@localhost:5432/apps'

cursor=create_engine(str_conn)

In [5]:
datos.to_sql(name='ratings', con=cursor, if_exists='replace', index=False)

197

In [6]:
df=pd.read_sql('select * from ratings where price=0;', cursor)

df.head()

Unnamed: 0,id,track_name,size_bytes,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,prime_genre
0,281796108,Evernote - stay organized,158578688,0.0,161065,26,4.0,3.5,Productivity
1,281940292,"WeatherBug - Local Weather, Radar, Maps, Alerts",100524032,0.0,188583,2822,3.5,4.5,Weather
2,282614216,"eBay: Best App to Buy, Sell, Save! Online Shop...",128512000,0.0,262241,649,4.0,4.5,Shopping
3,282935706,Bible,92774400,0.0,985920,5320,4.5,5.0,Reference
4,283646709,PayPal - Send and request money safely,227795968,0.0,119487,879,4.0,4.5,Finance


**con OOP**

In [8]:
from sqlalchemy import create_engine, Column, Float, Integer, JSON, DateTime, Text

from sqlalchemy.orm import sessionmaker

from sqlalchemy.ext.declarative import declarative_base

from sqlalchemy import DDL

In [9]:
# crear tabla como objeto


Base=declarative_base()  # tabla standard, un molde , una plantilla


class Tabla(Base): # tabla custom, hereda de la base
    
    __tablename__='articles'
    __table_args__={'schema': 'apps'}
    
    _id=Column(Integer(), primary_key=True)  # , autoincrement=True)
    prime_genre=Column(Text())
    total_rating=Column(Float())
    avg_rating=Column(Float())
    json=Column(JSON())

In [10]:
help(Tabla)

Help on class Tabla in module __main__:

class Tabla(sqlalchemy.orm.decl_api.Base)
 |  Tabla(**kwargs)
 |  
 |  The base class of the class hierarchy.
 |  
 |  When called, it accepts no arguments and returns a new featureless
 |  instance that has no instance attributes and cannot be given any.
 |  
 |  Method resolution order:
 |      Tabla
 |      sqlalchemy.orm.decl_api.Base
 |      builtins.object
 |  
 |  Methods defined here:
 |  
 |  __init__(self, **kwargs)
 |      A simple constructor that allows initialization from kwargs.
 |      
 |      Sets attributes on the constructed instance using the names and
 |      values in ``kwargs``.
 |      
 |      Only keys that are present as
 |      attributes of the instance's class are allowed. These could be,
 |      for example, any mapped columns or relationships.
 |  
 |  ----------------------------------------------------------------------
 |  Data descriptors defined here:
 |  
 |  avg_rating
 |  
 |  json
 |  
 |  prime_genre
 |

In [36]:
class Prueba:
    
    def __init__(self, str_conn):
        
        self.cursor=create_engine(str_conn)
        
        self.sesion=sessionmaker(bind=self.cursor)()  # sesion activa de usuario
        
        self.cursor.execute(DDL('create schema if not exists apps;'))
        
        
    def crear_tabla(self, tabla):
        
        try:
            print('Creando tabla...')
            tabla.__table__.create(self.cursor)
        except:
            print('Tabla ya existe')
            
            
    def borrar_tabla(self):
        
        try:
            print('Borrando tabla...')
            Tabla.__table__.drop(self.cursor)
        except:
            print('Tabla NO existe')
            
            
    def rellenar_tabla(self, datos):
        
        for e in datos.itertuples():  # por filas
            
            item=Tabla(_id=e[0], 
                       prime_genre=e[2], 
                        total_rating=e[3], 
                        avg_rating=e[4], 
                        json=e[5])
            
            
            #self.sesion.add(item)  # añade a la base de datos, es un insert, CUIDADO, esto puede añadir duplicados
            self.sesion.merge(item)
        
        self.sesion.commit()  # machacar la db
        print('Comiteado')
    
    
    def mostrar_tabla(self, query='select * from apps.articles'):
        return pd.read_sql(query, self.cursor)
          

In [37]:
datos=df[['id', 'prime_genre', 'rating_count_tot', 'user_rating_ver']]

datos.head()

Unnamed: 0,id,prime_genre,rating_count_tot,user_rating_ver
0,281796108,Productivity,161065,3.5
1,281940292,Weather,188583,4.5
2,282614216,Shopping,262241,4.5
3,282935706,Reference,985920,5.0
4,283646709,Finance,119487,4.5


In [38]:
datos['json']=[{'hola': 8, 'adios': 9} for _ in range(len(datos))]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  datos['json']=[{'hola': 8, 'adios': 9} for _ in range(len(datos))]


In [39]:
datos.head()

Unnamed: 0,id,prime_genre,rating_count_tot,user_rating_ver,json
0,281796108,Productivity,161065,3.5,"{'hola': 8, 'adios': 9}"
1,281940292,Weather,188583,4.5,"{'hola': 8, 'adios': 9}"
2,282614216,Shopping,262241,4.5,"{'hola': 8, 'adios': 9}"
3,282935706,Reference,985920,5.0,"{'hola': 8, 'adios': 9}"
4,283646709,Finance,119487,4.5,"{'hola': 8, 'adios': 9}"


In [40]:
str_conn='postgresql+psycopg2://postgres:password@127.0.0.1:5432/apps'


prueba=Prueba(str_conn)

In [41]:
help(prueba)

Help on Prueba in module __main__ object:

class Prueba(builtins.object)
 |  Prueba(str_conn)
 |  
 |  Methods defined here:
 |  
 |  __init__(self, str_conn)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  borrar_tabla(self)
 |  
 |  crear_tabla(self, tabla)
 |  
 |  mostrar_tabla(self, query='select * from apps.articles')
 |  
 |  rellenar_tabla(self, datos)
 |  
 |  ----------------------------------------------------------------------
 |  Data descriptors defined here:
 |  
 |  __dict__
 |      dictionary for instance variables (if defined)
 |  
 |  __weakref__
 |      list of weak references to the object (if defined)



In [42]:
prueba.borrar_tabla()

Borrando tabla...


In [44]:
prueba.crear_tabla(Tabla)

Creando tabla...


In [45]:
prueba.rellenar_tabla(datos)

Comiteado


In [46]:
df2=prueba.mostrar_tabla("select * from apps.articles where prime_genre='Games' and avg_rating>4")

In [47]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1084 entries, 0 to 1083
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   _id           1084 non-null   int64  
 1   prime_genre   1084 non-null   object 
 2   total_rating  1084 non-null   float64
 3   avg_rating    1084 non-null   float64
 4   json          1084 non-null   object 
dtypes: float64(2), int64(1), object(2)
memory usage: 42.5+ KB


In [48]:
df2.head()

Unnamed: 0,_id,prime_genre,total_rating,avg_rating,json
0,17,Games,180087.0,4.5,"{'hola': 8, 'adios': 9}"
1,22,Games,508808.0,4.5,"{'hola': 8, 'adios': 9}"
2,79,Games,5565.0,4.5,"{'hola': 8, 'adios': 9}"
3,153,Games,679055.0,4.5,"{'hola': 8, 'adios': 9}"
4,164,Games,359832.0,5.0,"{'hola': 8, 'adios': 9}"
