# Bases de datos en Python

## Índice
1. [Acceso a bases de datos relacionales](#sql)
2. [Crear bases de datos relacionales](#crear)
3. [Bases de datos NoSQL](#nosql)

<a id="sql"></a>
## Acceso a bases de datos relacionales

Podemos acceder a bases de datos SQL con la librería `pymysql`. Para instalarla escribimos en Anaconda Prompt:  
`conda install -c anaconda pymysql`

In [1]:
import pymysql

#### Ejemplo 1
Vamos a conectarnos a la base de datos NBA, con los siguientes parámetros:  
* servidor: relational.fit.cvut.cz
* usuario: guest
* contraseña: relational  
* base de datos: NBA  

<img src="https://relational.fit.cvut.cz/assets/img/datasets-generated/NBA.svg" width="400">  

Vamos a crear una conexión con la base de datos

In [4]:
database_host = 'relational.fit.cvut.cz'
username = 'guest'
password = 'relational'
database_name = 'NBA'

# Abrir conexión con la base de datos
db = pymysql.connect(host=database_host, user=username, password=password, database=database_name)
cursor = db.cursor()

La función `connect()` crea una conexión a la base de datos. Un *cursor* nos permite realizar operaciones con los datos almacenados en la base de datos. Al ejecutar `cursor()` es como si estuviésemos utilizando `open()` cuando trabajábamos con archivos.  

<img src='https://i.ibb.co/L8HH0G5/cursor.png'>  

Una vez creado el cursor, podemos empezar a ejecutar comandos sobre el contenido de la base de datos utilizando el métido `execute()`,

Al ejecutar queries, utilizamos los métodos `fetchone()` (primera fila) o `fectchall()` (todas las filas) para visizar los resultados de las consultas. Para cerrar la conexión, utilizamso el método `close()`

In [5]:
cursor.execute("SELECT * FROM Player")
cursor.fetchall()

((1, 'Nicolas Batum'),
 (2, 'LaMarcus Aldridge'),
 (3, 'Robin Lopez'),
 (4, 'Wesley Matthews'),
 (5, 'Damian Lillard'),
 (6, 'Thomas Robinson'),
 (7, 'Maurice Williams'),
 (8, 'Will Barton'),
 (9, 'Dorell Wright'),
 (10, 'Earl Watson'),
 (11, 'CJ McCollum'),
 (12, 'Meyers Leonard'),
 (13, 'Victor Claver'),
 (14, 'Kent Bazemore'),
 (15, 'Pau Gasol'),
 (16, 'Chris Kaman'),
 (17, 'Jodie Meeks'),
 (18, 'Kendall Marshall'),
 (19, 'Steve Nash'),
 (20, 'Xavier Henry'),
 (21, 'Robert Sacre'),
 (22, 'Ryan Kelly'),
 (23, 'Nick Young'),
 (24, 'Marshon Brooks'),
 (25, 'Jordan Hill'),
 (26, 'Wesley Johnson'),
 (27, 'Andre Iguodala'),
 (28, 'Draymond Green'),
 (29, "Jermaine O'Neal"),
 (30, 'Klay Thompson'),
 (31, 'Stephen Curry'),
 (32, 'Marreese Speights'),
 (33, 'Harrison Barnes'),
 (34, 'Steve Blake'),
 (35, 'Jordan Crawford'),
 (36, 'Hilton Armstrong'),
 (37, 'Andrew Bogut'),
 (38, 'David Lee'),
 (39, 'Shawn Marion'),
 (40, 'Dirk Nowitzki'),
 (41, 'Samuel Dalembert'),
 (42, 'Monta Ellis'),
 (43

Podemos ver las tablas de la base de datos con la query `SHOW TABLES`

In [6]:
cursor.execute("SHOW TABLES")
cursor.fetchall()

(('Actions',),
 ('Game',),
 ('Player',),
 ('Team',),
 ('joined_drafted_all_players_original',))

El método `read_sql()` de pandas nos permite crear dataframes a partir de queries. Con este método no es necesario crear un cursor

In [7]:
import pandas as pd
query='SHOW TABLES'
df = pd.read_sql(query, db)
df.head()

Unnamed: 0,Tables_in_NBA
0,Actions
1,Game
2,Player
3,Team
4,joined_drafted_all_players_original


Obtenemos los jugadores con más de 5 asistencias en algún partido

In [16]:
query = '''
SELECT
      PlayerName, Assists     
FROM Actions Act
JOIN Player Pla
ON Act.PlayerId = Pla.PlayerId
WHERE Assists > 5'''

Asistencias5 = pd.read_sql(query, db)
Asistencias5.head()

Unnamed: 0,PlayerName,Assists
0,Nicolas Batum,7
1,LaMarcus Aldridge,6
2,Wesley Matthews,6
3,Damian Lillard,8
4,Kent Bazemore,6


Obtenemos el TOP 10 jugadores con más asistencias en la temporada

In [17]:
query = '''
SELECT
      PlayerName, sum(Assists) as asistencias     
FROM Actions Act
JOIN Player Pla
ON Act.PlayerId = Pla.PlayerId
GROUP BY Pla.PlayerName
ORDER BY asistencias desc'''

Asistencias_top_10 = pd.read_sql(query, db)
Asistencias_top_10.head(10)

Unnamed: 0,PlayerName,asistencias
0,Chris Paul,27.0
1,Kemba Walker,25.0
2,Brandon Jennings,22.0
3,Ty Lawson,21.0
4,Demar DeRozan,20.0
5,Ramon Sessions,17.0
6,Andre Miller,17.0
7,Lebron James,16.0
8,DJ Augustin,16.0
9,John Wall,16.0


Obtenemos el TOP 10 Equipos con más puntuación media por partido

In [29]:
query = '''
SELECT
    t.TeamName,
    a.total_Points/a.games as avg_points_game
FROM (SELECT
          TeamId,
          count(DISTINCT(GameId)) as games,
          sum(Points) as total_Points
      FROM Actions
      GROUP BY TeamId) a
JOIN Team t
ON a.TeamId = t.TeamId
ORDER BY avg_points_game desc
'''

puntuacion_avg = pd.read_sql(query, db)
puntuacion_avg.head(10)

Unnamed: 0,TeamName,avg_points_game
0,Portland Trail Blazers,124.0
1,Cleveland Cavaliers,119.0
2,Dallas Mavericks,116.5
3,Golden State Warriors,112.5
4,Los Angeles Clippers,111.0
5,Charlotte Bobcats,108.3333
6,Phoenix Suns,108.0
7,Los Angeles Lakers,107.0
8,Denver Nuggets,107.0
9,Oklahoma City Thunder,106.0


#### Ejemplo 2
Vamos a conectarnos a la base de datos de los empleados de una empresa  
* servidor: relational.fit.cvut.cz
* usuario: guest
* contraseña: relational  
* base de datos: employees
<img src = 'https://relational.fit.cvut.cz/assets/img/datasets-generated/employee.svg'>

In [66]:
database_host = 'relational.fit.cvut.cz'
username = 'guest'
password = 'relational'
database_name = 'employee'

# Abrir conexión con la base de datos
db = pymysql.connect(host=database_host, user=username, password=password, database=database_name)
cursor = db.cursor()

In [67]:
query = '''SHOW TABLES'''
pd.read_sql(query,db)

Unnamed: 0,Tables_in_employee
0,departments
1,dept_emp
2,dept_manager
3,employees
4,salaries
5,titles


Obtener el salario máximo, mínimo y medio por género y cargo

In [68]:
query = '''
SELECT 
    e.gender,
    t.title,
    max(s.salary) as max_salary,
    min(s.salary) as min_salary,
    avg(s.salary) as avg_salary
FROM salaries s
JOIN employees e
ON s.emp_no=e.emp_no
JOIN titles t
ON s.emp_no=t.emp_no
WHERE s.to_date = '9999-01-01'
GROUP BY e.gender, t.title
ORDER BY t.title, e.gender'''

Salarios = pd.read_sql(query, db)
Salarios

Unnamed: 0,gender,title,max_salary,min_salary,avg_salary
0,M,Assistant Engineer,133712,39827,67611.2685
1,F,Assistant Engineer,117968,39469,67159.3064
2,M,Engineer,140784,38942,67974.4227
3,F,Engineer,138273,39519,67891.0149
4,M,Manager,108407,56654,84783.4545
5,F,Manager,93193,58189,75114.7692
6,M,Senior Engineer,140784,39285,70869.6326
7,F,Senior Engineer,138273,39476,70754.1607
8,M,Senior Staff,158220,39012,80735.5559
9,F,Senior Staff,152710,39227,80661.5952


## <span style="color:red">Do it yourself</span>

Vamos a conectarnos a la base con datos históricos de baloncesto, con los siguientes parámetros:  
* servidor: relational.fit.cvut.cz
* usuario: guest
* contraseña: relational  
* base de datos: Basketball_men  

[Enlace al diagrama del modelo relacional](https://relational.fit.cvut.cz/assets/img/datasets-generated/Basketball_men.svg)

In [42]:
database_host = 'relational.fit.cvut.cz'
username = 'guest'
password = 'relational'
database_name = 'Basketball_men'

# Abrir conexión con la base de datos
db = pymysql.connect(host=database_host, user=username, password=password, database=database_name)

query = '''SHOW TABLES'''
pd.read_sql(query, db)

Unnamed: 0,Tables_in_Basketball_men
0,awards_coaches
1,awards_players
2,coaches
3,draft
4,player_allstar
5,players
6,players_teams
7,series_post
8,teams


Obtenemos los jugadores con al menos 30.000 puntos en su carrera, que hayan obtenido algún premio y continúen vivos. Obtener su altura en metros (en la base de datos está en pulgadas)

In [58]:
query =  '''
SELECT
    firstName,
    middleName,
    lastName,
    deathDate,
    height/39.37 as altura,
    total_points
FROM players p
JOIN (SELECT
          playerID, sum(points) as total_points
      FROM players_teams
      GROUP BY playerID
     ) pt
ON p.playerID = pt.playerID
JOIN (SELECT DISTINCT
          playerID
      FROM awards_players) a
ON p.playerID = a.playerID
WHERE total_points >= 30000 AND deathDate = '0000-00-00' '''

pd.read_sql(query, db).head()

Unnamed: 0,firstName,middleName,lastName,deathDate,altura,total_points
0,Kareem,,Abdul-Jabbar,0000-00-00,2.159004,38387.0
1,Julius,Winfield,Erving,0000-00-00,1.981204,30026.0
2,Michael,Jeffrey,Jordan,0000-00-00,1.981204,32292.0
3,Karl,Anthony,Malone,0000-00-00,2.057404,36928.0


<a id="crear"></a>
## Crear bases de datos relacionales

SQLite es un sistema de gestión de bases de datos basado en SQL optimizado para entornos pequeños como aplicaciones móviles. Puede integrarse con Python gracias a la librería `sqlite3`, incluida por defecto en las versiones más recientes de Python.

In [59]:
import sqlite3

In [78]:
# Conexión a una base de datos
conn = sqlite3.connect('my_database.sqlite')
cursor = conn.cursor()

cursor.execute("CREATE USER 'diego'@'47.62.7.241' IDENTIFIED BY '1234';")


OperationalError: near "USER": syntax error

In [62]:
# Crear tablas
cursor.execute('''CREATE TABLE SCHOOL
(ID INT PRIMARY KEY NOT NULL,
NAME TEXT NOT NULL,
AGE INT NOT NULL,
CITY CHAR(50),
MARKS INT);''')


<sqlite3.Cursor at 0x11a22fa16c0>

In [63]:
# Insertar valores
cursor.execute("INSERT INTO SCHOOL (ID,NAME,AGE,CITY,MARKS) VALUES (1, 'Luis', '24', 'Madrid', 8)")
cursor.execute("INSERT INTO SCHOOL (ID,NAME,AGE,CITY,MARKS) VALUES (2, 'Ana', '34', 'Bilbao', 9)")
cursor.execute("INSERT INTO SCHOOL (ID,NAME,AGE,CITY,MARKS) VALUES (3, 'Pedro', '19', 'Santander', 10)")
cursor.execute("INSERT INTO SCHOOL (ID,NAME,AGE,CITY,MARKS) VALUES (4, 'Marta', '21', 'Madrid', 8)")
conn.commit()

In [64]:
# Ejecutar queries
pd.read_sql('SELECT * FROM SCHOOL', conn)

Unnamed: 0,ID,NAME,AGE,CITY,MARKS
0,1,Luis,24,Madrid,8
1,2,Ana,34,Bilbao,9
2,3,Pedro,19,Santander,10
3,4,Marta,21,Madrid,8


In [70]:
# Crear tablas a partir de dataframes
Salarios.to_sql('Salaries', conn, index='False')

In [71]:
# Listar tablas
pd.read_sql('SELECT name FROM sqlite_master WHERE type="table"', conn)

Unnamed: 0,name
0,SCHOOL
1,Salaries


In [76]:
cursor.execute('''GRANT ALL PRIVILEGES  ON conn.Salaries
                  TO 'guest'@'47.62.7.241';''')

# Borrar tablas
cursor.execute('DROP TABLE IF EXISTS Salaries')

OperationalError: (1142, "INSERT, UPDATE, DELETE, CREATE,  command denied to user 'guest'@'47.62.7.241' for table 'Salaries'")

In [None]:
# Actualizar registros


In [None]:
# Borrar registros


<a id="nosql"></a>
## Bases de datos NoSQL (MongoDB)

Las principales diferencias entre SQL y MongoDB son las siguientes: 
<img src='http://4.bp.blogspot.com/-edz2_QrFvCE/UnzBhKZE3FI/AAAAAAAAAEs/bTEsqnZFTXw/s1600/SQL-MongoDB+Correspondence.PNG'>

Vamos a conectarnos a una base de datos en MongoDB, para lo cual debemos instalar las siguientes librerías:  
`conda install -c anaconda pymongo`  
`conda install -c anaconda dnspython`

In [86]:
from pymongo import MongoClient
import dns

In [87]:
client = MongoClient("mongodb+srv://test:test@cluster0-czvtb.mongodb.net/admin?retryWrites=true&w=majority")

ConfigurationError: The "dnspython" module must be installed to use mongodb+srv:// URIs

Nos conectamos a la base de datos [Sample Airbnb](https://docs.atlas.mongodb.com/sample-data/sample-airbnb/). Esta base de datos contiene una única colección llamada listingsAndReviews, que contiene documentos representando detalles de viviendas turísticas en airbnb.


In [None]:
# Contamos los documentos


Para hacer queries se utiliza el método `find()`

Filtramos viviendas con 2 baños y 3 dormitorios, con alguna review

Puedes encontrar más documentación sobre la librería `pymongo` en https://api.mongodb.com/python/current/