# pandasql 

**Pandasql** es una biblioteca de Python que permite realizar consultas SQL en DataFrames de Pandas. Proporciona una interfaz SQL para manipular y analizar datos tabulares de manera similar a como se haría en una base de datos relacional. Esto permite realizar consultas complejas y combinar fácilmente operaciones de manipulación y análisis de datos en Python utilizando la sintaxis familiar de SQL.

In [2]:
import pandas as pd
from pandasql import sqldf

In [4]:
# Leer los dataframes
df_invierno = pd.read_csv("./invierno.csv")
df_diccionario = pd.read_csv("./diccionario.csv")

In [12]:
# Definir la función para los "queries"
pyspldf = lambda q: sqldf(q, globals()) # 

# Sentencia SELECT

### SELECT column_name1, column_name2, ... FROM dataset_name

In [14]:
query = """SELECT * FROM df_invierno"""
dfInvierno = pyspldf(query) # nos devuelve UN df/DATASET NUEVO 
dfInvierno.head()

Unnamed: 0,Year,City,Sport,Discipline,Athlete,Country,Gender,Event,Medal
0,1924,Chamonix,Biathlon,Biathlon,"BERTHET, G.",FRA,Men,Military Patrol,Bronze
1,1924,Chamonix,Biathlon,Biathlon,"MANDRILLON, C.",FRA,Men,Military Patrol,Bronze
2,1924,Chamonix,Biathlon,Biathlon,"MANDRILLON, Maurice",FRA,Men,Military Patrol,Bronze
3,1924,Chamonix,Biathlon,Biathlon,"VANDELLE, André",FRA,Men,Military Patrol,Bronze
4,1924,Chamonix,Biathlon,Biathlon,"AUFDENBLATTEN, Adolf",SUI,Men,Military Patrol,Gold


In [16]:
query = """SELECT Country, Athlete, Medal FROM df_invierno"""
df2Invierno = pyspldf(query)
df2Invierno.head()

Unnamed: 0,Country,Athlete,Medal
0,FRA,"BERTHET, G.",Bronze
1,FRA,"MANDRILLON, C.",Bronze
2,FRA,"MANDRILLON, Maurice",Bronze
3,FRA,"VANDELLE, André",Bronze
4,SUI,"AUFDENBLATTEN, Adolf",Gold


In [22]:
query = """SELECT DISTINCT Medal FROM df_invierno""" # DISTINCT nos saca los resultados distintos
df2Invierno = pyspldf(query)
df2Invierno.head()

Unnamed: 0,Medal
0,Bronze
1,Gold
2,Silver


In [26]:
# Quiero las distintas medallas, pero ahora también por géneros
query = """SELECT DISTINCT Medal, Gender FROM df_invierno""" # DISTINCT nos saca los resultados distintos, en este caso miramos Medal y Gender
df2Invierno = pyspldf(query)
df2Invierno.head(6)

Unnamed: 0,Medal,Gender
0,Bronze,Men
1,Gold,Men
2,Silver,Men
3,Bronze,Women
4,Gold,Women
5,Silver,Women


In [29]:
# Quiero las distintas medallas, pero ahora también por géneros
query = """SELECT * FROM df_invierno LIMIT 3""" # LIMIT nos limita las salidas
pyspldf(query)

Unnamed: 0,Year,City,Sport,Discipline,Athlete,Country,Gender,Event,Medal
0,1924,Chamonix,Biathlon,Biathlon,"BERTHET, G.",FRA,Men,Military Patrol,Bronze
1,1924,Chamonix,Biathlon,Biathlon,"MANDRILLON, C.",FRA,Men,Military Patrol,Bronze
2,1924,Chamonix,Biathlon,Biathlon,"MANDRILLON, Maurice",FRA,Men,Military Patrol,Bronze


# Ejercicio

In [30]:
# Mostrar nombre de atleta y ciudad para todos los atletas

query = """SELECT DISTINCT Athlete, City FROM df_invierno""" # DISTINCT nos saca los resultados distintos, en este caso miramos Medal y Gender
df3Invierno = pyspldf(query)
df3Invierno

Unnamed: 0,Athlete,City
0,"BERTHET, G.",Chamonix
1,"MANDRILLON, C.",Chamonix
2,"MANDRILLON, Maurice",Chamonix
3,"VANDELLE, André",Chamonix
4,"AUFDENBLATTEN, Adolf",Chamonix
...,...,...
4889,"JONES, Jenny",Sochi
4890,"ANDERSON, Jamie",Sochi
4891,"MALTAIS, Dominique",Sochi
4892,"SAMKOVA, Eva",Sochi


In [32]:
# Mostrar toda la información de "la tabla"

query = """SELECT * FROM df_invierno""" # Asterisco "*" coge todo
df4Invierno = pyspldf(query)
df4Invierno

Unnamed: 0,Year,City,Sport,Discipline,Athlete,Country,Gender,Event,Medal
0,1924,Chamonix,Biathlon,Biathlon,"BERTHET, G.",FRA,Men,Military Patrol,Bronze
1,1924,Chamonix,Biathlon,Biathlon,"MANDRILLON, C.",FRA,Men,Military Patrol,Bronze
2,1924,Chamonix,Biathlon,Biathlon,"MANDRILLON, Maurice",FRA,Men,Military Patrol,Bronze
3,1924,Chamonix,Biathlon,Biathlon,"VANDELLE, André",FRA,Men,Military Patrol,Bronze
4,1924,Chamonix,Biathlon,Biathlon,"AUFDENBLATTEN, Adolf",SUI,Men,Military Patrol,Gold
...,...,...,...,...,...,...,...,...,...
5765,2014,Sochi,Skiing,Snowboard,"JONES, Jenny",GBR,Women,Slopestyle,Bronze
5766,2014,Sochi,Skiing,Snowboard,"ANDERSON, Jamie",USA,Women,Slopestyle,Gold
5767,2014,Sochi,Skiing,Snowboard,"MALTAIS, Dominique",CAN,Women,Snowboard Cross,Silver
5768,2014,Sochi,Skiing,Snowboard,"SAMKOVA, Eva",CZE,Women,Snowboard Cross,Gold


In [43]:
#Mostrar año, deport y país

query = """SELECT Year, Sport, Country FROM df_invierno""" # DISTINCT nos saca los resultados distintos, en este caso miramos Medal y Gender
df5Invierno = pyspldf(query)
df5Invierno

Unnamed: 0,Year,Sport,Country
0,1924,Biathlon,FRA
1,1924,Biathlon,FRA
2,1924,Biathlon,FRA
3,1924,Biathlon,FRA
4,1924,Biathlon,SUI
...,...,...,...
5765,2014,Skiing,GBR
5766,2014,Skiing,USA
5767,2014,Skiing,CAN
5768,2014,Skiing,CZE


In [47]:
# Mostrar todos los países  sin duplicar, por género

query = """SELECT DISTINCT Gender, Country FROM df_invierno""" # DISTINCT nos saca los resultados distintos, en este caso miramos Medal y Gender
df6Invierno = pyspldf(query)
df6Invierno

Unnamed: 0,Gender,Country
0,Men,FRA
1,Men,SUI
2,Men,FIN
3,Men,BEL
4,Men,GBR
...,...,...
79,Men,CRO
80,Women,EST
81,Men,SVK
82,Women,SVK


In [48]:
# Vamos a cambiar el nombre de una columna con el AS...

query = """SELECT Year, Sport, Athlete AS Name FROM df_invierno""" # DISTINCT nos saca los resultados distintos, en este caso miramos Medal y Gender
pyspldf(query).head()

Unnamed: 0,Year,Sport,Name
0,1924,Biathlon,"BERTHET, G."
1,1924,Biathlon,"MANDRILLON, C."
2,1924,Biathlon,"MANDRILLON, Maurice"
3,1924,Biathlon,"VANDELLE, André"
4,1924,Biathlon,"AUFDENBLATTEN, Adolf"


---
# Ejercicio
    
    1. Mostrar la columna Athlete como "Nombre" y Country como "País".
    
    2. Mostrar todas los ciudades sin duplicar como "CiudadNoDplicada".
    
    3. Mostrar la columna City como "Ciudad" y Year como "Año".

In [49]:
# Mostrar la columna Athlete como "Nombre" y Country como "País".

query = """SELECT Athlete AS Nombre, Country AS País FROM df_invierno""" # DISTINCT nos saca los resultados distintos, en este caso miramos Medal y Gender
pyspldf(query).head()

Unnamed: 0,Name,País
0,"BERTHET, G.",FRA
1,"MANDRILLON, C.",FRA
2,"MANDRILLON, Maurice",FRA
3,"VANDELLE, André",FRA
4,"AUFDENBLATTEN, Adolf",SUI


In [50]:
# Mostrar todas los ciudades sin duplicar como "CiudadNoDplicada".

query = """SELECT DISTINCT City AS CiudadNoDuplicada FROM df_invierno""" # DISTINCT nos saca los resultados distintos, en este caso miramos Medal y Gender
pyspldf(query).head()

Unnamed: 0,CiudadNoDuplicada
0,Chamonix
1,St.Moritz
2,Lake Placid
3,Garmisch Partenkirchen
4,Oslo


In [51]:
# Mostrar la columna City como "Ciudad" y Year como "Año".

query = """SELECT City AS Ciudad, Year AS Año FROM df_invierno""" # DISTINCT nos saca los resultados distintos, en este caso miramos Medal y Gender
pyspldf(query).head()

Unnamed: 0,Ciudad,Año
0,Chamonix,1924
1,Chamonix,1924
2,Chamonix,1924
3,Chamonix,1924
4,Chamonix,1924
