# 1. Introducción


* Breve descripción general de Pandas y su importancia.
* Discusión sobre SQL y su relación con las operaciones de Pandas DataFrame.




# 2. Setup

In [None]:
import sqlite3 # a module in Python's standard library that provides an interface to the SQLite database.
import pandas as pd

In [None]:
url = "https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv"
titanic_data = pd.read_csv(url)

In [None]:
conn = sqlite3.connect(':memory:')
titanic_data.to_sql('titanic', conn, index=False)

887

**sqlite3.connect()** es una función que establece una conexión a una base de datos SQLite. Cuando se proporciona el argumento ':memory:', se le indica a SQLite que cree una nueva base de datos en la RAM. La principal ventaja de utilizar una base de datos en memoria es la velocidad.

**.to_sql()** es un método proporcionado por Pandas DataFrames que le permite escribir el contenido del DataFrame en una base de datos SQL.

El primer argumento 'titanic' es el nombre de la tabla que se creará en la base de datos SQLite.

El segundo argumento conn es el objeto de conexión que creamos anteriormente. Le indica al método .to_sql() dónde crear la tabla.

El argumento index=False le indica a Pandas que no escriba el índice del DataFrame como una columna separada en la base de datos. Si omitiera este argumento, obtendría una columna adicional llamada 'index' en su tabla SQL.

Función para ejecutar las queries

In [None]:
# Function to run querys
def run_query(query, connection=conn):
    return pd.read_sql_query(query, connection)

# 3. SQL vs. Pandas

Para **SQL** nuestra tabla se llama *titanic*

Para **pandas** nuestro df se llama *titanic_data*

In [None]:
#Veo mis datos
titanic_data

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.2500
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.9250
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1000
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.0500
...,...,...,...,...,...,...,...,...
882,0,2,Rev. Juozas Montvila,male,27.0,0,0,13.0000
883,1,1,Miss. Margaret Edith Graham,female,19.0,0,0,30.0000
884,0,3,Miss. Catherine Helen Johnston,female,7.0,1,2,23.4500
885,1,1,Mr. Karl Howell Behr,male,26.0,0,0,30.0000




*   **Ver los nombres de 10 pasajeros**



In [None]:
# Usando SQL

run_query(
"""
select Name
from titanic
limit 10

"""
    )

Unnamed: 0,Name
0,Mr. Owen Harris Braund
1,Mrs. John Bradley (Florence Briggs Thayer) Cum...
2,Miss. Laina Heikkinen
3,Mrs. Jacques Heath (Lily May Peel) Futrelle
4,Mr. William Henry Allen
5,Mr. James Moran
6,Mr. Timothy J McCarthy
7,Master. Gosta Leonard Palsson
8,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson
9,Mrs. Nicholas (Adele Achem) Nasser


In [None]:
# Usando Pandas
titanic_data['Name'].head(10)



Unnamed: 0,Name
0,Mr. Owen Harris Braund
1,Mrs. John Bradley (Florence Briggs Thayer) Cum...
2,Miss. Laina Heikkinen
3,Mrs. Jacques Heath (Lily May Peel) Futrelle
4,Mr. William Henry Allen
5,Mr. James Moran
6,Mr. Timothy J McCarthy
7,Master. Gosta Leonard Palsson
8,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson
9,Mrs. Nicholas (Adele Achem) Nasser


**¿Cuántas clases diferentes hay?**

In [None]:
# Usando SQL

run_query(
"""
select distinct(Pclass)
from titanic

"""
    )

Unnamed: 0,Pclass
0,3
1,1
2,2


In [None]:
# Usando Pandas
print(titanic_data['Pclass'].unique())




[3 1 2]




```
# This is formatted as code
```

**Mostrar los pasajeros ordenados por edad**

In [None]:
# Usando SQL

run_query(
"""
select name, age
from titanic
order by Age


"""
    )

Unnamed: 0,Name,Age
0,Master. Assad Alexander Thomas,0.42
1,Master. Viljo Hamalainen,0.67
2,Miss. Helene Barbara Baclini,0.75
3,Miss. Eugenie Baclini,0.75
4,Master. Alden Gates Caldwell,0.83
...,...,...
882,Mr. Patrick Connors,70.50
883,Mr. George B Goldschmidt,71.00
884,Mr. Ramon Artagaveytia,71.00
885,Mr. Johan Svensson,74.00


In [None]:
# Usando Panda
titanic_data.sort_values(by='Age', ascending=True)[['Name', 'Age']]

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.2500
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.9250
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1000
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.0500
...,...,...,...,...,...,...,...,...
882,0,2,Rev. Juozas Montvila,male,27.0,0,0,13.0000
883,1,1,Miss. Margaret Edith Graham,female,19.0,0,0,30.0000
884,0,3,Miss. Catherine Helen Johnston,female,7.0,1,2,23.4500
885,1,1,Mr. Karl Howell Behr,male,26.0,0,0,30.0000


**Mostrar los pasajeros que sobrevivieron**

In [None]:
# Usando SQL

run_query(
"""
select name
from titanic
where Survived = 1

"""
    )

Unnamed: 0,Name
0,Mrs. John Bradley (Florence Briggs Thayer) Cum...
1,Miss. Laina Heikkinen
2,Mrs. Jacques Heath (Lily May Peel) Futrelle
3,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson
4,Mrs. Nicholas (Adele Achem) Nasser
...,...
337,Miss. Adele Kiamie Najib
338,Mrs. Thomas Jr (Lily Alexenia Wilson) Potter
339,Mrs. William (Imanita Parrish Hall) Shelley
340,Miss. Margaret Edith Graham


In [None]:
# Usando Pandas
titanic_data[titanic_data['Survived'] == 1]['Name']


Unnamed: 0,Name
1,Mrs. John Bradley (Florence Briggs Thayer) Cum...
2,Miss. Laina Heikkinen
3,Mrs. Jacques Heath (Lily May Peel) Futrelle
8,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson
9,Mrs. Nicholas (Adele Achem) Nasser
...,...
871,Miss. Adele Kiamie Najib
875,Mrs. Thomas Jr (Lily Alexenia Wilson) Potter
876,Mrs. William (Imanita Parrish Hall) Shelley
883,Miss. Margaret Edith Graham


**Mostrar los pasajeros que no sobrevivieron y tenían menos de 30 años**

In [26]:
# Usando SQL

run_query(
"""
select name
from titanic
where Survived = 0 and Age < 30

"""
    )

Unnamed: 0,Name
0,Mr. Owen Harris Braund
1,Mr. James Moran
2,Master. Gosta Leonard Palsson
3,Mr. William Henry Saundercock
4,Miss. Hulda Amanda Adolfina Vestrom
...,...
300,Miss. Gerda Ulrika Dahlberg
301,Mr. Frederick James Banfield
302,Mr. Henry Jr Sutehall
303,Rev. Juozas Montvila


In [27]:
# Usando Pandas

titanic_data[(titanic_data['Survived'] == 0) & (titanic_data['Age'] < 30)]['Name']


Unnamed: 0,Name
0,Mr. Owen Harris Braund
5,Mr. James Moran
7,Master. Gosta Leonard Palsson
12,Mr. William Henry Saundercock
14,Miss. Hulda Amanda Adolfina Vestrom
...,...
878,Miss. Gerda Ulrika Dahlberg
879,Mr. Frederick James Banfield
880,Mr. Henry Jr Sutehall
882,Rev. Juozas Montvila


Mostrar pasajeron que tienen entre 30 y 50 años

In [24]:
# Usando SQL

run_query(
"""
select name
from titanic
where Age between 30 and 50

"""
    )

Unnamed: 0,Name
0,Mrs. John Bradley (Florence Briggs Thayer) Cum...
1,Mrs. Jacques Heath (Lily May Peel) Futrelle
2,Mr. William Henry Allen
3,Mr. Anders Johan Andersson
4,Mrs. Julius (Emelia Maria Vandemoortele) Vande...
...,...
318,Mr. Frans Olof Carlsson
319,Mr. Victor Vander Cruyssen
320,Mr. Johann Markun
321,Mrs. William (Margaret Norton) Rice


In [23]:
# Usando Pandas

titanic_data[(titanic_data['Age'] >= 30) & (titanic_data['Age'] <= 50)]['Name']


Unnamed: 0,Name
1,Mrs. John Bradley (Florence Briggs Thayer) Cum...
3,Mrs. Jacques Heath (Lily May Peel) Futrelle
4,Mr. William Henry Allen
13,Mr. Anders Johan Andersson
18,Mrs. Julius (Emelia Maria Vandemoortele) Vande...
...,...
868,Mr. Frans Olof Carlsson
869,Mr. Victor Vander Cruyssen
877,Mr. Johann Markun
881,Mrs. William (Margaret Norton) Rice


**¿Cuántos pasajeros se llaman 'John'?**

In [22]:
# Usando SQL

run_query(
"""
select count(name)
from titanic
where name like '%John%'

"""
    )

Unnamed: 0,count(name)
0,52


In [25]:
# Usando Pandas
titanic_data[titanic_data['Name'].str.contains('John')]['Name'].count()


np.int64(52)