# Analizando Datos con PyData 

* Objetivos de la Lección.
* Revisión de los DataFrame y Series en Pandas.
* SQL y Pandas.


## Básico 2: Limpieza, manipulación y transformación.

* Inspección de los Datos.
* Selección y manipulación de los datos.
* Transformación de los datos.

## Objetivos de la Lección

* Revisar aspectos de las Series y los DataFrames.
* Relación entre SQL y programación en Pandas.
* Depuración y manipulación de los datos.

## Revisión de los DataFrame y Series en Pandas

Como se mencionó en la lección 2, la relación entre Series y DataFrames(DF) es directa. Cada columna dentro de un DF es una columna. Y como es de esperar, una Series solo tienen un conjunto de índices, mientras los DF cuentan con dos.

Una de las ideas de Pandas, es poder usar las Series o los DF, de modo similar a como se pueden usar las estructuras de datos en Python. Con esto me refiero a respetar **"la idiomático" ** de Python. El siguiente código es un ejemplo:
  


In [1]:
#Se define una lista y se presenta si un elemento está o no en la lista.
a=[1,2,3,5]

print(3 in a)
print(3 not in a)

True
False


In [2]:
#Se define un diccionario y se pregunta si está en sus claves un elemento.
b={'a':1,'b':2,'c':3}

print('d' in b)

False


Los dos ejemplos anteriores son ejemplos de código estándar en Python. Tomando esta idea, lo que se hizo en Pandas fue respetar o conservar ese tipo de programación.

In [3]:
import pandas as pd
import numpy as np
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])

s

a   -0.249136
b    0.207630
c    0.135516
d    1.022161
e   -0.589782
dtype: float64

In [4]:
print('e' in s)

True


In [5]:
print(1 in s.values)
print(1 in s)

False
False


Algunos conocimientos básicos respecto a las Series, serían:

* Cómo definir una serie.
* Como operar sobre una serie.


In [6]:
#Definición de una serie desde un diccionario
d = {'b' : 1, 'a' : 0, 'c' : 2}

pd.Series(d)

b    1
a    0
c    2
dtype: int64

In [7]:
#Selección de elementos de una serie.
s[0]

s[:2]

a   -0.249136
b    0.207630
dtype: float64

Las series cuentan con un conjunto de funciones definidas sobre ellas, entre las que se encuentran las funciones estadísticas estandar. Una de las propiedades para operar sobre las series, es similar a la operación sobre los arrays de Numpay, soportan pedirles condiciones lógicas.

In [8]:
print(s)
print(s.median())

a   -0.249136
b    0.207630
c    0.135516
d    1.022161
e   -0.589782
dtype: float64
0.1355163153794471


In [9]:
#Se pide tomar todos los elementos que cumplen una condición
s[s > s.median()]

b    0.207630
d    1.022161
dtype: float64

También se puede operar sobre los índices de la serie para seleccionar algunas elemetos.

In [10]:
#Operación de selección por posición
s[[4, 3, 1]]

e   -0.589782
d    1.022161
b    0.207630
dtype: float64

Se mostró que cuentan las series con ciertas funciones (ejemplo s.mean), pero es posible que la función que necesitamos no se encuentra en Pandas, pero si en Numpy. Así que se puede aplicar la función directamente y solo afecta los valores.

In [11]:
#Aplicación de una función de numpy sobre los valores de la serie
np.log(s+10)

a    2.277356
b    2.323135
c    2.316046
d    2.399908
e    2.241796
dtype: float64

Como objetos en Python, también la series soportan operciones entre ellas.

In [12]:
#Suma de dos series
s+s

a   -0.498272
b    0.415259
c    0.271033
d    2.044323
e   -1.179565
dtype: float64

In [13]:
#Multiplicación de la serie
s*2

a   -0.498272
b    0.415259
c    0.271033
d    2.044323
e   -1.179565
dtype: float64

Como se mencionó en la lección 2 se mencionó la relación entre los elementos de Pandas y Numpy, el siguiente código es un ejemplo de operación sobre las series vs sobre el arreglo de la serie.

In [14]:
#Se opera sobre el arreglo
s.values[s>s.values.mean()]



array([0.20762956, 0.13551632, 1.0221613 ])

In [15]:
#Se realiza la misma operación, pero sobre la serie.
s[s>s.mean()]

b    0.207630
c    0.135516
d    1.022161
dtype: float64

En la lección 2, se mencionó que todos los elementos de la serie, deben de ser homogéneos. Es decir, deben de ser del mismo tipo. ¿Qué sucede con el siguiente ejemplo?

In [16]:
#Se define la serie
s = pd.Series([7, 'Heisenberg', 3.14, -1789710578, 'Happy Eating!'])
s

0                7
1       Heisenberg
2             3.14
3      -1789710578
4    Happy Eating!
dtype: object

Se observa que el tipo de dato es np.object. Esto implica que todos los elementos de la serie son del mismo tipo, pero si se revisa cada elemento de la serie se observará que cada elemento tiene un tipo diferente.

In [17]:
for element in s:
    print(type(element))

<class 'int'>
<class 'str'>
<class 'float'>
<class 'int'>
<class 'str'>


Conclusión, la serie pese a ser definida con elementos de tipo diferente para Pandas es intepretado como un mismo tipo (para ser homogeneo) y tiene por lo cual las propiedades del tipo que se definió. Además, el dato relevante sobre las series es que por estructura cuenta con un conjunto de índices y de valores. 

### DataFrames

El siguiente ejemplo define un DF desde un diccionario.

In [18]:
#Definición del diccionario
d = {
    'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
    'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])
    }

In [19]:
d

{'one': a    1.0
 b    2.0
 c    3.0
 dtype: float64,
 'two': a    1.0
 b    2.0
 c    3.0
 d    4.0
 dtype: float64}

In [20]:
#Definción del DF
df = pd.DataFrame(d)
df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


Pero no es el único modo de definir un DF.

In [21]:
#Definicion de un DF desde un diccionario con listas.
d = {
    'one' : [1., 2., 3., 4.],
    'two' : [4., 3., 2., 1.]
    }

In [22]:
#Definción del DF
pd.DataFrame(d)

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


In [23]:
#Definición desde una lista de Diccionarios
data2 = [
          {'a': 1, 'b': 2}, 
          {'a': 5, 'b': 10, 'c': 20}
        ]


pd.DataFrame(data2)

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


In [24]:
#Definicióndesde un diccionario con keys como tuplas
pd.DataFrame({
              ('a', 'b'): {('A', 'B'): 1, ('A', 'C'): 2},
              ('a', 'a'): {('A', 'C'): 3, ('A', 'B'): 4},
              ('a', 'c'): {('A', 'B'): 5, ('A', 'C'): 6},
              ('b', 'a'): {('A', 'C'): 7, ('A', 'B'): 8},
              ('b', 'b'): {('A', 'D'): 9, ('A', 'B'): 10}
             })
    

Unnamed: 0_level_0,Unnamed: 1_level_0,a,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,b,a,c,a,b
A,B,1.0,4.0,5.0,8.0,10.0
A,C,2.0,3.0,6.0,7.0,
A,D,,,,,9.0


Como se comentó en la lección 2, se puede hacer elección de columnas tanto por posición (número de columna) como por localización (nombre), debido a que los valores de los DataFrame son arreglos en Numpy, se operan con las columnas con operaciones vectorizadas.

In [25]:
df['one']

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

In [26]:
#Definición de una nueva columna 
df['three'] = df['one'] * df['two']

df

Unnamed: 0,one,two,three
a,1.0,1.0,1.0
b,2.0,2.0,4.0
c,3.0,3.0,9.0
d,,4.0,


In [27]:
#Definición de una nueva columna pero desde una condicion lógica
df['flag'] = df['one'] > 2

df

Unnamed: 0,one,two,three,flag
a,1.0,1.0,1.0,False
b,2.0,2.0,4.0,False
c,3.0,3.0,9.0,True
d,,4.0,,False


In [28]:
#Selección de filas de una columna y definición de una columna
df['one_trunc'] = df['one'][:2]
df

Unnamed: 0,one,two,three,flag,one_trunc
a,1.0,1.0,1.0,False,1.0
b,2.0,2.0,4.0,False,2.0
c,3.0,3.0,9.0,True,
d,,4.0,,False,


Los ejemplos anteriores mostraron que cuando se crea una nueva columna, esta se agrega al final del DF. Pero puede presentarse la situación donde necesitamos agregar una columan en alguna posición intermedia. El siguiente código es un ejemplo para hacer esa operación.

In [29]:
#df.insert?

In [30]:
#Se inserta una columna
df.insert(1, 'bar', df['one']/2.0)
df 

Unnamed: 0,one,bar,two,three,flag,one_trunc
a,1.0,0.5,1.0,1.0,False,1.0
b,2.0,1.0,2.0,4.0,False,2.0
c,3.0,1.5,3.0,9.0,True,
d,,,4.0,,False,


In [31]:
#df.drop?
#df.drop(['bar'],axis=1,inplace=True)

Los valores booleanos y los NaN cuando se opera con el DF respetan la operación como elementos de Numpy.

In [32]:
#Operación vectorizda sobre el DF
df*5

Unnamed: 0,one,bar,two,three,flag,one_trunc
a,5.0,2.5,5.0,5.0,0,5.0
b,10.0,5.0,10.0,20.0,0,10.0
c,15.0,7.5,15.0,45.0,5,
d,,,20.0,,0,


Similar al ejemplo en las Series, los DF cuantan con funciones definidas sobre ellos, pero si se necesita alguna función en Numpy puede ser aplicada sobre todo el DF.

In [33]:
np.exp(df.drop(labels=['flag'],axis=1))

Unnamed: 0,one,bar,two,three,one_trunc
a,2.718282,1.648721,2.718282,2.718282,2.718282
b,7.389056,2.718282,7.389056,54.59815,7.389056
c,20.085537,4.481689,20.085537,8103.083928,
d,,,54.59815,,


In [34]:
print("OJO")

df

OJO


Unnamed: 0,one,bar,two,three,flag,one_trunc
a,1.0,0.5,1.0,1.0,False,1.0
b,2.0,1.0,2.0,4.0,False,2.0
c,3.0,1.5,3.0,9.0,True,
d,,,4.0,,False,


Los ejemplos anteriores son ejemplos sencillos sobre Series y DataFrame, pero en la mayoría de situaciones tanto las series como los DF serán creados desde un archivo o fuente donde tomaremos datos. Los siguientes ejemplos son pequeñas muestras del trabajo normal con la creación de DF.

In [35]:
#Se define la ruta desde donde se cargará la tabla
url = 'https://raw.github.com/gjreda/best-sandwiches/master/data/best-sandwiches-geocode.tsv'

# Los datos se cargan usando un tipo de lectura a un DF.
from_url = pd.read_table(url, sep='\t')
from_url.head(3)

Unnamed: 0,rank,sandwich,restaurant,description,price,address,city,phone,website,full_address,formatted_address,lat,lng
0,1,BLT,Old Oak Tap,The B is applewood smoked&mdash;nice and snapp...,$10,2109 W. Chicago Ave.,Chicago,773-772-0406,theoldoaktap.com,"2109 W. Chicago Ave., Chicago","2109 West Chicago Avenue, Chicago, IL 60622, USA",41.895734,-87.67996
1,2,Fried Bologna,Au Cheval,Thought your bologna-eating days had retired w...,$9,800 W. Randolph St.,Chicago,312-929-4580,aucheval.tumblr.com,"800 W. Randolph St., Chicago","800 West Randolph Street, Chicago, IL 60607, USA",41.884672,-87.647754
2,3,Woodland Mushroom,Xoco,Leave it to Rick Bayless and crew to come up w...,$9.50.,445 N. Clark St.,Chicago,312-334-3688,rickbayless.com,"445 N. Clark St., Chicago","445 North Clark Street, Chicago, IL 60654, USA",41.890602,-87.630925


In [36]:
#!pip install requests

En muchos casos los datos que se obtienen en internet desde algún sistema vienen en formatos JSON, estos pueden ser preprocesados para posteriormente cargarlos en un DF de manera más tradicional. Pero debido al uso frecuente de Pandas, se han desarrollado funciones para ayudar a facilidar el tratamiento y carga de datos. El siguiente ejemplo muestra como procesar los datos que son obtenidos en formato JSON.

In [37]:
#Se definen las biblitecas que se necesitarán
import requests
import json

#Se define la ruta
url = "http://mesonet.agron.iastate.edu/geojson/network.php?network={}"
#Se piden los datos
r = requests.get(url.format("AWOS"))
js = r.json()

Visualizamos el formato del los datos.

In [38]:
js

{'type': 'FeatureCollection',
 'features': [],
 'generation_time': '2022-06-22T14:21:26Z',
 'count': 0}

In [39]:
#Se eleige algunos de los datos
js['features'][:1]

[]

In [40]:
#Se eleige algunos de los datos
#js['generation_time'][:8]
#js['count']
js['type']

'FeatureCollection'

Si se carga la información en un DF, se logra tener algo pero observamos el formato.

In [41]:
#visualización de los datos.
pd.DataFrame(js['features']).head()

#pd.DataFrame(js)

El ejemplo siguiente es como se pueden usar herramientas que tienen Pandas y que facilidad el trabajo al momento de crear un DataFrame.

In [42]:
#stations = pd.io.json.json_normalize(js['features'])

stations = pd.json_normalize(js)
stations

Unnamed: 0,type,features,generation_time,count
0,FeatureCollection,[],2022-06-22T14:21:26Z,0


### ¿Siempre hacemos una transformación a la vez?



In [43]:
from_url.head()

Unnamed: 0,rank,sandwich,restaurant,description,price,address,city,phone,website,full_address,formatted_address,lat,lng
0,1,BLT,Old Oak Tap,The B is applewood smoked&mdash;nice and snapp...,$10,2109 W. Chicago Ave.,Chicago,773-772-0406,theoldoaktap.com,"2109 W. Chicago Ave., Chicago","2109 West Chicago Avenue, Chicago, IL 60622, USA",41.895734,-87.67996
1,2,Fried Bologna,Au Cheval,Thought your bologna-eating days had retired w...,$9,800 W. Randolph St.,Chicago,312-929-4580,aucheval.tumblr.com,"800 W. Randolph St., Chicago","800 West Randolph Street, Chicago, IL 60607, USA",41.884672,-87.647754
2,3,Woodland Mushroom,Xoco,Leave it to Rick Bayless and crew to come up w...,$9.50.,445 N. Clark St.,Chicago,312-334-3688,rickbayless.com,"445 N. Clark St., Chicago","445 North Clark Street, Chicago, IL 60654, USA",41.890602,-87.630925
3,4,Roast Beef,Al&rsquo;s Deli,"The Francophile brothers behind this deli, whi...",$9.40.,914 Noyes St.,Evanston,,alsdeli.net,"914 Noyes St., Evanston","914 Noyes Street, Evanston, IL 60201, USA",42.058442,-87.684425
4,5,PB&amp;L,Publican Qualty Meats,"When this place opened in February, it quickly...",$10,825 W. Fulton Mkt.,Chicago,312-445-8977,publicanqualitymeats.com,"825 W. Fulton Mkt., Chicago","825 West Fulton Market, Chicago, IL 60607, USA",41.886637,-87.648552


In [44]:
#Codigo versión 1
Phone=from_url['phone']
Phone_dropna=Phone.dropna()
Phone_Numbers=Phone_dropna.apply(lambda x: str(x).split('-')[0])
Phone_Numbers.max()

'773'

In [45]:
#Versión 2
from_url['phone'].dropna().apply(lambda x: str(x).split('-')[0]).max()

'773'

In [46]:
#Version 3
from_url['phone'].dropna()\
                 .apply(lambda x: str(x)\
                 .split('-')[0])\
                 .max()

'773'

El ejemplo anterior muestra que se pueden hacer cadenas de operaciones o transformaciones sobre los DF, esto permite definir un tipo de programación en Pandas. Esto puede ser pensado que es programación "Declarativa".


Limpiamos el entorno para hacer los siguientes ejemplos.

In [47]:
%clear

[H[2J

In [48]:
%reset -f

In [49]:
%whos

Interactive namespace is empty.


## SQL y Pandas

El lenguaje estandar para procesar datos es SQL (Structured Query Language), este es un lenguaje de dominio especifico que resulta adecuado para trabajar con bases de datos relacionales. Pero de igual forma, se han desarrollado herramientas para usar el mismo tipo de lenguage (SQL) en bases de datos de estructura diferente a las relacionales.

A primera vista la sintaxis de SQL vs Pandas es totalmente diferente, pero se pueden recuperar los resultados haciendo uso de la condiciones lógicas y la manipulacion sobre los DF.

Los siguientes códigos son ejemplos sencillos de operaciones elementales en SQL dentro de las operaciones de Pandas.

In [50]:
#Se cargan las bibliotecas y datos necesarios para los ejemplos.
import pandas as pd
import numpy as np


url = 'https://raw.github.com/gjreda/best-sandwiches/master/data/best-sandwiches-geocode.tsv'

# fetch the text from the URL and read it into a DataFrame
data = pd.read_table(url, sep='\t')
data.head(3)

Unnamed: 0,rank,sandwich,restaurant,description,price,address,city,phone,website,full_address,formatted_address,lat,lng
0,1,BLT,Old Oak Tap,The B is applewood smoked&mdash;nice and snapp...,$10,2109 W. Chicago Ave.,Chicago,773-772-0406,theoldoaktap.com,"2109 W. Chicago Ave., Chicago","2109 West Chicago Avenue, Chicago, IL 60622, USA",41.895734,-87.67996
1,2,Fried Bologna,Au Cheval,Thought your bologna-eating days had retired w...,$9,800 W. Randolph St.,Chicago,312-929-4580,aucheval.tumblr.com,"800 W. Randolph St., Chicago","800 West Randolph Street, Chicago, IL 60607, USA",41.884672,-87.647754
2,3,Woodland Mushroom,Xoco,Leave it to Rick Bayless and crew to come up w...,$9.50.,445 N. Clark St.,Chicago,312-334-3688,rickbayless.com,"445 N. Clark St., Chicago","445 North Clark Street, Chicago, IL 60654, USA",41.890602,-87.630925


In [51]:
data.columns

Index(['rank', 'sandwich', 'restaurant', 'description', 'price', 'address',
       'city', 'phone', 'website', 'full_address', 'formatted_address', 'lat',
       'lng'],
      dtype='object')

In [52]:
#Breve revisión de los datos
data.city.value_counts()

Chicago          53
Elmhurst          2
Evanston          1
Bolingbrook       1
Orland Hills      1
Highland Park     1
Lake Forest       1
Oak Park          1
Name: city, dtype: int64

In [53]:
#Exploración minima de los datos
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 61 entries, 0 to 60
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   rank               61 non-null     int64  
 1   sandwich           61 non-null     object 
 2   restaurant         61 non-null     object 
 3   description        61 non-null     object 
 4   price              61 non-null     object 
 5   address            61 non-null     object 
 6   city               61 non-null     object 
 7   phone              50 non-null     object 
 8   website            58 non-null     object 
 9   full_address       61 non-null     object 
 10  formatted_address  61 non-null     object 
 11  lat                61 non-null     float64
 12  lng                61 non-null     float64
dtypes: float64(2), int64(1), object(10)
memory usage: 6.3+ KB



SQL 1

Lo más básico en un query es seleccionar columans y visualizar algunas de las filas.

~~~sql
SELECT restaurant, price, city,phone
FROM data
LIMIT 5;
~~~


In [54]:
#SQL 1 en Pandas
data[['restaurant', 'price', 'city','phone']].head(5)

Unnamed: 0,restaurant,price,city,phone
0,Old Oak Tap,$10,Chicago,773-772-0406
1,Au Cheval,$9,Chicago,312-929-4580
2,Xoco,$9.50.,Chicago,312-334-3688
3,Al&rsquo;s Deli,$9.40.,Evanston,
4,Publican Qualty Meats,$10,Chicago,312-445-8977


In [55]:
#SQL 1 en Pandas
data.loc[:4,['restaurant', 'price', 'city','phone']]

Unnamed: 0,restaurant,price,city,phone
0,Old Oak Tap,$10,Chicago,773-772-0406
1,Au Cheval,$9,Chicago,312-929-4580
2,Xoco,$9.50.,Chicago,312-334-3688
3,Al&rsquo;s Deli,$9.40.,Evanston,
4,Publican Qualty Meats,$10,Chicago,312-445-8977


SQL 2

La siguiente operacion básica en SQL es seleccionar columnas y pedir que estas cumplan cierta condición o restricción.

~~~sql
SELECT *
FROM data
WHERE city = 'Elmhurst';
~~~

In [56]:
#SQL 2 en Pandas
data[data['city']=='Elmhurst']

Unnamed: 0,rank,sandwich,restaurant,description,price,address,city,phone,website,full_address,formatted_address,lat,lng
50,40,Tuscan Chicken,Rosalia&rsquo;s Tuscan Chicken,When a boneless chicken breast is dripping wit...,$6,241 N. York Rd.,Elmhurst,,rosaliasdeli.com,"241 N. York Rd., Elmhurst","241 North York Street, Elmhurst, IL 60126, USA",41.90494,-87.939853
58,48,Beef Curry,Zenwich,Proof positive that sandwiches have surpassed ...,$7.50.,416 N. York St.,Elmhurst,,eatmyzenwich.com,"416 N. York St., Elmhurst","416 North York Street, Elmhurst, IL 60126, USA",41.910662,-87.939928


In [57]:
#SQL 2 en Pandas
data[data.city=='Elmhurst']

Unnamed: 0,rank,sandwich,restaurant,description,price,address,city,phone,website,full_address,formatted_address,lat,lng
50,40,Tuscan Chicken,Rosalia&rsquo;s Tuscan Chicken,When a boneless chicken breast is dripping wit...,$6,241 N. York Rd.,Elmhurst,,rosaliasdeli.com,"241 N. York Rd., Elmhurst","241 North York Street, Elmhurst, IL 60126, USA",41.90494,-87.939853
58,48,Beef Curry,Zenwich,Proof positive that sandwiches have surpassed ...,$7.50.,416 N. York St.,Elmhurst,,eatmyzenwich.com,"416 N. York St., Elmhurst","416 North York Street, Elmhurst, IL 60126, USA",41.910662,-87.939928


In [58]:
#SQL 2 en pandas
data.loc[data.city.isin(['Elmhurst']),:]

Unnamed: 0,rank,sandwich,restaurant,description,price,address,city,phone,website,full_address,formatted_address,lat,lng
50,40,Tuscan Chicken,Rosalia&rsquo;s Tuscan Chicken,When a boneless chicken breast is dripping wit...,$6,241 N. York Rd.,Elmhurst,,rosaliasdeli.com,"241 N. York Rd., Elmhurst","241 North York Street, Elmhurst, IL 60126, USA",41.90494,-87.939853
58,48,Beef Curry,Zenwich,Proof positive that sandwiches have surpassed ...,$7.50.,416 N. York St.,Elmhurst,,eatmyzenwich.com,"416 N. York St., Elmhurst","416 North York Street, Elmhurst, IL 60126, USA",41.910662,-87.939928


SQL

Otro operación estandar es pedir elegir las columnas pero que se cumplan alguna de las operaciones básicas **and, or, not**.
~~~sql
SELECT *
FROM data
WHERE city = 'Chicago' AND price <= 8.00;
~~~

In [59]:
#SQL 3 en Pandas.
#Primero procesamos la variable price para poder operar sobre ella.
data['price']=data.price.apply(lambda x: x.replace('$','').split('.')[0]).astype(float)

In [60]:
data.head()

Unnamed: 0,rank,sandwich,restaurant,description,price,address,city,phone,website,full_address,formatted_address,lat,lng
0,1,BLT,Old Oak Tap,The B is applewood smoked&mdash;nice and snapp...,10.0,2109 W. Chicago Ave.,Chicago,773-772-0406,theoldoaktap.com,"2109 W. Chicago Ave., Chicago","2109 West Chicago Avenue, Chicago, IL 60622, USA",41.895734,-87.67996
1,2,Fried Bologna,Au Cheval,Thought your bologna-eating days had retired w...,9.0,800 W. Randolph St.,Chicago,312-929-4580,aucheval.tumblr.com,"800 W. Randolph St., Chicago","800 West Randolph Street, Chicago, IL 60607, USA",41.884672,-87.647754
2,3,Woodland Mushroom,Xoco,Leave it to Rick Bayless and crew to come up w...,9.0,445 N. Clark St.,Chicago,312-334-3688,rickbayless.com,"445 N. Clark St., Chicago","445 North Clark Street, Chicago, IL 60654, USA",41.890602,-87.630925
3,4,Roast Beef,Al&rsquo;s Deli,"The Francophile brothers behind this deli, whi...",9.0,914 Noyes St.,Evanston,,alsdeli.net,"914 Noyes St., Evanston","914 Noyes Street, Evanston, IL 60201, USA",42.058442,-87.684425
4,5,PB&amp;L,Publican Qualty Meats,"When this place opened in February, it quickly...",10.0,825 W. Fulton Mkt.,Chicago,312-445-8977,publicanqualitymeats.com,"825 W. Fulton Mkt., Chicago","825 West Fulton Market, Chicago, IL 60607, USA",41.886637,-87.648552


In [61]:
#SQL 3 en Pandas
data[(data.city=='Chicago') & (data.price<7.0) ]

Unnamed: 0,rank,sandwich,restaurant,description,price,address,city,phone,website,full_address,formatted_address,lat,lng
11,12,Breaded Steak,Ricobene&rsquo;s,This is what put Ricobene&rsquo;s on the map: ...,5.0,252 W. 26th Street,Chicago,(312) 225-5555,ricobenespizza.com,"252 W. 26th Street, Chicago","252 West 26th Street, Chicago, IL 60616, USA",41.845754,-87.633895
13,12,Breaded Steak,Ricobene&rsquo;s,This is what put Ricobene&rsquo;s on the map: ...,5.0,5160 S. Pulaski Road,Chicago,(773) 284-2400,ricobenespizza.com,"5160 S. Pulaski Road, Chicago","5160 South Pulaski Road, Chicago, IL 60632, USA",41.798956,-87.723434
18,16,Meatball Sub,Bari,"No condiments, no fuss, just saucy meatballs (...",4.0,1120 W. Grand Ave.,Chicago,312-666-0730,bariitaliansubs.com,"1120 W. Grand Ave., Chicago","1120 West Grand Avenue, Chicago, IL 60642, USA",41.891213,-87.655534
21,19,Falafel,Old Jerusalem,The fritters of mashed chickpeas are perfectly...,6.0,1411 N. Wells St.,Chicago,312-944-0459,oldjerusalemchicago.com,"1411 N. Wells St., Chicago","1411 North Wells Street, Chicago, IL 60610, USA",41.908,-87.634157
23,21,Chicken Schnitzel,Olga&rsquo;s Delicatessen,"A no-frills thrill, the schnitzel is a classic...",5.0,3209 W. Irving Park Rd.,Chicago,773-539-8038,,"3209 W. Irving Park Rd., Chicago","3209 West Irving Park Road, Chicago, IL 60618,...",41.953806,-87.708466
24,22,Shawarma,Dawali Mediterranean Kitchen,Dawali&rsquo;s filling shawarma escapes a comm...,6.0,1625 N Halsted St.,Chicago,(312) 944-5800,dawalikitchen.com,"1625 N Halsted St., Chicago","1625 North Halsted Street, Chicago, IL 60614, USA",41.911714,-87.648218
25,22,Shawarma,Dawali Mediterranean Kitchen,Dawali&rsquo;s filling shawarma escapes a comm...,6.0,4911 N Kedzie Ave,Chicago,(773) 267-4222,dawalikitchen.com,"4911 N Kedzie Ave, Chicago","4911 North Kedzie Avenue, Chicago, IL 60625, USA",41.970782,-87.708503
27,24,Vegetarian Panino,La Pane,"La Pane might be known for pizza, but it offer...",5.0,2954 W. Irving Park Rd.,Chicago,773-539-5321,lapanechicago.com,"2954 W. Irving Park Rd., Chicago","2954 West Irving Park Road, Chicago, IL 60618,...",41.954024,-87.702521
53,43,"Oat Bread, Pecan Butter, and Fruit Jam",Elaine&rsquo;s Coffee Call,The chalkboard menu is ambiguous about whether...,6.0,1816 N. Clark St.,Chicago,,jdvhotels.com/hotels/chicago/lincoln,"1816 N. Clark St., Chicago","1816 North Clark Street, Chicago, IL 60614, USA",41.915304,-87.634502
55,45,Cubano,Cafecito,"The success of this sandwich, a Cuban traditio...",5.0,26 E. Congress Pkwy.,Chicago,312-922-2233,cafecitochicago.com,"26 E. Congress Pkwy., Chicago","26 East Congress Parkway, Chicago, IL 60605, USA",41.875804,-87.626366


In [62]:
#SQL 3 en Pandas
data.loc[(data.city=='Chicago') & (data.price<7.0),: ]

Unnamed: 0,rank,sandwich,restaurant,description,price,address,city,phone,website,full_address,formatted_address,lat,lng
11,12,Breaded Steak,Ricobene&rsquo;s,This is what put Ricobene&rsquo;s on the map: ...,5.0,252 W. 26th Street,Chicago,(312) 225-5555,ricobenespizza.com,"252 W. 26th Street, Chicago","252 West 26th Street, Chicago, IL 60616, USA",41.845754,-87.633895
13,12,Breaded Steak,Ricobene&rsquo;s,This is what put Ricobene&rsquo;s on the map: ...,5.0,5160 S. Pulaski Road,Chicago,(773) 284-2400,ricobenespizza.com,"5160 S. Pulaski Road, Chicago","5160 South Pulaski Road, Chicago, IL 60632, USA",41.798956,-87.723434
18,16,Meatball Sub,Bari,"No condiments, no fuss, just saucy meatballs (...",4.0,1120 W. Grand Ave.,Chicago,312-666-0730,bariitaliansubs.com,"1120 W. Grand Ave., Chicago","1120 West Grand Avenue, Chicago, IL 60642, USA",41.891213,-87.655534
21,19,Falafel,Old Jerusalem,The fritters of mashed chickpeas are perfectly...,6.0,1411 N. Wells St.,Chicago,312-944-0459,oldjerusalemchicago.com,"1411 N. Wells St., Chicago","1411 North Wells Street, Chicago, IL 60610, USA",41.908,-87.634157
23,21,Chicken Schnitzel,Olga&rsquo;s Delicatessen,"A no-frills thrill, the schnitzel is a classic...",5.0,3209 W. Irving Park Rd.,Chicago,773-539-8038,,"3209 W. Irving Park Rd., Chicago","3209 West Irving Park Road, Chicago, IL 60618,...",41.953806,-87.708466
24,22,Shawarma,Dawali Mediterranean Kitchen,Dawali&rsquo;s filling shawarma escapes a comm...,6.0,1625 N Halsted St.,Chicago,(312) 944-5800,dawalikitchen.com,"1625 N Halsted St., Chicago","1625 North Halsted Street, Chicago, IL 60614, USA",41.911714,-87.648218
25,22,Shawarma,Dawali Mediterranean Kitchen,Dawali&rsquo;s filling shawarma escapes a comm...,6.0,4911 N Kedzie Ave,Chicago,(773) 267-4222,dawalikitchen.com,"4911 N Kedzie Ave, Chicago","4911 North Kedzie Avenue, Chicago, IL 60625, USA",41.970782,-87.708503
27,24,Vegetarian Panino,La Pane,"La Pane might be known for pizza, but it offer...",5.0,2954 W. Irving Park Rd.,Chicago,773-539-5321,lapanechicago.com,"2954 W. Irving Park Rd., Chicago","2954 West Irving Park Road, Chicago, IL 60618,...",41.954024,-87.702521
53,43,"Oat Bread, Pecan Butter, and Fruit Jam",Elaine&rsquo;s Coffee Call,The chalkboard menu is ambiguous about whether...,6.0,1816 N. Clark St.,Chicago,,jdvhotels.com/hotels/chicago/lincoln,"1816 N. Clark St., Chicago","1816 North Clark Street, Chicago, IL 60614, USA",41.915304,-87.634502
55,45,Cubano,Cafecito,"The success of this sandwich, a Cuban traditio...",5.0,26 E. Congress Pkwy.,Chicago,312-922-2233,cafecitochicago.com,"26 E. Congress Pkwy., Chicago","26 East Congress Parkway, Chicago, IL 60605, USA",41.875804,-87.626366


In [63]:
#SQL 3 en Pandas
data.query('city=="Chicago" and price<7.0')

Unnamed: 0,rank,sandwich,restaurant,description,price,address,city,phone,website,full_address,formatted_address,lat,lng
11,12,Breaded Steak,Ricobene&rsquo;s,This is what put Ricobene&rsquo;s on the map: ...,5.0,252 W. 26th Street,Chicago,(312) 225-5555,ricobenespizza.com,"252 W. 26th Street, Chicago","252 West 26th Street, Chicago, IL 60616, USA",41.845754,-87.633895
13,12,Breaded Steak,Ricobene&rsquo;s,This is what put Ricobene&rsquo;s on the map: ...,5.0,5160 S. Pulaski Road,Chicago,(773) 284-2400,ricobenespizza.com,"5160 S. Pulaski Road, Chicago","5160 South Pulaski Road, Chicago, IL 60632, USA",41.798956,-87.723434
18,16,Meatball Sub,Bari,"No condiments, no fuss, just saucy meatballs (...",4.0,1120 W. Grand Ave.,Chicago,312-666-0730,bariitaliansubs.com,"1120 W. Grand Ave., Chicago","1120 West Grand Avenue, Chicago, IL 60642, USA",41.891213,-87.655534
21,19,Falafel,Old Jerusalem,The fritters of mashed chickpeas are perfectly...,6.0,1411 N. Wells St.,Chicago,312-944-0459,oldjerusalemchicago.com,"1411 N. Wells St., Chicago","1411 North Wells Street, Chicago, IL 60610, USA",41.908,-87.634157
23,21,Chicken Schnitzel,Olga&rsquo;s Delicatessen,"A no-frills thrill, the schnitzel is a classic...",5.0,3209 W. Irving Park Rd.,Chicago,773-539-8038,,"3209 W. Irving Park Rd., Chicago","3209 West Irving Park Road, Chicago, IL 60618,...",41.953806,-87.708466
24,22,Shawarma,Dawali Mediterranean Kitchen,Dawali&rsquo;s filling shawarma escapes a comm...,6.0,1625 N Halsted St.,Chicago,(312) 944-5800,dawalikitchen.com,"1625 N Halsted St., Chicago","1625 North Halsted Street, Chicago, IL 60614, USA",41.911714,-87.648218
25,22,Shawarma,Dawali Mediterranean Kitchen,Dawali&rsquo;s filling shawarma escapes a comm...,6.0,4911 N Kedzie Ave,Chicago,(773) 267-4222,dawalikitchen.com,"4911 N Kedzie Ave, Chicago","4911 North Kedzie Avenue, Chicago, IL 60625, USA",41.970782,-87.708503
27,24,Vegetarian Panino,La Pane,"La Pane might be known for pizza, but it offer...",5.0,2954 W. Irving Park Rd.,Chicago,773-539-5321,lapanechicago.com,"2954 W. Irving Park Rd., Chicago","2954 West Irving Park Road, Chicago, IL 60618,...",41.954024,-87.702521
53,43,"Oat Bread, Pecan Butter, and Fruit Jam",Elaine&rsquo;s Coffee Call,The chalkboard menu is ambiguous about whether...,6.0,1816 N. Clark St.,Chicago,,jdvhotels.com/hotels/chicago/lincoln,"1816 N. Clark St., Chicago","1816 North Clark Street, Chicago, IL 60614, USA",41.915304,-87.634502
55,45,Cubano,Cafecito,"The success of this sandwich, a Cuban traditio...",5.0,26 E. Congress Pkwy.,Chicago,312-922-2233,cafecitochicago.com,"26 E. Congress Pkwy., Chicago","26 East Congress Parkway, Chicago, IL 60605, USA",41.875804,-87.626366


SQL 4

Este es otro ejemplo, de usar un conector lógico.
~~~sql
SELECT *
FROM data
WHERE rank <= 10 OR price > 10;
~~~


In [64]:
#Cuál sería la versión en Pandas?
data?

[0;31mType:[0m        DataFrame
[0;31mString form:[0m
rank                     sandwich              restaurant  \
           0      1                         <...>       3351 North Broadway, Chicago, IL 60657, USA  41.942739 -87.644342
           
           [61 rows x 13 columns]
[0;31mLength:[0m      61
[0;31mFile:[0m        ~/.virtualenvs/PandasAcademy/lib/python3.8/site-packages/pandas/core/frame.py
[0;31mDocstring:[0m  
Two-dimensional, size-mutable, potentially heterogeneous tabular data.

Data structure also contains labeled axes (rows and columns).
Arithmetic operations align on both row and column labels. Can be
thought of as a dict-like container for Series objects. The primary
pandas data structure.

Parameters
----------
data : ndarray (structured or homogeneous), Iterable, dict, or DataFrame
    Dict can contain Series, arrays, constants, dataclass or list-like objects. If
    data is a dict, column order follows insertion-order. If a dict contains Series
    wh

In [65]:
#data.query('rank <=10 or price<7.0')


SQL 5

Por último otras de las operaciones básicas en SQL es operar sobre los NULL , que son los Missin Values en Pandas.

~~~sql
SELECT *
FROM frame
WHERE col2 IS NULL;
~~~

In [66]:
#Se define un DF para el ejemplo
frame = pd.DataFrame({'col1': ['A', 'B', np.NaN, 'C', 'D'],'col2': ['F', np.NaN, 'G', 'H', 'I']})
frame 

Unnamed: 0,col1,col2
0,A,F
1,B,
2,,G
3,C,H
4,D,I


In [67]:
#SQL 5 en Pandas
frame[frame['col2'].isna()]

Unnamed: 0,col1,col2
1,B,


SQL 6

Es otro ejemplo de trabajar con los NULL, pero usando otro conector lógico.

~~~sql
SELECT *
FROM frame
WHERE col1 IS NOT NULL;
~~~

In [68]:
#SQL 6 en Pandas.
frame[frame['col1'].notna()]

Unnamed: 0,col1,col2
0,A,F
1,B,
3,C,H
4,D,I


Los ejemplos anteriores es una primera parte de la relación de SQL y Pandas, en cieto sentido el modo de procesar los DF es considerado un tipo moderno de operaciones en SQL. Pero es fundamental aprender SQL y su lógica de programación ya que es un estandar en todas las bases de datos.

Nota: En los ejemplos faltan algunos tipos de Queries estandar en SQL, los cuales requieren operaciones sobre varias tablas (joins), estas no se presentan en esta sección, pero si en las siguientes.

## Notas finales:

Las Series y los DataFrames pueden ser creados desde ciertas estructuras de datos o colecciones de Python, pero en el trabajo estándar son creados desde alguna base o archivo.

Pandas permite mantener el tipo de programación estandar en Python, más aún permite hacer programación Declarativa esto en buena medida por el modo en que están definidas los métodos sobre las Series y DF.

La carga de datos, requiere conocer algunas de las funciones para cargar los diferentes tipos de archivos. Por default Pandas asigna un tipo de dato a cada columna de un DF, pero lo recomendable es explorar cual tipo de dato es más adecuado y definir el tipo de dato, esto para hacer mejor uso de la memoria.

## Referencias y Créditos:

Libros:

* [Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython](https://www.amazon.com/Python-Data-Analysis-Wrangling-IPython/dp/1449319793)
* [Data Science from Scratch: First Principles with Python](https://www.amazon.com/Data-Science-Scratch-Principles-Python/dp/149190142X)
* [Python Data Science Handbook: Essential Tools for Working with Data](https://www.amazon.com/Python-Data-Science-Handbook-Essential/dp/1491912057)

Sitios Web:

*  [Mini tutotial de la página oficial](https://pandas.pydata.org/pandas-docs/stable/10min.html)
* [Sobre la programación Declarativa en Python](https://www.benfrederickson.com/python-as-a-declarative-programming-language/)
* [Más sobre Declarative programming](https://nullp0tr.com/pages/declarative_apis.html)

* [Much more sobre Declarive programming](https://florianwilhelm.info/2017/07/declarative_thinking_and_programming/)