# Pandas 1. Fundamentos 

Esta libreta introduce al módulo [pandas](https://pandas.pydata.org), descrito en su sitio ofical como 

> a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,
built on top of the Python programming language.

Más precisamente, pandas introduce estructuras tabulares implementadas sobre el arreglo de la paquetería numpy. 
Puede consultarse el libro [_Python for Data Analysis_](https://www.cin.ufpe.br/~embat/Python%20for%20Data%20Analysis.pdf) para profundizar en distintos aspectos. 


Pandas introduce la estructura tabular básica del análisis de datos.  La estructura tabular incluye cada una de las variables en una columna y cada observación en un renglón (tidy data).  Obsérvese que cada columna es de un tipo distinto, lo cual permite trabajar con estructuras de datos heterogéneas.  Técnicamente, esto se logra haciendo que cada columna sea un arreglo unidimensional de numpy etiquetado.  Estos arreglos etiquetados tienen el tipo "pandas Series", como veremos más adelante, y son la base del objeto DataFrame.

Aunque es menos usual en la práctica del análsis de datos, puede formarse una base de datos a partir de un diccionario.  En ese caso las llaves (keys) funcionan como _nombres de variable_ y los valores (values) funcionan como observaciones (de cada variable).  

Para empezar, debermos cargar el módulo pandas con un alias.  Generalmente lo haremos con:

```python
import pandas as pd
```
y trabajaremos con las funciones del módulo de la forma usual `pd.<nombre de función>(args)`.

In [1]:
import pandas as pd
paises = ['Estados Unidos', 'Australia', 'Japón', 'India', 'Rusia', 'Marruecos', 'Egipto']
md =  [True, False, False, False, True, True, True]
apc = [809, 731, 588, 18, 200, 70, 45]
mi_dict = {"pais":paises, "maneja_derecha":md, "autos_per_capita":apc}

autos = pd.DataFrame(mi_dict)
autos

Unnamed: 0,pais,maneja_derecha,autos_per_capita
0,Estados Unidos,True,809
1,Australia,False,731
2,Japón,False,588
3,India,False,18
4,Rusia,True,200
5,Marruecos,True,70
6,Egipto,True,45


Las etiquetas de renglón pueden cambiarse.  Por ejemplo, para usar el código abreviado de cada país, podríamos hacer. 

In [None]:
row_labels = ['US', 'AUS', 'JPN', 'IN', 'RU', 'MOR', 'EG']
autos.index = row_labels
autos

En el caso de objetos tipo lista, se debe tener una lista (de listas) que contenga una lista por cada columna.  Los nombres de columna deberán venir de otra lista y todo deberá agruparse en un diccionario.  El procedimiento es el siguiente:

```python
lista_pais = ['Estados Unidos', 'España', 'Italia']
lista_casos = [337737, 135032, 129948]
lista_datos = [lista_pais, lista_casos]
lista_colnames = ['pais', 'num. casos']

zipped = list(zip(lista_colnames, lista_datos))
pd.DataFrame(dict(zipped))
```

In [None]:
lista_pais = ['Estados Unidos', 'España', 'Italia']
lista_casos = [337737, 135032, 129948]
lista_datos = [lista_pais, lista_casos]
lista_colnames = ['pais', 'num. casos']

zipped = list(zip(lista_colnames, lista_datos))
zipped

## Un poco más práctico

### 1. Importación desde archivos .csv

Mucho más comunmente, generaremos la base de datos importando una importación de algún archivo simple, como un csv.  Por ejemplo:

In [2]:
gapminder = pd.read_csv("../Datos/gapminder.csv")
gapminder

Unnamed: 0.1,Unnamed: 0,country,year,population,cont,life_exp,gdp_cap
0,11,Afghanistan,2007,31889923.0,Asia,43.828,974.580338
1,23,Albania,2007,3600523.0,Europe,76.423,5937.029526
2,35,Algeria,2007,33333216.0,Africa,72.301,6223.367465
3,47,Angola,2007,12420476.0,Africa,42.731,4797.231267
4,59,Argentina,2007,40301927.0,Americas,75.320,12779.379640
...,...,...,...,...,...,...,...
137,1655,Vietnam,2007,85262356.0,Asia,74.249,2441.576404
138,1667,West Bank and Gaza,2007,4018332.0,Asia,73.422,3025.349798
139,1679,"Yemen, Rep.",2007,22211743.0,Asia,62.698,2280.769906
140,1691,Zambia,2007,11746035.0,Africa,42.384,1271.211593


En este caso, la estructura del archivo csv es la siguiente:

```python
  ,country, year, population, cont, life_exp, gdp_cap
11, Afghanistan, 2007, 31889923, Asia, 43.828, 974.580338
23, Albania ...
```

La primera columna, que no tiene nombre, aparece en la importación con la etiqueta **Unnamed:0**; pero no es utilizada como etiqueta de renglones (la estructura del csv sugiere que esa es la intención del valor).  Para arreglar esto, podemos usar el argumento `index_col` en el que especificaremos que la columna de índice 0 se debe utilizar como etiqueta de renglón.

In [29]:
import numpy as np
gapminder = pd.read_csv("../Datos/gapminder.csv", index_col = 0)
gapminder = gapminder.filter(['cont'])
dict = {'Africa': 'green',
 'Americas': 'orange',
 'Asia': 'blue',
 'Europe': 'yellow',
 'Oceania': 'red'}
colors = gapminder.cont.map(dict)
colors.to_csv('../Datos/Numpy_Colors.txt', index = False, header = False)

Explore `help(pd.read_csv)` y piense cuáles de los argumentos ahí presentes pueden serle útiles (y cómo) en el proceso de importación de sus datos.

#### Y luego, qué tenemos ahí?

Dos métodos comunes para inspeccionar la base de datos son `.head()` y `.tail()`.

Una vez creada la base de datos, podemos acceder a la información de diversas maneras, como:
* selector posicional con [ ]
* `loc` e `iloc`

Con [ ] podemos seleccionar variables enteras o hacer _slicing_.  Por ejemplo, podemos seleccionar la variable `cont`con el comando:

In [None]:
gapminder['cont']

Obsérvese que este objeto no en un arreglo común.  Qué tipo es? Investíguelo.

Este tipo es la base del objeto DataFrame en pandas.  Se puede describir como un arreglo etiquetado.  De hecho, utilizando el _atributo_ `values` puede conseguir sus valores.

Sería más intuitivo pensar en este objeto como una base de datos unidimensional; pero esto conllevaría tener el tipo DataFrame, que el objeto no tiene.  Para que la respuesta sea del tipo DataFrame, se puede utilizar el selector [ [ ...  ] ].  

Intente las tres acciones en la celda siguiente (y verifique que el selector [ [ ... ] ] regresa un objeto de tipo DataFrame).

El uso del selector [ [ ... ] ]  es generalizable como sigue:  Insertamos una _lista_ en el selector original [  ].  Por ejemplo, si queremos seleccionar las columnas `'country' y 'cont'` podemos usar el comando
```python
gapminder[['country', 'cont']]
```
En este caso la lista `['country', 'cont']` funciona como seleccionador y el tipo de la respuesta sería (pandas.core.frame.)DataFrame. 

Realice la selección de las columnas _country, year, y gdp_cap_ de la base de datos `gapminder` y corrobore que el tipo de la selección resultante es DataFrame.

También podemos utilizar el selector [  ]  con argumento rango numérico para seleccionar renglones:
```python
gapminder[1:4]
```
Ten en cuenta que el índice de la derecha no es incluído en la selección. Prueba esta forma de seleccionar para hallar las observaciones 16 a 19 de la base `gapminder`.  Ten en cuenta que los números que se obtienen a la extrema izquierda son los **nombres de observación**, no su número en la base!

Para acceder de forma más precisa a la información contenida en una base de datos del tipo DataFrame, se tienen las funciones 

* `loc` : basado en etiquetas
* `iloc`: basado en posiciones (enteras) 

Compare el resultado de `autos.loc['US']` con `autos.loc[['US']]`

#### Mini quiz
Seleccione los renglones 'US', 'JPN', y 'RU' de la base de datos `autos` en formato DataFrame

Añadiendo los nombres de columna como segundo argumento en forma de una lista es posible seleccionar en ambas direcciones.  Por ejemplo, 
```python
gapminder.loc[[11, 59, 1655], ["country", "gdp_cap"]]
```

Seleccione las variables `pais` y `autos_per_capita`para las observaciones etiquetadas como 'US', 'JPN', y 'RU' en la base de datos `autos`


El uso del slice vacío, `:` permite seleccionar todos los elementos en cualquier dirección. Por ejemplo
```python
gapminder[[11, 59], :]
```

Alternativamente, se puede utilizar `iloc` y seleccionar con base en el índice de posición, entero. Por ejemplo
```python
autos.iloc[1]
autos.iloc[[1]]
autos.iloc[1:3, 0:2]
```
Selecciona las primeras 30 observaciones de las variables `country`, `year`, y `population` de la base de datos `gapminder` utilizando `gapminder.iloc`.  Después, selecciona todas las variables para esas mismas observaciones con el mismo método.  Finalmente, imprime el producto interno bruto per cápita de Albania.

Es importante tener muy claro el tipo del objeto respuesta...Prevea, y después verifique, el tipo de respuesta de los siguientes dos comandos
```python
gapminder.iloc[:, 1]
gapminder.iloc[:, [1]]
```

### Tu turno.
1. Cargue, en un objeto DataFrame nombrado `wb`, los contenidos del archivo `world_ind_pop_data.csv`
2. Repare la etiqueta de los renglones, de ser necesario
3. Examine sus datos usando los métodos `head`y `tail`
4. Utilice el método `.info()` para determinar cuántas observaciones nulas hay en los datos
5. Vuelva a caragar el archivo `world_ind_pop_data.csv` pero esta vez utilice como etiqueta de observación la variable `CountryCode`
6. Cambie los nombres de su base de datos por su versión traducida al español asignando el atributo `.columns` a su nuevo valor.  
7. Aplique el método `.describe()` a su base de datos.

#### No siempre es tan sencillo...

La página web de [SISLO](http://www.sidc.be/silso/datafiles) contiene la base de datos del número de manchas solares (sunspot) diarias y la podemos importar directamente desde su url con: 

```python
url = 'http://www.sidc.be/silso/INFO/sndtotcsv.php'
data = pd.read_csv(url)
```
Realice esta importación y juzgue qué problemas tiene esta importación. ¿Cómo lo arreglamos?  Visitemos [la página de información del juego de datos](http://www.sidc.be/silso/infosndtot).


**Requerimos:**
1. Definir apropiadamente el separador
2. Evitar que `pandas` asigne un nombre automático de columna
3. Poner nombres de columna apropiados
4. Distinguir las observaciones que son NA de las que son un dato en la columna 5 (4 en Python)
5. Poner las fechas en un formato conveniente para cálculos en Python
6. Utilizar las fechas como índice (nombre de renglón) 

Obsérvese el problema que nos provoca no utilizar el argumento `skipinitialspace`!

Este [link](https://strftime.org) contiene referencias para importar y sintetizar fechas en formatos que no sean el estándar.

### Excepciones: Archivos corruptos
Los parámetros `error_bad_lines` y `warn_bad_lines` del comando `read_csv` nos pueden ayudar a leer datos de un archivo `.csv` corrupto.  En particular, cuando algún renglón tiene más registros que variables en la base, Pandas levanta una excepción `pd.io.common.ParserError`.  Por ejemplo:

In [None]:
try:
    datos = pd.read_csv('../Datos/gapminder_corrupt.csv')
    datos.head(15)
except pd.io.common.ParserError:
    print('Este archivo contiene datos corruptos!')

Utilice primero el parámetro `error_bad_lines` para arreglar este problema. ¿Cuántas líneas causaban este problema, y cuáles? 
Utilice el parámetro `warn_bad_lines` para realizar la importación sin mensajes de advertencia.

In [None]:
datos = pd.read_csv('../Datos/gapminder_corrupt.csv',
                    error_bad_lines = False,
                    warn_bad_lines = True)
datos.head(15)

### 2. Importación desde bases de datos SQL

Para ejemplificar la importación de una base de datos, utilizaremos los datos de la liga Europea de football, disponible [aquí](https://www.kaggle.com/hugomathien/soccer), que contiene información sobre más de 25,000 juegos y 10,000 jugadores.  El formato de este archivo es `.sqlite`y para importarlo debemos primero conectar con la base de datos como sigue:


In [None]:
from sqlalchemy import create_engine, inspect
data_engine = create_engine('sqlite:///../Datos/database.sqlite')
inspector = inspect(data_engine)
print(data_engine.table_names())
print(inspector.get_columns('League'))

Obsérvese el uso del prefijo `sqlite:///` para introducir la direción de los datos. El listado anterior muestra tablas y podemos leerlas con el método `read_sql`.  La primera forma: sin uso de SQL:

In [None]:
country = pd.read_sql('Country', data_engine)
country.head(5)
# Esta tabla es un pd.DataFrame como cualquier otro

Podemos hacer este mismo proceso usando SQL. Para ello debemos generar primero la consulta (query) y después usarla en vez del nombre de tabla. Por ejemplo:

In [None]:
my_query = """
SELECT *
FROM Country;
"""
country = pd.read_sql(my_query, data_engine)
country.head(8)

In [None]:
max_goals_per_season = """
SELECT season, 
       max(home_team_goal + away_team_goal) AS max_goals_season,
       (SELECT MAX(home_team_goal + away_team_goal) FROM match) AS overall_max_goals
FROM match
GROUP BY season
"""

pd.read_sql(max_goals_per_season, data_engine).head()

### 3. Importación de archivos JSON

El formato [JSON](https://www.json.org/json-en.html) (JavaScript Object Notation) es muy popular actualmente pues permite la transmisión de muchos tipos de información en un formato de fácil interpretación y, de hecho, muy similar al diccionario de Python!  Cada objeto en un archivo JSON se organiza como parejas del tipo `name:value` y es contenido entre llaves.  El comando para leerlo es, sí, `pd.read_json`. 

In [None]:
nyc_report = pd.read_json('../Datos/NYC Department of Homeless Services.json',
                         orient = 'record')
nyc_report.head()

#### Y las APIs apá?

Todo muy bien; pero... Generalmente los archivos `.json` vendrán de conectar con las APIs de distintos sitios.  Para quien no esté familiarizado con las APIs, aquí algunos recursos:

*  [What is an API](https://www.callr.com/blog/what-is-an-api/)
*  [An introduction to APIs](https://zapier.com/learn/apis/)

Aunque Python incluye varios paquetes dedicados a APIs específicas, usaremos primero un paquete [Requests](https://requests.readthedocs.io/es/latest/) que es una librería genérica para HTTP. Para utilizarla, necesitamos hacer una **solicitud** con

```python
import requests
url = 'https://alguna_direccion_red.dominio'
response = requests.get(url)
```

Cada API tiene su propio método de consulta, sus propias especificaciones. En general tenemos tres elementos básicos:

  1. La url de la API 
  2. Los parámetros de la búsqueda de información en el sitio
  3. Las cabeceras del protocolo HTTP (usualmente los datos de identificación del cliente)
  
El objeto devuelto por `.get()` será un archivo JSON que podremos leer con el método `.json()` del objeto `response`.  Los parámetros adicionales (particulares de cada API) se insertan en el argumento `params` y como un diccionario en la forma: 
```python
params = {'nombre1':'valor1', 'nombre2':'valor2'}
```

#### Ejemplo 1. La API de NewsApi: una API de fácil acceso

La página newsapi.org nos permite obtener encabezados de noticias y blogs.  Después de registrarnos, veremos en [su página](https://newsapi.org/docs/get-started) la forma de realizar una consulta.  Aprendemos que:

  1. Debemos pasar nuestra llave en el encabezado HTTP `X-Api-Key`
  2. La API tiene tres endpoints, a saber: `/v2/top-headlines`para los titulares de mayor impacto, `v2/everything` para...todo, y `v2/sources` donde podemos consultar las fuentes de informacion indizadas en newsapi.org
  3. Cada endpoint tiene sus propios parámetros.  
  
Para consultar las últimas noticias de México, usariamos el parámetro `country = mx`.  Consultemos las últimas noticias en nuestro país (de todas las fuentes):

Esta respuesta es la traducción de un archivo JSON a un diccionario de Python.  Ejecutando
```python
response_dict.keys()
```
observamos que las llaves son: `status` , `totalResults`, y `articles`.  Centrando nuestro interés en las noticias en sí, podemos generar una base de datos como sigue:

In [None]:
response_df = pd.DataFrame(response_dict['articles'])
response_df.head(3)

#### Tu Turno

Usando el API de NewsApi, consulta los titulares principales para México en materia de ciencia con palabra clave CONACYT y convierte tu respuesta primero en un diccionario y luego en una base de datos de `pandas`.  Puedes incluir la palabra clave "tecnología" a tu búsqueda?

#### Ejemplo 3: Yelp Business Search Engine API

En este ejemplo veremos cómo lidiar con JSONs anidados.  Para ello, haremos una solicitud a la API de Yelp. Comience [aquí](https://www.yelp.com/fusion) para conseguir su token individual y replicar este ejemplo.  En él buscamos librerías en Ciudad de México.

In [None]:
import requests
api_url = 'https://api.yelp.com/v3/businesses/search'
params = {'term':'hotel', 'location':'New York'}
headers = {'Authorization':'Bearer [...poner el token aquí...]'}
response = requests.get(api_url, params = params, headers = headers)
print(response.json())

Observe la estructura _anidada_ de este JSON.  En particular, ponga atención a la doble respuesta en las columnas `coordinates` y `categories` organizadas ambas como un diccionario.  Ejecute el siguiente comando y navegue para ver estas columnas.

```python
pd.DataFrame(response.json()['businesses']).head(3)
```

En estos casos se puede utilizar el método `.json_normalize()` de `pandas`.  Esto _aplanará_ el resultado generando columnas nombradas bajo la convención `atributo.atributoanidado` pero el separador se puede cambiar con el argumento `sep`.  Ejecute

```python
response_json = response.json()
pd.json_normalize(response_json['businesses'])
```

Puede seleccionar qué atributo normalizar y qué información extraer. Por ejemplo, intente

```python
response_df =  pd.json_normalize(response_json['businesses'],
                  sep = '_',
                  record_path = 'categories',
                  meta = ['name', 'alias', 'rating',
                         ['location', 'address1'],
                         'display_phone'],
                  meta_prefix = 'hotel_')
respose_df.head(5)
```

¿Cuántos resultados tenemos?  Escribamos `response_json.shape()`.  En mi caso, veo 25 resultados (en 7 columnas); pero ¿Son todos?  La documentación de la API nos muestra que por defecto obtendremos 20 resultados...podemos ejecutar

```python
response_df['hotel_name'].nunique()
## otra forma sería: 
## response_df.hotel_name.nunique()
```

Estas limitaciones son típicas en las APIs, para ahorrar ancho de banda.  No obstante, tenemos un parámetro extra, `offset` (vea la documentación) y podemos usarlo para descargar más datos.

```python
params['offset'] = 20
sig_response = response = requests.get(api_url, 
                                       params = params, 
                                       headers = headers)
sig_response_df = pd.json_normalize(sig_response.json()['business'],
                                    sep = '_',
                                    record_path = 'categories',
                                     meta = ['name', 'alias', 'rating',
                                            ['location', 'address1'],
                                             'display_phone'],
                                     meta_prefix = 'hotel_')
sig_response_df.head(5)
```

Teniendo esto, podemos juntarlos en una sola base:

```python
response_df.append(sig_response_df, ignore_index = True)
```


In [47]:
response_json = response.json()
response_df =   pd.json_normalize(response_json['businesses'],
                  sep = '_',
                  record_path = 'categories',
                  meta = ['name', 'alias', 'rating',
                         ['location', 'address1'],
                         'display_phone'],
                  meta_prefix = 'hotel_')


In [None]:
print(response_df.shape)

print(response_df['hotel_name'].nunique())
response_df.head(2)

In [None]:
params['offset'] = 20
sig_response = response = requests.get(api_url, 
                                       params = params, 
                                       headers = headers)
sig_response_df = pd.json_normalize(sig_response.json()['businesses'],
                                    sep = '_',
                                    record_path = 'categories',
                                     meta = ['name', 'alias', 'rating',
                                            ['location', 'address1'],
                                             'display_phone'],
                                     meta_prefix = 'hotel_')
sig_response_df.head(2)


In [None]:
full_response = response_df.append(sig_response_df, ignore_index= True)
print('Dimensiones actuales:', full_response.shape)
print('Tenemos información sobre', full_response.hotel_name.nunique(), 'negocios.')

#### Tu turno: La API del DENUE; un poco más de trabajo

Vea [la documentación de la API del DENUE](https://www.inegi.org.mx/servicios/api_denue.html#metBus), INEGI y escriba el código de una clase para comunicar con esta API.  La clase debe contener los métodos `buscar`, `ficha`, `nombre`, etc.  Incluya los atributos necesarios y los métodos que faciliten su manejo.