# Pandas 1. Fundamentos 

Esta libreta introduce al módulo [pandas](https://pandas.pydata.org), descrito en su sitio ofical como 

> a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,
built on top of the Python programming language.

Más precisamente, pandas introduce estructuras tabulares implementadas sobre el arreglo de la paquetería numpy. 
Puede consultarse el libro [_Python for Data Analysis_](https://www.cin.ufpe.br/~embat/Python%20for%20Data%20Analysis.pdf) para profundizar en distintos aspectos. 


Pandas introduce la estructura tabular básica del análisis de datos.  La estructura tabular incluye cada una de las variables en una columna y cada observación en un renglón (tidy data).  Obsérvese que cada columna es de un tipo distinto, lo cual permite trabajar con estructuras de datos heterogéneas.  Técnicamente, esto se logra haciendo que cada columna sea un arreglo unidimensional de numpy etiquetado.  Estos arreglos etiquetados tienen el tipo "pandas Series", como veremos más adelante, y son la base del objeto DataFrame.

Aunque es menos usual en la práctica del análsis de datos, puede formarse una base de datos a partir de un diccionario.  En ese caso las llaves (keys) funcionan como _nombres de variable_ y los valores (values) funcionan como observaciones (de cada variable).  

Para empezar, debermos cargar el módulo pandas con un alias.  Generalmente lo haremos con:

```python
import pandas as pd
```
y trabajaremos con las funciones del módulo de la forma usual `pd.<nombre de función>(args)`.

In [1]:
import pandas as pd
paises = ['Estados Unidos', 'Australia', 'Japón', 'India', 'Rusia', 'Marruecos', 'Egipto']
md =  [True, False, False, False, True, True, True]
apc = [809, 731, 588, 18, 200, 70, 45]
mi_dict = {"pais":paises, "maneja_derecha":md, "autos_per_capita":apc}

autos = pd.DataFrame(mi_dict)
autos

Unnamed: 0,pais,maneja_derecha,autos_per_capita
0,Estados Unidos,True,809
1,Australia,False,731
2,Japón,False,588
3,India,False,18
4,Rusia,True,200
5,Marruecos,True,70
6,Egipto,True,45


Las etiquetas de renglón pueden cambiarse.  Por ejemplo, para usar el código abreviado de cada país, podríamos hacer. 

In [2]:
row_labels = ['US', 'AUS', 'JPN', 'IN', 'RU', 'MOR', 'EG']
autos.index = row_labels
autos

Unnamed: 0,pais,maneja_derecha,autos_per_capita
US,Estados Unidos,True,809
AUS,Australia,False,731
JPN,Japón,False,588
IN,India,False,18
RU,Rusia,True,200
MOR,Marruecos,True,70
EG,Egipto,True,45


En el caso de objetos tipo lista, se debe tener una lista (de listas) que contenga una lista por cada columna.  Los nombres de columna deberán venir de otra lista y todo deberá agruparse en un diccionario.  El procedimiento es el siguiente:

```python
lista_pais = ['Estados Unidos', 'España', 'Italia']
lista_casos = [337737, 135032, 129948]
lista_datos = [lista_pais, lista_casos]
lista_colnames = ['pais', 'num. casos']

zipped = list(zip(lista_colnames, lista_datos))
pd.DataFrame(dict(zipped))
```

In [5]:
lista_pais = ['Estados Unidos', 'España', 'Italia']
lista_casos = [337737, 135032, 129948]
lista_datos = [lista_pais, lista_casos]
lista_colnames = ['pais', 'num. casos']

lista_datos
zipped = list(zip(lista_colnames, lista_datos))

[('pais', ['Estados Unidos', 'España', 'Italia']),
 ('num. casos', [337737, 135032, 129948])]

## Un poco más práctico

### 1. Importación desde archivos .csv

Mucho más comunmente, generaremos la base de datos importando una importación de algún archivo simple, como un csv.  Por ejemplo:

In [6]:
gapminder = pd.read_csv("../Datos/gapminder.csv")
gapminder.head(3)

Unnamed: 0.1,Unnamed: 0,country,year,population,cont,life_exp,gdp_cap
0,11,Afghanistan,2007,31889923.0,Asia,43.828,974.580338
1,23,Albania,2007,3600523.0,Europe,76.423,5937.029526
2,35,Algeria,2007,33333216.0,Africa,72.301,6223.367465


En este caso, la estructura del archivo csv es la siguiente:

```python
  ,country, year, population, cont, life_exp, gdp_cap
11, Afghanistan, 2007, 31889923, Asia, 43.828, 974.580338
23, Albania ...
```

La primera columna, que no tiene nombre, aparece en la importación con la etiqueta **Unnamed:0**; pero no es utilizada como etiqueta de renglones (la estructura del csv sugiere que esa es la intención del valor).  Para arreglar esto, podemos usar el argumento `index_col` en el que especificaremos que la columna de índice 0 se debe utilizar como etiqueta de renglón.

In [11]:
import numpy as np
gapminder = pd.read_csv("../Datos/gapminder.csv", index_col = 0)
gapminder.tail(8)


Unnamed: 0,country,year,population,cont,life_exp,gdp_cap
1619,United States,2007,301139947.0,Americas,78.242,42951.65309
1631,Uruguay,2007,3447496.0,Americas,76.384,10611.46299
1643,Venezuela,2007,26084662.0,Americas,73.747,11415.80569
1655,Vietnam,2007,85262356.0,Asia,74.249,2441.576404
1667,West Bank and Gaza,2007,4018332.0,Asia,73.422,3025.349798
1679,"Yemen, Rep.",2007,22211743.0,Asia,62.698,2280.769906
1691,Zambia,2007,11746035.0,Africa,42.384,1271.211593
1703,Zimbabwe,2007,12311143.0,Africa,43.487,469.709298


Explore `help(pd.read_csv)` y piense cuáles de los argumentos ahí presentes pueden serle útiles (y cómo) en el proceso de importación de sus datos.

#### Y luego, qué tenemos ahí?

Dos métodos comunes para inspeccionar la base de datos son `.head()` y `.tail()`.

Una vez creada la base de datos, podemos acceder a la información de diversas maneras, como:
* selector posicional con [ ]
* `loc` e `iloc`

Con [ ] podemos seleccionar variables enteras o hacer _slicing_.  Por ejemplo, podemos seleccionar la variable `cont`con el comando:

In [13]:
type(gapminder['cont'])

pandas.core.series.Series

Obsérvese que este objeto no en un arreglo común.  Qué tipo es? Investíguelo.

Este tipo es la base del objeto DataFrame en pandas.  Se puede describir como un arreglo etiquetado.  De hecho, utilizando el _atributo_ `values` puede conseguir sus valores.

Sería más intuitivo pensar en este objeto como una base de datos unidimensional; pero esto conllevaría tener el tipo DataFrame, que el objeto no tiene.  Para que la respuesta sea del tipo DataFrame, se puede utilizar el selector [ [ ...  ] ].  

Intente las tres acciones en la celda siguiente (y verifique que el selector [ [ ... ] ] regresa un objeto de tipo DataFrame).

In [17]:
gapminder[['country', 'cont']]

Unnamed: 0,country,cont
11,Afghanistan,Asia
23,Albania,Europe
35,Algeria,Africa
47,Angola,Africa
59,Argentina,Americas
...,...,...
1655,Vietnam,Asia
1667,West Bank and Gaza,Asia
1679,"Yemen, Rep.",Asia
1691,Zambia,Africa


El uso del selector [ [ ... ] ]  es generalizable como sigue:  Insertamos una _lista_ en el selector original [  ].  Por ejemplo, si queremos seleccionar las columnas `'country' y 'cont'` podemos usar el comando
```python
gapminder[['country', 'cont']]
```
En este caso la lista `['country', 'cont']` funciona como seleccionador y el tipo de la respuesta sería (pandas.core.frame.)DataFrame. 

Realice la selección de las columnas _country, year, y gdp_cap_ de la base de datos `gapminder` y corrobore que el tipo de la selección resultante es DataFrame.

In [18]:
gapminder[1:4]

Unnamed: 0,country,year,population,cont,life_exp,gdp_cap
23,Albania,2007,3600523.0,Europe,76.423,5937.029526
35,Algeria,2007,33333216.0,Africa,72.301,6223.367465
47,Angola,2007,12420476.0,Africa,42.731,4797.231267


También podemos utilizar el selector [  ]  con argumento rango numérico para seleccionar renglones:
```python
gapminder[1:4]
```
Ten en cuenta que el índice de la derecha no es incluído en la selección. Prueba esta forma de seleccionar para hallar las observaciones 16 a 19 de la base `gapminder`.  Ten en cuenta que los números que se obtienen a la extrema izquierda son los **nombres de observación**, no su número en la base!

In [27]:
gapminder.loc[[23, 35, 47], ['year', 'cont', 'gdp_cap']]


Unnamed: 0,year,cont,gdp_cap
23,2007,Europe,5937.029526
35,2007,Africa,6223.367465
47,2007,Africa,4797.231267


Para acceder de forma más precisa a la información contenida en una base de datos del tipo DataFrame, se tienen las funciones 

* `loc` : basado en etiquetas
* `iloc`: basado en posiciones (enteras) 

Compare el resultado de `autos.loc['US']` con `autos.loc[['US']]`

In [31]:
autos.loc[['US', 'JPN']]

Unnamed: 0,pais,maneja_derecha
US,Estados Unidos,True
JPN,Japón,False


#### Mini quiz
Seleccione los renglones 'US', 'JPN', y 'RU' de la base de datos `autos` en formato DataFrame

In [32]:
autos.loc[['US', 'JPN', 'RU']]

Unnamed: 0,pais,maneja_derecha,autos_per_capita
US,Estados Unidos,True,809
JPN,Japón,False,588
RU,Rusia,True,200


Añadiendo los nombres de columna como segundo argumento en forma de una lista es posible seleccionar en ambas direcciones.  Por ejemplo, 
```python
gapminder.loc[[11, 59, 1655], ["country", "gdp_cap"]]
```

Seleccione las variables `pais` y `autos_per_capita`para las observaciones etiquetadas como 'US', 'JPN', y 'RU' en la base de datos `autos`


El uso del slice vacío, `:` permite seleccionar todos los elementos en cualquier dirección. Por ejemplo
```python
gapminder[[11, 59], :]
```

In [34]:
autos

Unnamed: 0,pais,maneja_derecha,autos_per_capita
US,Estados Unidos,True,809
AUS,Australia,False,731
JPN,Japón,False,588
IN,India,False,18
RU,Rusia,True,200
MOR,Marruecos,True,70
EG,Egipto,True,45


Alternativamente, se puede utilizar `iloc` y seleccionar con base en el índice de posición, entero. Por ejemplo
```python
autos.iloc[1]
autos.iloc[[1]]
autos.iloc[1:3, 0:2]
```
Selecciona las primeras 30 observaciones de las variables `country`, `year`, y `population` de la base de datos `gapminder` utilizando `gapminder.iloc`.  Después, selecciona todas las variables para esas mismas observaciones con el mismo método.  Finalmente, imprime el producto interno bruto per cápita de Albania.

In [38]:
autos.iloc[1:3, 0:2]

Unnamed: 0,pais,maneja_derecha
AUS,Australia,False
JPN,Japón,False


Es importante tener muy claro el tipo del objeto respuesta...Prevea, y después verifique, el tipo de respuesta de los siguientes dos comandos
```python
gapminder.iloc[:, 1]
gapminder.iloc[:, [1]]
```

In [40]:
gapminder.iloc[:, 1]

Unnamed: 0,year
11,2007
23,2007
35,2007
47,2007
59,2007
...,...
1655,2007
1667,2007
1679,2007
1691,2007


### Tu turno.
1. Cargue, en un objeto DataFrame nombrado `wb`, los contenidos del archivo `world_ind_pop_data.csv`
2. Repare la etiqueta de los renglones, de ser necesario
3. Examine sus datos usando los métodos `head`y `tail`
4. Utilice el método `.info()` para determinar cuántas observaciones nulas hay en los datos
5. Vuelva a caragar el archivo `world_ind_pop_data.csv` pero esta vez utilice como etiqueta de observación la variable `CountryCode`
6. Cambie los nombres de su base de datos por su versión traducida al español asignando el atributo `.columns` a su nuevo valor.  
7. Aplique el método `.describe()` a su base de datos.

In [44]:
wb = pd.read_csv('../Datos/world_ind_pop_data.csv', index_col= 1)
wb.describe()

Unnamed: 0,Year,Total Population,Urban population (% of total)
count,13374.0,13374.0,13374.0
mean,1987.078884,143652800.0,48.878101
std,15.884693,552945200.0,24.794697
min,1960.0,5563.0,2.077
25%,1973.0,854247.5,28.3485
50%,1987.0,5578022.0,47.467
75%,2001.0,28102080.0,68.67625
max,2014.0,7260711000.0,100.0


#### No siempre es tan sencillo...

La página web de [SISLO](http://www.sidc.be/silso/datafiles) contiene la base de datos del número de manchas solares (sunspot) diarias y la podemos importar directamente desde su url con: 

```python
url = 'http://www.sidc.be/silso/INFO/sndtotcsv.php'
data = pd.read_csv(url)
```
Realice esta importación y juzgue qué problemas tiene esta importación. ¿Cómo lo arreglamos?  Visitemos [la página de información del juego de datos](http://www.sidc.be/silso/infosndtot).


**Requerimos:**
1. Definir apropiadamente el separador
2. Evitar que `pandas` asigne un nombre automático de columna
3. Poner nombres de columna apropiados
4. Distinguir las observaciones que son NA de las que son un dato en la columna 5 (4 en Python)
5. Poner las fechas en un formato conveniente para cálculos en Python
6. Utilizar las fechas como índice (nombre de renglón) 

Obsérvese el problema que nos provoca no utilizar el argumento `skipinitialspace`!

Este [link](https://strftime.org) contiene referencias para importar y sintetizar fechas en formatos que no sean el estándar.

### Excepciones: Archivos corruptos
Los parámetros `error_bad_lines` y `warn_bad_lines` del comando `read_csv` nos pueden ayudar a leer datos de un archivo `.csv` corrupto.  En particular, cuando algún renglón tiene más registros que variables en la base, Pandas levanta una excepción `pd.io.common.ParserError`.  Por ejemplo:

In [None]:
try:
    datos = pd.read_csv('../Datos/gapminder_corrupt.csv')
    datos.head(15)
except pd.io.common.ParserError:
    print('Este archivo contiene datos corruptos!')

Utilice primero el parámetro `error_bad_lines` para arreglar este problema. ¿Cuántas líneas causaban este problema, y cuáles? 
Utilice el parámetro `warn_bad_lines` para realizar la importación sin mensajes de advertencia.

In [None]:
datos = pd.read_csv('../Datos/gapminder_corrupt.csv',
                    error_bad_lines = False,
                    warn_bad_lines = True)
datos.head(15)

### 2. Importación desde bases de datos SQL

Para ejemplificar la importación de una base de datos, utilizaremos los datos de la liga Europea de football, disponible [aquí](https://www.kaggle.com/hugomathien/soccer), que contiene información sobre más de 25,000 juegos y 10,000 jugadores.  El formato de este archivo es `.sqlite`y para importarlo debemos primero conectar con la base de datos como sigue:


In [None]:
from sqlalchemy import create_engine, inspect
data_engine = create_engine('sqlite:///../Datos/database.sqlite')
inspector = inspect(data_engine)
print(data_engine.table_names())
print(inspector.get_columns('League'))

Obsérvese el uso del prefijo `sqlite:///` para introducir la direción de los datos. El listado anterior muestra tablas y podemos leerlas con el método `read_sql`.  La primera forma: sin uso de SQL:

In [None]:
country = pd.read_sql('Country', data_engine)
country.head(5)
# Esta tabla es un pd.DataFrame como cualquier otro

Podemos hacer este mismo proceso usando SQL. Para ello debemos generar primero la consulta (query) y después usarla en vez del nombre de tabla. Por ejemplo:

In [None]:
my_query = """
SELECT *
FROM Country;
"""
country = pd.read_sql(my_query, data_engine)
country.head(8)

In [None]:
max_goals_per_season = """
SELECT season, 
       max(home_team_goal + away_team_goal) AS max_goals_season,
       (SELECT MAX(home_team_goal + away_team_goal) FROM match) AS overall_max_goals
FROM match
GROUP BY season
"""

pd.read_sql(max_goals_per_season, data_engine).head()

### 3. Importación de archivos JSON

El formato [JSON](https://www.json.org/json-en.html) (JavaScript Object Notation) es muy popular actualmente pues permite la transmisión de muchos tipos de información en un formato de fácil interpretación y, de hecho, muy similar al diccionario de Python!  Cada objeto en un archivo JSON se organiza como parejas del tipo `name:value` y es contenido entre llaves.  El comando para leerlo es, sí, `pd.read_json`. 

In [45]:
nyc_report = pd.read_json('../Datos/NYC Department of Homeless Services.json',
                         orient = 'record')
nyc_report.head()

Unnamed: 0,adult_families_in_shelter,adults_in_families_with_children_in_shelter,children_in_families_with_children_in_shelter,date_of_census,families_with_children_in_shelter,individuals_in_adult_families_in_shelter,single_adult_men_in_shelter,single_adult_women_in_shelter,total_adults_in_shelter,total_children_in_shelter,total_individuals_in_families_with_children_in_shelter_,total_individuals_in_shelter,total_single_adults_in_shelter
0,1796,14607,21314,2013-08-21T00:00:00.000,10261,3811,7231,2710,28359,21314,35921,49673,9941
1,1803,14622,21324,2013-08-22T00:00:00.000,10274,3827,7201,2716,28366,21324,35946,49690,9917
2,1802,14611,21291,2013-08-23T00:00:00.000,10266,3826,7149,2671,28257,21291,35902,49548,9820
3,1801,14650,21343,2013-08-24T00:00:00.000,10291,3824,7110,2690,28274,21343,35993,49617,9800
4,1804,14694,21400,2013-08-25T00:00:00.000,10324,3830,7230,2704,28458,21400,36094,49858,9934


#### Y las APIs apá?

Todo muy bien; pero... Generalmente los archivos `.json` vendrán de conectar con las APIs de distintos sitios.  Para quien no esté familiarizado con las APIs, aquí algunos recursos:

*  [What is an API](https://www.callr.com/blog/what-is-an-api/)
*  [An introduction to APIs](https://zapier.com/learn/apis/)

Aunque Python incluye varios paquetes dedicados a APIs específicas, usaremos primero un paquete [Requests](https://requests.readthedocs.io/es/latest/) que es una librería genérica para HTTP. Para utilizarla, necesitamos hacer una **solicitud** con

```python
import requests
url = 'https://alguna_direccion_red.dominio'
response = requests.get(url)
```

Cada API tiene su propio método de consulta, sus propias especificaciones. En general tenemos tres elementos básicos:

  1. La url de la API 
  2. Los parámetros de la búsqueda de información en el sitio
  3. Las cabeceras del protocolo HTTP (usualmente los datos de identificación del cliente)
  
El objeto devuelto por `.get()` será un archivo JSON que podremos leer con el método `.json()` del objeto `response`.  Los parámetros adicionales (particulares de cada API) se insertan en el argumento `params` y como un diccionario en la forma: 
```python
params = {'nombre1':'valor1', 'nombre2':'valor2'}
```

#### Ejemplo 1. La API de NewsApi: una API de fácil acceso

La página newsapi.org nos permite obtener encabezados de noticias y blogs.  Después de registrarnos, veremos en [su página](https://newsapi.org/docs/get-started) la forma de realizar una consulta.  Aprendemos que:

  1. Debemos pasar nuestra llave en el encabezado HTTP `X-Api-Key`
  2. La API tiene tres endpoints, a saber: `/v2/top-headlines`para los titulares de mayor impacto, `v2/everything` para...todo, y `v2/sources` donde podemos consultar las fuentes de informacion indizadas en newsapi.org
  3. Cada endpoint tiene sus propios parámetros.  
  
Para consultar las últimas noticias de México, usariamos el parámetro `country = mx`.  Consultemos las últimas noticias en nuestro país (de todas las fuentes):

In [None]:
import requests
url = 'http://newsapi.org/v2/top-headlines'                # Top Headlines endpoint
params = {'country':'mx'}                                  # Parámetro para seleccionar el país
headers = {'X-Api-Key':'8cf08d0c229e454eb6898444dd7c1e74'} # Copia tu Token

response = requests.get(url, params = params, headers = headers) #jala el texto de la respuesta

response_dict = response.json()
response_dict

Esta respuesta es la traducción de un archivo JSON a un diccionario de Python.  Ejecutando
```python
response_dict.keys()
```
observamos que las llaves son: `status` , `totalResults`, y `articles`.  Centrando nuestro interés en las noticias en sí, podemos generar una base de datos como sigue:

In [49]:
response_df = pd.DataFrame(response_dict['articles'])
response_df.head(15)

Unnamed: 0,source,author,title,description,url,urlToImage,publishedAt,content
0,"{'id': None, 'name': 'Espn.com.mx'}",,"Christian Horner, de Red Bull, se acercó a Che...",El director del segundo equipo más fuerte preg...,https://www.espn.com.mx/deporte-motor/f1/nota/...,https://a4.espncdn.com/combiner/i?img=%2Fphoto...,2020-09-12T15:17:32Z,Sergio Pérez es una opción latente para Red Bu...
1,"{'id': None, 'name': 'El Universal'}",,Oxford y AstraZeneca reanudan ensayos de su va...,La Universidad inglesa indicó que las pruebas ...,https://www.eluniversal.com.mx/mundo/oxford-y-...,https://www.eluniversal.com.mx/sites/default/f...,2020-09-12T14:16:17Z,Londres.- La Universidad inglesa de Oxford inf...
2,"{'id': None, 'name': 'F1aldia.com'}",Martín Yuguero Rafar,GP de La Toscana 2020: Clasificación en direct...,Nos enfrentamos a la novena sesión de clasific...,https://www.f1aldia.com/noticias/gp-la-toscana...,https://www.f1aldia.com/images/articulos/38000...,2020-09-12T12:50:37Z,Después del periodo de entrenamientos en Mugel...
3,"{'id': None, 'name': 'Merca20.com'}",,Face Mask: La propuesta de Apple que podría co...,"Apple Face Mask y Apple ClearMask,son las prim...",https://www.merca20.com/apple-face-mask-la-mar...,https://files.merca20.com/uploads/2020/08/appl...,2020-09-12T10:46:02Z,
4,"{'id': None, 'name': 'Excelsior.com.mx'}",eduardo.morales,Niños infectados en guarderías llevan covid a ...,Un estudio de la Universidad de Harvard conclu...,https://www.excelsior.com.mx/global/ninos-infe...,https://cdn2.excelsior.com.mx/media/styles/ima...,2020-09-12T07:48:00Z,NUEVA YORK.\r\nLos niños que se contagian de c...
5,"{'id': None, 'name': 'Excelsior.com.mx'}",adrian.miron,“Pasquín inmundo” - Excélsior,El Presidente está enojado y se le nota. El vi...,https://www.excelsior.com.mx/opinion/francisco...,https://cdn2.excelsior.com.mx/media/opinion/ve...,2020-09-12T07:30:00Z,12 de Septiembre de 2020 \r\nEl Presidente est...
6,"{'id': None, 'name': 'El Universal'}",,"En tres meses, Covid llena panteón en Iztapala...","En mayo, en el cementerio de San Lorenzo Tezon...",https://www.eluniversal.com.mx/metropoli/cdmx/...,https://www.eluniversal.com.mx/sites/default/f...,2020-09-12T05:44:37Z,"En mayo, en el cementerio del pueblo originari..."
7,"{'id': None, 'name': 'Somosxbox.com'}",,A algunos desarrolladores no les ha gustado Xb...,Esta semana hemos descubierto el plan completo...,https://www.somosxbox.com/a-algunos-desarrolla...,https://www.somosxbox.com/wp-content/uploads/2...,2020-09-12T05:38:33Z,Esta semana hemos descubierto el plan completo...
8,"{'id': None, 'name': 'Televisa.com'}",Karina Andrew Herrera,#LadyArgentina se va de México e INM prohibe s...,El Instituto Nacional de Migración impuso una ...,https://noticieros.televisa.com/ultimas-notici...,https://i1.wp.com/noticieros.televisa.com/wp-c...,2020-09-12T05:30:00Z,"Luego de que una mujer, viralizada en redes so..."
9,"{'id': None, 'name': 'El Universal'}",,"Cuarón, Del Toro e Iñárritu velan armas contra...",Alfombra Roja,https://www.eluniversal.com.mx/espectaculos/cu...,https://www.eluniversal.com.mx/sites/default/f...,2020-09-12T05:10:00Z,Tras el anuncio del diputado Mario Delgado de ...


#### Tu Turno

Usando el API de NewsApi, consulta los titulares principales para México en materia de ciencia con palabra clave CONACYT y convierte tu respuesta primero en un diccionario y luego en una base de datos de `pandas`.  Puedes incluir la palabra clave "tecnología" a tu búsqueda?

In [50]:
import requests

url = 'http://newsapi.org/v2/top-headlines'                # Top Headlines endpoint
params = {'country':'mx', 'category':'science', 'q':'tecnología'}                                  # Parámetro para seleccionar el país
headers = {'X-Api-Key':'8cf08d0c229e454eb6898444dd7c1e74'} # Copia tu Token
response = requests.get(url, params = params, headers = headers)
response_dict = response.json()

response_df = pd.DataFrame(response_dict['articles'])
response_df.head()

Unnamed: 0,source,author,title,description,url,urlToImage,publishedAt,content
0,"{'id': None, 'name': 'NeoTeo'}",Ferzzola,Enlaces Recomendados de la Semana (N°582) - Ne...,"Tecnología, todos los días. Software, hardware...",https://www.neoteo.com/enlaces-recomendados-de...,https://www.neoteo.com/wp-content/uploads/2020...,2020-09-12T07:12:00Z,Esta semana tenemos un montón de artículos y u...
1,"{'id': 'cnn', 'name': 'CNN'}",,"El fenómeno del asteroide Bennu, un caso atípi...",¿Por qué lanza rocas este asteroide? Los inves...,https://cnnespanol.cnn.com/video/fenomeno-aste...,https://cnnespanol.cnn.com/wp-content/uploads/...,2020-09-11T17:56:00Z,¿Por qué lanza rocas este asteroide? Los inves...
2,"{'id': None, 'name': 'Informador.mx'}",Guillermo Dellamary,Ventajas de tener una religión - EL INFORMADOR,"Las noticias más relevantes de Jalisco, México...",https://www.informador.mx/ideas/Ventajas-de-te...,https://www.informador.mx/__export/15993851640...,2020-09-11T11:32:31Z,Desde luego que cada quien es libre de elegir ...
3,"{'id': 'cnn', 'name': 'CNN'}",,Modifican genes de ratones hembras en experime...,La NASA manipuló genéticamente a 40 ratones pa...,https://cnnespanol.cnn.com/video/nasa-ratones-...,https://cnnespanol.cnn.com/wp-content/uploads/...,2020-09-09T20:09:00Z,La NASA manipuló genéticamente a 40 ratones pa...


#### Ejemplo 3: Yelp Business Search Engine API

En este ejemplo veremos cómo lidiar con JSONs anidados.  Para ello, haremos una solicitud a la API de Yelp. Comience [aquí](https://www.yelp.com/fusion) para conseguir su token individual y replicar este ejemplo.  En él buscamos librerías en Ciudad de México.

In [None]:
import requests
api_url = 'https://api.yelp.com/v3/businesses/search'
params = {'term':'hotel', 'location':'New York'}
headers = {'Authorization':'Bearer 4OJ0967x2pBWtZx8d9iiPgZCU7mD6l9HK4v7_Q0K_So8Hb5kf5H2vH3r31nsTQKZSTTAMySQnq-IxYCIv0wVl-zY_mmPTVQw-pescTq5Oh_Aaiupvw3kITk7fpoMX3Yx'}
response = requests.get(api_url, params = params, headers = headers)
print(response.json())

Observe la estructura _anidada_ de este JSON.  En particular, ponga atención a la doble respuesta en las columnas `coordinates` y `categories` organizadas ambas como un diccionario.  Ejecute el siguiente comando y navegue para ver estas columnas.

```python
pd.DataFrame(response.json()['businesses']).head(3)
```

En estos casos se puede utilizar el método `.json_normalize()` de `pandas`.  Esto _aplanará_ el resultado generando columnas nombradas bajo la convención `atributo.atributoanidado` pero el separador se puede cambiar con el argumento `sep`.  Ejecute

```python
response_json = response.json()
pd.json_normalize(response_json['businesses'])
```

Puede seleccionar qué atributo normalizar y qué información extraer. Por ejemplo, intente

```python
response_df =  pd.json_normalize(response_json['businesses'],
                  sep = '_',
                  record_path = 'categories',
                  meta = ['name', 'alias', 'rating',
                         ['location', 'address1'],
                         'display_phone'],
                  meta_prefix = 'hotel_')
respose_df.head(5)
```

¿Cuántos resultados tenemos?  Escribamos `response_json.shape()`.  En mi caso, veo 25 resultados (en 7 columnas); pero ¿Son todos?  La documentación de la API nos muestra que por defecto obtendremos 20 resultados...podemos ejecutar

```python
response_df['hotel_name'].nunique()
## otra forma sería: 
## response_df.hotel_name.nunique()
```

Estas limitaciones son típicas en las APIs, para ahorrar ancho de banda.  No obstante, tenemos un parámetro extra, `offset` (vea la documentación) y podemos usarlo para descargar más datos.

```python
params['offset'] = 20
sig_response = response = requests.get(api_url, 
                                       params = params, 
                                       headers = headers)
sig_response_df = pd.json_normalize(sig_response.json()['business'],
                                    sep = '_',
                                    record_path = 'categories',
                                     meta = ['name', 'alias', 'rating',
                                            ['location', 'address1'],
                                             'display_phone'],
                                     meta_prefix = 'hotel_')
sig_response_df.head(5)
```

Teniendo esto, podemos juntarlos en una sola base:

```python
response_df.append(sig_response_df, ignore_index = True)
```


In [56]:
response_json = response.json()
pd.DataFrame(response.json()['businesses']).head(3)


Unnamed: 0,id,alias,name,image_url,is_closed,url,review_count,categories,rating,coordinates,transactions,price,location,phone,display_phone,distance
0,GYO8lvStXGZAfFDRlOxQ1Q,hotel-50-bowery-nyc-new-york,Hotel 50 Bowery NYC,https://s3-media4.fl.yelpcdn.com/bphoto/VtFY91...,False,https://www.yelp.com/biz/hotel-50-bowery-nyc-n...,161,"[{'alias': 'hotels', 'title': 'Hotels'}, {'ali...",4.5,"{'latitude': 40.71599, 'longitude': -73.99683}",[],$$,"{'address1': '50 Bowery', 'address2': None, 'a...",12125088000,(212) 508-8000,1202.705247
1,dQFgUq-bSGmfiSYtMo7mnQ,hampton-inn-brooklyn-downtown-brooklyn-2,Hampton Inn Brooklyn/Downtown,https://s3-media1.fl.yelpcdn.com/bphoto/yPPvUJ...,False,https://www.yelp.com/biz/hampton-inn-brooklyn-...,93,"[{'alias': 'hotels', 'title': 'Hotels'}]",4.5,"{'latitude': 40.6957059, 'longitude': -73.9840...",[],$$,"{'address1': '125 Flatbush Ave Ext', 'address2...",17188758800,(718) 875-8800,1386.272501
2,EL5j67uhlTWSFcrsEX9l_Q,the-frederick-hotel-new-york,The Frederick Hotel,https://s3-media3.fl.yelpcdn.com/bphoto/M9MMwr...,False,https://www.yelp.com/biz/the-frederick-hotel-n...,57,"[{'alias': 'hotels', 'title': 'Hotels'}]",4.0,"{'latitude': 40.71566, 'longitude': -74.0089}",[],$,"{'address1': '95 W Broadway', 'address2': '', ...",12125661900,(212) 566-1900,1677.136329


In [59]:
response_df =  pd.json_normalize(response_json['businesses'],
                  sep = '_',
                  record_path = 'categories',
                  meta = ['name', 'alias', 'rating',
                         ['location', 'address1'],
                         'display_phone'],
                  meta_prefix = 'hotel_')
response_df.head(5)

Unnamed: 0,alias,title,hotel_name,hotel_alias,hotel_rating,hotel_location_address1,hotel_display_phone
0,hotels,Hotels,Hotel 50 Bowery NYC,hotel-50-bowery-nyc-new-york,4.5,50 Bowery,(212) 508-8000
1,venues,Venues & Event Spaces,Hotel 50 Bowery NYC,hotel-50-bowery-nyc-new-york,4.5,50 Bowery,(212) 508-8000
2,hotels,Hotels,Hampton Inn Brooklyn/Downtown,hampton-inn-brooklyn-downtown-brooklyn-2,4.5,125 Flatbush Ave Ext,(718) 875-8800
3,hotels,Hotels,The Frederick Hotel,the-frederick-hotel-new-york,4.0,95 W Broadway,(212) 566-1900
4,hotels,Hotels,1 Hotel Brooklyn Bridge,1-hotel-brooklyn-bridge-brooklyn,3.5,60 Furman St,(877) 803-1111


In [None]:
print(response_df.shape)

print(response_df['hotel_name'].nunique())
response_df.head(2)

In [None]:
params['offset'] = 20
sig_response = response = requests.get(api_url, 
                                       params = params, 
                                       headers = headers)
sig_response_df = pd.json_normalize(sig_response.json()['businesses'],
                                    sep = '_',
                                    record_path = 'categories',
                                     meta = ['name', 'alias', 'rating',
                                            ['location', 'address1'],
                                             'display_phone'],
                                     meta_prefix = 'hotel_')
sig_response_df.head(2)

In [None]:
full_response = response_df.append(sig_response_df, ignore_index= True)
print('Dimensiones actuales:', full_response.shape)
print('Tenemos información sobre', full_response.hotel_name.nunique(), 'negocios.')

#### Tu turno: La API del DENUE; un poco más de trabajo

Vea [la documentación de la API del DENUE](https://www.inegi.org.mx/servicios/api_denue.html#metBus), INEGI y escriba el código de una clase para comunicar con esta API.  La clase debe contener los métodos `buscar`, `ficha`, `nombre`, etc.  Incluya los atributos necesarios y los métodos que faciliten su manejo.

In [82]:
class denue:
    token = 'el_que_me_dieron_en_el_inegi'
    url_base = 'https://www.inegi.org.mx/app/api/denue/v1/'
    
    def get_token(self):
        return self.token
    
    def buscar(self, condicion, lat, long, distancia):
        url_busqueda = self.url_base + 'consulta/' + condicion + '/' + lat + ',' + long + '/' + distancia + '/' + self.token
        # obtén un json
        # pásalo a dict
        # pásalo a pd.DataFrame
        
        
       
    


In [83]:
mi_busqueda = denue()
print(mi_busqueda.get_token())
mi_busqueda.url_base
mi_busqueda.buscar('camiones', '21.85717833', '-102.28487238', '250')

el_que_me_dieron_en_el_inegi
https://www.inegi.org.mx/app/api/denue/v1/consulta/camiones/21.85717833,-102.28487238/250/el_que_me_dieron_en_el_inegi
