<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/pandas/bds_pandas_007_00.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Pandas.png?raw=true">
</p>


 # **<font color="DeepPink">Data Ingestion --> Ingestión de datos 🐼 </font>**

<p align="justify">
👀 En este colab, estaremos trabajando con los principales métodos para la ingestión de datos, siendo un paso fundamental en cualquier proyecto de ciencia de datos; en cualquier caso, no podremos analizar datos en los que tenemos dificultad para acceder. Además, utilizaremos diversas fuentes de datos, como así también varias técnicas que hemos visto para limpiar datos. En este caso, utilizaremos pandas como principal biblioteca para analizar y acceder a estas fuentes.
<br>
En este Colab, nuestro objetivo es:</p>

- Identificar posibles fuentes de datos y en qué situaciones podrían presentarse.
- Acceder a las fuentes de datos y realizar una ingestión en un dataframe.
- Hacer uso de <code>pandas</code> para poder limpiar y analizar los datos.
<br>
<p align="justify">

## **<font color="DeepPink">1. Flat files - Archivos planos</font>**

Los archivos planos son simples, lo que los hace populares para almacenar y compartir datos. Se pueden exportar desde sistemas de administración de bases de datos y aplicaciones de hojas de cálculo, y muchos portales de datos en línea ofrecen descargas de archivos planos. En un archivo plano, los datos se almacenan como texto sin formato. Cada línea del archivo representa una fila, con valores de columna separados por un carácter elegido denominado delimitador. Por lo general, el delimitador es una coma y estos archivos se denominan CSV o valores separados por comas, pero se pueden usar otros caracteres. Una sola función de pandas carga todos los archivos planos, sin importar el delimitador: `read_csv()`.

En resumen:
- Archivos simples
- No poseen formato, ya que son texto plano
- Cada linea representa a una fila
- Valores separados por un delimitador (el más común es el conocido comma-separated values ",")
- Pandas facilita su carga a través de `read_csv()`
<br>
<p align="justify">

---

Importamos las bibliotecas a utilizar: `numpy`, `pandas` y `plotly express`.

---

In [None]:
import numpy as np
import pandas as pd
import plotly.express as px

---

Vamos a leer nuestro CSV a través de la funcion `read_csv` de pandas.

***Pero... hay muchos parámetros para pasar... cuál deberíamos utilizar?***

Click [aquí](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) para ir a la documentación oficial de pandas respecto al método.

---
1. Para qué nos sirve el parámetro `index_col`?

Columna(s) para usar como etiquetas de fila del DataFrame, ya sea como nombre de cadena o índice de columna.

En nuestro caso, lo podríamos utilizar para evitar el index que trae el propio csv.

---

2. Para qué nos sirve `sep` o `delimiter`?

Delimiter es un alias para sep. Lo cual indica que hacen exactamente lo mismo.

Como su nombre lo indica, nos sirve para delimitar y separar los valores de nuestro documento.

---

3. Para qué nos sirve `nrows`?

Nos sirve para delimitar el número de filas del archivo a leer. Útil para leer sólo una parte de aquellos archivos muy grandes.

---

4. Para qué nos sirve `skiprows`?

Nos sirve para delimitar el número de líneas para omitir al comienzo del archivo.

---

5. Para qué nos sirve `header`?

Nos sirve para delimitar el número de filas para usar como nombres de columna y el inicio de los datos.

---

6. Para qué nos sirve `names`?

Nos sirve para delimitar los nombres de columna a usar.

In [None]:
filepath_world_pop_csv = "https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/world_pop.csv"

world_pop_csv = pd.read_csv(filepath_world_pop_csv, index_col=0)

In [None]:
world_pop_csv.head()

Unnamed: 0,country,year_1960,year_1961,year_1962,year_1963,year_1964,year_1965,year_1966,year_1967,year_1968,...,year_2011,year_2012,year_2013,year_2014,year_2015,year_2016,year_2017,year_2018,year_2019,year_2020
1,Afghanistan,8996967.0,9169406.0,9351442.0,9543200.0,9744772.0,9956318.0,10174840.0,10399936.0,10637064.0,...,30117411,31161378.0,32269592.0,33370804.0,34413603.0,35383028.0,36296111.0,37171922.0,38041757.0,38928341.0
2,Albania,1608800.0,1659800.0,1711319.0,1762621.0,1814135.0,1864791.0,1914573.0,1965598.0,2022272.0,...,2905195,2900401.0,2895092.0,2889104.0,2880703.0,2876101.0,2873457.0,2866376.0,2854191.0,2837743.0
3,Algeria,11057864.0,11336336.0,11619828.0,11912800.0,12221675.0,12550880.0,12902626.0,13275020.0,13663581.0,...,36661438,37383899.0,38140135.0,38923688.0,39728020.0,40551398.0,41389174.0,42228415.0,43053054.0,43851043.0
4,American Samoa,20127.0,20605.0,21246.0,22029.0,22850.0,23675.0,24473.0,25235.0,25980.0,...,55755,55669.0,55717.0,55791.0,55806.0,55739.0,55617.0,55461.0,55312.0,55197.0
5,Andorra,13410.0,14378.0,15379.0,16407.0,17466.0,18542.0,19646.0,20760.0,21886.0,...,83748,82427.0,80770.0,79213.0,77993.0,77295.0,76997.0,77008.0,77146.0,77265.0


---

Qué fácil!

Si bien este es uno de los archivos más utilizamos, no siempre tendremos tan fácil nuestro camino.

Vamos a ver otro tipo de archivos planos pero con diferente delimitadores...

---

In [None]:
filepath_world_pop_tab = "https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/world_pop_tab.csv"

world_pop_tab = pd.read_csv(filepath_world_pop_tab, sep="\t", index_col=0)

In [None]:
world_pop_tab.head()

Unnamed: 0,country,year_1960,year_1961,year_1962,year_1963,year_1964,year_1965,year_1966,year_1967,year_1968,...,year_2011,year_2012,year_2013,year_2014,year_2015,year_2016,year_2017,year_2018,year_2019,year_2020
1,Afghanistan,8996967.0,9169406.0,9351442.0,9543200.0,9744772.0,9956318.0,10174840.0,10399936.0,10637064.0,...,30117411,31161378.0,32269592.0,33370804.0,34413603.0,35383028.0,36296111.0,37171922.0,38041757.0,38928341.0
2,Albania,1608800.0,1659800.0,1711319.0,1762621.0,1814135.0,1864791.0,1914573.0,1965598.0,2022272.0,...,2905195,2900401.0,2895092.0,2889104.0,2880703.0,2876101.0,2873457.0,2866376.0,2854191.0,2837743.0
3,Algeria,11057864.0,11336336.0,11619828.0,11912800.0,12221675.0,12550880.0,12902626.0,13275020.0,13663581.0,...,36661438,37383899.0,38140135.0,38923688.0,39728020.0,40551398.0,41389174.0,42228415.0,43053054.0,43851043.0
4,American Samoa,20127.0,20605.0,21246.0,22029.0,22850.0,23675.0,24473.0,25235.0,25980.0,...,55755,55669.0,55717.0,55791.0,55806.0,55739.0,55617.0,55461.0,55312.0,55197.0
5,Andorra,13410.0,14378.0,15379.0,16407.0,17466.0,18542.0,19646.0,20760.0,21886.0,...,83748,82427.0,80770.0,79213.0,77993.0,77295.0,76997.0,77008.0,77146.0,77265.0


---

Veamos datos generales de este DataFrame!

Index, columnas, datos, tipo de datos... con qué método será conveniente?

---

In [None]:
world_pop_tab.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 216 entries, 1 to 216
Data columns (total 62 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    216 non-null    object 
 1   year_1960  215 non-null    float64
 2   year_1961  215 non-null    float64
 3   year_1962  215 non-null    float64
 4   year_1963  215 non-null    float64
 5   year_1964  215 non-null    float64
 6   year_1965  215 non-null    float64
 7   year_1966  215 non-null    float64
 8   year_1967  215 non-null    float64
 9   year_1968  215 non-null    float64
 10  year_1969  215 non-null    float64
 11  year_1970  215 non-null    float64
 12  year_1971  215 non-null    float64
 13  year_1972  215 non-null    float64
 14  year_1973  215 non-null    float64
 15  year_1974  215 non-null    float64
 16  year_1975  215 non-null    float64
 17  year_1976  215 non-null    float64
 18  year_1977  215 non-null    float64
 19  year_1978  215 non-null    float64
 20  year_1979 

---

Vamos a hacer un pequeño gráfico utilizando `plotly`!

La idea es visualizar la población por país de acuerdo a los años que van pasando...

Ahora bien.. sólo queremos saber el **top 10** de países más poblados...

Para ello, deberemos hacer un reshape del DataFrame, principalmente para graficar más fácilmente.

---

In [None]:
# Hacemos reshape del dataframe
world_pop_reshape = world_pop_tab.set_index('country').stack().reset_index()
world_pop_reshape.columns = ['country', 'year', 'population']

---
1. Para qué nos sirve `set_index()`?

Realiza una operación en la que setea la columna deseada como el index del DataFrame propiamente dicho.

En nuestro caso, solamente cambiamos el index a la columna "country".

Click [aquí](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.set_index.html) para ir a la documentación oficial de pandas.

---

2. Para qué nos sirve `stack()`?

Hace un reshape de nuestro DataFrame, en donde apila verticalmente las columnas, es decir, convirtiendolas en una sola columna por vez y creando un MultiIndex DataFrame. Pero.. a qué hace referencia esto?

En última consecuencia, nuestro DataFrame posee dos niveles de índices, por un lado el index de "country" original y, por otro lado, el nuevo índice para las columnas apiladas.

Click [aquí](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.stack.html) para ir a la documentación oficial de pandas.

---

3. Para qué nos sirve `reset_index()`?

Realiza una operación en la que restablece todos los índices, convirtiéndolos nuevamente en columnas regulares.

Los valores de las columnas apiladas se convierten en una columna nueva y el índice de "country" original se restaura como una columna regular.

Click [aquí](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html) para ir a la documentación oficial de pandas.

---

In [None]:
world_pop_reshape

Unnamed: 0,country,year,population
0,Afghanistan,year_1960,8996967.0
1,Afghanistan,year_1961,9169406.0
2,Afghanistan,year_1962,9351442.0
3,Afghanistan,year_1963,9543200.0
4,Afghanistan,year_1964,9744772.0
...,...,...,...
13129,Zimbabwe,year_2016,14030338.0
13130,Zimbabwe,year_2017,14236599.0
13131,Zimbabwe,year_2018,14438812.0
13132,Zimbabwe,year_2019,14645473.0


In [None]:
# Quitamos el "year_" del string para que sea más fácil de leer
world_pop_reshape['year'] = world_pop_reshape['year'].str.replace('year_', '')

In [None]:
world_pop_reshape

Unnamed: 0,country,year,population
0,Afghanistan,1960,8996967.0
1,Afghanistan,1961,9169406.0
2,Afghanistan,1962,9351442.0
3,Afghanistan,1963,9543200.0
4,Afghanistan,1964,9744772.0
...,...,...,...
13129,Zimbabwe,2016,14030338.0
13130,Zimbabwe,2017,14236599.0
13131,Zimbabwe,2018,14438812.0
13132,Zimbabwe,2019,14645473.0


In [None]:
# Calcular el top10 de paises según su población
top_countries = world_pop_reshape.groupby('country')['population'].max().nlargest(10).reset_index()
df_top10 = world_pop_reshape[world_pop_reshape['country'].isin(top_countries['country'])]

---

1. Para qué nos sirve `max()`?

Devuelve una serie con el valor máximo de cada columna.

Click [aquí](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.max.html) para ir a la documentación oficial de pandas.

---

2. Para qué nos sirve `nlargest()`?

Devuelve las n primeras filas ordenadas por columnas en orden descendente.

Devuelve las primeras n filas con los valores más grandes en columnas, en orden descendente. Las columnas que no se especifican también se devuelven, pero no se utilizan para ordenar.

Click [aquí](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.nlargest.html) para ir a la documentación oficial de pandas.

---

In [None]:
# Create a line chart using Plotly Express
fig = px.line(df_top10, x='country', y='population',
              animation_frame='year', range_y=[0, df_top10['population'].max()],
              title='Population Over Time',
              )

# Update the layout
fig.update_layout(
    title='Population Over Time',
    xaxis_title='Country',
    yaxis_title='Population'
)

# Display the chart
fig.show()

## **<font color="DeepPink">2. Spreadsheets files - Hojas de cálculo (a.k.a. Documentos de Excel)</font>**

Las hojas de cálculo, también llamadas archivos/documentos de Excel, siguen aún vigentes.

Al igual que los DataFrames, las hojas de cálculo organizan la información en tablas, con celdas de datos en filas y columnas.

A diferencia de los DataFrames y los archivos planos, las hojas de cálculo pueden tener fórmulas con resultados que se actualizan automáticamente.

Las hojas de cálculo, al contrario de los archivos planos, admiten formatos.

Finalmente, un archivo o libro de Excel puede tener varias hojas de cálculo.

Una función de pandas carga las hojas de cálculo: `read_excel()`.

En resumen:
- Conocidos como archivos de excel
- Información en forma tabular, con celdas de datos en filas y columnas.
- Puede tener fórmulas y formato.
- Pueden existir múltiples hojas de cálculo dentro de un mismo archivo.
- Use usa `read_excel()` para poder leer estos archivos.
<br>
<p align="justify">

---

Vamos a leer nuestro spreasheets a través de la funcion `read_excel()` de pandas.

***Si bien hay muchos parámetros, estos tienen muchos en común con la función `read_csv()` que anteriormente vimos.***

- Click [aquí](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html) para ir a la documentación oficial de pandas respecto al método.

De todos modos, vamos a ver algunos importantes:

---
1. Para qué nos sirve `nrows`?

Nos sirve para delimitar el número de filas del archivo a leer. Útil para leer sólo una parte de aquellos archivos muy grandes.

---

2. Para qué nos sirve `skiprows`?

Nos sirve para delimitar el número de líneas para omitir al comienzo del archivo.

---

3. Para qué nos sirve `usecols`?

Nos permite elegir las columnas de acuerdo al nombre, posición o letras (ejemplo: "**B:F**")

---

3. Para qué nos sirve `sheet_name`?

Nos permite elegir qué hojas se van a leer del archivo. Podemos pasarle la posición o el nombre real de la hoja e incluso una lista combinando ambos métodos. Si pasamos `None` como argumento, leerá todas las hojas y nos devolverá un diccionario.

---

In [None]:
filepath_world_pop_xlsx = "https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/world_pop.xlsx"

world_pop_excel = pd.read_excel(filepath_world_pop_xlsx, skiprows=3, index_col=0)

In [None]:
world_pop_excel

Unnamed: 0,country,year_1960,year_1961,year_1962,year_1963,year_1964,year_1965,year_1966,year_1967,year_1968,...,year_2011,year_2012,year_2013,year_2014,year_2015,year_2016,year_2017,year_2018,year_2019,year_2020
1,Afghanistan,8996967,9169406,9351442,9543200,9744772,9956318,10174840,10399936,10637064,...,30117411,31161378.0,32269592.0,33370804.0,34413603.0,35383028.0,36296111.0,37171922.0,38041757.0,38928341.0
2,Albania,1608800,1659800,1711319,1762621,1814135,1864791,1914573,1965598,2022272,...,2905195,2900401.0,2895092.0,2889104.0,2880703.0,2876101.0,2873457.0,2866376.0,2854191.0,2837743.0
3,Algeria,11057864,11336336,11619828,11912800,12221675,12550880,12902626,13275020,13663581,...,36661438,37383899.0,38140135.0,38923688.0,39728020.0,40551398.0,41389174.0,42228415.0,43053054.0,43851043.0
4,American Samoa,20127,20605,21246,22029,22850,23675,24473,25235,25980,...,55755,55669.0,55717.0,55791.0,55806.0,55739.0,55617.0,55461.0,55312.0,55197.0
5,Andorra,13410,14378,15379,16407,17466,18542,19646,20760,21886,...,83748,82427.0,80770.0,79213.0,77993.0,77295.0,76997.0,77008.0,77146.0,77265.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
96,Italy,50199700,50536350,50879450,51252000,51675350,52112350,52519000,52900500,53235750,...,59379449,59539717.0,60233948.0,60789140.0,60730582.0,60627498.0,60536709.0,60421760.0,59729081.0,59554023.0
97,Jamaica,1628524,1651067,1676500,1703660,1730739,1756508,1780522,1803324,1825873,...,2825932,2842128.0,2858710.0,2875137.0,2891024.0,2906242.0,2920848.0,2934853.0,2948277.0,2961161.0
98,Japan,93216000,94055000,94933000,95900000,96903000,97952000,98851000,99879000,101011000,...,127833000,127629000.0,127445000.0,127276000.0,127141000.0,126994511.0,126785797.0,126529100.0,126264931.0,125836021.0
99,Jordan,933102,973983,1010647,1050212,1102404,1173603,1267063,1378995,1500168,...,7662858,8089963.0,8518992.0,8918822.0,9266573.0,9554286.0,9785840.0,9965322.0,10101697.0,10203140.0


---

Ya cargamos el archivo, pero... algo falta....


Oh, el número de filas no es el mismo. Esto posiblemente se deba a que falten o bien... tal vez estén en **otra hoja**.

Recordemos que, por defecto, la función `read_excel()` sólo carga la hoja número 1.

Vamos a ver!

---

In [None]:
world_pop_excel_all = pd.read_excel(filepath_world_pop_xlsx, sheet_name=None, skiprows=3, index_col=0)

In [None]:
print(type(world_pop_excel_all))

<class 'dict'>


---

Pero no nos sirve un diccionario con dataframes separados...

Tendremos que trabajarlo diferente.

Crearemos un DataFrame vacío y luego haremos una iteración sobre los items de ese diccionario, para luego hacer un append.

Y con ello, deberíamos tener un DataFrame completo con todas las hojas.

**TENER EN CUENTA**: Cada argumento que se pasa en `read_excel()`, se pasará a todas las hojas.

---

In [None]:
all_excel = pd.DataFrame()

for df in world_pop_excel_all.values():
    print(f"Adding {df.shape[0]} rows")
    all_excel = pd.concat([all_excel, df], axis=0)

Adding 100 rows
Adding 116 rows


In [None]:
all_excel

Unnamed: 0,country,year_1960,year_1961,year_1962,year_1963,year_1964,year_1965,year_1966,year_1967,year_1968,...,year_2011,year_2012,year_2013,year_2014,year_2015,year_2016,year_2017,year_2018,year_2019,year_2020
1,Afghanistan,8996967.0,9169406.0,9351442.0,9543200.0,9744772.0,9956318.0,10174840.0,10399936.0,10637064.0,...,30117411,31161378.0,32269592.0,33370804.0,34413603.0,35383028.0,36296111.0,37171922.0,38041757.0,38928341.0
2,Albania,1608800.0,1659800.0,1711319.0,1762621.0,1814135.0,1864791.0,1914573.0,1965598.0,2022272.0,...,2905195,2900401.0,2895092.0,2889104.0,2880703.0,2876101.0,2873457.0,2866376.0,2854191.0,2837743.0
3,Algeria,11057864.0,11336336.0,11619828.0,11912800.0,12221675.0,12550880.0,12902626.0,13275020.0,13663581.0,...,36661438,37383899.0,38140135.0,38923688.0,39728020.0,40551398.0,41389174.0,42228415.0,43053054.0,43851043.0
4,American Samoa,20127.0,20605.0,21246.0,22029.0,22850.0,23675.0,24473.0,25235.0,25980.0,...,55755,55669.0,55717.0,55791.0,55806.0,55739.0,55617.0,55461.0,55312.0,55197.0
5,Andorra,13410.0,14378.0,15379.0,16407.0,17466.0,18542.0,19646.0,20760.0,21886.0,...,83748,82427.0,80770.0,79213.0,77993.0,77295.0,76997.0,77008.0,77146.0,77265.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
112,Virgin Islands (U.S.),32500.0,34300.0,35000.0,39800.0,40800.0,43500.0,46200.0,49100.0,55700.0,...,108290,108188.0,108041.0,107882.0,107712.0,107516.0,107281.0,107001.0,106669.0,106290.0
113,West Bank and Gaza,,,,,,,,,,...,3882986,3979998.0,4076708.0,4173398.0,4270092.0,4367088.0,4454805.0,4569087.0,4685306.0,4803269.0
114,"Yemen, Rep.",5315351.0,5393034.0,5473671.0,5556767.0,5641598.0,5727745.0,5816241.0,5907873.0,6001858.0,...,23807586,24473176.0,25147112.0,25823488.0,26497881.0,27168210.0,27834811.0,28498683.0,29161922.0,29825968.0
115,Zambia,3070780.0,3164330.0,3260645.0,3360099.0,3463211.0,3570466.0,3681953.0,3797877.0,3918872.0,...,14023199,14465148.0,14926551.0,15399793.0,15879370.0,16363449.0,16853608.0,17351714.0,17861034.0,18383956.0


## **<font color="DeepPink">3. Relational Databases - Bases de datos relacionales</font>**

Las bases de datos relacionales organizan datos sobre entidades en tablas, con filas que representan instancias de entidades y columnas de atributos. Hay un punto en común con otros que vimos anteriormente: los DataFrame, los archivos planos y muchas hojas de Excel organizan los datos de manera similar. Las bases de datos relacionales difieren en que las tablas se pueden vincular o relacionar a través de identificadores de registros únicos o claves. Las bases de datos manejan más datos y admiten más usuarios simultáneos que las hojas de cálculo o los archivos planos. También ofrecen más controles de calidad de datos, como la posibilidad de hacer cumplir los tipos de datos de cada columna. Por último, interactuamos con bases de datos a través de un lenguaje específico: lenguaje de consulta estructurado o SQL.

En resumen:
- Los datos sobre las entidades se organizan en tablas.
- Cada fila o registro es una instancia de una entidad.
- Cada columna tiene información sobre un atributo.
- Las tablas se pueden vincular entre sí a través de claves únicas.
- Soporta más datos, múltiples usuarios simultáneos y añade controles de calidad.
- Los tipos de datos deben especificarse para cada columna.
- SQL (lenguaje de consulta estructurado) para interactuar con bases de datos

Ejemplos de bases de datos relacionales
- Microsoft SQL Server
- MySQL
- Oracle
- PostgreSQL
- SQLite
<br>
<p align="justify">

### Y cómo nos conectamos a una base de datos?

Es un proceso de dos pasos:
1. Creamos una conexión a la base de datos
2. Hacemos una consulta (query).

En este caso, vamos a utilizar la biblioteca `sqlite3` como kit de herramientas SQL para Python.

### Qué es SQLite?

- SQLite es un software de código abierto. El software no requiere ninguna licencia después de la instalación.

- SQLite no tiene servidor, ya que no necesita un proceso o sistema de servidor diferente para operar.

- SQLite facilita trabajar en múltiples bases de datos en la misma sesión simultáneamente, lo que lo hace flexible.

- SQLite es un DBMS multiplataforma que puede ejecutarse en todas las plataformas, incluidas macOS, Windows, etc.

- SQLite no requiere ninguna configuración/administración.

In [None]:
# Importamos la biblioteca
import sqlite3

In [None]:
# Creamos una conexión con una base de datos que vamos a crear.
connection = sqlite3.connect("favorite_fruit.db")

---

Una vez creada la conexión, podremos empezar a trabajar con la base de datos.

Pero antes, deberemos entender un concepto interesante e indispensable.

**Cursores (cursors)**:
- Nos permiten procesar datos fila por fila, lo que puede ser útil cuando necesitamos realizar cálculos complejos o transformaciones en los datos.
- Nos permiten iterar sobre un conjunto de resultados varias veces, lo que puede ser útil cuando necesitamos realizar varias operaciones en los mismos datos.
- Pueden ser útiles cuando necesitamos unir varias tablas con relaciones complejas.
- Nos permiten realizar operaciones como actualizar, eliminar o insertar registros en función de alguna condición o criterio.
- Son especialmente útiles cuando se procesan datos de varias tablas donde las relaciones no son sencillas.

---

Y cómo lo creamos? Es muy sencillo!

---

In [None]:
# Creamos un cursor de base de datos
cursor = connection.cursor()

In [None]:
# Ahora que ya tenemos la conexión a la base de datos y un cursor, podemos empezar a crear nuestras tablas.
cursor.execute("CREATE TABLE IF NOT EXISTS users (name TEXT, age NUMBER, fav_fruit STRING)")

<sqlite3.Cursor at 0x2260c59b180>

---

Podemos verificar que la nueva tabla se haya creado consultando la tabla `sqlite_master` integrada en `SQLite`, que ahora debería contener una entrada para la definición de la tabla de `movie`.

---

In [None]:
response = cursor.execute("SELECT name from sqlite_master")
fetchone = response.fetchone()

fetchone

('users',)

In [None]:
# Generamos una lista de tuplas con información correspondiente a nuestras columnas de users.
data = [("Ale", 22, "apple"), ("Mon", 23, "kiwi"), ("Monty", 13, "apple"), ("Bel", 63, "apple"), ("Usal", 44, "orange"), ("Ynte", 64, "orange"), ("Alepsa", 62, "apple"), ("Monday", 75, "orange"), ("Montal", 29, "orange"),
        ("Onsa", 36, "orange"), ("Oliver", 77, "kiwi"), ("Loster", 63, "kiwi"), ("Alexis", 16, "apple"), ("Luis", 18, "apple"), ("Montenegro", 47, "apple"), ("Ale", 22, "apple"), ("Mon", 23, "watermelon"), ("Sandy", 36, "apple")]

# A través de nuestro cursor, ejecutamos la operación varias veces, insertando los datos de nuestra lista (utilizamos el placeholder "?" para evitar SQL injections)
cursor.executemany("INSERT INTO users VALUES(?, ?, ?)", data)

<sqlite3.Cursor at 0x2260c59b180>

In [None]:
# Efectivizamos la operación/transacción haciendo COMMIT en la conexión.
connection.commit()

In [None]:
# Vamos a hacer un query de la información de la tabla Users
# Utilizamos fetchall ya que sabemos que van a ser varias filas. En este caso, siempre nos devolverá una tupla por cada fila.
query_users = cursor.execute("SELECT * FROM users")
fetchall = query_users.fetchall()

fetchall

[('Ale', 22, 'apple'),
 ('Mon', 23, 'kiwi'),
 ('Monty', 13, 'apple'),
 ('Bel', 63, 'apple'),
 ('Usal', 44, 'orange'),
 ('Ynte', 64, 'orange'),
 ('Alepsa', 62, 'apple'),
 ('Monday', 75, 'orange'),
 ('Montal', 29, 'orange'),
 ('Onsa', 36, 'orange'),
 ('Oliver', 77, 'kiwi'),
 ('Loster', 63, 'kiwi'),
 ('Alexis', 16, 'apple'),
 ('Luis', 18, 'apple'),
 ('Montenegro', 47, 'apple'),
 ('Ale', 22, 'apple'),
 ('Mon', 23, 'watermelon'),
 ('Sandy', 36, 'apple')]

In [None]:
# Si queremos utilizar funciones de agregacion, también podemos hacerlo!
cursor.execute("""SELECT count(*), fav_fruit
                FROM users
                GROUP BY fav_fruit
                ORDER BY fav_fruit
            """)
fetch = cursor.fetchall()

fetch

[(9, 'apple'), (3, 'kiwi'), (5, 'orange'), (1, 'watermelon')]

---

Ahora bien, ya entendemos como hacer consultas a nuestra base de datos...

Pero... cómo haríamos para obtener un DataFrame de pandas?

Una de las maneras más sencillas sería la siguiente

---

In [None]:
query_users = "SELECT * FROM users"

fav_fruit = pd.read_sql_query(query_users, connection)

In [None]:
fav_fruit.head()

Unnamed: 0,name,age,fav_fruit
0,Ale,22,apple
1,Mon,23,kiwi
2,Monty,13,apple
3,Bel,63,apple
4,Usal,44,orange


---

Otra posibilidad es simplemente pasar la lista de tuplas (obtenidas a través de la consulta a la base de datos) al constructor DataFrame de pandas.

---

In [None]:
# Hacemos nuevamente la consulta a la base de datos y guardamos en una variable los resultados del query.
query_users = cursor.execute("SELECT * FROM users")
fav_fruits_fetch = query_users.fetchall()

In [None]:
# Generamos un nuevo DataFrame, le pasamos la lista de tuplas y generamos las columnas que necesitamos.
df_fav_fruit = pd.DataFrame(fav_fruits_fetch, columns=["name", "age", "fav_fruit"])

df_fav_fruit.head()

Unnamed: 0,name,age,fav_fruit
0,Ale,22,apple
1,Mon,23,kiwi
2,Monty,13,apple
3,Bel,63,apple
4,Usal,44,orange


---

Y otra posibilidad más sería utilizar un método de pandas para construir nuestro DataFrame.

En este caso, podríamos utilizar `from_records()`

Este método convierte en DataFrame a:
- Un array estructurado de numpy
- Una lista de diccionarios
- Una lista de tuplas (con la correspondiente columna/s)
---

In [None]:
df_from_records_fav_fruits = pd.DataFrame.from_records(fav_fruits_fetch, columns=["name", "age", "fav_fruit"])

df_from_records_fav_fruits.head()

Unnamed: 0,name,age,fav_fruit
0,Ale,22,apple
1,Mon,23,kiwi
2,Monty,13,apple
3,Bel,63,apple
4,Usal,44,orange


In [None]:
# Vamos a gráficar algo muy sencillo para probar nuestro DataFrame!

fig = px.box(fav_fruit, x='fav_fruit', y='age')

fig.update_layout(
    title="Favorite food over people's age",
    xaxis_title='Fruit',
    yaxis_title='Age',
    template='plotly_dark'
)

fig.show()

## **<font color="DeepPink">4. Application Programming Interface (API) - Interfaz de programación de aplicaciones</font>**

Una interfaz de programación de aplicaciones (API) es una forma definida para que una aplicación se comunique con otros programas y viceversa. Permiten a los programadores obtener datos de una aplicación sin tener que conocer la arquitectura de la base de datos de esa aplicación.

Usar una API para obtener datos es como usar un catálogo para pedir productos. El catálogo muestra lo que está disponible y proporciona instrucciones de pedido. Enviamos un pedido debidamente formado a la dirección correcta y efectivamente recibimos lo que ordenamos.

De manera similar, una API proporciona un punto final para enviar solicitudes y la documentación describe cómo debería verse una solicitud, como los parámetros que se deben incluir.

En resumen:
- Permite la comunicación entre diferentes programas y aplicaciones.
- Proporciona una forma definida y estructurada de interacción.
- Permite a los programadores obtener datos y realizar acciones en una aplicación sin conocer los detalles internos.
- Funciona como un catálogo de productos para hacer pedidos.
- El catálogo muestra lo disponible y proporciona instrucciones de pedido.
- Una API tiene un punto final (endpoint) para enviar solicitudes.
- La documentación describe cómo debe verse una solicitud, incluyendo los parámetros necesarios.
- Permite obtener datos y realizar acciones de manera estandarizada.

Algunos ejemplos de APIs:
- [Advice Slip API](https://api.adviceslip.com/)
- [PokeAPI](https://pokeapi.co/)
- [Open Weather API](https://openweathermap.org/api/)
- [JSON Placeholder API](https://jsonplaceholder.typicode.com/)

---

Si bien podemos utilizar bibliotecas que ya tengan su propio wrapper API y formas de hacer peticiones, por ejemplo:
- [OpenAI](https://platform.openai.com/docs/libraries)
- [SpotiPy](https://spotipy.readthedocs.io/en/2.22.1/)
- [PokeBase](https://github.com/PokeAPI/pokebase/)

En nuestro caso, utilizaremos una biblioteca de python llamada `Requests` para hacer nuestras propias peticiones HTTP.
- [Requests Docs](https://pypi.org/project/requests/)

---

**Por qué esta librería?**
- Nos permite enviar y recibir información de cualquier sitio web (o API)
- No está atada a alguna API en particular (por lo que podemos utilizarla en infinidad de ocasiones)
- Es sencilla de utilizar para dar nuestros primeros pasos.

---

Si bien anteriormente solo hemos manejado datos en forma tabular, ahora entraremos en otro formato de notación de objetos Javascript. Más conocido como **JSON** o Javascript Object Notation.

Pero... qué es un `JSON`?
- Es un formato ligero y legible por humanos utilizado para el intercambio de datos entre aplicaciones

Principales características:
- La mayoría de los lenguajes de programación hacen uso de las estructuras de datos utilizadas por JSON.
- Permite generar y analizar datos de forma legible para los humanos.
- Es comúnmente utilizado en el desarrollo web para transmitir datos a través de la web.
- Los datos JSON no son tabulares como los DataFrames.
- Los objetos son similares a los diccionarios de Python y se encierran entre llaves.
- Los objetos contienen pares de atributo-valor (key-value).
- Los JSON permiten anidar valores, lo que significa que los valores pueden ser objetos o listas de objetos.

---

Con pandas, una de las formas más sencillas de leer un JSON es con el método `read_json()`.

Vamos con ello!

---

In [None]:
# Vamos a importar las librerías de requests y json.
import json
import requests

In [None]:
api_cat_facts = "https://cat-fact.herokuapp.com/facts"

response = requests.get(api_cat_facts)

In [None]:
response

<Response [200]>

In [None]:
response.json()

[{'status': {'verified': True, 'feedback': '', 'sentCount': 1},
  '_id': '5887e1d85c873e0011036889',
  'user': '5a9ac18c7478810ea6c06381',
  'text': 'Cats make about 100 different sounds. Dogs make only about 10.',
  '__v': 0,
  'source': 'user',
  'updatedAt': '2020-09-03T16:39:39.578Z',
  'type': 'cat',
  'createdAt': '2018-01-15T21:20:00.003Z',
  'deleted': False,
  'used': True},
 {'status': {'verified': True, 'sentCount': 1},
  '_id': '588e746706ac2b00110e59ff',
  'user': '588e6e8806ac2b00110e59c3',
  'text': 'Domestic cats spend about 70 percent of the day sleeping and 15 percent of the day grooming.',
  '__v': 0,
  'source': 'user',
  'updatedAt': '2020-08-26T20:20:02.359Z',
  'type': 'cat',
  'createdAt': '2018-01-14T21:20:02.750Z',
  'deleted': False,
  'used': True},
 {'status': {'verified': True, 'sentCount': 1},
  '_id': '58923f2fc3878c0011784c79',
  'user': '5887e9f65c873e001103688d',
  'text': "I don't know anything about cats.",
  '__v': 0,
  'source': 'user',
  'updated

In [None]:
data = response.json()

for idx, fact in enumerate(data):
    print(f"[ {idx+1} ] {fact}")

[ 1 ] {'status': {'verified': True, 'feedback': '', 'sentCount': 1}, '_id': '5887e1d85c873e0011036889', 'user': '5a9ac18c7478810ea6c06381', 'text': 'Cats make about 100 different sounds. Dogs make only about 10.', '__v': 0, 'source': 'user', 'updatedAt': '2020-09-03T16:39:39.578Z', 'type': 'cat', 'createdAt': '2018-01-15T21:20:00.003Z', 'deleted': False, 'used': True}
[ 2 ] {'status': {'verified': True, 'sentCount': 1}, '_id': '588e746706ac2b00110e59ff', 'user': '588e6e8806ac2b00110e59c3', 'text': 'Domestic cats spend about 70 percent of the day sleeping and 15 percent of the day grooming.', '__v': 0, 'source': 'user', 'updatedAt': '2020-08-26T20:20:02.359Z', 'type': 'cat', 'createdAt': '2018-01-14T21:20:02.750Z', 'deleted': False, 'used': True}
[ 3 ] {'status': {'verified': True, 'sentCount': 1}, '_id': '58923f2fc3878c0011784c79', 'user': '5887e9f65c873e001103688d', 'text': "I don't know anything about cats.", '__v': 0, 'source': 'user', 'updatedAt': '2020-08-23T20:20:01.611Z', 'type'

In [None]:
# Podríamos crear una lista que contenga los textos... pero quizá aún sea mejor tener un DataFrame!
facts = [fact['text'] for fact in data]

facts

['Cats make about 100 different sounds. Dogs make only about 10.',
 'Domestic cats spend about 70 percent of the day sleeping and 15 percent of the day grooming.',
 "I don't know anything about cats.",
 'The technical term for a cat’s hairball is a bezoar.',
 'Cats are the most popular pet in the United States: There are 88 million pet cats and 74 million dogs.']

In [None]:
cat_facts = pd.DataFrame(data)

In [None]:
cat_facts

Unnamed: 0,status,_id,user,text,__v,source,updatedAt,type,createdAt,deleted,used
0,"{'verified': True, 'feedback': '', 'sentCount'...",5887e1d85c873e0011036889,5a9ac18c7478810ea6c06381,Cats make about 100 different sounds. Dogs mak...,0,user,2020-09-03T16:39:39.578Z,cat,2018-01-15T21:20:00.003Z,False,True
1,"{'verified': True, 'sentCount': 1}",588e746706ac2b00110e59ff,588e6e8806ac2b00110e59c3,Domestic cats spend about 70 percent of the da...,0,user,2020-08-26T20:20:02.359Z,cat,2018-01-14T21:20:02.750Z,False,True
2,"{'verified': True, 'sentCount': 1}",58923f2fc3878c0011784c79,5887e9f65c873e001103688d,I don't know anything about cats.,0,user,2020-08-23T20:20:01.611Z,cat,2018-02-25T21:20:03.060Z,False,False
3,"{'verified': True, 'sentCount': 1}",5894af975cdc7400113ef7f9,5a9ac18c7478810ea6c06381,The technical term for a cat’s hairball is a b...,0,user,2020-11-25T21:20:03.895Z,cat,2018-02-27T21:20:02.854Z,False,True
4,"{'verified': True, 'sentCount': 1}",58e007cc0aac31001185ecf5,58e007480aac31001185ecef,Cats are the most popular pet in the United St...,0,user,2020-08-23T20:20:01.611Z,cat,2018-03-01T21:20:02.713Z,False,False


---

Vamos a probar otra API!

En este caso, vamos a ver **PokeAPI** 🐢🐦🐎

---

In [None]:
api_poke = "https://pokeapi.co/api/v2/pokemon/"

pokemon = str(input())

response = requests.get(api_poke+pokemon)

In [None]:
data = response.json()

In [None]:
for key in data.keys():
    print(key)

abilities
base_experience
forms
game_indices
height
held_items
id
is_default
location_area_encounters
moves
name
order
past_types
species
sprites
stats
types
weight


In [None]:
pokedex_stats = pd.DataFrame(data['stats'])

In [None]:
pokedex_stats

Unnamed: 0,base_stat,effort,stat
0,39,0,"{'name': 'hp', 'url': 'https://pokeapi.co/api/..."
1,52,0,"{'name': 'attack', 'url': 'https://pokeapi.co/..."
2,43,0,"{'name': 'defense', 'url': 'https://pokeapi.co..."
3,60,0,"{'name': 'special-attack', 'url': 'https://pok..."
4,50,0,"{'name': 'special-defense', 'url': 'https://po..."
5,65,1,"{'name': 'speed', 'url': 'https://pokeapi.co/a..."


---

Estas APIs son públicas y podemos hacerles peticiones GET directamente al endpoint.

Pero vale la pena recordar que algunas que utilicemos, pueden llegar a tener autenticación y, por tanto debamos pasar un header u otros parámetros más. Por ejemplo

``` python
headers = {"Authorization": f"Bearer {api_key}"}
response = requests.get(api_url, headers=headers)
```

En esta ocasión, no ahondaremos en este tema.

---

 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros, aprendimos acerca de la ingestión de datos en:
<br><br>
✅ Archivos planos (y sus diferentes variantes).
<br>
✅ Archivos de excel (o spreadsheets).
<br>
✅ Bases de datos relacionales y cómo poder utilizar sus datos mediantes consultas en python.
<br>
✅ APIs y cómo hacer uso de sus datos mediante algunas peticiones.
</p>

<p align="justify">



<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
