# Bloque 1 - Leyendo archivos CSV

## Importando Archivos CSV

In [1]:
import pandas as pd

In [6]:
datos = pd.read_csv('superstore_data.csv', sep=',')

In [7]:
datos.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [8]:
datos_punto_coma = datos = pd.read_csv('superstore_data_punto_coma.csv', sep=';')

In [9]:
datos_punto_coma.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


### Error de codificación ( UnicodeDecodeError ) - ¿cómo solucionarlo?

Giovanna es una científica de datos que trabaja en una empresa de comercio electrónico. Ella es responsable de analizar datos de ventas para identificar patrones y tendencias que puedan ayudar a la empresa a tomar decisiones informadas.

Recientemente, le asignaron una nueva tarea: analizar un archivo CSV que contiene información sobre las ventas de la empresa durante un período determinado. Para ello, Giovanna intentó leer un archivo CSV en Google Colab, usando la biblioteca Pandas con el siguiente comando:
``` Python
import pandas as pd
df = pd.read_csv('datos.csv')
```
Sin embargo, apareció el siguiente error:

![Error UnicodeCodeErro](img\UnicodeCodeError.JPG)

En español, el mensaje significa UnicodeDecodeError: el códec 'utf-8' no puede decodificar el byte 0xff en la posición 0: byte de inicio inválido

**Pero ¿qué significa eso? ¿Qué es esto de UTF-8?**

El error de encoding ocurre cuando la biblioteca Pandas no puede interpretar correctamente los caracteres en un archivo CSV. Esto puede suceder cuando contiene caracteres especiales que la biblioteca Pandas no reconoce o cuando se guardó en un formato de codificación diferente al esperado.

Para resolver este error, es necesario identificar la codificación correcta del archivo CSV y especificarla al cargar el archivo con la biblioteca Pandas. Esta codificación predeterminada es UTF-8, pero en algunos casos, es posible que el archivo se haya guardado con una codificación diferente, como ISO-8859-1.

UTF-8 es una codificación de caracteres universal que se utiliza para representar caracteres de diferentes idiomas de una manera compatible con Internet y los sistemas de computadora en general. Las siglas UTF significan Unicode Transformation Format (Formato de Transformación Unicode) y el número 8 indica que esta codificación asocia una secuencia de 1 a 4 bytes (8 a 32 bits) a cada carácter.

La codificación UTF-8 se usa ampliamente en Internet y en sistemas informáticos de todo el mundo, ya que permite representar caracteres de diferentes idiomas en un solo conjunto de caracteres. Además, esta codificación puede preservar la compatibilidad con codificaciones más antiguas como ASCII, lo que la convierte en una opción popular para crear y compartir archivos de texto.

Quizás estés pensando ahora mismo: ¿cómo podría Giovanna descubrir cuál es la codificación del archivo que está intentando leer?

Hay algunas formas de resolver esto, sin embargo, tendremos la oportunidad de experimentar una forma práctica de hacerlo en el propio Google Colab. ¿Vamos allá?

Podemos usar una biblioteca llamada chardet para detectar el encoding de un archivo CSV. Para usar esta biblioteca en Google Colab, simplemente importela:

``` Python
import chardet
```
Luego escribimos el siguiente bloque de código:
``` Python
with open('datos.csv', 'rb') as file:
    print(chardet.detect(file.read()))
```
Observe que la primera línea de este código abre el archivo CSV en modo de lectura binaria rb y asigna el objeto del archivo devuelto a una variable llamada file.

En la segunda línea de código, el contenido del archivo CSV se lee usando el método read() y el resultado se pasa a la función chardet.detect(), que devuelve un diccionario que contiene información sobre la codificación más probable del archivo. El resultado se imprime con la función print() que muestra la codificación y la confianza asociada con esa codificación.

Al ejecutar el código Giovanna obtuvo el siguiente resultado:
``` Python
{'encoding': 'UTF-16', 'confidence': 1.0, 'language': ''}
```
Ahora ella sabe que es probable que el archivo CSV esté codificado con UTF-16 con una confianza de 1.0. Para especificar la codificación correcta al cargar el archivo CSV con la biblioteca Pandas, puede utilizar un parámetro llamado encoding:
``` Python
df = pd.read_csv('datos.csv', encoding='UTF-16')
```
De esta manera, la biblioteca Pandas cargará el archivo CSV usando la codificación UTF-16, lo que resolverá el error de codificación. Entonces, si alguna vez intentas leer un archivo y obtienes el mismo error, ¡recuerda este consejo!


### parametro nrows del metodo read_csv()

In [10]:
# Solo lee las filas que le indique en el parametro
datos_primeras_lineas = pd.read_csv('superstore_data.csv', nrows=5)
datos_primeras_lineas

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


### parametro usecols del metodo read_csv()

In [13]:
# solo lee las columnas que se le indica en el parametro usecols del metodo read_csv()
datos_seleccion = pd.read_csv('superstore_data.csv', usecols=['Id','Year_Birth','Income'])
datos_seleccion

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


In [14]:
datos_seleccion = pd.read_csv('superstore_data.csv', usecols=[0,1,4])
datos_seleccion

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


### Guardar un data frame en un csv (Exportar)

In [16]:
datos_seleccion.to_csv('clientes_mercado.csv')

In [17]:
clientes_mercado = pd.read_csv('clientes_mercado.csv')
clientes_mercado

Unnamed: 0.1,Unnamed: 0,Id,Year_Birth,Income
0,0,1826,1970,84835.0
1,1,1,1961,57091.0
2,2,10476,1958,67267.0
3,3,1386,1967,32474.0
4,4,5371,1989,21474.0
...,...,...,...,...
2235,2235,10142,1976,66476.0
2236,2236,5263,1977,31056.0
2237,2237,22,1976,46310.0
2238,2238,528,1978,65819.0


### parametro index del metodo to_csv()

In [18]:
datos_seleccion.to_csv('datos_mercado.csv', index=False)

In [20]:
datos_mercado = pd.read_csv('datos_mercado.csv')
datos_mercado

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


### Documentacion de read_csv() y to_csv()

- https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html

### Tarea del Bloque 1

Es hora de que pongas a prueba los conocimientos desarrollados durante la clase. Disponemos de un archivo en formato CSV, el cual se obtuvo de la página Información de Salud (TABNET) - DATASUS. Este archivo contiene los gastos hospitalarios públicos de cada una de las Unidades de la Federación Brasileña desde enero de 2008 hasta marzo de 2021.

Su desafío aquí será leer este archivo usando la función read_csv de la biblioteca Pandas. Se deben agregar algunos parámetros para que la lectura se realice correctamente. Entonces, aquí hay algunos consejos:

1. Asegúrese de que el archivo CSV esté separado por una coma o punto y coma.
2. La codificación del archivo es **ISO-8859-1**.
3. Las primeras tres líneas del archivo se pueden ignorar, ya que el encabezado sólo comienza en la cuarta línea.
4. Las últimas 9 líneas también se pueden ignorar, ya que son sólo información sobre dónde se tomaron los datos.
5. Para eliminar las últimas líneas es necesario agregar el parámetro engine='python'.


In [25]:
!pip install chardet

Collecting chardet
  Downloading chardet-5.2.0-py3-none-any.whl.metadata (3.4 kB)
Downloading chardet-5.2.0-py3-none-any.whl (199 kB)
   ---------------------------------------- 0.0/199.4 kB ? eta -:--:--
   ---------------------------------------- 0.0/199.4 kB ? eta -:--:--
   -- ------------------------------------- 10.2/199.4 kB ? eta -:--:--
   -- ------------------------------------- 10.2/199.4 kB ? eta -:--:--
   ------ -------------------------------- 30.7/199.4 kB 262.6 kB/s eta 0:00:01
   -------- ------------------------------ 41.0/199.4 kB 281.8 kB/s eta 0:00:01
   ---------------- ---------------------- 81.9/199.4 kB 416.7 kB/s eta 0:00:01
   ----------------------- -------------- 122.9/199.4 kB 554.9 kB/s eta 0:00:01
   --------------------------------- ---- 174.1/199.4 kB 751.6 kB/s eta 0:00:01
   -------------------------------------- 199.4/199.4 kB 713.8 kB/s eta 0:00:00
Installing collected packages: chardet
Successfully installed chardet-5.2.0



[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: C:\Users\Luis\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [29]:
#Utilizamos chardet para averiguar la codificacion del archivo csv
import chardet
with open('datos_sus.csv', 'rb') as file:
    print(chardet.detect(file.read()))

{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}


#### Uso del los parametros skiprows, skipfooter y engine del metodo read_csv()

| Parámetro         | Función                                |
| ----------------- | -------------------------------------- |
| `skiprows=3`      | Salta las primeras 3 filas del archivo |
| `skipfooter=9`    | Salta las últimas 9 filas              |
| `engine="python"` | Necesario para poder usar `skipfooter` |


In [None]:
datos_sus = pd.read_csv('datos_sus.csv', sep=';', encoding='ISO-8859-1', skiprows=3, skipfooter=9, engine='python')

In [38]:
datos_sus.head()

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
1,Acre,90241600,149720626,179402848,173046942,181944392,182849600,251175459,208910714,227570853,...,391519320,364014282,339124221,404432144,327659010,369699731,371572312,353842792,407704592,45004853047
2,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
3,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
4,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229


# Bloque 2 - Leyendo Archivos Excell

## Importando archivos excell

In [47]:
!pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
   ---------------------------------------- 0.0/250.9 kB ? eta -:--:--
   ---- ----------------------------------- 30.7/250.9 kB 1.3 MB/s eta 0:00:01
   ---- ----------------------------------- 30.7/250.9 kB 1.3 MB/s eta 0:00:01
   ---- ----------------------------------- 30.7/250.9 kB 1.3 MB/s eta 0:00:01
   ---- ----------------------------------- 30.7/250.9 kB 1.3 MB/s eta 0:00:01
   ------ -------------------------------- 41.0/250.9 kB 163.4 kB/s eta 0:00:02
   ------ -------------------------------- 41.0/250.9 kB 163.4 kB/s eta 0:00:02
   --------- ----------------------------- 61.4/250.9 kB 204.8 kB/s eta 0:00:01
   ----------- --------------------------- 71.7/250.9 kB 196.3 kB/s eta 0:00:01
   ----------- --------------------------- 7


[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: C:\Users\Luis\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [48]:
archivo = 'emisiones_CO2.xlsx'

In [49]:
datos_co2 = pd.read_excel(archivo)

In [50]:
datos_co2

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,0.000000e+00,,,,,,,
1,Afganistán,AFG,1751,0.000000e+00,,,,,,,
2,Afganistán,AFG,1752,0.000000e+00,,,,,,,
3,Afganistán,AFG,1753,0.000000e+00,,,,,,,
4,Afganistán,AFG,1754,0.000000e+00,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10,1.450697e+10,1.224263e+10,7.144928e+09,1.507923e+09,391992176.0,302294047.0,4749682.0
63100,Global,WLD,2018,3.682651e+10,1.474683e+10,1.226602e+10,7.529847e+09,1.569218e+09,412115746.0,302478706.0,4792753.0
63101,Global,WLD,2019,3.708256e+10,1.472598e+10,1.234565e+10,7.647528e+09,1.617507e+09,439253991.0,306638573.0,4775633.0
63102,Global,WLD,2020,3.526409e+10,1.417456e+10,1.119181e+10,7.556290e+09,1.637538e+09,407583673.0,296301685.0,4497423.0


## metodo para leer los nombres de las Hojas

In [61]:
pd.ExcelFile(archivo).sheet_names

['emisiones_C02', 'emisiones_percapita', 'fuentes']

In [62]:
percapita = pd.read_excel(archivo, sheet_name='emisiones_percapita')

In [63]:
percapita

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros
0,Afganistán,AFG,1750,,,,,,,
1,Afganistán,AFG,1751,,,,,,,
2,Afganistán,AFG,1752,,,,,,,
3,Afganistán,AFG,1753,,,,,,,
4,Afganistán,AFG,1754,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0


In [64]:
fuentes = pd.read_excel(archivo, sheet_name='fuentes')
fuentes

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afganistán,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afganistán,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afganistán,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afganistán,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
...,...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63100,Global,WLD,2018,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63101,Global,WLD,2019,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63102,Global,WLD,2020,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."


## usecols y nrows paraetros

In [65]:
# se usa usecols para seleccionar solo las columnas de la A a la D
intervalo = pd.read_excel(archivo, sheet_name='emisiones_C02', usecols='A:D')

In [66]:
intervalo

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0.000000e+00
1,Afganistán,AFG,1751,0.000000e+00
2,Afganistán,AFG,1752,0.000000e+00
3,Afganistán,AFG,1753,0.000000e+00
4,Afganistán,AFG,1754,0.000000e+00
...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10
63100,Global,WLD,2018,3.682651e+10
63101,Global,WLD,2019,3.708256e+10
63102,Global,WLD,2020,3.526409e+10


In [67]:
# Usa el parametro nrows solo para seleccionar las primeras 10 filas
intervalo_2 = pd.read_excel(archivo, sheet_name='emisiones_C02', usecols='A:D', nrows=10)

In [68]:
intervalo_2

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0
1,Afganistán,AFG,1751,0
2,Afganistán,AFG,1752,0
3,Afganistán,AFG,1753,0
4,Afganistán,AFG,1754,0
5,Afganistán,AFG,1755,0
6,Afganistán,AFG,1756,0
7,Afganistán,AFG,1757,0
8,Afganistán,AFG,1758,0
9,Afganistán,AFG,1759,0


## Exportar excel

In [69]:
intervalo.to_excel('co2_percapita.xlsx', index=False)

In [70]:
pd.read_excel('co2_percapita.xlsx')

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0.000000e+00
1,Afganistán,AFG,1751,0.000000e+00
2,Afganistán,AFG,1752,0.000000e+00
3,Afganistán,AFG,1753,0.000000e+00
4,Afganistán,AFG,1754,0.000000e+00
...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10
63100,Global,WLD,2018,3.682651e+10
63101,Global,WLD,2019,3.708256e+10
63102,Global,WLD,2020,3.526409e+10


## Importando hacia Google Sheets

Google Sheets es una herramienta de hojas de cálculo online basada en nube que le permite crear, editar y colaborar en hojas de cálculo de manera fácil y conveniente. Es una de las aplicaciones de Google Workspace que ofrece una alternativa a Microsoft Excel.

Con Google Sheets se puede crear y formatear hojas de cálculo, agregar fórmulas y funciones, crear gráficos y tablas dinámicas y trabajar con otros usuarios con datos en tiempo real. También admite la importación y exportación de varios formatos de archivos, como CSV y XLSX.

Una de las principales ventajas de Google Sheets es la colaboración en tiempo real. Varias personas pueden trabajar simultáneamente en la misma hoja de trabajo y ver los cambios simultáneamente. Esto facilita el trabajo en proyectos de equipo, aumentando la eficiencia y la productividad.

Para importar el archivo de Excel `emisiones_CO2.xlsx` hacia Google Sheets, siga estos pasos:

1. Abra la página de Google Sheets y haga clic en "Ir a Sheets". Inicie sesión en su cuenta de Google si es necesario.
2. Haga clic en Nueva Hoja de cálculo en blanco.
3. Cuando haya abierto, haga clic en "Archivo" (File) en el menú superior y luego haga clic en la opción "Importar archivo" (Import).
4. Haga clic en la pestaña "Subir" (Upload) y seleccione el archivo que desea importar. Puede hacer clic en la opción Examinar para ubicar el archivo en su computadora o arrastrar el archivo dentro de la pestaña.
5. Espere mientras se carga el archivo. Cuando se complete la carga, verá un mensaje de confirmación y podrá hacer clic en "Importar datos" (Import data).
6. Después de importar, se mostrarán los datos.

## Leyendo los datos de Google Sheets

Link: https://docs.google.com/spreadsheets/d/1fCZFlMCIY3P8AspgPXUAkCtw6qt03xcm4-51EUOrxbY/edit?usp=sharing

In [72]:
#Copiar id del link
# https://docs.google.com/spreadsheets/d/1fCZFlMCIY3P8AspgPXUAkCtw6qt03xcm4-51EUOrxbY/edit?usp=sharing
sheet_id = '1fCZFlMCIY3P8AspgPXUAkCtw6qt03xcm4-51EUOrxbY'
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'

In [73]:
datos_co2_sheets = pd.read_csv(url)

In [75]:
datos_co2_sheets

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,0,,,,,,,
1,Afganistán,AFG,1751,0,,,,,,,
2,Afganistán,AFG,1752,0,,,,,,,
3,Afganistán,AFG,1753,0,,,,,,,
4,Afganistán,AFG,1754,0,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,36.096.739.276,14.506.973.805,12.242.627.935,7.144.928.128,1.507.923.185,391.992.176,302.294.047,4.749.682
63100,Global,WLD,2018,36.826.506.600,14.746.830.688,12.266.016.285,7.529.846.784,1.569.218.392,412.115.746,302.478.706,4.792.753
63101,Global,WLD,2019,37.082.558.969,14.725.978.025,12.345.653.374,7.647.528.220,1.617.506.786,439.253.991,306.638.573,4.775.633
63102,Global,WLD,2020,35.264.085.734,14.174.564.010,11.191.808.551,7.556.290.283,1.637.537.532,407.583.673,296.301.685,4.497.423


In [76]:
# Abre la segunda hoja
sheet_id = '1fCZFlMCIY3P8AspgPXUAkCtw6qt03xcm4-51EUOrxbY'
sheet_name = 'emisiones_percapita'
url_percapita = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [77]:
percapita_sheets = pd.read_csv(url_percapita)

In [78]:
percapita_sheets

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros
0,Afganistán,AFG,1750,,,,,,,
1,Afganistán,AFG,1751,,,,,,,
2,Afganistán,AFG,1752,,,,,,,
3,Afganistán,AFG,1753,,,,,,,
4,Afganistán,AFG,1754,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,4.749.682,1.908.857,1.610.910,940.144,198.416,51.579,39.776
63100,Global,WLD,2018,4.792.753,1.919.213,1.596.350,979.965,204.225,53.634,39.366
63101,Global,WLD,2019,4.775.633,1.896.468,1.589.920,984.878,208.309,56.569,39.490
63102,Global,WLD,2020,4.497.423,1.807.760,1.427.353,963.695,208.844,51.981,37.789


In [None]:
# Abre la tercera hoja
# gviz/tq?tqx=out:csv&sheet={sheet_name}
sheet_id = '1fCZFlMCIY3P8AspgPXUAkCtw6qt03xcm4-51EUOrxbY'
sheet_name = 'fuentes'
url_fuentes = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [80]:
fuentes_sheets = pd.read_csv(url_fuentes)

In [81]:
fuentes_sheets

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afganistán,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afganistán,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afganistán,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afganistán,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
...,...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63100,Global,WLD,2018,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63101,Global,WLD,2019,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63102,Global,WLD,2020,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."


## Tarea Bloque 3

Es hora de que pongas a prueba los conocimientos desarrollados durante la clase. Tenemos un link de Google Sheets que contiene datos importantes sobre las emisiones de dióxido de carbono en todo el mundo. El conjunto de datos se obtuvo de Kaggle y consta de las emisiones de CO2 per cápita de todos los países del mundo entre 1990 y 2019.

En este desafío, tu función es leer este link de Google Sheets y luego guardar el DataFrame obtenido en formato CSV. ¿Listo para comenzar?

In [82]:
archivo_excel_co2 = 'emisiones_carbono_mundo.xlsx'

In [83]:
datos_co2_mundo = pd.read_excel(archivo_excel_co2)

In [89]:
datos_co2_mundo.head(1)

Unnamed: 0,Country Name,country_code,Region,Indicator Name,1990,1991,1992,1993,1994,1995,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2019.1
0,Aruba,ABW,Latin America & Caribbean,CO2 emissions (metric tons per capita),,,,,,,...,,,,,,,,,,


In [92]:
datos.to_csv('datos_co2_mundo.csv', index=False)

Forma desde google sheets

Link: https://docs.google.com/spreadsheets/d/1wMsP32TB3WwDOR8TPDw5eQ2u9t4JJkXCAkbX-f_lfds/edit?usp=sharing

In [100]:
# gviz/tq?tqx=out:csv&sheet={sheet_name}
sheet_id2 = '1wMsP32TB3WwDOR8TPDw5eQ2u9t4JJkXCAkbX-f_lfds'
url2 = f'https://docs.google.com/spreadsheets/d/{sheet_id2}/gviz/tq?tqx=out:csv&sheet'

In [101]:
co_mundial_sheet = pd.read_csv(url2)

In [103]:
co_mundial_sheet.head(1)

Unnamed: 0,Country Name,country_code,Region,Indicator Name,1990,1991,1992,1993,1994,1995,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2019.1
0,Aruba,ABW,Latin America & Caribbean,CO2 emissions (metric tons per capita),,,,,,,...,,,,,,,,,,


In [105]:
co_mundial_sheet.to_csv('co_mundial_sheet.csv', index=False)

# Bloque 3 - Leyendo archivos JSON

## Importando archivos JSON

In [108]:
datos_pacientes = pd.read_json('pacientes.json')

In [107]:
datos_pacientes

Unnamed: 0,ID_paciente,Enfermedad_corazon,IMC,Fumador,Consumo_alcohol,AVC,Salud_fisica,Salud_mental,Dificultad_caminar,Sexo_biologico,Rango_edad,Raza,Diabetes,Actividad_fisica,Salud_general,Horas_sueño,Asma,Enfermedad_renal,Cancer_piel
0,0,No,16.60,Sí,No,No,3,30,No,Femenino,55-59,Blanca,Sí,Sí,Muy buena,5,Sí,No,Sí
1,1,No,20.34,No,No,Sí,0,0,No,Femenino,80 ó +,Blanca,No,Sí,Muy buena,7,No,No,No
2,2,No,26.58,Sí,No,No,20,30,No,Masculino,65-69,Blanca,Sí,Sí,Razonable,8,Sí,No,No
3,3,No,24.21,No,No,No,0,0,No,Femenino,75-79,Blanca,No,No,Buena,6,No,No,Sí
4,4,No,23.71,No,No,No,28,0,Sí,Femenino,40-44,Blanca,No,Sí,Muy buena,8,No,No,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,995,No,28.29,Sí,No,No,10,20,No,Femenino,65-69,Negra,Sí,Sí,Razonable,8,No,No,No
996,996,No,25.69,Sí,No,No,0,0,No,Femenino,75-79,Blanca,No,Sí,Excelente,8,No,No,No
997,997,Sí,26.99,No,No,No,1,0,No,Masculino,70-74,Blanca,No,Sí,Muy buena,8,No,No,No
998,998,No,44.29,No,No,No,30,0,Sí,Femenino,70-74,Blanca,Sí,No,Buena,6,Sí,No,No


In [110]:
datos_pacientes_2 = pd.read_json('pacientes_2.json')

In [111]:
datos_pacientes_2

Unnamed: 0,Investigación,Año,Pacientes
0,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '01', 'Rango_edad': '55-59', 'Sexo_biol..."
1,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '02', 'Rango_edad': '80 ó +', 'Sexo_bio..."
2,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '03', 'Rango_edad': '65-69', 'Sexo_biol..."


## Normalizando archivos JSON

Para una mejor visualizacion del json y saber en quellaves necesitas normalizar utiliza la suigiente pagina https://jsoncrack.com/

In [114]:
df_normalizado = pd.json_normalize(datos_pacientes_2['Pacientes'])

In [115]:
df_normalizado

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]"


## profundizando en la normalización

La **normalización** de datos es un proceso importante en la ciencia de datos que tiene como objetivo organizar y estandarizar datos para facilitar el análisis y la comparación entre ellos. Cuando se trata de datos en formato JSON (JavaScript Object Notation - Notación de objetos JavaScript), es común que estén anidados, lo que puede dificultar su análisis y manipulación.

La biblioteca Pandas cuenta con una función llamada ``json_normalize()`` que permite la transformación de datos a formato tabular, facilitando la visualización y análisis de las informaciones. A continuación, aprenderemos cómo usar esta función para normalizar diferentes tipos de JSON en DataFrames.

**Normalizando un JSON simple**

A continuación tenemos una variable llamada ``datos`` y dentro de ella hay un objeto JSON con tres llaves y sus respectivos valores:
```Python
datos = {'Análisis': 'Principales indicadores de enfermedad cardíaca', 'Año': 2020, 'Numero_Pacientes':3}
```
Para normalizar esta variable, podemos pasarla dentro de la función json_normalize y analizar el DataFrame obtenido:
```Python
df = pd.json_normalize(datos)
df
```


![ej01](img\ej01.JPG)

¡El resultado luce genial! Tenemos 3 columnas que son nuestras llaves y una fila que contiene los valores de cada llave.

**Normalizando un JSON con múltiples niveles**

Hay situaciones en las que el archivo JSON puede contener **más de un objeto**, como es el caso del siguiente ejemplo, en el que tenemos una **lista**, almacenada en la variable ``json_lista``, que contiene **dos objetos JSON**:
```Python
json_lista = [
    { 'ID': '01', 'Intervalo_edad': '55-59', 'Sexo_biologico': 'femenino'},
    { 'ID': '02', 'Intervalo_edad': '80 ó +', 'Sexo_biologico': 'femenino'}
]
```
Para normalizar esta lista podemos aplicar la función ``json_normalize``:
```Python
pd.json_normalize(json_lista)
```

![ej02](img\ej02.JPG)

La función ``json_normalize()`` es capaz de convertir cada registro de la lista en una línea en forma tabular.

**Normalizando un JSON con una lista anidada**

Bueno, notamos que la función ``json_normalize()`` funciona muy bien en las situaciones anteriores, pero ¿qué pasa en otras situaciones?

**Datos como un diccionario**

Iniciemos observando la normalización cuando los datos son un diccionario. Tenemos un diccionario almacenado en la variable ``json_obj``. Observe que en la llave “Salud” tenemos otro diccionario:
```Python
json_obj = {
    'ID': '01',
    'Intervalo_edad': '55-59',
    'Sexo_biologico': 'Femenino',
    'Salud': {'Dificultad_caminar': 'No',
              'Actividad_fisica': 'Sí',
              'IMC': 16.6,
              'Enfermedad_cardiaca': 'No',
          }
      }
```
Haciendo la normalización:
```Python
pd.json_normalize(json_obj)
```

![ej03](img\ej03.JPG)

El DataFrame generado tiene una columna para cada información contenida en el diccionario que estaba en “Salud”. Las columnas creadas tienen el prefijo “Salud.”, ya que la información proviene de esa misma llave.

**Datos como una lista de diccionarios.**

Ahora tenemos una lista de diccionarios almacenados en la variable ``json_list``:
```Python
json_list = [
    {
    'ID': '01',
    'Intervalo_edad': '55-59',
    'Sexo_biologico': 'Femenino',
    'Salud': {'Dificultad_caminar': 'No',
              'Actividad_fisica': 'Sí',
              'IMC': 16.6,
              'Enfermedad_cardiaca': 'No',
          }
      },
      {
          'ID': '02',
          'Intervalo_edad': '80 ó +',
          'Sexo_biologico': 'Femenino',
          'Salud': {'Dificultad_caminar': 'No',
                    'Actividad_fisica': 'Sí',
                    'IMC': 20.34,
                    'Enfermedad_cardiaca': 'Sí'}
       }
       ]
```
Haciendo la normalización:
```Python
pd.json_normalize(json_list)
```

![ej04](img\ej04.JPG)

Podemos ver que todos los valores anidados dentro de cada registro de la lista se han convertido en columnas separadas. ¿Qué pasa con los datos que normalizamos en el video anterior? ¿Recuerdas cómo su normalización se hizo de otra manera?

Resumiendo, vamos a copiar los datos del archivo paciente_2.json y vamos a guardarlos en una variable llamada ``datos_dict``.
```Python
datos_dict = {
  "Investigación": "Indicadores clave de enfermedades cardíacas",
  "Año": 2020,
  "Pacientes": [
    {
     "ID": "01",
      "Rango_edad": "55-59",
      "Sexo_biologico": "Mujer",
      "Raza": "Blanca",
      "IMC": 16.6,
      "Fumador": "Sí",
      "Consumo_alcohol": "No",
      "Salud_física": 3,
      "Salud_mental": 30,
      "Dificultad_caminar": "No",
      "Actividad_física": "Sí",
      "Salud_general": "Muy buena",
      "Horas_sueño": 5,
      "Problemas_salud": [
        "Diabetes",
        "Asma",
        "Cancer_piel"
      ]
    },
    {
      "ID": "02",
      "Rango_edad": "80 ó +",
      "Sexo_biologico": "Mujer",
      "Raza": "Blanca",
      "IMC": 20.34,
      "Fumador": "No",
      "Consumo_alcohol": "No",
      "Salud_física": 0,
      "Salud_mental": 0,
      "Dificultad_caminar": "No",
      "Actividad_física": "Sí",
      "Salud_general": "Muy buena",
      "Horas_sueño": 7,
      "Problemas_salud": [
        "AVC"
      ]
    },
    {
      "ID": "03",
      "Rango_edad": "65-69",
      "Sexo_biologico": "Masculino",
      "Raza": "Blanca",
      "IMC": 26.58,
      "Fumador": "Sí",
      "Consumo_alcohol": "No",
      "Salud_física": 20,
      "Salud_mental": 30,
      "Dificultad_caminar": "No",
      "Actividad_física": "Sí",
      "Salud_general": "Muy buena",
      "Horas_sueño": 8,
      "Problemas_salud": [
        "Diabetes",
        "Asma"
      ]
    }
  ]
}
```
Si intentamos normalizar estos datos:
```Python
pd.json_normalize(datos_dict)
```

![ej05](img\ej05.JPG)

Podemos observar que nuestra lista anidada está colocada en una única columna Pacientes. Entonces, usaremos el siguiente código para normalizar los datos, especificando qué columna está anidada:
```Python
pd.json_normalize(datos_dict['Pacientes'])
```
También podemos hacer esto usando el parámetro ``record_path`` como ['Pacientes']. Este parámetro se utiliza en la función pd.``json_normalize``() para especificar la ruta a los registros que deben ser normalizados en un DataFrame separado:
```Python
pd.json_normalize(datos_dict, record_path=['Pacientes'])
```
Con ambos códigos el resultado es el mismo.

![ej06](img\ej06.JPG)

El resultado parece excelente, pero no incluye las columnas "Investigación" y "Año". Para incluirlas, podemos usar el parámetro meta para especificar otras columnas que queramos en el DataFrame.
```Python
pd.json_normalize(
    datos_dict, 
    record_path =['Pacientes'], 
    meta=[‘Investigación’, 'Año']
)
```

![ej07](img\ej07.JPG)

¡De esa manera tenemos todas las columnas presentes en el DataFrame!
Importante: En clase nosotros realizamos la normalización en un archivo con formato JSON. Sin embargo, la función json_normalize() sólo acepta un diccionario o una lista de diccionarios. Por esto, en el video se utilizó la estrategia de usar el código: pd.json_normalize(datos_pacientes_2['Pacientes']). Sin embargo, si intentamos utilizar parámetros de la función json_normalize en un archivo JSON, pueden surgir errores. Para solucionar esto, necesitamos importar el módulo json y leer los archivos según el siguiente código:
```Python
#Importando la biblioteca Pandas
import pandas as pd

#Importando el módulo JSON
import json

#Leyendo el archivo json usando el módulo Python JSON
with open('pacientes_2.json','r') as f:
    datos = json.loads(f.read())

#Normalizando los datos con los parámetros record_path y meta
pd.json_normalize(datos, record_path='Pacientes', meta=['Investigación', 'Año'])
```

## Exportar JSON

In [116]:
df_normalizado.to_json('historico_pacientes_norm.json')

In [117]:
pd.read_json('historico_pacientes_norm.json')

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]"


## obteniendo archivos JSON de APIs

Para obtener datos en formato JSON podemos utilizar una **API** (Application Programming Interface). Es una interfaz de programación de aplicaciones que permite la comunicación entre diferentes programas o sistemas.

Hay varios formatos que se pueden utilizar en las API y uno de los más comunes es **JSON** (JavaScript Object Notation). JSON es un formato ligero para intercambiar información entre sistemas que utiliza la notación basada en objetos de **JavaScript**.

Tenemos la siguiente situación-problema:

“Una empresa de alimentos saludables tiene problemas con la popularidad de sus productos. A pesar de ofrecer opciones saludables, muchos clientes se muestran reacios a comprar los productos debido a la falta de información sobre los valores nutricionales de las frutas que se utilizan en la producción de alimentos”.

Ante esta situación podemos acceder a una API llamada Fruitvice para recopilar información detallada sobre los valores nutricionales de las frutas que se utilizan en los productos. Con esta información, la empresa podrá actualizar sus empaques y materiales de marketing para resaltar los valores nutricionales de las frutas y así atraer más clientes que buscan opciones saludables. Además, la empresa puede utilizar la información para desarrollar nuevos productos que satisfagan aún más las necesidades nutricionales de su clientela.

Una forma común de acceder a las API es a través de la biblioteca requests. Para eso, también es necesario importar el módulo ``json``:

```Python
import requests
import json
```
Los datos de API Fruitvice se obtendrán con la función ``request.get('url')``. Dentro de ella pasamos la dirección API seguida de ``api/fruit/all`` para obtener los datos de todas las frutas.
```Python
datos_frutas = requests.get('https://fruityvice.com/api/fruit/all')
```
Conseguimos recuperar los resultados utilizando la función ``json.loads()``. Para ello es necesario pasar la variable ``datos_frutas``, previamente creada con el atributo ``text`` que devuelve el contenido de la respuesta.
```Python
resultado = json.loads(datos_frutas.text)
```
Luego podemos obtener una vista previa del DataFrame.
```Python
pd.DataFrame(resultado)
```

![ej08](img\ej08.JPG)

¡Ahora sabemos cómo utilizar la biblioteca requests y el módulo JSON para obtener datos de las API!

## Tarea del Bloque 3

Es el momento de poner a prueba tus conocimientos adquiridos durante la clase. El DataFrame que se muestra a continuación se generó después de obtener los datos de la API de Fruitvice:

![ej08](img\ej08.JPG)

Este DataFrame tiene 6 columnas: genus (género), name (nombre), id, family (familia), order (orden) e nutritions (nutriciones). Observe que la columna nutritions tiene toda la información nutricional anidada en ella. Por tanto, es necesario normalizar los datos.

El desafío ahora es normalizar este DataFrame.

In [119]:
# Instalamos la libreria request
!pip install requests

Collecting requests
  Downloading requests-2.32.4-py3-none-any.whl.metadata (4.9 kB)
Collecting charset_normalizer<4,>=2 (from requests)
  Downloading charset_normalizer-3.4.2-cp311-cp311-win_amd64.whl.metadata (36 kB)
Collecting idna<4,>=2.5 (from requests)
  Downloading idna-3.10-py3-none-any.whl.metadata (10 kB)
Collecting urllib3<3,>=1.21.1 (from requests)
  Downloading urllib3-2.5.0-py3-none-any.whl.metadata (6.5 kB)
Collecting certifi>=2017.4.17 (from requests)
  Downloading certifi-2025.7.14-py3-none-any.whl.metadata (2.4 kB)
Downloading requests-2.32.4-py3-none-any.whl (64 kB)
   ---------------------------------------- 0.0/64.8 kB ? eta -:--:--
   ------------------ --------------------- 30.7/64.8 kB 660.6 kB/s eta 0:00:01
   ------------------------------------- -- 61.4/64.8 kB 1.1 MB/s eta 0:00:01
   ---------------------------------------- 64.8/64.8 kB 866.8 kB/s eta 0:00:00
Downloading certifi-2025.7.14-py3-none-any.whl (162 kB)
   ---------------------------------------- 


[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: C:\Users\Luis\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [None]:
# Cargamos los datos de la API en un Data Frame
import requests
import json
datos_frutas = requests.get('https://fruityvice.com/api/fruit/all')
resultado = json.loads(datos_frutas.text)

In [139]:
resultado

[{'name': 'Persimmon',
  'id': 52,
  'family': 'Ebenaceae',
  'order': 'Rosales',
  'genus': 'Diospyros',
  'nutritions': {'calories': 81,
   'fat': 0.0,
   'sugar': 18.0,
   'carbohydrates': 18.0,
   'protein': 0.0}},
 {'name': 'Strawberry',
  'id': 3,
  'family': 'Rosaceae',
  'order': 'Rosales',
  'genus': 'Fragaria',
  'nutritions': {'calories': 29,
   'fat': 0.4,
   'sugar': 5.4,
   'carbohydrates': 5.5,
   'protein': 0.8}},
 {'name': 'Banana',
  'id': 1,
  'family': 'Musaceae',
  'order': 'Zingiberales',
  'genus': 'Musa',
  'nutritions': {'calories': 96,
   'fat': 0.2,
   'sugar': 17.2,
   'carbohydrates': 22.0,
   'protein': 1.0}},
 {'name': 'Tomato',
  'id': 5,
  'family': 'Solanaceae',
  'order': 'Solanales',
  'genus': 'Solanum',
  'nutritions': {'calories': 74,
   'fat': 0.2,
   'sugar': 2.6,
   'carbohydrates': 3.9,
   'protein': 0.9}},
 {'name': 'Pear',
  'id': 4,
  'family': 'Rosaceae',
  'order': 'Rosales',
  'genus': 'Pyrus',
  'nutritions': {'calories': 57,
   'fat': 

In [140]:
df_frutas = pd.json_normalize(resultado)

In [141]:
df_frutas.sample(5)

Unnamed: 0,name,id,family,order,genus,nutritions.calories,nutritions.fat,nutritions.sugar,nutritions.carbohydrates,nutritions.protein
8,Kiwi,66,Actinidiaceae,Struthioniformes,Apteryx,61,0.5,9.0,15.0,1.1
21,Blueberry,33,Rosaceae,Rosales,Fragaria,29,0.4,5.4,5.5,0.0
2,Banana,1,Musaceae,Zingiberales,Musa,96,0.2,17.2,22.0,1.0
20,Mango,27,Anacardiaceae,Sapindales,Mangifera,60,0.38,13.7,15.0,0.82
35,Kiwifruit,85,Actinidiaceae,Ericales,Actinidia,61,0.5,8.9,14.6,1.14


# Bloque 4 - Leyendo archivos HTML y XLM

## Solucionar error ModuleNotFoundError

Se soluciona instalando la libreria con !pip install [nombre_de_la_libreria]
a menudo se puede observar el nombre de la libreria que falta al finaldel texto del error

In [143]:
# Instalar libreria lxml
!pip install lxml

Collecting lxml
  Downloading lxml-6.0.0-cp311-cp311-win_amd64.whl.metadata (6.8 kB)
Downloading lxml-6.0.0-cp311-cp311-win_amd64.whl (4.0 MB)
   ---------------------------------------- 0.0/4.0 MB ? eta -:--:--
   ---------------------------------------- 0.0/4.0 MB ? eta -:--:--
   ---------------------------------------- 0.0/4.0 MB ? eta -:--:--
   ---------------------------------------- 0.0/4.0 MB ? eta -:--:--
   ---------------------------------------- 0.0/4.0 MB 131.3 kB/s eta 0:00:31
   ---------------------------------------- 0.0/4.0 MB 131.3 kB/s eta 0:00:31
   ---------------------------------------- 0.0/4.0 MB 131.3 kB/s eta 0:00:31
   ---------------------------------------- 0.0/4.0 MB 164.3 kB/s eta 0:00:25
   ---------------------------------------- 0.0/4.0 MB 164.3 kB/s eta 0:00:25
   ---------------------------------------- 0.0/4.0 MB 164.3 kB/s eta 0:00:25
    --------------------------------------- 0.1/4.0 MB 229.7 kB/s eta 0:00:18
    -------------------------------


[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: C:\Users\Luis\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


## Importando paginas web

In [144]:
datos_html = pd.read_html('peliculas_wikipedia.html')

In [145]:
datos_html

[       0                      1
 0   1998             100 Movies
 1   1999              100 Stars
 2   2000             100 Laughs
 3   2001            100 Thrills
 4   2002           100 Passions
 5   2003  100 Heroes & Villains
 6   2004              100 Songs
 7   2005       100 Movie Quotes
 8   2005              25 Scores
 9   2006             100 Cheers
 10  2006            25 Musicals
 11  2007   100 Movies (Updated)
 12  2008        AFI's 10 Top 10
 13   vte                    vte,
                             Film  Release year              Director  \
 0                   Citizen Kane          1941          Orson Welles   
 1                     Casablanca          1942        Michael Curtiz   
 2                  The Godfather          1972  Francis Ford Coppola   
 3             Gone with the Wind          1939        Victor Fleming   
 4             Lawrence of Arabia          1962            David Lean   
 ..                           ...           ...                   

In [148]:
type(datos_html)

list

In [150]:
# Nos muestra cuantas tablas hay en la pagina html
len(datos_html)

3

In [151]:
# Nos interesa trabajar con la tabla numero 2, así que esa vamos a extraer, la numeracion empiza en 0
top_peliculas = datos_html[1]

In [152]:
top_peliculas

Unnamed: 0,Film,Release year,Director,Production companies,Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5
...,...,...,...,...,...
95,The Searchers,1956,John Ford,C. V. Whitney Pictures,96
96,Bringing Up Baby,1938,Howard Hawks,RKO Radio Pictures,97
97,Unforgiven,1992,Clint Eastwood,The Malpaso Company,98
98,Guess Who's Coming to Dinner,1967,Stanley Kramer,Columbia Pictures,99


## Escribiendos archivos HTML

In [153]:
type(top_peliculas)

pandas.core.frame.DataFrame

In [157]:
# Este metodo solo esta disponible a partir de un dataframe
top_peliculas.to_html('top_peliculas.html', index=False)

In [158]:
pd.read_html('top_peliculas.html')

[                            Film  Release year              Director  \
 0                   Citizen Kane          1941          Orson Welles   
 1                     Casablanca          1942        Michael Curtiz   
 2                  The Godfather          1972  Francis Ford Coppola   
 3             Gone with the Wind          1939        Victor Fleming   
 4             Lawrence of Arabia          1962            David Lean   
 ..                           ...           ...                   ...   
 95                 The Searchers          1956             John Ford   
 96              Bringing Up Baby          1938          Howard Hawks   
 97                    Unforgiven          1992        Clint Eastwood   
 98  Guess Who's Coming to Dinner          1967        Stanley Kramer   
 99           Yankee Doodle Dandy          1942        Michael Curtiz   
 
                       Production companies  Rank  
 0                       RKO Radio Pictures     1  
 1                

In [162]:
top_peliculas.to_csv('top_peliculas_1998.csv', index=False)

In [163]:
datos = pd.read_csv('top_peliculas_1998.csv')

In [164]:
datos.head()

Unnamed: 0,Film,Release year,Director,Production companies,Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5


## XML

In [None]:
datos_imbd = pd.read_xml('imdb_top_1000.xml')

In [166]:
type(datos_imbd)

pandas.core.frame.DataFrame

In [167]:
datos_imbd.head(3)

Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
2,2,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444


In [168]:
datos_imbd.to_xml('peliculas_imbd.xml')

## Tarea del Bloque 4

Leer una tabla de una página web

Es el momento de poner a prueba los conocimientos desarrollados durante la clase.

Vanessa es una científica de datos que está haciendo algunos análisis con datos ambientales. Está desarrollando un proyecto para evaluar el impacto ambiental de las actividades humanas en diferentes países del mundo, pero para ello necesita estimaciones de población de esos países. Al buscar en Internet, encontró una tabla de estimaciones de población en un artículo de la página de Wikipedia.

Al igual que Vanessa, tu desafío es obtener un DataFrame de la tabla que contiene la información del número de habitantes de cada país.

In [169]:
df_paises = pd.read_html('paises_y_territorio.html')

In [170]:
df_paises

[     N.º                   País (o territorio dependiente)  \
 0      1                                             India   
 1      2                                        China[12]​   
 2      3                                    Estados Unidos   
 3      4                                         Indonesia   
 4      5                                          Pakistán   
 ..   ...                                               ...   
 241  242                           Islas Cocos (Australia)   
 242  243  Islas Ultramarinas Menores de los Estados Unidos   
 243  244                               Islas Pitcairn (RU)   
 244  NaN                                             Mundo   
 245   N°                   País (o territorio dependiente)   
 
     Proyección exponencial de la población al 1/7/2025[7]​  \
 0                                        1 417 492 000       
 1                                        1 407 934 000       
 2                                          342 181 0

In [171]:
type(df_paises)

list

In [172]:
len(df_paises)

7

In [173]:
habitantes_por_pais = df_paises[0]

In [177]:
habitantes_por_pais.head(10)

Unnamed: 0,N.º,País (o territorio dependiente),Proyección exponencial de la población al 1/7/2025[7]​,Total mun- dial (%),Cambio medio anual (%)[8]​,Cambio absoluto anual promedio,Cambio medio abs. total anual (%),Años para even- tual du- pli- ca- ción[9]​,"Censo más reciente, última estimación oficial, proyección de la ONU o reloj de población nacional",Fecha de esta última cifra de población en particular (d/mm/aaaa)[10]​,Tipo[11]​,Enlace o hipervínculo (usualmente de tipo oficial) de esta última cifra de población
0,1,India,1 417 492 000,1753,90,12 692 000,1518,78,1 417 492 000,1/07/2025,A,web.archive.org
1,2,China[12]​,1 407 934 000,1742,-5,-1 390 000,-,-,1 408 280 000,31/12/2024,E,www.stats.gov.cn
2,3,Estados Unidos,342 181 000,423,61,2 084 000,249,114,342 108 000,13/07/2025,R,www.census.gov
3,4,Indonesia,285 783 000,353,117,3 337 000,399,60,282 477 584,30/06/2024,E,dispendukcapil.acehtimurkab.go.id
4,5,Pakistán,256 204 000,317,256,6 567 000,786,27,241 499 431,1/03/2023,C,www.pbs.gov.pk
5,6,Nigeria,236 213 000,292,273,6 458 000,773,26,223 800 000,1/07/2023,E,cdn.sanity.io
6,7,Brasil,214 244 000,265,78,1 674 000,200,89,212 583 750,1/07/2024,E,agenciadenoticias.ibge.gov.br
7,8,Bangladés,177 567 000,220,147,2 618 000,313,47,169 828 911,15/06/2022,C,bdnews24.com
8,9,Rusia[13]​,146 022 000,181,-1,-12 000,-,-,146 028 325,1/01/2025,E,rosstat.gov.ru
9,10,México,131 013 000,162,74,966 000,116,94,130 054 247,7/2024,E,www.inegi.org.mx


# Bloque 5 - Leyendo banco de datos

## Creando banco de datos

In [None]:
!pip install sqlalchemy

Collecting sqlalchemy
  Downloading sqlalchemy-2.0.41-cp311-cp311-win_amd64.whl.metadata (9.8 kB)
Collecting greenlet>=1 (from sqlalchemy)
  Downloading greenlet-3.2.3-cp311-cp311-win_amd64.whl.metadata (4.2 kB)
Downloading sqlalchemy-2.0.41-cp311-cp311-win_amd64.whl (2.1 MB)
   ---------------------------------------- 0.0/2.1 MB ? eta -:--:--
   ---------------------------------------- 0.0/2.1 MB ? eta -:--:--
   ---------------------------------------- 0.0/2.1 MB ? eta -:--:--
   ---------------------------------------- 0.0/2.1 MB ? eta -:--:--
    --------------------------------------- 0.0/2.1 MB 163.8 kB/s eta 0:00:13
    --------------------------------------- 0.0/2.1 MB 163.8 kB/s eta 0:00:13
   - -------------------------------------- 0.1/2.1 MB 251.0 kB/s eta 0:00:09
   - -------------------------------------- 0.1/2.1 MB 374.1 kB/s eta 0:00:06
   -- ------------------------------------- 0.1/2.1 MB 472.1 kB/s eta 0:00:05
   ---- ----------------------------------- 0.2/2.1 MB 62


[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: C:\Users\Luis\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [180]:
from sqlalchemy import create_engine, MetaData, Table, inspect, text

In [None]:
# motor para usar sqliet
engine = create_engine('sqlite:///:memory:')

## Escribiendo en un banco de datos

In [183]:
# Guardamos el nombre del archivo en la variable archivo
archivo = 'clientes_banco.csv'

In [184]:
df = pd.read_csv(archivo)

In [186]:
df.head()

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008808,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008809,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio


In [195]:
# Exportar banco de datos
df.to_sql('clientes1', engine, index=False)

438463

In [196]:
# Confirmar que se creo correctamente el banco de datos clientes
inspector = inspect(engine)

In [197]:
# Imprimir nombres de las tablas
print(inspector.get_table_names())

['clientes', 'clientes1']


## cláusulas SQL

**SQL** (Structured Query Language - Lenguaje de consulta estructurado) es un lenguaje de consulta utilizado en bases de datos relacionales para insertar, actualizar, consultar y administrar datos.

Para hacer todo esto, existen cláusulas SQL, que son componentes fundamentales de las sentencias SQL, permitiendo especificar detalles sobre cómo se va a realizar la consulta u operación de la base de datos. Las cláusulas se utilizan para filtrar, ordenar, agrupar y limitar los resultados de la consulta.

Las sentencias SQL pueden estar compuestas por una o más cláusulas que proporcionan información adicional sobre lo que se supone que debe hacer la consulta. Las cláusulas más comunes son:

- ``SELECT``: especifica qué columnas deben seleccionarse en la consulta.
- ``FROM``: Especifica las tablas de la base de datos que se consultarán.
- ``WHERE``: Filtra los resultados de la consulta según una o más condiciones especificadas.
- ``ORDER BY``: Ordena los resultados de la consulta en orden ascendente o descendente según una o más columnas.
- ``GROUP BY``: agrupa los resultados de la consulta basados en una o más columnas.
- ``LIMIT``: limita el número de filas devueltas por los resultados de la consulta.
- Tenemos un ejemplo sencillo de sintaxis SQL que utiliza el comando SELECT para consultar datos de una tabla de empleados en una base de datos:

``` Python
SELECT nombre, apellido, salario
FROM empleados
WHERE departamento = 'ventas'
```

En esta declaración SQL, la cláusula ``SELECT`` se utiliza para especificar las columnas que desea consultar de la tabla "empleados", incluyendo "nombre", "apellido" y "salario". La cláusula ``FROM`` se utiliza para especificar la tabla que se desea consultar, que en este caso es "empleados".

La cláusula ``WHERE`` se utiliza para filtrar los resultados de la consulta según una condición específica. En este ejemplo, la condición es ``departamento = 'ventas'``, lo que significa que la consulta solo devolverá empleados que trabajan en el departamento de ventas.

## Leyendo una consulta QUERY

In [201]:
query = 'SELECT * FROM clientes1 WHERE Categoria_de_renta = "Empleado"'

In [202]:
# Lee una consulta de SQL con Pandas
empleados = pd.read_sql(sql=text(query), con = engine.connect()) # El query lo pasamos al formato text y usamos el parametro sql del metodo read_sql()
                                                                #  Usamos el parametro con para conectarnos al motor engine

In [205]:
empleados

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008815,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
4,5112956,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
226054,6837905,43,Nivel intermedio,Casado,3,Empleado,Otro,7,355050.0,1,Casa/Departamento propio
226055,6837906,43,Nivel intermedio,Casado,3,Empleado,Otro,7,355050.0,1,Casa/Departamento propio
226056,6839936,34,Nivel intermedio,Casado,3,Empleado,Construcción Civil,5,135000.0,1,Casa/Departamento propio
226057,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio


In [206]:
empleados.to_sql('empleados', engine, index=False)

226059

In [207]:
pd.read_sql_table('empleados', con = engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008815,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
4,5112956,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
226054,6837905,43,Nivel intermedio,Casado,3,Empleado,Otro,7,355050.0,1,Casa/Departamento propio
226055,6837906,43,Nivel intermedio,Casado,3,Empleado,Otro,7,355050.0,1,Casa/Departamento propio
226056,6839936,34,Nivel intermedio,Casado,3,Empleado,Construcción Civil,5,135000.0,1,Casa/Departamento propio
226057,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio


In [208]:
# filtrar por columnas
pd.read_sql_table('empleados', con = engine.connect(), columns=['ID_Cliente', 'Grado_estudio', 'Rendimiento_anual'])

Unnamed: 0,ID_Cliente,Grado_estudio,Rendimiento_anual
0,5008804,Nivel superior,427500.0
1,5008805,Nivel superior,427500.0
2,5008806,Nivel intermedio,112500.0
3,5008815,Nivel superior,270000.0
4,5112956,Nivel superior,270000.0
...,...,...,...
226054,6837905,Nivel intermedio,355050.0
226055,6837906,Nivel intermedio,355050.0
226056,6839936,Nivel intermedio,135000.0
226057,6840222,Nivel intermedio,103500.0
