# Bloque 1 - Leyendo archivos CSV

## Importando Archivos CSV

In [1]:
import pandas as pd

In [6]:
datos = pd.read_csv('superstore_data.csv', sep=',')

In [7]:
datos.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [8]:
datos_punto_coma = datos = pd.read_csv('superstore_data_punto_coma.csv', sep=';')

In [9]:
datos_punto_coma.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


### Error de codificación ( UnicodeDecodeError ) - ¿cómo solucionarlo?

Giovanna es una científica de datos que trabaja en una empresa de comercio electrónico. Ella es responsable de analizar datos de ventas para identificar patrones y tendencias que puedan ayudar a la empresa a tomar decisiones informadas.

Recientemente, le asignaron una nueva tarea: analizar un archivo CSV que contiene información sobre las ventas de la empresa durante un período determinado. Para ello, Giovanna intentó leer un archivo CSV en Google Colab, usando la biblioteca Pandas con el siguiente comando:
``` Python
import pandas as pd
df = pd.read_csv('datos.csv')
```
Sin embargo, apareció el siguiente error:

![Error UnicodeCodeErro](img\UnicodeCodeError.JPG)

En español, el mensaje significa UnicodeDecodeError: el códec 'utf-8' no puede decodificar el byte 0xff en la posición 0: byte de inicio inválido

**Pero ¿qué significa eso? ¿Qué es esto de UTF-8?**

El error de encoding ocurre cuando la biblioteca Pandas no puede interpretar correctamente los caracteres en un archivo CSV. Esto puede suceder cuando contiene caracteres especiales que la biblioteca Pandas no reconoce o cuando se guardó en un formato de codificación diferente al esperado.

Para resolver este error, es necesario identificar la codificación correcta del archivo CSV y especificarla al cargar el archivo con la biblioteca Pandas. Esta codificación predeterminada es UTF-8, pero en algunos casos, es posible que el archivo se haya guardado con una codificación diferente, como ISO-8859-1.

UTF-8 es una codificación de caracteres universal que se utiliza para representar caracteres de diferentes idiomas de una manera compatible con Internet y los sistemas de computadora en general. Las siglas UTF significan Unicode Transformation Format (Formato de Transformación Unicode) y el número 8 indica que esta codificación asocia una secuencia de 1 a 4 bytes (8 a 32 bits) a cada carácter.

La codificación UTF-8 se usa ampliamente en Internet y en sistemas informáticos de todo el mundo, ya que permite representar caracteres de diferentes idiomas en un solo conjunto de caracteres. Además, esta codificación puede preservar la compatibilidad con codificaciones más antiguas como ASCII, lo que la convierte en una opción popular para crear y compartir archivos de texto.

Quizás estés pensando ahora mismo: ¿cómo podría Giovanna descubrir cuál es la codificación del archivo que está intentando leer?

Hay algunas formas de resolver esto, sin embargo, tendremos la oportunidad de experimentar una forma práctica de hacerlo en el propio Google Colab. ¿Vamos allá?

Podemos usar una biblioteca llamada chardet para detectar el encoding de un archivo CSV. Para usar esta biblioteca en Google Colab, simplemente importela:

``` Python
import chardet
```
Luego escribimos el siguiente bloque de código:
``` Python
with open('datos.csv', 'rb') as file:
    print(chardet.detect(file.read()))
```
Observe que la primera línea de este código abre el archivo CSV en modo de lectura binaria rb y asigna el objeto del archivo devuelto a una variable llamada file.

En la segunda línea de código, el contenido del archivo CSV se lee usando el método read() y el resultado se pasa a la función chardet.detect(), que devuelve un diccionario que contiene información sobre la codificación más probable del archivo. El resultado se imprime con la función print() que muestra la codificación y la confianza asociada con esa codificación.

Al ejecutar el código Giovanna obtuvo el siguiente resultado:
``` Python
{'encoding': 'UTF-16', 'confidence': 1.0, 'language': ''}
```
Ahora ella sabe que es probable que el archivo CSV esté codificado con UTF-16 con una confianza de 1.0. Para especificar la codificación correcta al cargar el archivo CSV con la biblioteca Pandas, puede utilizar un parámetro llamado encoding:
``` Python
df = pd.read_csv('datos.csv', encoding='UTF-16')
```
De esta manera, la biblioteca Pandas cargará el archivo CSV usando la codificación UTF-16, lo que resolverá el error de codificación. Entonces, si alguna vez intentas leer un archivo y obtienes el mismo error, ¡recuerda este consejo!


### parametro nrows del metodo read_csv()

In [10]:
# Solo lee las filas que le indique en el parametro
datos_primeras_lineas = pd.read_csv('superstore_data.csv', nrows=5)
datos_primeras_lineas

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


### parametro usecols del metodo read_csv()

In [13]:
# solo lee las columnas que se le indica en el parametro usecols del metodo read_csv()
datos_seleccion = pd.read_csv('superstore_data.csv', usecols=['Id','Year_Birth','Income'])
datos_seleccion

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


In [14]:
datos_seleccion = pd.read_csv('superstore_data.csv', usecols=[0,1,4])
datos_seleccion

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


### Guardar un data frame en un csv (Exportar)

In [16]:
datos_seleccion.to_csv('clientes_mercado.csv')

In [17]:
clientes_mercado = pd.read_csv('clientes_mercado.csv')
clientes_mercado

Unnamed: 0.1,Unnamed: 0,Id,Year_Birth,Income
0,0,1826,1970,84835.0
1,1,1,1961,57091.0
2,2,10476,1958,67267.0
3,3,1386,1967,32474.0
4,4,5371,1989,21474.0
...,...,...,...,...
2235,2235,10142,1976,66476.0
2236,2236,5263,1977,31056.0
2237,2237,22,1976,46310.0
2238,2238,528,1978,65819.0


### parametro index del metodo to_csv()

In [18]:
datos_seleccion.to_csv('datos_mercado.csv', index=False)

In [20]:
datos_mercado = pd.read_csv('datos_mercado.csv')
datos_mercado

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


### Documentacion de read_csv() y to_csv()

- https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html

### Tarea del Bloque 1

Es hora de que pongas a prueba los conocimientos desarrollados durante la clase. Disponemos de un archivo en formato CSV, el cual se obtuvo de la página Información de Salud (TABNET) - DATASUS. Este archivo contiene los gastos hospitalarios públicos de cada una de las Unidades de la Federación Brasileña desde enero de 2008 hasta marzo de 2021.

Su desafío aquí será leer este archivo usando la función read_csv de la biblioteca Pandas. Se deben agregar algunos parámetros para que la lectura se realice correctamente. Entonces, aquí hay algunos consejos:

1. Asegúrese de que el archivo CSV esté separado por una coma o punto y coma.
2. La codificación del archivo es **ISO-8859-1**.
3. Las primeras tres líneas del archivo se pueden ignorar, ya que el encabezado sólo comienza en la cuarta línea.
4. Las últimas 9 líneas también se pueden ignorar, ya que son sólo información sobre dónde se tomaron los datos.
5. Para eliminar las últimas líneas es necesario agregar el parámetro engine='python'.


In [25]:
!pip install chardet

Collecting chardet
  Downloading chardet-5.2.0-py3-none-any.whl.metadata (3.4 kB)
Downloading chardet-5.2.0-py3-none-any.whl (199 kB)
   ---------------------------------------- 0.0/199.4 kB ? eta -:--:--
   ---------------------------------------- 0.0/199.4 kB ? eta -:--:--
   -- ------------------------------------- 10.2/199.4 kB ? eta -:--:--
   -- ------------------------------------- 10.2/199.4 kB ? eta -:--:--
   ------ -------------------------------- 30.7/199.4 kB 262.6 kB/s eta 0:00:01
   -------- ------------------------------ 41.0/199.4 kB 281.8 kB/s eta 0:00:01
   ---------------- ---------------------- 81.9/199.4 kB 416.7 kB/s eta 0:00:01
   ----------------------- -------------- 122.9/199.4 kB 554.9 kB/s eta 0:00:01
   --------------------------------- ---- 174.1/199.4 kB 751.6 kB/s eta 0:00:01
   -------------------------------------- 199.4/199.4 kB 713.8 kB/s eta 0:00:00
Installing collected packages: chardet
Successfully installed chardet-5.2.0



[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: C:\Users\Luis\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [29]:
#Utilizamos chardet para averiguar la codificacion del archivo csv
import chardet
with open('datos_sus.csv', 'rb') as file:
    print(chardet.detect(file.read()))

{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}


#### Uso del los parametros skiprows, skipfooter y engine del metodo read_csv()

| Parámetro         | Función                                |
| ----------------- | -------------------------------------- |
| `skiprows=3`      | Salta las primeras 3 filas del archivo |
| `skipfooter=9`    | Salta las últimas 9 filas              |
| `engine="python"` | Necesario para poder usar `skipfooter` |


In [None]:
datos_sus = pd.read_csv('datos_sus.csv', sep=';', encoding='ISO-8859-1', skiprows=3, skipfooter=9, engine='python')

In [38]:
datos_sus.head()

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
1,Acre,90241600,149720626,179402848,173046942,181944392,182849600,251175459,208910714,227570853,...,391519320,364014282,339124221,404432144,327659010,369699731,371572312,353842792,407704592,45004853047
2,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
3,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
4,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229


# Bloque 2 - Leyendo Archivos Excell

## Importando archivos excell

In [47]:
!pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
   ---------------------------------------- 0.0/250.9 kB ? eta -:--:--
   ---- ----------------------------------- 30.7/250.9 kB 1.3 MB/s eta 0:00:01
   ---- ----------------------------------- 30.7/250.9 kB 1.3 MB/s eta 0:00:01
   ---- ----------------------------------- 30.7/250.9 kB 1.3 MB/s eta 0:00:01
   ---- ----------------------------------- 30.7/250.9 kB 1.3 MB/s eta 0:00:01
   ------ -------------------------------- 41.0/250.9 kB 163.4 kB/s eta 0:00:02
   ------ -------------------------------- 41.0/250.9 kB 163.4 kB/s eta 0:00:02
   --------- ----------------------------- 61.4/250.9 kB 204.8 kB/s eta 0:00:01
   ----------- --------------------------- 71.7/250.9 kB 196.3 kB/s eta 0:00:01
   ----------- --------------------------- 7


[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: C:\Users\Luis\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [48]:
archivo = 'emisiones_CO2.xlsx'

In [49]:
datos_co2 = pd.read_excel(archivo)

In [50]:
datos_co2

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,0.000000e+00,,,,,,,
1,Afganistán,AFG,1751,0.000000e+00,,,,,,,
2,Afganistán,AFG,1752,0.000000e+00,,,,,,,
3,Afganistán,AFG,1753,0.000000e+00,,,,,,,
4,Afganistán,AFG,1754,0.000000e+00,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10,1.450697e+10,1.224263e+10,7.144928e+09,1.507923e+09,391992176.0,302294047.0,4749682.0
63100,Global,WLD,2018,3.682651e+10,1.474683e+10,1.226602e+10,7.529847e+09,1.569218e+09,412115746.0,302478706.0,4792753.0
63101,Global,WLD,2019,3.708256e+10,1.472598e+10,1.234565e+10,7.647528e+09,1.617507e+09,439253991.0,306638573.0,4775633.0
63102,Global,WLD,2020,3.526409e+10,1.417456e+10,1.119181e+10,7.556290e+09,1.637538e+09,407583673.0,296301685.0,4497423.0


## metodo para leer los nombres de las Hojas

In [61]:
pd.ExcelFile(archivo).sheet_names

['emisiones_C02', 'emisiones_percapita', 'fuentes']

In [62]:
percapita = pd.read_excel(archivo, sheet_name='emisiones_percapita')

In [63]:
percapita

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros
0,Afganistán,AFG,1750,,,,,,,
1,Afganistán,AFG,1751,,,,,,,
2,Afganistán,AFG,1752,,,,,,,
3,Afganistán,AFG,1753,,,,,,,
4,Afganistán,AFG,1754,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0


In [64]:
fuentes = pd.read_excel(archivo, sheet_name='fuentes')
fuentes

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afganistán,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afganistán,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afganistán,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afganistán,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
...,...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63100,Global,WLD,2018,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63101,Global,WLD,2019,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63102,Global,WLD,2020,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."


## usecols y nrows paraetros

In [65]:
# se usa usecols para seleccionar solo las columnas de la A a la D
intervalo = pd.read_excel(archivo, sheet_name='emisiones_C02', usecols='A:D')

In [66]:
intervalo

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0.000000e+00
1,Afganistán,AFG,1751,0.000000e+00
2,Afganistán,AFG,1752,0.000000e+00
3,Afganistán,AFG,1753,0.000000e+00
4,Afganistán,AFG,1754,0.000000e+00
...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10
63100,Global,WLD,2018,3.682651e+10
63101,Global,WLD,2019,3.708256e+10
63102,Global,WLD,2020,3.526409e+10


In [67]:
# Usa el parametro nrows solo para seleccionar las primeras 10 filas
intervalo_2 = pd.read_excel(archivo, sheet_name='emisiones_C02', usecols='A:D', nrows=10)

In [68]:
intervalo_2

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0
1,Afganistán,AFG,1751,0
2,Afganistán,AFG,1752,0
3,Afganistán,AFG,1753,0
4,Afganistán,AFG,1754,0
5,Afganistán,AFG,1755,0
6,Afganistán,AFG,1756,0
7,Afganistán,AFG,1757,0
8,Afganistán,AFG,1758,0
9,Afganistán,AFG,1759,0


## Exportar excel

In [69]:
intervalo.to_excel('co2_percapita.xlsx', index=False)

In [70]:
pd.read_excel('co2_percapita.xlsx')

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0.000000e+00
1,Afganistán,AFG,1751,0.000000e+00
2,Afganistán,AFG,1752,0.000000e+00
3,Afganistán,AFG,1753,0.000000e+00
4,Afganistán,AFG,1754,0.000000e+00
...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10
63100,Global,WLD,2018,3.682651e+10
63101,Global,WLD,2019,3.708256e+10
63102,Global,WLD,2020,3.526409e+10


## Importando hacia Google Sheets

Google Sheets es una herramienta de hojas de cálculo online basada en nube que le permite crear, editar y colaborar en hojas de cálculo de manera fácil y conveniente. Es una de las aplicaciones de Google Workspace que ofrece una alternativa a Microsoft Excel.

Con Google Sheets se puede crear y formatear hojas de cálculo, agregar fórmulas y funciones, crear gráficos y tablas dinámicas y trabajar con otros usuarios con datos en tiempo real. También admite la importación y exportación de varios formatos de archivos, como CSV y XLSX.

Una de las principales ventajas de Google Sheets es la colaboración en tiempo real. Varias personas pueden trabajar simultáneamente en la misma hoja de trabajo y ver los cambios simultáneamente. Esto facilita el trabajo en proyectos de equipo, aumentando la eficiencia y la productividad.

Para importar el archivo de Excel `emisiones_CO2.xlsx` hacia Google Sheets, siga estos pasos:

1. Abra la página de Google Sheets y haga clic en "Ir a Sheets". Inicie sesión en su cuenta de Google si es necesario.
2. Haga clic en Nueva Hoja de cálculo en blanco.
3. Cuando haya abierto, haga clic en "Archivo" (File) en el menú superior y luego haga clic en la opción "Importar archivo" (Import).
4. Haga clic en la pestaña "Subir" (Upload) y seleccione el archivo que desea importar. Puede hacer clic en la opción Examinar para ubicar el archivo en su computadora o arrastrar el archivo dentro de la pestaña.
5. Espere mientras se carga el archivo. Cuando se complete la carga, verá un mensaje de confirmación y podrá hacer clic en "Importar datos" (Import data).
6. Después de importar, se mostrarán los datos.

## Leyendo los datos de Google Sheets

Link: https://docs.google.com/spreadsheets/d/1fCZFlMCIY3P8AspgPXUAkCtw6qt03xcm4-51EUOrxbY/edit?usp=sharing

In [72]:
#Copiar id del link
# https://docs.google.com/spreadsheets/d/1fCZFlMCIY3P8AspgPXUAkCtw6qt03xcm4-51EUOrxbY/edit?usp=sharing
sheet_id = '1fCZFlMCIY3P8AspgPXUAkCtw6qt03xcm4-51EUOrxbY'
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'

In [73]:
datos_co2_sheets = pd.read_csv(url)

In [75]:
datos_co2_sheets

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,0,,,,,,,
1,Afganistán,AFG,1751,0,,,,,,,
2,Afganistán,AFG,1752,0,,,,,,,
3,Afganistán,AFG,1753,0,,,,,,,
4,Afganistán,AFG,1754,0,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,36.096.739.276,14.506.973.805,12.242.627.935,7.144.928.128,1.507.923.185,391.992.176,302.294.047,4.749.682
63100,Global,WLD,2018,36.826.506.600,14.746.830.688,12.266.016.285,7.529.846.784,1.569.218.392,412.115.746,302.478.706,4.792.753
63101,Global,WLD,2019,37.082.558.969,14.725.978.025,12.345.653.374,7.647.528.220,1.617.506.786,439.253.991,306.638.573,4.775.633
63102,Global,WLD,2020,35.264.085.734,14.174.564.010,11.191.808.551,7.556.290.283,1.637.537.532,407.583.673,296.301.685,4.497.423


In [76]:
# Abre la segunda hoja
sheet_id = '1fCZFlMCIY3P8AspgPXUAkCtw6qt03xcm4-51EUOrxbY'
sheet_name = 'emisiones_percapita'
url_percapita = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [77]:
percapita_sheets = pd.read_csv(url_percapita)

In [78]:
percapita_sheets

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros
0,Afganistán,AFG,1750,,,,,,,
1,Afganistán,AFG,1751,,,,,,,
2,Afganistán,AFG,1752,,,,,,,
3,Afganistán,AFG,1753,,,,,,,
4,Afganistán,AFG,1754,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,4.749.682,1.908.857,1.610.910,940.144,198.416,51.579,39.776
63100,Global,WLD,2018,4.792.753,1.919.213,1.596.350,979.965,204.225,53.634,39.366
63101,Global,WLD,2019,4.775.633,1.896.468,1.589.920,984.878,208.309,56.569,39.490
63102,Global,WLD,2020,4.497.423,1.807.760,1.427.353,963.695,208.844,51.981,37.789


In [None]:
# Abre la tercera hoja
# gviz/tq?tqx=out:csv&sheet={sheet_name}
sheet_id = '1fCZFlMCIY3P8AspgPXUAkCtw6qt03xcm4-51EUOrxbY'
sheet_name = 'fuentes'
url_fuentes = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [80]:
fuentes_sheets = pd.read_csv(url_fuentes)

In [81]:
fuentes_sheets

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afganistán,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afganistán,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afganistán,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afganistán,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
...,...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63100,Global,WLD,2018,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63101,Global,WLD,2019,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63102,Global,WLD,2020,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."


## Tarea Bloque 3

Es hora de que pongas a prueba los conocimientos desarrollados durante la clase. Tenemos un link de Google Sheets que contiene datos importantes sobre las emisiones de dióxido de carbono en todo el mundo. El conjunto de datos se obtuvo de Kaggle y consta de las emisiones de CO2 per cápita de todos los países del mundo entre 1990 y 2019.

En este desafío, tu función es leer este link de Google Sheets y luego guardar el DataFrame obtenido en formato CSV. ¿Listo para comenzar?

In [82]:
archivo_excel_co2 = 'emisiones_carbono_mundo.xlsx'

In [83]:
datos_co2_mundo = pd.read_excel(archivo_excel_co2)

In [89]:
datos_co2_mundo.head(1)

Unnamed: 0,Country Name,country_code,Region,Indicator Name,1990,1991,1992,1993,1994,1995,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2019.1
0,Aruba,ABW,Latin America & Caribbean,CO2 emissions (metric tons per capita),,,,,,,...,,,,,,,,,,


In [92]:
datos.to_csv('datos_co2_mundo.csv', index=False)

Forma desde google sheets

Link: https://docs.google.com/spreadsheets/d/1wMsP32TB3WwDOR8TPDw5eQ2u9t4JJkXCAkbX-f_lfds/edit?usp=sharing

In [100]:
# gviz/tq?tqx=out:csv&sheet={sheet_name}
sheet_id2 = '1wMsP32TB3WwDOR8TPDw5eQ2u9t4JJkXCAkbX-f_lfds'
url2 = f'https://docs.google.com/spreadsheets/d/{sheet_id2}/gviz/tq?tqx=out:csv&sheet'

In [101]:
co_mundial_sheet = pd.read_csv(url2)

In [103]:
co_mundial_sheet.head(1)

Unnamed: 0,Country Name,country_code,Region,Indicator Name,1990,1991,1992,1993,1994,1995,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2019.1
0,Aruba,ABW,Latin America & Caribbean,CO2 emissions (metric tons per capita),,,,,,,...,,,,,,,,,,


In [105]:
co_mundial_sheet.to_csv('co_mundial_sheet.csv', index=False)

# Bloque 3 - Leyendo archivos JSON

## Importando archivos JSON