<a href="https://colab.research.google.com/github/JLuceroVasquez/pandas-es-formatos-de-archivo/blob/main/cuaderno_clases.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Pandas E/S: trabajando con diferentes formatos de archivo
Durante el curso se enseño a usar la biblioteca Pandas para importar y exportar datos en diferentes formatos de archivo. Específicamente, se enseñó como trabajar con archivos CSV, Excel, JSON, HTML y XML, así como a leer y escribir en bases de datos SQL.

Con fines didácticos, para cada tipo de archivo, se abordó un caso de uso distinto a fin de trabajar con diferentes tipos de información.

In [1]:
import pandas as pd

##Importando archivos csv
Para visitar la documentación oficial de la función ***read_csv*** hacer [click aquí](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

In [None]:
#A modo de prueba se restringirá la importación de las 5 primeras filas y 3 columnas.
url_csv0 = 'https://raw.githubusercontent.com/JLuceroVasquez/pandas-es-formatos-de-archivo/refs/heads/main/data/csv/superstore_data.csv'
superstore_df0 = pd.read_csv(url_csv0, nrows=5, usecols=['Id','Year_Birth','Income']) #Se puede indicar la posición en lugar del nombre en el parámetro usecols.
superstore_df0

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835
1,1,1961,57091
2,10476,1958,67267
3,1386,1967,32474
4,5371,1989,21474


In [None]:
#Se crea una variable global que almacene la URL con la dirección al archivo CSV(separado por comas).
url_csv1 = 'https://raw.githubusercontent.com/JLuceroVasquez/pandas-es-formatos-de-archivo/refs/heads/main/data/csv/superstore_data.csv'

#Leemos el contenido del archivo con el método read_csv.
superstore_df1= pd.read_csv(url_csv1)
superstore_df1.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [None]:
#Se realiza el mismo procedimiento para el segundo archivo csv, que contiene la misma información separadas por punto y coma.
url_csv2 = 'https://raw.githubusercontent.com/JLuceroVasquez/pandas-es-formatos-de-archivo/refs/heads/main/data/csv/superstore_data_punto_coma.csv'

superstore_df2= pd.read_csv(url_csv2, sep=';')
superstore_df2.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


###Identificamos el formato de codificación
A fin de evitar problemas de lectura al conocer el formato en que se representan los caracteres del archivo a importar. La codificación, cuando es diferente al UTF8, debe especificarse como un parámetro del método pd.read_csv.

In [None]:
#Importamos la biblioteca chardet para detectar el encoding de un archivo CSV.
import chardet

In [None]:
#Abrimos el archivo guardado en Drive y guardamos su contenido escrito en binario en la variable file.
with open('/content/drive/MyDrive/Aprendizaje-vigente/Programa ONE/Ruta 5 - Aprendiendo a hacer ETL/3-pandas-es-formatos-de-archivo/aula1/superstore_data.csv','rb') as file:
  #Leemos el archivo con el método read(), y solicitamos que se identifique su codificación con chardet.detect.
  print(chardet.detect(file.read()))

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}


In [None]:
#No funcionó al ingresar como nombre de archivo el URL de GitHub.
with open(url_csv1,'rb') as file:
  print(chardet.detect(file.read()))

FileNotFoundError: [Errno 2] No such file or directory: 'https://raw.githubusercontent.com/JLuceroVasquez/pandas-es-formatos-de-archivo/refs/heads/main/data/csv/superstore_data.csv'

###Exportando datos en un archivo csv
Se exportó el dataframe de prueba como un archivo csv, que fue almacenado en un directorio de Google Drive.
Para visitar la documentación oficial del método ***to_csv*** hacer [click aquí](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html).

In [None]:
#Se declara la ruta de Google Drive donde se guardará el dataframe como archivo csv.
path_csv = '/content/drive/MyDrive/Aprendizaje-vigente/Programa ONE/Ruta 5 - Aprendiendo a hacer ETL/3-pandas-es-formatos-de-archivo/aula1/data-exportada.csv'

#Se exporta el df de prueba con el método to_csv.
superstore_df0.to_csv(path_csv, index=False)

#Se comprueba el contenido del archivo exportado.
pd.read_csv(path_csv)

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835
1,1,1961,57091
2,10476,1958,67267
3,1386,1967,32474
4,5371,1989,21474


###Desafío del aula 1
Leer [este archivo](https://raw.githubusercontent.com/alura-es-cursos/1980-Pandas_IO/datos_sus/datos_sus.csv) usando la función `read_csv` de la biblioteca Pandas. Se deben agregar algunos parámetros para que la lectura se realice correctamente. Entonces, aquí hay algunos consejos:
1. Asegúrese de que el archivo CSV esté separado por una coma o punto y coma.
2. La codificación del archivo es ISO-8859-1.
3. Las primeras tres líneas del archivo se pueden ignorar, ya que el encabezado sólo comienza en la cuarta línea.
4. Las últimas 9 líneas también se pueden ignorar, ya que son sólo información sobre dónde se tomaron los datos.
5. Para eliminar las últimas líneas es necesario agregar el parámetro engine='python'.

In [None]:
#Creamos una variable global que contenga el enlace al archivo.
url_desafio = 'https://raw.githubusercontent.com/alura-es-cursos/1980-Pandas_IO/datos_sus/datos_sus.csv'

In [None]:
#Importamos la biblioteca chardet para verificar la codificación del archivo.
import chardet

#Verificamos la decodificación del archivo, indicando la ruta del archivo en mi Google Drive.
with open('/content/drive/MyDrive/Aprendizaje-vigente/Programa ONE/Ruta 5 - Aprendiendo a hacer ETL/3-pandas-es-formatos-de-archivo/aula1/datos_sus.csv', 'rb') as file_desafio:
  print(chardet.detect(file_desafio.read()))

{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}


In [None]:
#Mediante parámetros de la función read_csv importamos los datos en un dataframe.
df_desafio = pd.read_csv(url_desafio, sep=";", engine='python', skiprows=3, skipfooter=9, encoding='ISO-8859-1')
df_desafio.head()

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
1,Acre,90241600,149720626,179402848,173046942,181944392,182849600,251175459,208910714,227570853,...,391519320,364014282,339124221,404432144,327659010,369699731,371572312,353842792,407704592,45004853047
2,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
3,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
4,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229


In [None]:
#Verificamos las dimensiones del dataframe (cantidad de filas y columnas).
df_desafio.shape

(28, 161)

In [None]:
#Verificamos la información del dataframe importado, debido a la cantidad de columnas consultamos por una numérica.
'''
Se observa que las columnas numéricas contienen cadenas de texto (object).
Debido a que los datos fueron escritos con comas en lugar puntos para expresar
los decimales
'''
df_desafio['2008/Jan'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 28 entries, 0 to 27
Series name: 2008/Jan
Non-Null Count  Dtype 
--------------  ----- 
28 non-null     object
dtypes: object(1)
memory usage: 356.0+ bytes


##Importando archivo excel
Un archivo de hoja de cálculo Microsofot llamado Excel tiene la extensión ***.xlsx***. A continuación se importarán los datos de emisiones de gases de efecto invernadero de diferentes países a lo largo de varios años.
Hacer [clic aquí](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html) para acceder a la documentación oficial de la función ***read_excel***.

In [4]:
#Se asigna a una variable global el enlace al archivo URL.
url_xlsx='https://github.com/JLuceroVasquez/pandas-es-formatos-de-archivo/raw/refs/heads/main/data/xlsx/emisiones_co2.xlsx'

#Se lee el archivo con la función read_excel.
emisionesco2_df1 = pd.read_excel(url_xlsx)
emisionesco2_df1.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,0.0,,,,,,,
1,Afganistán,AFG,1751,0.0,,,,,,,
2,Afganistán,AFG,1752,0.0,,,,,,,
3,Afganistán,AFG,1753,0.0,,,,,,,
4,Afganistán,AFG,1754,0.0,,,,,,,


In [14]:
#Verificamos la forma y nombres de las hojas del libro de excel.
dimensiones = emisionesco2_df1.shape

nombre_hojas = pd.ExcelFile(url_xlsx).sheet_names

print(f'El archivo tiene {dimensiones[0]} filas y {dimensiones[1]} columnas.\nEl archivo tiene las siguientes hojas: {nombre_hojas}')

El archivo tiene 63104 filas y 11 columnas.
El archivo tiene las siguientes hojas: ['emisiones_C02', 'emisiones_percapita', 'fuentes']


###Parámetros de la función read_excel

In [19]:
#Tras conocer que el libro contiene 3 hojas, se importan las 2 restantes.
'''
La primera hoja ya fue importada al ser "0" el valor por defecto del parámetro "sheet_name"
'''
emisionesco2_df2 = pd.read_excel(url_xlsx, sheet_name = 'emisiones_percapita', usecols='A:D')
emisionesco2_df3 = pd.read_excel(url_xlsx, sheet_name = 'fuentes')
emisionesco2_df2.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,
1,Afganistán,AFG,1751,
2,Afganistán,AFG,1752,
3,Afganistán,AFG,1753,
4,Afganistán,AFG,1754,


In [17]:
emisionesco2_df3.tail()

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
63099,Global,WLD,2017,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63100,Global,WLD,2018,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63101,Global,WLD,2019,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63102,Global,WLD,2020,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63103,Global,WLD,2021,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."


In [18]:
#Se importa el intervalo del tercer dataframe para visualizar las primeras 10 filas y 4 columnas.
emisionesco2_df4 = pd.read_excel(url_xlsx, sheet_name = 'fuentes', usecols='A:D', nrows=10)
emisionesco2_df4

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,[NONE]
1,Afganistán,AFG,1751,[NONE]
2,Afganistán,AFG,1752,[NONE]
3,Afganistán,AFG,1753,[NONE]
4,Afganistán,AFG,1754,[NONE]
5,Afganistán,AFG,1755,[NONE]
6,Afganistán,AFG,1756,[NONE]
7,Afganistán,AFG,1757,[NONE]
8,Afganistán,AFG,1758,[NONE]
9,Afganistán,AFG,1759,[NONE]


###Exportando a un archivo excel

In [21]:
#Con el método to_excel exportamos un dataframe en un archivo xlsx.
path_xlsx = '/content/drive/MyDrive/Aprendizaje-vigente/Programa ONE/Ruta 5 - Aprendiendo a hacer ETL/3-pandas-es-formatos-de-archivo/aula2/emisiones_exportado.xlsx'

emisionesco2_df2.to_excel(path_xlsx, index = False)

#Comprobamos que la exportación haya sido correcta.
pd.read_excel(path_xlsx)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,
1,Afganistán,AFG,1751,
2,Afganistán,AFG,1752,
3,Afganistán,AFG,1753,
4,Afganistán,AFG,1754,
...,...,...,...,...
63099,Global,WLD,2017,4749682.0
63100,Global,WLD,2018,4792753.0
63101,Global,WLD,2019,4775633.0
63102,Global,WLD,2020,4497423.0
